Introdução
Enquanto a maioria das empresas aposta em modelos de linguagem de propósito geral como GPT-4 ou Claude, uma startup americana de gestão de projetos de construção civil está provando que a especialização pode ser muito mais eficaz. A Trunk Tools desenvolveu uma arquitetura de três camadas que reduziu o tempo de revisão de documentos de 60 para apenas 10 dias, demonstrando que modelos altamente especializados podem superar drasticamente as soluções generalistas em contextos industriais complexos.
O caso é particularmente relevante para o mercado brasileiro, onde setores como construção civil, jurídico e saúde lidam diariamente com volumes massivos de documentação técnica e processos que demandam alta precisão. A abordagem da empresa oferece insights valiosos sobre como transformar o caos de dados não estruturados em workflows automatizados e confiáveis.
Os limites dos modelos de propósito geral em dados industriais
Modelos fundacionais como GPT-4, Claude e Gemini foram treinados para serem competentes em uma ampla gama de tarefas, mas essa generalização tem um preço. Como explica Kriti Faujdar, gerente de produto sênior especializada em infraestrutura de IA, esses modelos são “treinados para serem razoáveis em tudo, então acabam sendo fracos em qualquer nicho específico”.
O problema é especialmente agudo quando lidamos com termos técnicos raros, raciocínio específico de domínio e o contexto implícito que profissionais da área “simplesmente sabem”. Um modelo GPT-4 pode entender um contrato legal em francês, mas tropeçará nas referências específicas de artigos que os profissionais precisam citar com precisão.
Além disso, os dados empresariais mais valiosos nunca fizeram parte do pré-treinamento desses modelos. Eles estão armazenados em sistemas internos e formatos proprietários. Técnicas como RAG (Retrieval-Augmented Generation) ajudam parcialmente, mas ainda fornecem fatos melhores a um modelo que não consegue raciocinar adequadamente no domínio específico.
A importância do treinamento especializado
Para superar essas limitações, empresas precisam pré-treinar modelos com dados do domínio e depois fazer fine-tuning com exemplos reais de tarefas. “Alguns milhares de exemplos de profissionais reais superam milhões de dados raspados e ruidosos”, afirma Faujdar.
Técnicas como Mixture-of-Experts (MoE) permitem especialização sem explodir os custos de inferência. A combinação de RAG com fine-tuning também funciona bem: o RAG lida com a cauda longa factual enquanto o fine-tuning corrige vocabulário e raciocínio.
A arquitetura de três camadas da Trunk Tools
Em domínios altamente especializados como construção civil, simplesmente despejar dados em LLMs não funciona. Como explica Amrish Kapoor, CTO da Trunk Tools, a maioria dos transformers são modelos probabilísticos que reportam que algo é “provavelmente” uma árvore ou “provavelmente” uma criança brincando ao lado de uma árvore.
Essa natureza probabilística os torna insuficientes para interpretação simbólica de alta precisão. Em documentos de construção, um símbolo de 2 milímetros de largura pode ter significados completamente diferentes dependendo de onde está posicionado.
A solução da empresa divide os workflows em três camadas distintas:
1. Camada de Percepção: Responsável por ler e extrair dados de documentos complexos como PDFs, desenhos técnicos ou digitalizações. Esta camada “ensina” a IA a ler a linguagem visual específica da construção civil.
2. Camada Semântica/Graph: Dá sentido aos dados extraídos e compreende seus relacionamentos. Por exemplo, conecta uma porta ao desenho que a detalha, à especificação que a governa e ao profissional que a instalará.
3. Camada de LLMs e Agentes: No topo, agentes especializados executam tarefas complexas como análise de RFIs (Request for Information), revisão de propostas e verificação de desenhos.
O desafio dos símbolos e contexto na construção
Sarah Buchner, fundadora e CEO da Trunk Tools (e ex-carpinteira), explica que desenhos de construção são tipicamente simbólicos. “Uma porta nem sempre está rotulada como ‘porta’. Às vezes é simplesmente um arco em uma parede que um olho treinado aprende a ler baseado em anos de prática.”
A mudança crítica é que o sistema não apenas identifica “há uma porta aqui?”, mas responde “esta porta criará um problema mais adiante?”. Isso é fundamental porque o custo de um problema se multiplica com o tempo: um conflito detectado na fase de design é relativamente barato de resolver, enquanto o mesmo problema descoberto em campo pode custar dezenas de milhares de dólares.
A escala do problema de dados na construção civil
A quantidade de dados não estruturados na construção civil é “humanamente impossível” de processar. Buchner estima que um edifício alto médio gera cerca de 3,6 milhões de páginas de documentação correspondente. “Se você imprimir em uma pilha de papéis, seria tão alta quanto o próprio edifício.”
Todos os três níveis da arquitetura são treinados com conjuntos de dados muito específicos de clientes, com permissões explícitas. A empresa mantém pipelines de avaliação contínua baseados em dados reais de clientes e especialistas, além de empregar modelos LLM como juízes para avaliar performance tanto objetiva quanto subjetivamente.
A Trunk Tools só libera agentes que alcançam cerca de 95% de precisão. Quando se trata de criar emails, narrativas ou explicações, o framework LLM-as-judge cria uma pontuação composta que agrega diferentes métricas e testa o desempenho e risco do modelo.
Resultados mensuráveis: de 60 dias para 10
A plataforma da Trunk Tools alimenta sete agentes de IA construídos especificamente para construção civil. O agente de submittals (documentação de produtos e especificações), por exemplo, identifica informações ausentes, conflitantes ou não conformes em segundos – um processo que tradicionalmente é “super irritante” porque revisores humanos precisam comparar documentos “com várias outras partes de documentos”.
Os resultados reportados pelos clientes são impressionantes:
• Economia de 8 minutos em média para recuperação de documento único (verificações de status, consultas de localização, consultas de quantidade)
• Economia de 20 minutos em média para referenciamento padrão (referência cruzada de 2 a 3 seções de especificação)
• Economia de 40 minutos em média para pesquisa multi-documento (consultas de listagem e filtragem, mapeamento de relacionamentos, análise de RFIs e submittals em 4 a 6 documentos)
• Economia de 75 minutos em média para tarefas complexas (criação de RFIs e outros materiais de comunicação, referência cruzada profunda entre documentos, rastreamento de mudanças)
Casos reais de economia
Em um caso específico, o agente de revisão de desenhos identificou que uma viga estrutural havia sido movida 8,5 polegadas para cima, mas isso não estava documentado pelo arquiteto. Se a mudança não tivesse sido detectada, o gerente de projeto provavelmente teria que remover e reinstalar a viga do tamanho correto, adicionando US$ 10.000 ou mais ao orçamento.
Outros exemplos incluem: identificação de US$ 60.000 em preços exagerados sem justificativa de subcontratados de paisagismo; detecção de uma lareira que precisava ser selada antes da instalação de drywall, economizando cerca de US$ 100.000 em mão de obra, materiais e atrasos; e a descoberta de que uma porta elétrica exigia um painel que não estava incluído nos desenhos elétricos.
O que isso significa para outros setores
A abordagem da Trunk Tools é aplicável a qualquer vertical que trabalhe com altos volumes de dados não estruturados e específicos do setor. Para o mercado brasileiro, isso tem implicações diretas em setores como:
Jurídico: Escritórios de advocacia que lidam com milhares de páginas de contratos, jurisprudência e documentos processuais poderiam se beneficiar de uma arquitetura similar para acelerar due diligences e revisões contratuais.
Saúde: Hospitais e clínicas que gerenciam prontuários, exames e protocolos médicos complexos poderiam reduzir drasticamente o tempo de análise e aumentar a precisão diagnóstica.
Engenharia e Infraestrutura: Grandes projetos de infraestrutura no Brasil, como refinarias, hidrelétricas e obras de mobilidade urbana, geram volumes similares de documentação técnica que poderiam ser processados mais eficientemente.
Agronegócio: Com a crescente digitalização do campo, a gestão de dados de sensores, imagens de satélite e documentação regulatória poderia se beneficiar de modelos especializados.
Lições para implementação
Para empresas considerando uma abordagem similar, Buchner oferece conselhos práticos: primeiro, entenda os desafios específicos de dados que seus usuários finais enfrentam. Depois, construa infraestrutura técnica que possa transformar dados não estruturados em algo que “um LLM possa atravessar e entender”.
“Somente então você pode construir as conexões entre pontos de dados que alimentam workflows agênticos”, ela explica. Com muito dinheiro sendo investido em modelos fundacionais, as empresas devem construir sistemas modulares que possam aproveitar as forças de vários modelos conforme eles continuam melhorando.
A recomendação final é clara: “Construa sua vantagem técnica onde os modelos genéricos não estão investindo e não estão performando bem.”
Conclusão
O caso da Trunk Tools demonstra que, em contextos industriais complexos, a especialização supera a generalização. Enquanto modelos de propósito geral como GPT-4 e Claude continuam avançando, existe um espaço significativo para soluções altamente especializadas que entendem profundamente as nuances de setores específicos.
Para o mercado brasileiro, onde setores tradicionais estão em processo de transformação digital, a lição é clara: nem sempre a solução mais avançada ou cara é a mais eficaz. Às vezes, uma arquitetura bem pensada, treinada com dados específicos do domínio, pode entregar resultados dramaticamente superiores.
A redução de 60 para 10 dias no ciclo de revisão não é apenas uma métrica impressionante – é uma demonstração de que a verdadeira inovação em IA empresarial pode vir não dos modelos mais poderosos, mas dos mais especializados e bem adaptados às necessidades reais do negócio.
Fonte original: Este artigo foi adaptado e traduzido a partir da matéria publicada em VentureBeat, disponível em https://venturebeat.com/orchestration/trunk-tools-stack-cut-document-review-from-60-days-to-10-by-ditching-general-purpose-models.



