Introdução
A transição de projetos piloto de IA para fábricas de IA em produção está transformando radicalmente as prioridades de infraestrutura das empresas. Se antes o foco estava nas especificações máximas de processadores, hoje a métrica que realmente importa é o custo por token: quantos tokens úteis uma organização consegue gerar por real investido, por watt consumido e dentro dos limites de latência exigidos. A NVIDIA acaba de demonstrar como sua pilha completa de software de inferência, otimizada para a plataforma Blackwell, já conseguiu reduzir os custos de token em até 5 vezes em apenas um mês, usando o modelo DeepSeek V4 como referência.
Essa conquista não é resultado de melhorias incrementais isoladas, mas sim da integração profunda entre hardware e software, amplificada por um ecossistema robusto de código aberto. Para executivos e equipes técnicas que planejam implementações de IA em escala para 2026-2027, entender como o software multiplica o desempenho do hardware tornou-se fundamental para viabilizar economicamente suas estratégias de IA.
A nova economia da IA: por que o custo por token define o sucesso
O paradigma tradicional de infraestrutura de TI está sendo completamente reformulado pela IA generativa. Em aplicações web convencionais, as cargas de trabalho eram relativamente previsíveis: um usuário carregava uma página, atualizava um feed ou modificava um registro no banco de dados. Essas requisições seguiam caminhos de software similares e escalavam de forma linear – bastava adicionar mais servidores idênticos.
A IA agêntica opera em uma dimensão completamente diferente. Agentes de IA podem raciocinar, planejar, chamar ferramentas especializadas, criar subagentes e gerenciar contextos massivos através de fluxos de trabalho com múltiplas interações. Uma única solicitação pode se transformar em um problema de computação distribuída envolvendo centenas de subagentes, milhares de tarefas e múltiplos modelos de linguagem grandes, executando simultaneamente em GPUs, CPUs, DPUs e sistemas de armazenamento.
Neste cenário complexo, a pilha de software determina se toda essa complexidade se transforma em capacidade desperdiçada ou em redução efetiva do custo por token. É aqui que a abordagem integrada da NVIDIA demonstra seu valor diferencial.
A arquitetura de software que transforma hardware em economia real
A redução de custo por token vem da transformação de otimizações individuais em desempenho sistêmico. A pilha de software de inferência da NVIDIA consegue isso conectando três camadas fundamentais:
Operação em Produção: Esta camada coordena o serving distribuído, orquestração, escalonamento automático e gerenciamento de memória, garantindo que a inferência execute nos recursos computacionais e de armazenamento mais apropriados para cada tarefa.
Aceleração de Aplicações: Responsável por executar modelos com alto desempenho enquanto oferece aos desenvolvedores flexibilidade para ajustes e customizações. Utiliza otimizações de runtime como sobreposição de computação e comunicação, além de fusão de kernels para maximizar a eficiência.
Acesso à Infraestrutura: Expõe as capacidades de GPU, rede, memória e sistemas da NVIDIA sem exigir que os desenvolvedores gerenciem diretamente cada conjunto de instruções de dispositivo ou protocolo de transferência de dados.
Quando essas camadas operam como um sistema unificado, as otimizações individuais se multiplicam. Por exemplo, serving desagregado, paralelismo de especialistas grandes sobre a tecnologia de interconexão NVLink, precisão NVFP4 e predição multi-token – cada uma dessas técnicas entrega ganhos significativos isoladamente. Combinadas, elas aumentam o throughput em até 20 vezes.
Casos reais: empresas já colhendo os benefícios em produção
Os resultados práticos dessa abordagem integrada já estão sendo demonstrados por empresas líderes e provedores de inferência que adotaram a pilha de software da NVIDIA no Blackwell:
Baseten utilizou a biblioteca open source TensorRT-LLM da NVIDIA para servir o DeepSeek V4 Pro em GPUs Blackwell para cargas de trabalho de raciocínio, codificação e contexto longo. Aplicando otimizações proprietárias de runtime, conseguiram entregar até 50% mais tokens por segundo.
Cognition está usando o framework de inferência Dynamo da NVIDIA para gerenciar GPUs de inferência, proporcionando à sua equipe um caminho pronto para escalar cargas de trabalho de aprendizado por reforço sem precisar construir essa infraestrutura do zero.
Deep Infra utiliza a pilha completa de software de inferência da NVIDIA para servir modelos open source de ponta de forma performática no Blackwell desde o primeiro dia, incluindo o DeepSeek V4.
DigitalOcean ajudou a Hippocratic AI a usar o software de inferência da NVIDIA em GPUs Blackwell para servir IA de saúde de forma mais rápida e eficiente, aumentando o throughput de inferência em 30% enquanto mantinha tempo de primeira resposta abaixo de meio segundo em 10 milhões de chamadas de pacientes.
Together AI usou o TensorRT-LLM da NVIDIA no Blackwell para ajudar a Cursor a acelerar o caminho desde otimizações de modelo até endpoints de produção para sua experiência de codificação em tempo real.
O poder multiplicador do ecossistema open source
A mesma base de pilha completa é amplificada pelo ecossistema de código aberto. Muitos dos frameworks de IA e projetos de inferência open source mais utilizados hoje são construídos nativamente sobre CUDA da NVIDIA, o que significa que novas pesquisas e otimizações de software executam com desempenho líder em GPUs NVIDIA desde o primeiro dia.
O PyTorch exemplifica perfeitamente essa sinergia. Lançado em 2016 com suporte nativo a CUDA, o PyTorch coevoluiu com a arquitetura da NVIDIA, dando aos desenvolvedores acesso a inovações como Tensor Cores, Transformer Engine e NVFP4 diretamente através de um framework familiar.
Quando avanços revolucionários como o DFlash speculative decode, que entrega até 15 vezes mais throughput no hardware existente, ou o FastVideo, que gera vídeos em 1080p em menos de cinco segundos, chegam ao PyTorch, eles podem executar instantaneamente na NVIDIA. Isso ajuda as fábricas de IA a converter progresso de pesquisa em custos de token mais baixos quase que imediatamente.
Esse mesmo momentum do open source explica por que, quando um novo modelo de fronteira como o DeepSeek V4 é lançado, frameworks de inferência líderes como vLLM e SGLang têm receitas de deployment prontas desde o primeiro dia para a arquitetura Blackwell – tornando o modelo acessível através de milhões de GPUs Blackwell. É também por isso que o desempenho do DeepSeek V4 no Blackwell melhorou em até 5 vezes em aproximadamente um mês através dos frameworks vLLM e SGLang, cortando os custos de token para aproximadamente um quinto dos níveis anteriores.
O que isso significa para o mercado brasileiro
Para empresas brasileiras que estão planejando suas estratégias de IA para os próximos anos, essas conquistas têm implicações profundas. A redução drástica no custo por token significa que aplicações de IA que antes eram economicamente inviáveis agora se tornam possíveis. Um chatbot empresarial que custaria milhares de reais por mês para operar pode agora funcionar por uma fração desse valor.
Mais importante ainda, a velocidade com que essas melhorias estão acontecendo – 5x de redução em apenas um mês – sugere que empresas precisam planejar suas infraestruturas com flexibilidade para capturar ganhos contínuos de eficiência. Investir em plataformas que oferecem essa evolução constante através de software, sem necessidade de trocar hardware, torna-se um diferencial competitivo crucial.
Para setores como serviços financeiros, saúde e varejo no Brasil, onde margens operacionais são críticas, a capacidade de reduzir custos de IA em 80% pode ser a diferença entre um projeto piloto interessante e uma transformação digital verdadeiramente escalável.
Conclusão
A demonstração da NVIDIA de que é possível reduzir custos de token em até 5 vezes através de otimizações de software marca um ponto de inflexão importante na economia da IA. Não se trata apenas de hardware mais rápido, mas de uma abordagem sistêmica onde software e hardware evoluem juntos, multiplicando ganhos de eficiência.
Para líderes de tecnologia preparando suas organizações para a era das fábricas de IA, a mensagem é clara: o custo por token será a métrica que definirá quais empresas conseguirão escalar IA de forma sustentável. E nessa corrida, a capacidade do software de extrair cada vez mais desempenho do hardware existente, amplificada por um ecossistema open source vibrante, será tão importante quanto as especificações dos chips em si.
À medida que modelos se tornam mais capazes e aplicações mais complexas, essa eficiência sistêmica não é apenas uma vantagem técnica – é o que tornará possível a próxima geração de produtos e serviços baseados em IA, transformando o que hoje parece ficção científica em realidade economicamente viável.
Fonte original: Este artigo foi adaptado e traduzido a partir da matéria publicada em NVIDIA Blog, disponível em https://blogs.nvidia.com/blog/inference-software-lowest-token-cost/.



