Rodar IA em escala ficou caro por um motivo bem específico: a fase de inferência, quando o modelo já treinado precisa gerar respostas, é onde o dinheiro e a energia somem mais rápido. É nesse ponto que a Microsoft quer mexer com o Maia 200, seu novo acelerador próprio feito com foco total em inferência e em reduzir o custo por token.
Um chip pensado para “economia de tokens”
A Microsoft descreve o Maia 200 como um projeto “do zero” para inferência moderna, especialmente em modelos de linguagem e raciocínio. O alvo é claro: melhorar desempenho por dólar e manter o hardware mais ocupado, com mais throughput e menos gargalo de memória.
Na prática, isso aparece em números agressivos. O Maia 200 é fabricado no processo de 3 nanômetros da TSMC, tem mais de 140 bilhões de transistores e entrega mais de 10 petaFLOPS em FP4 e mais de 5 petaFLOPS em FP8, dentro de um envelope de 750 W.
Um dos maiores gargalos de inferência é “alimentar” o modelo rápido o bastante. Aqui, a Microsoft aposta pesado: são 216 GB de HBM3e com 7 TB/s de largura de banda e 272 MB de SRAM no chip para reduzir idas e vindas e aumentar a vazão de tokens.

Escala em Ethernet e clusters enormes
Outro ponto que chama atenção é a arquitetura de rede. A Microsoft diz que o Maia 200 usa um design de escala em camadas sobre Ethernet padrão, com banda dedicada e operações coletivas previsíveis em clusters de até 6.144 aceleradores. A ideia é crescer sem depender de interconexões proprietárias e, ao mesmo tempo, segurar custo total e consumo.
O Maia 200 já foi implantado na região US Central do Azure, perto de Des Moines, Iowa, e a próxima região citada é a US West 3, perto de Phoenix, Arizona.
Segundo a própria Microsoft, ele vai atender múltiplos modelos e workloads, incluindo Microsoft Foundry, Microsoft 365 Copilot e os modelos GPT 5.2 da OpenAI. A empresa também cita uso interno pela equipe de Superinteligência para geração de dados sintéticos e aprendizado por reforço.
Para quem cria e otimiza modelos, a Microsoft também anunciou uma prévia do Maia SDK, com integração com PyTorch, compilador Triton e bibliotecas de kernels otimizadas, além de uma linguagem de baixo nível para ajustes finos quando necessário.
Todo grande provedor de nuvem está tentando reduzir dependência e custo de GPUs tradicionais, especialmente com a demanda por IA explodindo. A Microsoft já tinha apresentado o Maia 100 como primeira geração, mas o Maia 200 deixa mais explícito o foco: não é um chip “para tudo”, é um chip para tornar inferência mais barata, mais previsível e mais escalável dentro do Azure.
Veja mais sobre tecnologia!




