- Arquitetura MoE: Com 671 bilhões de parâmetros totais, apenas 37 bilhões são ativados por token, otimizando o uso de recursos.
- Multi-Token Prediction (MTP): Permite a geração de múltiplos tokens simultaneamente, acelerando o tempo de inferência.
- Precisão FP8: Utiliza treinamento em precisão mista FP8, reduzindo o consumo de memória sem comprometer a precisão.
- Contexto Estendido: Suporta janelas de contexto de até 128.000 tokens, ideal para processamento de documentos longos e conversas complexas.
- Desempenho Superior: Supera modelos como GPT-4o e Claude 3.5 em benchmarks de raciocínio matemático e geração de código.
- Custo-Efetivo: Treinado com apenas 2,788 milhões de horas de GPU H800, representando uma fração do custo de modelos concorrentes.

