Xiaomi apresenta MiMo-V2-Pro, MiMo-V2-Omni e MiMo-V2-TTS

Tiago Nuno Ribeiro Carvalho • June 23, 2026 16:16

Novos modelos de IA da Xiaomi na sua ecossistema

Em que é que diferem entre si

A Xiaomi apresentou três novos modelos de inteligência artificial: MiMo-V2-Pro, MiMo-V2-Omni e MiMo-V2-TTS. Segundo a empresa, estas soluções já estão integradas na própria ecossistema Xiaomi - incluindo o MiMo Studio, o Xiaomi Browser e o Kingsoft Office - e também podem ser acedidas através de ferramentas para programadores como o OpenClaw, o OpenCode e o Cline. Para programadores, existe ainda um período de teste gratuito de uma semana.

MiMo-V2-Pro: o modelo principal da Xiaomi para a “era dos agentes”

O destaque do trio é o MiMo-V2-Pro, que a Xiaomi descreve como o seu modelo topo de gama para a chamada “era dos agentes”. Foi concebido para tarefas exigentes em cenários reais, com mais de 1 TB de parâmetros no total e uma janela de contexto de 1 MB.

A Xiaomi afirma que o MiMo-V2-Pro consegue executar tarefas complexas - como a organização de fluxos de trabalho e o planeamento de longo prazo - sem intervenção humana, sobretudo em sistemas baseados em agentes. A empresa acrescenta que o desempenho se aproxima de modelos como o Claude Opus 4.6, mas com um custo de utilização via API consideravelmente mais baixo. O preço começa em 1 dólar por milhão de tokens para entrada de dados em contextos pequenos e aumenta quando se usam contextos maiores.

Este modelo está também integrado nas ferramentas WPS Office, da Kingsoft, onde pode trabalhar com documentos Word, Excel, PowerPoint e PDF.

MiMo-V2-Omni: abordagem multimodal para áudio, imagem e vídeo

Já o MiMo-V2-Omni segue uma estratégia diferente, focada em tarefas multimodais. Foi desenhado para processar em simultâneo áudio, imagens e vídeo, e a Xiaomi refere um nível elevado de desempenho em áreas como o reconhecimento de som e o raciocínio visual.

De acordo com a empresa, o modelo consegue lidar com entradas de áudio longas, cenários com vários intervenientes e análises combinadas de áudio e vídeo, o que aponta para um leque de utilização mais amplo do que o simples processamento de texto. A Xiaomi diz ainda que, em determinados casos, a sua capacidade de reconhecimento de som supera até modelos como o Gemini 3 Pro.

MiMo-V2-TTS: síntese de fala com controlo de tom, emoção e estilo

Entretanto, o MiMo-V2-TTS é a aposta da Xiaomi em síntese de fala. Aqui, é possível ajustar com detalhe o tom, a emoção e o estilo de locução. A Xiaomi afirma que o sistema dá resposta a tudo, desde fala natural até canto, com suporte para vários dialectos chineses.

No ano passado, a Xiaomi anunciou o MiMo, a sua primeira grande modelo de linguagem de código aberto, orientada para tarefas que exigem análise lógica e matemática.

Anteriormente, Elon Musk declarou que, já até ao fim de semana, a xAI iria treinar em simultâneo três versões diferentes do modelo Grok.