Por que, somente em 2025, a imprensa mundial parece ter descoberto que a China é uma potência em IA?
A maioria das correntes da Ciência Econômica não incorpora a tecnologia nas suas equações e modelos. A tecnologia é como um efeito estranho, inesperado. Mas essas correntes da economia são cada vez mais incapazes de explicar os fenômenos econômicos globais. Grande parte dos cientistas políticos também desconsideram a tecnociência como elemento fundamental do poder. Por isso, seus modelos não a incluem e cada vez são mais erráticos.
A tecnologia é um elemento crucial do poder econômico e político. Com a força de trabalho, integram as forças produtivas. Quando Trump lançou a Ordem Executiva 13859, em fevereiro de 2019, determinou que “os Estados Unidos devem promover um ambiente internacional que apoie a pesquisa e a inovação em IA [Inteligência Artificial] americanas e abra mercados para as indústrias de IA americanas, ao mesmo tempo em que protegem nossa vantagem tecnológica em IA e protegem nossas tecnologias críticas de IA da aquisição por concorrentes estratégicos e nações adversárias”.
Estava declarada a guerra pela liderança da IA. Os bloqueios às tecnologias estratégicas ao maior adversário tecnológico norte-americano, a China, iriam se intensificar. Explorando o controle que os Estados Unidos possuem sobre o desenvolvimento de semicondutores e chips com menos de 2 nanômetros, Washington esperava estancar ou atrasar muito o desenvolvimento da IA chinesa. Atrapalhou, mas não bloqueou.
A gigante chinesa Baidu desenvolveu o grande modelo de linguagem (LLM) chamado Ernie, a Alibaba lançou o Tongyi Qianwen, Tecent gerou o Hunyuan e a Huawei criou o PanGu. Já a empresa iFlytek lançou o SparkDesk, um LLM especializado no reconhecimento de voz. A lista não se encerra nestas empresas. Além dos modelos de LLM, uma aplicação chinesa conquistou milhões de pessoas no Ocidente, em especial nos Estados Unidos, o TikTok, da empresa ByteDance que desenvolveu modelos de IA para a atrair e modular a atenção dos seus usuários. Os modelos de aprendizado profundo da ByteDance provavelmente são melhores do que os do Grupo Meta e Alphabet na capacidade de personalizar e moderar conteúdo em escala global. Derrotados, os norte-americanos esqueceram seu liberalismo e aprovaram no Congresso uma lei que obriga a empresa chinesa a vender o TikTok para capitalistas norte-americanos. Caso não vendam, serão bloqueados em solo norte-americano.
Então, por que, somente em janeiro de 2025, a imprensa mundial parece ter descoberto que a China é uma potência na área de IA? Porque as ações da big techs norte-americanas foram abaladas por especuladores que decidiram vendê-las alegando que uma pequena empresa chinesa havia desenvolvido um grande modelo de linguagem com performance similar ao ChatGPT, da OpenAI, utilizando entre 10 a 13% de seus recursos computacionais. Segundo o The AI Index Report 2024, enquanto o treinamento de um GPT 4 custou cerca de US$ 78 milhões com o uso de computadores de alto processamento, o DeepSeek chinês gastou pouco mais de US$ 5 milhões.
As ações da Nvidia foram as que mais sofreram porque muitos investidores estavam convencidos de que para o desenvolvimento e aprimoramento dos grandes modelos de linguagem e de outras aplicações da IA Generativa seria necessário muito mais placas ou chips de última geração, ou seja, seria indispensável acelerar o poder computacional dos competidores pelo mercado da IA. A Nvídia era e é o maior fornecedor de chips para IA. Seria a grande beneficiada. O modelo chinês detonaria essa tendência. Assim, as ações despencaram. E os sensacionalistas logo declararam o fim das big techs e da Nvidia. Um completo engano que rendeu muitos dólares aos especuladores que geraram o estouro da boiada especulativa.
Em uma entrevista em julho de 2024, Liang Wenfeng, fundador da DeepSeek afirmou que não precisava de financiamento a curto prazo: “O problema que enfrentamos nunca foi dinheiro, mas a proibição de chips de ponta”. Em maio de 2024, o líder da DeepSeek já havia chocado o Ocidente com uma façanha. O modelo v2 do DeepSeek, em código aberto, atingiu uma relação custo-benefício impressionante. O custo de inferência foi reduzido para apenas 1 yuan por milhão de tokens, o que equivale a um sétimo do custo do Llama 3, modelo aberto de IA do Grupo Meta. É importante esclarecer que 1 yuan valia aproximadamente 14 centavos de dólar. Talvez o boicote norte-americano aos chips de última geração tenha incentivado Liang Wenfeng a encontrar soluções fora do paradigma ianque.
Simplificadamente, um token é uma unidade básica de texto que um modelo de IA consegue entender e processar. Os modelos de IA, como o GPT ou o DeepSeek, não processam texto diretamente como nós. Eles precisam "quebrar" o texto em tokens para poder analisá-lo e gerar respostas. Cada token é como um "bloco de construção" que a IA usa para entender e criar textos. Assim, o modelo desenvolvido pela equipe de Lian Wenfeng foi surpreendentemente baixo se comparado com os existentes. O custo de 1 yuan por milhão de tokens quer dizer que processar 1 milhão desses blocos (que podem ser palavras, partes de palavras ou símbolos) custa 1 yuan. A necessidade faz o sapo pular.
A redução dos custos computacionais não implica que os chineses ainda não estejam perdendo a corrida dos "AI inference chips" ou "inference accelerators". Muito menos que a Nvidia tenha quebrado ou que as big techs viraram pó. O domínio de chips projetados para executar tarefas de inferência de forma eficiente continuam essenciais para aplicações como reconhecimento de imagem, processamento de linguagem natural e outras tarefas de IA em tempo real. Principalmente, para conduzir mísseis em suas manobras em direção aos alvos militares.
A empresa DeepSeek entrou na história da IA e da geopolítica atual. Além da redução de custos computacionais, ela construiu seu modelo com inteligência coletiva chinesa, inspirando-se no modelo aberto do Grupo Meta chamado Llama, realizando otimizações incríveis, com matemática avançada. Outro fator impactante é que seu modelo é aberto. Seus códigos podem ser baixados, analisados e melhorados em cada país, inclusive, o Brasil. Em relação ao ecossistema fechado do ChatGPT, o DeepSeek está aberto aos pesquisadores e desenvolvedores.
Enquanto o modelo fechado limita a colaboração externa. O modelo aberto incentiva que os desenvolvedores otimizem livremente o modelo de acordo com suas necessidades. As empresas podem implantá-lo em seus próprios servidores para garantir melhor a segurança dos dados. Os dados são vitais para o desenvolvimento da IA. Eles devem ser armazenados e protegidos. A comunidade global de código aberto pode aprimorar continuamente o modelo. Por isso, Liang Wenfeng afirmou: “Na verdade, o código aberto é mais um comportamento cultural do que comercial. Na verdade, dar é uma honra extra. Também haveria apelo cultural para uma empresa fazer isso.”
*Sergio Amadeu da Silveira, professor da UFABC e pesquisador CNPq
**Este é um artigo de opinião e não necessariamente representa a linha editorial do Brasil do Fato.
Edição: Martina Medina