Última atualização: 24 de setembro de 2025
Tempo de leitura: 6 min
Se os grandes modelos de linguagem são espelhos da humanidade, por que refletem sempre o mesmo rosto? A promessa dos LLMs, como o GPT e o Ernie Bot, é ambiciosa: interagir com qualquer pessoa, em qualquer contexto, sobre qualquer assunto. Eles se anunciam como interlocutores universais, capazes de nos entender com fluência e responder com empatia. Mas a quem exatamente eles estão entendendo? E, mais importante, quem eles estão reproduzindo? Faltam Dados? Um estudo de Atari et al. (2023) (https://osf.io/preprints/psyarxiv/5b26t_v1) lança luz sobre uma inquietação cada vez mais difícil de ignorar: os LLMs não são neutros, tampouco plurais. Eles são, na maioria das vezes, WEIRD. Não no sentido coloquial de estranhos, mas no sentido técnico da psicologia cultural: Western, Educated, Industrialized, Rich and Democratic. Ou seja, ocidentais, educados, industrializados, ricos e democráticos. Um recorte demográfico que representa menos de 15% da população mundial, mas que dita os padrões linguísticos e morais das inteligências artificiais que prometem falar com o mundo todo.
O que Atari e sua equipe demonstram é que os outputs de modelos como o GPT alinham-se mais com países como Estados Unidos, Canadá ou Uruguai, e destoam sensivelmente de países como Etiópia, Paquistão ou Indonésia. Isso não surpreende quando se observa que a maioria dos dados usados para treinar esses modelos vem de conteúdos disponíveis online, onde o inglês predomina e as narrativas WEIRD se multiplicam. Cerca de 3,6 bilhões de pessoas, segundo a ONU, ainda não têm acesso à internet. E entre as que têm, poucas produzem conteúdo em escala suficiente para competir com o oceano de textos originados nos centros tecnológicos e culturais do hemisfério norte. A desigualdade não está apenas no acesso aos dados, mas na origem da infraestrutura que os torna possíveis. O poder de treinar inteligências artificiais em escala global repousa sobre séculos de acumulação de capital, colonização e controle das tecnologias da informação. E ao contrário do que muitos pensam, essa hegemonia não se desfaz com boas intenções ou com a abertura de APIs.
É comum ouvir que as sociedades WEIRD contribuem mais com os LLMs porque são mais abertas à inovação, mais livres para expressar ideias, mais avançadas tecnologicamente. Mas essa abertura é um produto direto de privilégios históricos. Democracia não brota no solo infértil da exclusão. A liberdade de expressão, tão celebrada nos datasets, não é universal. Em muitas culturas, não por ausência de vontade, mas por carência de recursos ou traumas de exploração, a digitalização da palavra é limitada ou inexistente. Línguas orais, mitologias locais, saberes indígenas e epistemologias alternativas não cabem nas molduras rígidas de datasets ocidentais. E mesmo quando cabem, são frequentemente descontextualizadas, estigmatizadas ou transformadas em folclore de museu. O que se perde nesse processo não é apenas representatividade, mas a própria ideia de humanidade como um mosaico dinâmico de perspectivas legítimas.
A China oferece um contraponto instigante. Desde 2020, já lançou mais de 70 grandes modelos de linguagem, incluindo o DeepSeek V3, que rivaliza com o GPT-4o em desempenho e eficiência energética. Mas esse avanço impressionante não é sinônimo de pluralismo cultural. Os modelos chineses são moldados sob vigilância estatal e refletem, de forma explícita, os valores do Partido Comunista. O mandarim domina. Os dialetos são marginalizados. As minorias étnicas desaparecem nos ajustes de segurança do prompt. O que se vê é um outro tipo de viés, com regras diferentes, mas consequências semelhantes: exclusão, silenciamento, domesticação da linguagem. Ainda assim, a capacidade chinesa de inovar mesmo sob restrições severas mostra que o problema não é falta de talento fora do eixo WEIRD, mas falta de oportunidade. Se culturas não-WEIRD tivessem acesso aos mesmos chips, fundos de investimento e liberdade técnica, a diversidade dos modelos poderia ser muito mais ampla. Mas mesmo onde há presença, a diversidade continua sob risco, porque toda cultura, inclusive a não ocidental, carrega suas próprias hierarquias, suas próprias exclusões internas.
Muitas vezes, culturas fora do eixo dominante são chamadas de fechadas. Recusam-se a compartilhar dados, a digitalizar saberes, a participar do jogo da IA global. Mas essa resistência não é gratuita. Nações africanas, comunidades indígenas, grupos islâmicos ou tradicionais hesitam, e com razão. Foram séculos de espoliação simbólica, extrativismo epistêmico, apropriação cultural. Seus dados, suas palavras, suas crenças, sempre foram extraídos por outros, nunca devolvidos. Em vez de cobrar abertura, talvez devêssemos perguntar que tipo de reciprocidade estamos oferecendo. Faltam Dados? A ausência de dados não significa ausência de pensamento. Significa ausência de canal seguro, de infraestrutura justa, de protocolos éticos. Muitas culturas simplesmente não têm como falar nos formatos que os LLMs entendem. E quem controla os formatos controla o futuro da linguagem.
O Brasil, com sua miríade de línguas indígenas, religiosidades híbridas e oralidades urbanas, tem potencial para oferecer alternativas criativas ao paradigma WEIRD. Nossa experiência com redes sociais informais, como o uso massivo do WhatsApp, já mostra uma forma diferente de circular linguagem e emoção. Se tivéssemos recursos para treinar um LLM com base em nossas práticas reais de comunicação, talvez ele entendesse a diferença entre um “kkk” de deboche e um “kkk” de afeto. Mas esse projeto exige mais do que dinheiro. Exige vontade política, soberania tecnológica, valorização dos saberes locais. E por enquanto, falta tudo isso.
A verdadeira diversidade nos LLMs não será atingida apenas pela adição de mais dados, mas pela inclusão de epistemologias distintas. O desafio não é apenas representar sotaques, mas formas diferentes de organizar o mundo. A África, com sua tradição oral e cosmovisões comunitárias, pode inspirar novos modelos de interação com a IA, onde a resposta certa não é a mais lógica, mas a mais harmoniosa. A Índia, com mais de mil línguas ativas, pode revolucionar os modelos multilíngues se tiver acesso aos mesmos hardwares que o Vale do Silício. A diversidade não pode ser um adorno. Ela precisa ser estrutural.
Modelos abertos, como o Qwen da Alibaba, apontam um caminho promissor, permitindo que comunidades adaptem a IA às suas realidades. Mas até os modelos open-source podem carregar vícios de origem. O risco de um novo colonialismo digital persiste: códigos abertos que perpetuam padrões fechados. O que está em jogo não é apenas quais vozes entram, mas quais valores dominam quando todas elas falam ao mesmo tempo. A tecnologia que se propõe a representar toda a humanidade ainda não aprendeu a ouvir sem filtrar.
Os LLMs são espelhos, mas espelhos enviesados. Refletem com nitidez apenas as faces mais conectadas, mais alfabetizadas digitalmente, mais economicamente relevantes. As outras ficam na sombra, não por irrelevância, mas por invisibilidade forçada. A pergunta que precisamos fazer não é apenas quais humanos essas máquinas estão imitando, mas quais estamos dispostos a incluir. Porque, no fim, não será a IA que decidirá isso. Seremos nós.
Compartilhe:
Descubra como a sua empresa pode ser mais analítica.