Como este engenheiro de 27 anos ajuda Google e Microsoft a popularizar a IA

Bloomberg — Em sua casa de um único cômodo em uma rua tranquila em Agara, pequena vila a três horas de Bangalore (sul da Índia), cercada por plantações de arroz e campos de amendoim, Preethi P. está sentada em um banco próximo a uma máquina de costura.

Normalmente, ela passaria horas consertando ou costurando roupas, ganhando menos de US$ 1 por dia por seu trabalho.

Nesse dia, no entanto, ela está lendo uma frase em canarim, sua língua nativa, em um aplicativo em um telefone. Ela faz uma pausa breve e, depois, lê outra.

Preethi está entre os 70 trabalhadores contratados em Agara e nas aldeias vizinhas por uma startup chamada Karya para coletar texto, voz e dados de imagem nas línguas vernáculas da Índia.

Ela faz parte de uma vasta, embora invisível, força de trabalho global – operando em países como Índia, Quênia e Filipinas – que coleta e rotula os dados nos quais os chatbots de IA (Inteligência Artificial) e assistentes virtuais dependem para gerar respostas relevantes.

Diferentemente de muitos outros contratados para dados, no entanto, Preethi é bem paga por seus esforços, pelo menos pelos padrões locais.

Depois de três dias de trabalho com a Karya, Preethi ganhou 4.500 rúpias (US$ 54), mais de quatro vezes o valor que a jovem de 22 anos com ensino médio completo geralmente obtém como alfaiate em um mês inteiro.

O dinheiro é suficiente, ela disse, para pagar a parcela do mês de um empréstimo feito para reparar parcialmente as paredes de barro de sua casa, que foram cuidadosamente remendadas com saris coloridos. “Tudo o que preciso é de um telefone e internet.”

A Karya foi fundada em 2021, antes do surgimento do ChatGPT, mas a febre deste ano em torno da IA generativa só aumentou a demanda incessante das empresas de tecnologia por dados.

Prevê-se que só a Índia tenha quase um milhão de trabalhadores de anotação de dados até 2030, de acordo com a Nasscom, o sindicato da indústria de tecnologia do país.

Baixa remuneração

A Karya se diferencia de outros fornecedores de dados oferecendo a seus contratados – na maioria mulheres, e em comunidades rurais – até 20 vezes o salário mínimo prevalecente, com a promessa de produzir dados de melhor qualidade em língua indiana que as empresas de tecnologia pagarão mais para obter.

“A cada ano, grandes empresas de tecnologia gastam bilhões de dólares coletando dados de treinamento para suas IAs”, disse Manu Chopra, o engenheiro de computação de 27 anos formado em Stanford por trás da startup, em entrevista à Bloomberg News. “Baixa remuneração por esse trabalho é uma falha da indústria.”

Se salários ínfimos são um fracasso da indústria, é algo que o Vale do Silício tem alguma responsabilidade por criar. Durante anos, empresas de tecnologia terceirizaram tarefas como rotulação de dados e moderação de conteúdo para contratados mais baratos no exterior.

Agora, alguns dos nomes mais proeminentes do Vale do Silício estão recorrendo à Karya para enfrentar um dos maiores desafios para seus produtos de IA: encontrar dados de alta qualidade para construir ferramentas que possam servir melhor bilhões de potenciais usuários não falantes de inglês.

Essas parcerias poderiam representar uma mudança poderosa na economia da indústria de dados e na relação do Vale do Silício com os provedores dos mesmos.

A Microsoft (MSFT) usou a Karya para obter dados de fala local para seus produtos de IA. A Fundação Bill & Melinda Gates trabalha com a Karya para reduzir os preconceitos de gênero nos dados que alimentam os grandes modelos de linguagem, a tecnologia por trás dos chatbots de IA.

E o Google, da Alphabet (GOOGL), está se apoiando na Karya e em outros parceiros locais para coletar dados de fala em 85 distritos indianos.

O Google planeja se expandir para todos os distritos para incluir o idioma ou dialeto majoritário falado e construir um modelo de IA gerativo para 125 idiomas indianos.

Muitos serviços de IA foram desenvolvidos de maneira desproporcional com dados da internet em inglês, como artigos, livros e postagens em redes sociais.

Como resultado, esses modelos de IA representam inadequadamente a diversidade de idiomas dos usuários da internet em outros países que estão acessando smartphones e aplicativos impulsionados por IA mais rapidamente do que estão aprendendo inglês.

Quase um bilhão de tais usuários em potencial vive apenas na Índia, à medida que o governo pressiona pela implementação de ferramentas de IA em todas as esferas, desde saúde e educação até serviços financeiros.

“A Índia é o primeiro país não ocidental em que estamos fazendo isso, e estamos testando Bard em nove idiomas indianos”, disse Manish Gupta, chefe da Google Research na Índia, referindo-se ao chatbot de IA da empresa.

“Mais de 70 idiomas indianos falados por mais de um milhão de pessoas cada não tinham nenhum corpus digital. O problema é tão flagrante.”

Gupta elencou uma lista de problemas que as empresas de IA precisam resolver para atender aos usuários da internet na Índia: os conjuntos de dados que estão em outros idiomas, sem ser o inglês, são de qualidade lamentavelmente baixa; quase não existem dados conversacionais em hindi e em outros idiomas indianos; e o conteúdo digitalizado de livros e jornais em idiomas indianos é muito limitado.

Quando usados para idiomas sul-asiáticos, alguns grandes modelos de linguagem foram encontrados para criar palavras e lutar com a gramática básica.

Existem também preocupações de que esses serviços de IA possam refletir uma visão mais distorcida de outras culturas.

É fundamental ter uma representação ampla de dados de treinamento, incluindo em outros idiomas, para que os sistemas de IA “não perpetuem estereótipos prejudiciais, produzam discurso de ódio nem gerem desinformação”, disse Mehran Sahami, professor do departamento de ciência da computação da Universidade de Stanford.

Veja mais em Bloomberg.com

Como Itaú, BTG e Santander se preparam para a chegada do real digital, o Drex