IA generativa do Google tem lado menos conhecido que envolve trabalho humano

Últimas cotações

Alerta ao Congresso americano

Um funcionário terceirizado do Google que trabalha para a Appen disse em uma carta ao Congresso americano em maio que a velocidade com que eles são obrigados a revisar o conteúdo pode fazer com que o Bard se torne um produto “defeituoso” e “perigoso”.

O Google fez da IA uma grande prioridade em toda a empresa, apressando-se em inserir a nova tecnologia em seus principais produtos após o lançamento do ChatGPT da OpenAI em novembro de 2022.

Em maio, na conferência anual de desenvolvedores Google I/O, a empresa abriu o Bard para 180 países e territórios e revelou recursos experimentais de IA em produtos de destaque, como pesquisa, e-mail e Google Docs. O Google se posiciona como superior à concorrência devido ao seu acesso à “amplitude do conhecimento mundial”.

“Realizamos um extenso trabalho para construir nossos produtos de IA de forma responsável, incluindo testes rigorosos, treinamento e processos de feedback que aperfeiçoamos durante anos para enfatizar a factualidade e reduzir vieses”, disse o Google, da Alphabet (GOOGL), em comunicado.

A empresa disse que não está contando apenas com os avaliadores para aprimorar a IA e que há vários outros métodos para melhorar sua precisão e qualidade.

Processo de aprendizado da IA

Para se preparar para o uso desses produtos pelo público, os funcionários disseram que começaram a receber tarefas relacionadas à IA já em janeiro.

Um instrutor, contratado pela Appen, foi solicitado recentemente a comparar duas respostas que forneciam informações sobre as últimas notícias a respeito da proibição da Flórida aos cuidados de afirmação de gênero, classificando as respostas de acordo com sua utilidade e relevância.

Os funcionários também são frequentemente instados a determinar se as respostas do modelo de IA contêm evidências verificáveis. Os avaliadores precisam decidir se uma resposta é útil com base em diretrizes de seis pontos que incluem a análise das respostas quanto a aspectos como especificidade, atualidade das informações e coerência.

Eles também precisam garantir que as respostas não “contenham conteúdo nocivo, ofensivo ou excessivamente sexual” e que não “contenham informações imprecisas nem enganosas”.

O levantamento das respostas da IA quanto a conteúdo enganoso deve ser “baseado em seu conhecimento atual ou em uma rápida pesquisa na web”, dizem as diretrizes. “Não é necessário realizar uma verificação rigorosa dos fatos” ao avaliar a utilidade das respostas.

O exemplo de resposta à pergunta “Quem é Michael Jackson?” incluía uma imprecisão sobre o fato de o cantor ter estrelado o filme Moonwalker, que a IA dizia ter sido lançado em 1983. Na verdade, o filme foi lançado em 1988.

“Embora seja comprovadamente incorreto”, afirmam as diretrizes, “esse fato é insignificante no contexto da resposta à pergunta ‘Quem é Michael Jackson?’”

Mesmo que a imprecisão pareça pequena, “ainda é preocupante que o chatbot esteja errando os principais fatos”, disse Alex Hanna, diretora de pesquisa do Distributed AI Research Institute e ex-eticista de IA do Google.

“Parece que essa é uma receita para exacerbar a forma como essas ferramentas vão fornecer detalhes que parecem corretos, mas não estão”, disse ela.

Os avaliadores dizem que estão avaliando tópicos de alto risco para os produtos de IA do Google. Um dos exemplos nas instruções, por exemplo, fala sobre evidências que um avaliador poderia usar para determinar as dosagens corretas de um medicamento para tratar a pressão alta, chamado Lisinopril.

O Google disse que alguns funcionários preocupados com a precisão do conteúdo podem não ter sido treinados especificamente para verificar a precisão, mas o tom, a apresentação e outros atributos.

“As classificações são deliberadamente realizadas em uma escala móvel para obter um feedback mais preciso e melhorar esses modelos”, disse a empresa. “Essas classificações não afetam diretamente o resultado de nossos modelos e não são, de forma alguma, a única maneira de promovermos a precisão.”

Os humanos por trás da IA

Ed Stackhouse, o funcionário da Appen que enviou a carta ao Congresso, disse em entrevista que os funcionários terceirizados estavam sendo instados a fazer o trabalho de rotulagem de IA nos produtos do Google “porque somos indispensáveis para a IA no que diz respeito a esse treinamento”.

Mas ele e outros funcionários disseram que pareciam estar sendo avaliados por seu trabalho de forma misteriosa e automatizada.

Eles não têm como se comunicar diretamente com o Google, além de fornecer feedback em uma entrada de “comentários” em cada tarefa individual. E eles precisam ser rápidos. “Estamos sendo sinalizados por um tipo de IA que nos diz para não perdermos tempo com a IA”, acrescentou Stackhouse.

O Google contestou a descrição dos funcionários de que estavam sendo automaticamente sinalizados pela IA por excederem as metas de tempo. Ao mesmo tempo, a empresa disse que a Appen é responsável por todas as avaliações de desempenho dos funcionários.

A Appen não respondeu aos pedidos de comentários. Um porta-voz da Accenture disse que a empresa não comenta sobre o trabalho do cliente.

Outras empresas de tecnologia que treinam produtos de IA também contratam prestadores de serviços humanos para aprimorá-los. Em janeiro, a revista Time informou que trabalhadores do Quênia, que recebem US$ 2 por hora, trabalharam para tornar o ChatGPT menos tóxico.

Outros gigantes da tecnologia, incluindo Meta (META), Amazon (AMZN) e Apple (AAPL), utilizam funcionários terceirizados para moderar o conteúdo de redes sociais e análises de produtos, além de fornecer suporte técnico e atendimento ao cliente.

“Se você quiser perguntar qual é o segredo do Bard e do ChatGPT – é toda a internet. E são todos esses dados rotulados que eles criam”, disse Laura Edelson, cientista da computação da Universidade de Nova York.

“Vale a pena lembrar que esses sistemas não aparecem em um passe de mágica – eles são fruto do trabalho de milhares de pessoas e sua mão-de-obra mal remunerada.”

Os funcionários disseram ter encontrado imagens de guerra, pornografia infantil e discurso de ódio como parte de seu trabalho rotineiro de avaliação da qualidade dos produtos e serviços do Google.

Embora alguns trabalhadores, como os que se reportam à Accenture, tenham benefícios de assistência médica, a maioria tem apenas opções mínimas de “serviço de aconselhamento” que permitem que os trabalhadores telefonem para uma linha direta para obter aconselhamento sobre saúde mental, de acordo com um site interno que explica alguns benefícios dos contratados.

Para o projeto Bard, do Google, os funcionários da Accenture foram instados a escrever respostas criativas para o chatbot de IA, disseram os funcionários.

Eles respondiam às solicitações do chatbot – um dia poderiam estar escrevendo um poema sobre dragões no estilo shakespeariano, por exemplo, e noutro dia poderiam estar escrevendo um código de programação.

O trabalho era registrar o maior número possível de respostas criativas às solicitações a cada dia de trabalho, de acordo com pessoas familiarizadas com o assunto, que não quiseram ser identificadas porque não estavam autorizadas a discutir processos internos.

Por um curto período, os funcionários foram designados a revisar solicitações obscenas, gráficas e ofensivas, disseram eles. Depois que um funcionário apresentou uma reclamação de RH à Accenture, o projeto foi encerrado abruptamente para a equipe dos EUA, embora alguns de seus colegas em Manila tenham continuado a trabalhar no Bard.

Demissões

Os empregos também têm pouca segurança. No mês passado, meia dúzia de funcionários terceirizados do Google que trabalhavam para a Appen receberam um comunicado da gerência dizendo que seus cargos haviam sido eliminados “devido às condições comerciais”.

As demissões foram abruptas, disseram os trabalhadores, porque eles tinham acabado de receber vários e-mails oferecendo bônus para trabalhar mais horas treinando produtos de IA.

Os seis trabalhadores demitidos apresentaram uma queixa ao National Labor Relations Board em junho. Eles alegaram que foram demitidos ilegalmente por terem se organizado, devido à carta de Stackhouse ao Congresso. Antes do final do mês, eles foram readmitidos em seus empregos.

O Google disse que a contestação era um assunto entre os trabalhadores e a Appen, e que eles “respeitam os direitos trabalhistas dos funcionários da Appen de se unirem a um sindicato”.

A Appen não respondeu a perguntas sobre a organização de seus funcionários.

O Sindicato dos Trabalhadores da Alphabet – que organiza tanto os funcionários do Google quanto os terceirizados, incluindo os da Appen e da Accenture – disse que condenou a forma como as novas cargas de trabalho em torno da IA dificultaram ainda mais as condições para os funcionários.

Emily Bender, professora de linguística computacional da Universidade de Washington, disse que o trabalho desses funcionários terceirizados no Google e em outras plataformas de tecnologia é “uma história de exploração de mão-de-obra”, apontando para a precariedade da segurança no emprego e para o fato de que alguns desses tipos de trabalhadores recebem remunerações bem abaixo de um salário mínimo.

“Brincar com um desses sistemas talvez pareça menos divertido se você pensar no que é necessário para criar e no impacto humano disso”, disse Bender.

Os funcionários terceirizados disseram que nunca receberam nenhuma comunicação direta do Google sobre seu novo trabalho relacionado à IA – tudo é filtrado por meio de seu empregador.

Eles disseram que não sabem de onde vêm as respostas geradas por IA que eles veem, nem para onde vai seu feedback. Na ausência dessas informações e com a natureza em constante mudança de seus trabalhos, os funcionários se preocupam com a possibilidade de estarem ajudando a criar um produto ruim.

Em uma tarefa, um avaliador recebeu uma resposta longa que começava com: “com base em meu conhecimento que inclui acontecimentos até setembro de 2021″. Essa resposta está associada ao modelo de linguagem grande da OpenAI, chamado GPT-4.

Embora o Google tenha dito que o Bard “não foi treinado em nenhum dado do ShareGPT ou do ChatGPT”, os avaliadores se perguntaram por que esse tipo de frase aparece em suas tarefas.

Bender disse que não faz muito sentido que grandes corporações de tecnologia incentivem as pessoas a fazer perguntas a um chatbot de IA sobre uma gama tão ampla de tópicos e que os apresentem como “máquinas que fazem tudo”.

“Por que a mesma máquina que é capaz de lhe dar a previsão do tempo na Flórida também deveria ser capaz de dar conselhos sobre doses de medicamentos?”, perguntou ela. “As pessoas por trás da máquina que têm a tarefa de fazer com que ela seja um pouco menos terrível em algumas dessas circunstâncias precisam fazer um trabalho impossível.”

Veja mais em Bloomberg.com

Como o TikTok fez do live shopping um negócio de US$ 20 bi e agora mira a Amazon