À medida que a IA (Inteligência Artificial) atinge novos patamares, um desafio emergente surge: a iminente escassez de dados de treinamento. Este dilema pode ter um grande impacto e ameaça conter o avanço das capacidades da IA, principalmente nos grandes modelos de linguagem, podendo remodelar o cenário tecnológico por completo.
De acordo com artigo publicado no site The Conversation, de Rita Matulionyte, professora sênior de direito da Universidade Macquarie, a chave para o sucesso da IA está na abundância de dados. As realizações impressionantes do ChatGPT, baseadas em mais de 570 gigabytes de dados, e do DALL-E, alimentado por bilhões de imagens e texto, mostram a importância dessas informações para o treinamento eficaz.
No entanto, segundo os especialistas, a ausência de informações de qualidade suficientes pode resultar em desaceleração e produção de resultados abaixo da média nos sistemas de IA. Na publicação do portal, a aquisição de materiais de treinamento de alta qualidade torna-se vital, excluindo a possibilidade de recorrer a ferramentas digitais questionáveis, como discursos tendenciosos nas redes sociais ou imagens divergentes.
LEIA TAMBÉM
WhatsApp ganha chat por voz em grupo; aprenda a usar
Empresa anuncia broche inteligente que tem como objetivo substituir os smartphones comuns
Dados de qualidade podem se esgotar em 2026
Segundo Rita, apesar dos avanços em modelos como ChatGPT e DALL-E 3, o banco de dados da internet não acompanha esse ritmo acelerado. Estudos indicam que, sem uma mudança nos paradigmas de treinamento, a fonte de dados de alta qualidade pode se esgotar até 2026, representando uma ameaça real ao papel projetado da IA na economia global, estimado em bilhões de dólares.
Otimização da eficiência dos dados
De acordo com o artigo, apesar das incertezas, os desenvolvedores têm oportunidades para lidar com essa questão. Uma abordagem é a melhoria de algoritmos para utilizar os dados existentes com mais eficiência, possibilitando o treinamento de sistemas de IA com menos dados e menor poder computacional.
Esses avanços não apenas prometem atenuar a escassez de dados, mas também reduzir os impactos ambientes da IA.
Outra opção é a criação de dados sintéticos usando IA, gerando informações adequadas aos modelos específicos. Projetos já utilizam conteúdo sintético, proveniente de serviços como o Mostly AI.
Desenvolvedores também buscam dados fora do espaço online gratuito, incluindo acordos de conteúdo com empresas como a News Corp, que poderiam obrigar empresas de IA a pagar por dados de treinamento.
Esse movimento é uma resposta aos protestos de criadores de conteúdo contra o uso não autorizado de seu trabalho para treinar modelos de IA.
À medida que a narrativa se desenrola, a indústria de IA enfrenta um impasse entre a escassez de dados e o potencial desconhecido de uma utilização de dados mais ética, eficiente e inovadora.
LEIA MAIS
Lula defende Dino após “dama do tráfico” participar de reuniões no Ministério da Justiça