Inovação Digital e Tecnologia na Centralidade do Cliente

Dados sintéticos: a próxima fonte de informações das inteligências artificiais

Para driblar custos e outros fatores que impedem o avanço das IA generativas, empresas de tecnologia tem testado os chamados dados sintéticos. Entenda

A crescente adoção de Inteligências Artificiais (IAs) em diversas indústrias tem sido impulsionada pela necessidade de processar grandes volumes de dados e extrair insights valiosos para tomar decisões estratégicas. No entanto, o treinamento dessas IAs muitas vezes enfrenta um obstáculo crucial: a disponibilidade limitada de dados relevantes e rotulados. É nesse cenário que entra uma novidade: os dados sintéticos, uma solução inovadora que promete revolucionar o desenvolvimento e o aprimoramento de IAs.

Em suma, dados sintéticos são conjuntos de informações geradas artificialmente por algoritmos e modelos de aprendizado de máquina. Eles imitam os padrões e características dos dados reais, mas não são obtidos a partir de fontes existentes. Em vez disso, são criados com base em conhecimentos e propriedades específicas que os desenvolvedores desejam incorporar ao conjunto de treinamento das IAs.

Em outras palavras, estamos falando de inteligências artificiais que produzem conteúdos (a partir das fontes humanas) e ensinam outras IAs.

À primeira vista, a ideia de uma máquina produzindo conteúdo e ensinando outra máquina pode soar estranha ou até mesmo preocupante. Mas há pontos positivos – ao menos para os negócios.

Por que usar dados sintéticos?

Empresas como OpenAI e Cohere são exemplos de organizações que já iniciaram testes com dados sintéticos, conforme noticiaram meios de comunicação como Financial Times, entre outros. Antes, o próprio Sam Altman, CEO da OpenAI, falou sobre o tema em um recente evento em Londres, após ser questionado sobre as investigações regulatórias em curso sobre possíveis violações de privacidade do ChatGPT. Altman ignorou, dizendo que estava “bastante confiante de que em breve todos os dados serão dados sintéticos”.

De fato, a pressão sobre a violação de privacidade é um dos principais motivos que podem levar ao uso dos dados sintéticos, mas não o único. O custo é outro motivo.

Alimentar uma IA como o GPT custa caro. Analistas chegaram a afirmar que, por mês, a geração de conteúdo dos milhões de prompts (ou as perguntas que fazemos) despejados no ChatGPT consumiriam aproximadamente US$ 40 milhões.

Além dos gastos computacionais, que evidentemente são altos, existe a despesa do próprio acesso aos conteúdos confiáveis e de qualidade. O GPT é alimentado com informações das mais variadas fontes de conteúdo, tais como reportagens, artigos, e-books, posts em redes sociais, entre outras fontes de informações. Por enquanto, muitas dessas informações estão disponíveis gratuitamente na internet, mas esse cenário deve mudar em breve. Há uma pressão de órgãos reguladores ao redor do mundo para que produtores de conteúdo sejam monetizados por conteúdos disponibilizados na internet – e que geram receita para essas empresas. Em 2021, na Austrália, Google e Meta foram obrigados a pagar por conteúdos disponibilizados a empresas de mídia do país, o que tem garantido algo em torno dos US$ 140 milhões por ano às empresas de mídia.

O assunto também avançou na Europa, EUA e já chegou no Brasil. Por aqui, a exigência de pagamento de conteúdo está inserido no projeto de lei das fake news.

Outras vantagens

Além do custo, existem outras vantagens importantes no uso de dados sintéticos, quais sejam:

Diversidade de dados: Empresas têm dificuldades para obter dados relevantes em quantidade suficiente para treinar suas IAs adequadamente. Os dados sintéticos permitem a criação de conjuntos de treinamento mais variados e abrangentes, enriquecendo a capacidade de aprendizado das IAs.

Privacidade e Segurança: O uso de dados na área da saúde e finanças é altamente restritivo, quando não proibido. Esses dados são chamados por legisladores de “dados sensíveis”. Utilizar essas informações pode ser desafiador, principalmente sem violar a privacidade dos indivíduos ou expor informações confidenciais. Com dados sintéticos, as empresas podem proteger a privacidade dos dados enquanto fornecem um ambiente seguro para o treinamento de IAs.

Adaptação a Cenários Complexos: Com os dados sintéticos, os desenvolvedores têm controle sobre os cenários e situações que desejam simular para o treinamento da IA. Isso permite que as IAs sejam preparadas para lidar com circunstâncias extremas ou incomuns que podem ser raras na vida real, mas essenciais para seu desempenho em casos críticos.

Desafios a serem considerados

Embora os dados sintéticos sejam uma ferramenta poderosa no treinamento de IAs, é importante destacar que eles não substituem completamente os dados reais. Os dados sintéticos devem ser usados em conjunto com dados reais para garantir que as IAs sejam robustas e capazes de enfrentar situações do mundo real.

Outra questão é a qualidade dos dados sintéticos. Para obter resultados precisos e confiáveis, é essencial que os algoritmos de geração de dados sintéticos sejam altamente precisos e representativos das situações reais.

Em resumo, os dados sintéticos representam uma abordagem promissora para superar as limitações de disponibilidade de dados e potencializar o treinamento de IAs. Com a combinação adequada de dados reais e sintéticos, as empresas podem impulsionar suas IAs para novos patamares de desempenho, tornando-as mais inteligentes e capazes de enfrentar os desafios do mundo moderno.

Artigo escrito por Ivan Ventura, gerente de conteúdo e inteligência do Grupo IX, empresa detentora da plataforma Inovativos

+ mais lidas

BC divulga lista de projetos selecionados para a segunda fase de testes do Piloto Drex

ARTIGO: Fidelizar pacientes e ainda monetizar: esse é o desafio do setor de saúde

Do “know your client” ao cuidados com os meios de pagamento: dicas para um black friday de sucesso

BC divulga lista de projetos selecionados para a segunda fase de testes do Piloto Drex

ARTIGO: Fidelizar pacientes e ainda monetizar: esse é o desafio do setor de saúde

Do “know your client” ao cuidados com os meios de pagamento: dicas para um black friday de sucesso