O GPT da OpenAI é um dos modelos de IA mais sofisticados do mundo, conhecido por sua capacidade de gerar textos coerentes e realizar tarefas complexas de processamento de linguagem natural. No entanto, ele requer enorme poder computacional para ser treinado e operado, dependendo de GPUs (unidades de processamento gráfico) de alto desempenho, como as fabricadas pela NVIDIA.
Recentemente, os Estados Unidos impuseram restrições à exportação dessas GPUs para a China, com o objetivo de limitar o avanço da inteligência artificial chinesa. Diante desse cenário, a DeepSeek adotou uma abordagem diferente, criando um modelo que exige menos poder computacional, mas ainda assim entrega resultados robustos.
O segredo? Destilação de modelos.
O que é a destilação de modelos em IA?
A destilação de modelos é uma técnica usada para reduzir o tamanho e a complexidade de um modelo de IA, sem comprometer significativamente seu desempenho. Funciona assim:
- Treinamento de um modelo grande: Primeiro, um modelo de IA altamente complexo (chamado de modelo professor) é treinado com uma grande quantidade de dados. Esse modelo contém toda a inteligência necessária para realizar uma determinada tarefa.
- Criação de um modelo menor: Em seguida, um modelo menor e mais eficiente (chamado de modelo aluno) é treinado para aprender com o professor. Ele não aprende diretamente dos dados brutos, mas sim dos padrões e decisões que o modelo professor já aprendeu.
- Otimização: Esse modelo menor é ajustado para manter a precisão do original, mas com menos parâmetros e menor necessidade computacional. Isso significa que ele pode ser executado com menos poder de processamento, reduzindo custos e tornando a IA mais acessível.
A DeepSeek utilizou essa técnica para criar um modelo que se aproxima do desempenho dos grandes modelos ocidentais, como o GPT, mas com um custo e consumo de energia muito menores.
Custo e acessibilidade
Uma das principais vantagens do DeepSeek é seu custo de treinamento significativamente menor. Estima-se que o DeepSeek-V3 tenha custado menos de US$ 6 milhões para ser treinado, utilizando chips NVIDIA H800, em comparação com os custos muito mais altos do treinamento do GPT.
Além disso, o DeepSeek é código aberto, permitindo que desenvolvedores e pesquisadores acessem e modifiquem seu código gratuitamente, algo que não é possível com o GPT, que pertence à OpenAI e é um modelo proprietário. Isso gerou grande interesse na comunidade de IA, pois facilita pesquisas e novas aplicações.
Desempenho e aplicações
Embora o DeepSeek tenha demonstrado desempenho promissor em tarefas como resolução de problemas matemáticos e tradução técnica, alguns testes indicam que o GPT ainda supera o DeepSeek em termos de raciocínio geral e versatilidade.
Por exemplo, em avaliações de compreensão de leitura e geração de texto criativo, o GPT tende a fornecer respostas mais detalhadas e contextualmente precisas. No entanto, o DeepSeek se destaca pela eficiência computacional, tornando-se uma alternativa viável para empresas e desenvolvedores com menos recursos computacionais.
O surgimento do DeepSeek mostra que a inovação em IA pode ocorrer mesmo com limitações de hardware. Enquanto o GPT continua sendo referência em modelos de linguagem, a abordagem da DeepSeek de usar modelos mais leves e eficientes abre espaço para novas possibilidades, tornando a IA mais acessível globalmente.
A escolha entre GPT e DeepSeek dependerá das necessidades de cada aplicação, levando em conta fatores como custo, eficiência e requisitos de desempenho. No futuro, é provável que vejamos mais avanços em técnicas como a destilação de modelos, permitindo que inteligências artificiais menores e mais baratas ofereçam um desempenho cada vez melhor.