Ciência aberta e uso de Inteligência artificial são as apostas dos cientistas para alcançar esse objetivo ambicioso

Um projeto em nível global, que conta com a colaboração de instituições acadêmicas e industriais de diferentes países, tem como objetivo desenvolver uma sonda química potente e seletiva para cada proteína humana até 2035. O projeto, chamado Target 2035, pretende gerar grandes conjuntos de dados de alta qualidade sobre a ligação entre proteínas e pequenas moléculas, que serão disponibilizados publicamente para que a comunidade científica possa desenvolver algoritmos de aprendizado de máquina capazes de prever novas moléculas com potencial para se tornarem medicamentos.

O corpo humano é uma máquina complexa, composta por milhares de proteínas, cada uma com uma função específica. Para criar medicamentos eficazes, é preciso entender como essas proteínas funcionam e encontrar moléculas que se liguem a elas de forma seletiva, encaixando-se como peças de um quebra-cabeça para modular seu funcionamento.

As sondas químicas são pequenas moléculas que se ligam a proteínas específicas, alterando seu funcionamento. Elas são ferramentas essenciais para pesquisas biológicas. A disponibilidade de sondas para todas as proteínas humanas poderia impulsionar nossa compreensão do conjunto completo de proteínas do corpo humano e acelerar a identificação de novos alvos para medicamentos.

O ponto de partida para a criação de sondas químicas de proteínas é a identificação de um “hit”, que é uma molécula que possui alguma interação com a proteína que está sendo investigada. A partir desse “hit” os pesquisadores podem aumentar sua seletividade e potência contra a proteína através de mudanças na estrutura química da molécula. Esse trabalho é feito por químicos especializados em sintetizar moléculas.

Ações anteriores

Embora o artigo destaque os objetivos futuros do projeto, a iniciativa já apresenta resultados concretos no estudo de proteínas e ligantes. Um programa anterior do Structural Genomics Consortium (SGC), centro de pesquisa sediado em Toronto que coordena o projeto, desenvolveu sondas para mais de 200 proteínas, resultando em mais de 13.000 citações em artigos científicos e descobertas que estão sendo testadas em mais de 85 ensaios clínicos.

Além disso, desafios organizados pelo SGC onde pesquisadores da área de inteligência artificial buscam identificar ligantes para proteínas com o uso de algoritmos, o CACHE Challenges (Critical Assessment of Computational Hit-finding Experiments), já está na 6a edição. Uma equipe brasileira, liderada pela pesquisadora Karina Machado da Universidade Federal do Rio Grande (FURG), venceu a 2a edição em que o desafio foi identificar ligantes para uma proteína do SARS-CoV-2, o vírus causador da covid.

Fluxo de trabalho

O roteiro de execução do projeto Target 2035 funcionará da seguinte forma: proteínas são produzidas e purificadas pelos laboratórios do projeto e colaboradores, essas proteínas são testadas com milhares de moléculas para identificar aquelas que apresentam alguma interação com a proteína. As informações são armazenadas em um banco de dados acessível à comunidade científica. Com o uso de inteligência artificial, novas moléculas promissoras são previstas e testadas em laboratório e os resultados são continuamente incorporados ao sistema para aprimorar os algoritmos. Todos os resultados obtidos durante esse processo são compartilhados com a comunidade científica para incentivar novas pesquisas e desenvolvimentos.

Desafios e Soluções

Um dos principais obstáculos para o desenvolvimento de algoritmos de descoberta de “hits” é a falta de dados de alta qualidade no domínio público. Os conjuntos de dados existentes são fragmentados, não estão disponíveis para o público, foram compilados a partir de protocolos experimentais não padronizados ou não estão preparados para análises baseadas em inteligência artificial. Para resolver esse problema, o projeto Target 2035 está estabelecendo um programa para gerar sistematicamente grandes conjuntos de dados experimentais de ligação entre proteínas e pequenas moléculas.

Para a triagem das moléculas que apresentam alguma interação com a proteína-alvo o projeto utilizará duas abordagens já estabelecidas na busca de moléculas ligantes: uma delas é o uso de bibliotecas químicas codificadas por DNA (DEL: DNA-Encoded chemical Library), onde as moléculas testadas carregam um trecho de DNA que as identificam; a outra é a seleção de hits por espectrometria de massa (AS-MS: Affinity selection-mass spectrometry) que utiliza a espectrometria de massa para identificar as moléculas que se ligam às proteínas investigadas. Com essas técnicas padronizadas será possível identificar quais moléculas possuem algum tipo de ligação com a proteína estudada e esses dados serão disponibilizados em formato compatível para alimentar o aprendizado de máquinas.

AIRCHECK: O Banco de Dados da Iniciativa

Todos os dados gerados nesta iniciativa serão disponibilizados publicamente em um formato adequado para aprendizado de máquina por meio de um banco de dados chamado AIRCHECK (Artificial Intelligence-Ready CHEmiCal Knowledge base). A plataforma foi projetada para armazenar, compartilhar e analisar dados de ligação proteína-molécula de forma aberta e acessível.

“Abrir os dados para a comunidade científica acelera o desenvolvimento de algoritmos computacionais melhores, o que deve levar a atingirmos resultados importantes em menor tempo, acelerando o desenvolvimento de novas drogas, beneficiando a todos”, afirma Mário Bengtson professor da Unicamp e co-autor do artigo.

Ciência aberta

O Projeto Target 2035 tem como princípio fundamental a ciência aberta, um fator essencial para o sucesso da iniciativa e para o avanço de toda a comunidade científica. O acesso livre aos dados promove colaboração entre cientistas acadêmicos e do setor privado, acelerando descobertas. Além disso, incentiva a participação ativa da comunidade científica, eliminando restrições de propriedade intelectual e garantindo benefícios para todos os envolvidos. A iniciativa também fortalece a parceria público-privada, impulsionando avanços significativos na área de pesquisa.

“Quando o conhecimento é compartilhado livremente há benefícios para os participantes e financiadores, que abrangem o acesso facilitado a tecnologias de varredura e aos conjuntos de dados, o treinamento e capacitação de recursos humanos, e a troca de conhecimento entre cientistas acadêmicos e das empresas, que impulsionam as pesquisas para solucionar problemas relevantes”, afirma Lucas Souza, pesquisador do Centro de Química Medicinal da Unicamp (CQMED) e co-autor do trabalho.

O panorama geral do plano de ação do projeto Target 2035 é apresentado no artigo “Protein–ligand data at scale to support machine learning” publicado na revista científica Nature Reviews Chemistry, o trabalho foi escrito por pesquisadores do SGC (Structural Genomics Consortium) de Toronto, no Canadá, e contou com a participação de cientistas do Centro de Química Medicinal da Unicamp (CQMED).

Sobre o CQMED

O Centro de Química Medicinal (CQMED) é uma unidade Embrapii de pesquisa da Unicamp, referência nacional e internacional no desenvolvimento de novos fármacos. Integrante do programa de Institutos Nacionais de Ciência e Tecnologia (INCT), o CQMED trabalha em colaboração com diversas empresas e instituições acadêmicas para acelerar o processo de descoberta e desenvolvimento de medicamentos.

Sobre o SGC

O Structural Genomics Consortium (SGC) é uma iniciativa internacional sem fins lucrativos dedicada ao avanço da ciência aberta para o desenvolvimento de novos medicamentos. Focado na biologia estrutural e química de proteínas relevantes para doenças, o SGC colabora com universidades, indústrias farmacêuticas e centros de pesquisa para disponibilizar dados e ferramentas sem restrições de patentes. Seu objetivo é acelerar a descoberta de novos alvos terapêuticos e contribuir para a inovação na saúde global.