Por UOL em 15/12/2020
Ao longo desse último ano, os competidores, com os nomes ainda em sigilo, iam submetendo suas previsões à CASP, uma tradicional competição internacional que escolhe qual o melhor método de se determinar computacionalmente a estrutura de proteínas.
Conforme as previsões submetidas iam sendo comparadas às estruturas já determinadas experimentalmente, mas ainda não divulgadas, o “grupo 427” ia acertando na mosca uma por uma, até mesmo as mais difíceis.
Isso nunca havia ocorrido antes, mas os cientistas conduzindo a competição já suspeitavam de quem se tratava.
O AlphaFold, uma divisão do DeepMind, o grupo de inteligência artificial do Google, aparentemente tinha alcançado o Santo Graal da biologia computacional.
“Nosso feito mais significativo, em termos de impacto no mundo real”, disse Demis Hassabis, CEO do DeepMind.
Enovelamento de proteínas
Proteínas são moléculas extremamente versáteis, constituindo toda a maquinaria celular e mediando todas as reações químicas em nossas células. São formadas por 20 tipos de aminoácidos, enfileirados em sequência.
Conhecemos as sequências de aminoácidos que correspondem a cada uma das mais de 200 milhões de proteínas já descobertas, pois é justamente isso que está codificado nos genes das mais diversas formas de vida. Mas para entender como as proteínas funcionam é necessário saber sua estrutura tridimensional. E isso é bem mais complicado.
Imagine uma classe do jardim da infância, onde as crianças estão de mãos dadas umas às outras numa certa ordem. A professora então diz para que corram para perto de seus melhores amigos, sem que soltem as mãos. Seria possível prever a posição de cada criança ao final da bagunça?
O “enovelamento de proteínas” é um problema semelhante, onde cada aminoácido se posiciona de acordo com os diferentes tipos de interações com os aminoácidos vizinhos. E, surpreendentemente, para cada sequência de aminoácidos que resulta numa proteína, esse processo termina sempre com a mesma estrutura tridimensional.
Uma vez sabida a estrutura da proteína, podemos entender sua função. Podemos saber quais moléculas se encaixam nas cavidades da estrutura da proteína e como interagem com os aminoácidos ao seu redor.
Assim, entendemos os mecanismos de como as proteínas catalisam reações químicas e como se associam com outros componentes celulares. Da mesma maneira, podemos encontrar moléculas que interfiram com o funcionamento de determinadas proteínas, o que significa novos remédios.
Como determinar a estrutura das proteínas?
A estrutura de grande parte das proteínas pode ser determinada experimentalmente através da cristalografia, utilizada desde os anos 50. Nessa técnica, um cristal formado com a proteína em questão é bombardeado por raios-X, que são desviados pelos átomos da proteína e captados por detectores (o laboratório síncrotron em Campinas, em SP, é usado para isso).
Analisando os padrões formados pelos raios-X, podemos deduzir as posições dos átomos no cristal. É mais ou menos como fazer uma figura com as mãos na frente de uma fonte de luz, projetando sua sombra na parede, e depois usar essa sombra para deduzir a posição dos dedos.
Outras técnicas mais modernas incluem a Ressonância Nuclear Magnética e mais recentemente a crio-microscopia eletrônica. Porém, essas técnicas são caras, trabalhosas e levam muito tempo, além de não funcionarem em todos os casos. Apenas uma diminuta parcela das proteínas conhecidas teve sua estrutura determinada dessa maneira. Assim, não é viável depender de experimentos cada vez que precisamos da estrutura de uma proteína. Seria muito mais fácil prever essa estrutura diretamente da sequência de aminoácidos.
Dispondo de pouca informação experimental, os primeiros esforços para se prever a estrutura de proteínas, nos anos 80 e 90, se baseavam em simulações baseadas nas interações físicas entre os aminoácidos.
Esses estudos foram essenciais para se entender os mecanismos de como as estruturas são formadas, primeiro organizando os aminoácidos localmente em pequenas “hélices” e “folhas”, para depois formar a estrutura completa. Porém, essas simulações conseguiam determinar apenas a estrutura de proteínas menores e mais simples.
Corrida pelo melhor método
Assim, em 1994, surgiu a competição CASP (Avaliação Crítica da Predição de Estruturas, na sigla em inglês), onde vários grupos ao redor do mundo tentam prever as estruturas de um conjunto de proteínas baseados apenas na sequência de aminoácidos.
Essas previsões depois são comparadas com a estrutura real determinada experimentalmente, vencendo o grupo que mais se aproximou das estruturas corretas.
Essa corrida levou a um grande avanço inicial na precisão das previsões, mas apenas até um certo ponto ainda insuficiente para ser útil.
Mais recentemente, já com muito mais sequências e estruturas experimentais disponíveis, outros métodos de predição baseados na análise de dados foram ganhando espaço.
Alguns métodos, por exemplo, se baseiam na evolução de diferentes versões de uma mesma proteína para inferir detalhes sobre a sua estrutura. Até que alguns anos atrás os métodos de inteligência artificial entraram na briga.
O AlphaFold usa o conceito de deep learning para analisar e traçar paralelos entre as centenas de milhares de estruturas de proteínas já conhecidas, aprendendo a prever as posições dos átomos de novas sequências. A primeira iteração do AlphaFold, um time formado por físicos, biólogos e cientistas da computação, já mostrava um avanço significativo sobre a concorrência.
Mas a grande vitória veio esse ano, quando o grupo resolveu voltar às origens ao incorporar detalhes sobre as interações físicas e estruturas locais no processo de aprendizado. Para continuar abusando das analogias, é como você resolve um quebra-cabeça: primeiro encaixando as pecinhas mais próximas e depois organizando os vários pedaços maiores.
Dessa vez o avanço foi gigantesco. O AlphaFold conseguiu prever até mesmo as estruturas mais difíceis com uma precisão incrível. O erro das previsões chegou no limite do próprio erro experimental ao determinar as estruturas. E como as estruturas das proteínas dentro das células nem são tão rígidas, nem faz sentido tentar ser mais preciso que isso.
Revolução na biologia?
O impacto certamente será enorme. As estruturas previstas pelo AlphaFold agora são precisas o suficiente para serem usadas no dia a dia dos pesquisadores.
Agora teremos acesso até mesmo a estruturas de proteínas notoriamente difíceis de serem determinadas experimentalmente, como as que formam os canais através das membranas da célula, importantíssimas no estudo de várias doenças.
Pela primeira vez, cientistas trabalhando no descobrimento de novas drogas ou projetando novas proteínas sintéticas agora terão as estruturas ao alcance dos dedos. O próprio DeepMind planeja estudar a leishmaniose, a doença do sono e a malária, todas doenças tropicais ligadas a muitas proteínas de estrutura desconhecida.
Porém, os pesquisadores do ramo ainda não precisam procurar outro emprego. Como o AlphaFold depende de treinar seu algoritmo numa base de dados com estruturas já conhecidas, ele ainda não consegue determinar a estrutura de proteínas que diferem significativamente das existentes na base de dados.
Mesmo na competição o AlphaFold mostrou dificuldades em dobrar uma proteína incomum formada por vários segmentos repetidos.
Além disso, o campo do enovelamento de proteínas avançou bastante nesse meio tempo, e hoje já se entende que não basta apenas determinar uma estrutura rígida.
Proteínas formam estruturas móveis, que mudam constantemente entre diferentes conformações. Algumas possuem partes intrinsecamente desordenadas. Esses movimentos também são fundamentais para se entender o funcionamento das proteínas. Assim, tanto experimentos quanto modelos físicos ainda são necessários.
Há uma máxima do jornalismo que diz que sempre que o título do artigo é uma pergunta, a resposta é “não”. Provavelmente também seja o caso aqui, e devemos tomar as manchetes exaltadas com um pouco de cuidado. Veremos com o tempo.
Mas com certeza é um avanço muito significativo que vai trazer resultados práticos. Além disso, é uma grande vitória para o DeepMind. Como diz John Moult, um dos organizadores da CASP, “é o primeiro uso da inteligência artificial para resolver um problema sério”.