NP3MS Workflow é um software de código aberto dedicado a facilitar o mapeamento da química da biodiversidade e sua aplicação no desenvolvimento de novos medicamentos
Pesquisadores do Centro Nacional de Pesquisa em Energia e Materiais (CNPEM), da Universidade de São Paulo (USP) e da Universidade Estadual de Campinas (UNICAMP) publicaram um artigo na revista ACS Analytical Chemistry apresentando o NP3 MS Workflow, um software de código aberto que pode ser usado por cientistas de todo o mundo na descoberta de novos medicamentos.
O novo desenvolvimento visa acelerar a identificação e anotação química de produtos naturais que possuem atividade biológica e podem ser chave para a descoberta de novos fármacos. Para promover o mapeamento da química da biodiversidade, o software permite identificar rapidamente diferentes moléculas presentes em amostras de produtos naturais, que são misturas complexas de moléculas inicialmente desconhecidas. Além disso, o software consegue anotar estruturas químicas a moléculas conhecidas e distinguir moléculas já conhecidas e registradas em bases de dados e moléculas ainda inéditas. O NP3MS Workflow também pode correlacionar moléculas da biodiversidade com dados de ensaios biológicos, apontando a molécula bioativa nas misturas complexas de produtos naturais (ex.: extratos de plantas, bactérias e fungos).
Produtos naturais e novos métodos de análise
Produtos naturais, ou metabólitos especializados, são conhecidos por terem dado origem a mais da metade de todos os medicamentos já desenvolvidos no mundo. Entretanto, apesar de cerca de 300 mil produtos naturais terem sido descobertos ao longo dos últimos 100 anos, grandes dificuldades técnicas ao pesquisá-los são impeditivas para que sejam integrados em processos modernos de descoberta de medicamentos. Os desenvolvimentos de métodos mais eficientes de análise são, portanto, muito relevantes para estes campos de estudo, acelerando novas descobertas e viabilizando o uso de produtos naturais em plataformas de descoberta atuais.
O novo software usa a abordagem de metabolômica não direcionada, baseado em dados experimentais obtidos pela técnica de cromatografia líquida acoplada à espectrometria de massas (LC-MS/MS). Esta técnica é usada para separar e identificar diferentes componentes (moléculas) de uma mistura, mesmo que estejam em quantidades minoritárias e a mistura seja complexa – como extratos de plantas, bactérias e fungos por exemplo.
A cromatografia é uma técnica fundamental da química analítica empregada na separação de componentes de uma mistura. Nesse processo, a mistura complexa (mistura de moléculas) é injetada em uma coluna cromatográfica (fase estacionária) e um solvente (fase móvel) é utilizado para eluir os componentes da amostra (moléculas) de acordo com sua afinidade pelas duas fases do sistema (móvel e estacionária). Isto resulta na migração diferenciada dos componentes da amostra (moléculas) na cromatografia, resultando na separação das moléculas da amostra de acordo com sua afinidade pelas fases móvel e estacionária. No sistema acoplado a espectrometria de massas, as moléculas separadas são então automaticamente injetadas em um espectrômetro de massas.
A espectrometria de massas é uma técnica analítica que permite a identificação e quantificação de compostos. Neste método, moléculas são ionizadas para adquirir uma carga, e então são detectadas de acordo com a relação de sua massa e carga (m/z). No trabalho, especificamente é utilizado um analisador híbrido ‘quadrupolo-tempo de voo’(Q-TOF) para selecionar e determinar a m/z de cada íon gerado. Através desta medida é possível obter a massa exata da molécula em questão. Esta está diretamente relacionada com a fórmula química da molécula (combinação de átomos que compõe a molécula). Além disto, as moléculas são fragmentadas numa câmara de colisão no equipamento, resultando na quebra da molécula em diferentes fragmentos. Os fragmentos também são medidos em relação a sua m/z e intensidade. O resultado é um espectro de massas da amostra (m/z de cada íon detectado) e a coleta dos respectivos espectros de fragmentação (espectro MS/MS) característico de cada molécula ionizada.
O espectro MS/MS tem relação com a estrutura química da molécula, ou seja, como os átomos da molécula estão organizados no espaço. O espectro MS/MS pode ser visto como a ‘impressão digital’ de cada molécula, sendo que moléculas iguais têm espectro MS/MS iguais, moléculas semelhantes, ou que compartilham subestrutura química semelhante, têm espectros MS/MS semelhantes. Desta forma, pode-se empregar espectros MS/MS de moléculas conhecidas (por exemplo: base de dados MS/MS de moléculas conhecidas) para anotar estruturas químicas de moléculas iguais ou semelhantes. Este processo é denominado desreplicação, que é a ação de apontar moléculas conhecidas em uma amostra desconhecida. Ainda, é possível indicar espectros MS/MS que não apresentam semelhança com moléculas conhecidas, apontando moléculas possivelmente novas na amostra. A partir dos espectros coletados pode-se também gerar redes moleculares de semelhança entre estes espectros (par a par) e agrupá-los de acordo com sua semelhança espectral, que também infere semelhança química.
Como aponta Daniela Trivella, autora correspondente do artigo publicado e pesquisadora do Laboratório Nacional de Biociências (LNBio) do CNPEM, “a técnica de LC-MS/MS é relativamente recente e que tem evoluído bastante nessa área de pesquisa com produtos naturais. Ela permite que você meça diretamente da amostra virtualmente todas as moléculas que estão lá. Este experimento é realizado de forma rápida, automatizada e miniaturizada. Quantidades muito pequenas da amostra de produtos naturais, em misturas, são usadas – a gente injeta cerca de 1 microlitro de amostra no equipamento. Isso é muito benéfico para acessarmos a química da biodiversidade com mínimos impactos ambientais e de forma rápida.”
Os desafios computacionais do método
A facilidade de uso desse método vem associada a um grande gargalo, que é o tratamento dos dados coletados. Apesar de ter havido bons desenvolvimentos na última década no aspecto computacional deste método de análise, muitos gargalos ainda eram encontrados para o tratamento dos dados coletados e definição sensível e precisa dos espectros de fragmentação e sua relação com as moléculas de fato presentes nas amostras complexas de produtos naturais. Por exemplo, em uma única análise, uma mesma molécula pode ser detectada múltiplas vezes (múltiplos íons), gerando múltiplos espectros de fragmentação. Consequentemente, uma análise de uma amostra que contém milhares de moléculas resulta em um número de ordens de magnitude maior de espectros coletados. Além disto, a dissecção de moléculas muito parecidas com diferente eluição na cromatografia (ex.: isômeros moleculares) era ignorada. A detecção de espectros minoritários (baixo sinal em relação ao ruído) era subótima, resultando na eliminação destes espectros menos proeminentes, porém ainda muito importantes. Ainda a quantificação, mesmo que relativa de um dado espectro numa amostra, e mais ainda, entre amostras, era bastante comprometida ou inviável.
Do ponto de vista operacional, era necessário o uso de múltiplos softwares e conversão de arquivos, e muita atividade manual e tempo de um especialista para a extração dos espectros com certa precisão a partir do conjunto de dados. Desta forma, o emprego da metabolômica não direcionada baseada em LC-MS/MS para a pesquisa com produtos naturais estava limitada à análise de poucas amostras por vez. – ” O NP3MS Workflow foi idealizado para facilitar o uso da metabolômica não direcionada em diversas disciplinas, mantendo o rigor científico e os limites do método de LC-MS/MS, empregando da melhor forma possível os dados gerados a partir de um experimento de LC-MS/MS. O software usa os próprios dados gerados no experimento para correlacionar as m/z detectadas, em um dado tempo de retenção cromatográfico, com os espectros de fragmentação. Além disso, a informação do ruído da medida também é utilizada nas análises. O NP3MS Workflow faz a aferição e alinhamento de diferentes amostras de forma automática e com muita precisão. Ele consegue separar o ruído muito bem e manter espectros, mesmo que minoritários, no conjunto de dados. E isso é muito relevante para essa área, afinal, os compostos mais novos e que ainda não conhecemos são geralmente minoritários.”, explica a pesquisadora.
Em pesquisas de metabolômica não direcionada, não se sabe exatamente o que pode ser encontrado. Portanto, quantificar os compostos presentes nestas amostras também é um grande desafio, já que não há um comparativo claro para os cientistas se basearem em suas análises. “Uma outra grande sacada que nós tivemos com o NP3MS Workflow foi trabalhar com uma quantificação relativa dos espectros coletados em uma mesma amostra e em uma série de amostras oriundas de uma mesma matriz, permitindo que a gente use essa informação para correlacionar com dados de atividade biológica.”, complementa Daniela.
Assim, após extrair muito bem os espectros de fragmentação e aferir seus atributos de tempo de retenção cromatográfico, m/z correspondente, tipo de íon, quantidade relativa, e estrutura química anotada, o NP3 MS Workflow consegue representar quimicamente a amostra de produtos naturais, outrora contendo moléculas desconhecidas. Com isso, permite mapear a química da biodiversidade e comparar a diversidade e abundância química de diferentes amostras, obtidas de diferentes fontes biológicas, ou distintos locais de coleta.
No contexto de descoberta de fármacos também pode ser usado para correlacionar dados de ensaios biológicos (ex.: atividade anticâncer) com as moléculas presentes nas diferentes amostras. Para isso, as amostras são previamente analisadas frente a um ensaio biológico (ex.: ação em células de câncer) e um valor de atividade biológica é aferido a cada amostra. Estas análises também são realizadas hoje em dia de forma rápida e em escala miniaturizada, com nanolitros da amostra de produtos naturais.
O NP3 MS Workflow usa diretamente os valores de atividade biológica extraídos dos bioensaios para diferentes amostras (ativas, inativas e parcialmente ativas) com os espectros MS/MS medidos em cada amostra. Então correlaciona a presença das moléculas com a atividade biológica em cada amostra. Isto gera um índice de atividade biológica para cada espectro MS/MS, permitindo que os pesquisadores ranqueem as moléculas presentes na amostra frente à probabilidade de cada molécula representar o produto natural responsável pela atividade biológica medida (ex.: ação anticâncer) diretamente da mistura complexa de produtos naturais. A partir daí, este espectro MS/MS candidato e sua anotação química é avaliado quanto a sua relevância química para a área terapêutica em estudo. Com isso, os pesquisadores podem analisar milhares de amostras de produtos naturais e priorizar amostras, e moléculas, para evolução nos estudos de química do produto natural em questão e no projeto de desenvolvimento de fármacos.
A baixa quantidade de amostra necessária e o alto número de amostras que podem ser analisadas em conjunto neste método de análise é um grande benefício para pesquisas com produtos naturais, pelo menos em seus estágios iniciais das pesquisas. Uma análise usando métodos tradicionais exigiria a coleta de uma grande quantidade de material para que se possa processar e isolar as diversas moléculas presentes na amostra e só então poder realizar análises por ressonância magnética nuclear, por exemplo, para definir as estruturas químicas e suas atividades biológicas. Esse processo pode levar anos de trabalho para cada amostra, e muitas vezes resulta na redescoberta de moléculas já conhecidas. “O uso da metabolômica não direcionada por LC-MS/MS permite a avaliação direta da mistura complexa e um grande número de amostras de uma vez só. O método não substitui a confirmação das moléculas pelos métodos tradicionais, porém fornece a análise de muitas amostras ao mesmo tempo, dando velocidade a análise de grandes coleções de produtos naturais, e assim embasa a tomada de decisão das amostras e moléculas mais interessantes para avaliação aprofundada. Isso poupa muito tempo e amplia significantemente a escala das análises” reforça a pesquisadora.
Um software aberto para a comunidade científica
O trabalho de desenvolvimento do software exigiu uma grande colaboração interdisciplinar, envolvendo pesquisadores de diversas áreas, incluindo matemática, computação, biologia e química. E, por se tratar de um software de código aberto, a contribuição com melhorias no futuro é muito facilitada.
“A comunidade de pesquisa de produtos naturais se ajuda muito. Nós mesmos nos baseamos em alguns códigos abertos para desenvolver este software e ele em si também é open-source. Ou seja, outros pesquisadores da área podem usar e nos ajudar a aprimorá-lo ao longo do tempo e a desenvolver ferramentas cada vez mais eficazes para essas análises.”, destaca Daniela Trivella.
Impactos imediatos e Perspectivas
Apesar de cerca de 300 mil produtos naturais já terem sido reportados no último século, muitas destas moléculas ainda não têm uma atividade biológica demonstrada. Além disso, muitas moléculas da biodiversidade ainda são desconhecidas. Diminuir os gargalos que as análises dos dados coletados acabam gerando é um aspecto importantíssimo para ampliar tanto nosso conhecimento sobre a química da biodiversidade, quanto nossa capacidade para a descoberta de novos medicamentos.
Em particular, a enorme biodiversidade brasileira é um importante diferencial para o desenvolvimento de fármacos no Brasil. As plantas, fungos e bactérias presentes nos biomas do país garantem uma grande vantagem competitiva para estes desenvolvimentos no Brasil. Com esta nova ferramenta poderemos avançar significativamente no mapeamento da química da biodiversidade brasileira e no desenvolvimento de novos medicamentos no país.
O artigo publicado contou com o apoio do Instituto Serrapilheira, da FAPESP e do Ministério da Ciência Tecnologia e Inovações (MCTI).
Sobre o CNPEM
O Centro Nacional de Pesquisa em Energia e Materiais (CNPEM) compõe um ambiente científico de fronteira, multiusuário e multidisciplinar, com ações em diferentes frentes do Sistema Nacional de CT&I. Organização Social supervisionada pelo Ministério da Ciência, Tecnologia e Inovação (MCTI), o CNPEM é impulsionado por pesquisas que impactam as áreas de saúde, energia, materiais renováveis e sustentabilidade. Responsável pelo Sirius, maior equipamento científico já construído no País, O CNPEM hoje desenvolve o projeto Orion, complexo laboratorial para pesquisas avançadas em patógenos. Equipes altamente especializadas em ciência e engenharia, infraestruturas sofisticadas abertas à comunidade científica, linhas estratégicas de investigação, projetos inovadores com o setor produtivo e formação de pesquisadores e estudantes compõem os pilares da atuação deste centro único no País, capaz de atuar como ponte entre conhecimento e inovação. O CNPEM é responsável pela operação dos Laboratórios Nacionais de Luz Síncrotron (LNLS), Biociências (LNBio), Nanotecnologia (LNNano) e Biorrenováveis (LNBR), e também pela Ilum Escola de Ciência, curso de bacharelado em Ciência e Tecnologia, com apoio do Ministério da Educação (MEC).