A busca contínua por novos materiais é vital para impulsionar o desenvolvimento tecnológico. Mais recentemente, a área de informática de materiais vem se consolidando, onde métodos de simulação computacional, aprendizado de máquina e grandes dados são utilizados para acelerar a descoberta de novos materiais. Entre esses métodos, redes neurais vem sendo utilizados para construir modelos preditivos. Como a literatura possui uma gigantesca quantidade de dados, é possível minerá-los e então utilizá-los na construção de modelos, para então predizer propriedades de novos materiais, ou mesmo novas aplicações para materiais já existentes.
Este estudo concentra-se na previsão da tensão superficial de hidrocarbonetos. Tal propriedade importante para aplicações como o desenvolvimento de surfactantes, os quais são utilizados para detergentes, fármacos, processos industriais, entre outros. Os dados para 4166 compostos foram obtidos do livro "Thermophysical Properties of Chemicals and Hydrocarbons" (Carl L. Yaws).
A proposta principal é utilizar um único identificador molecular, o SMILES (Simplified Molecular Input Line Entry System), como feature exclusiva. O SMILES foi analisado com técnicas de processamento de linguagem natural, onde o SMILES foi tokenizado, sendo cada caractere um token. Logo, tratamos o SMILES como uma sentença, com o vocabulário definido por todos os caracteres dos códigos SMILES de todas as moléculas do conjunto de dados. A matriz sentença foi criada utilizando o One-hot-encoding, assim cada linha da matriz é correspondente ao carácter respectivo, e a coluna corresponde ao índex do dicionário de vocabulário.
Exploramos a habilidade das redes neurais LSTM (Long short-term memory) em decodificar as informações presentes no SMILES, com o propósito de construir um modelo de regressão capaz de predizer as tensões superficiais de moléculas. Posteriormente, após a interpretação sequencial dos dados de SMILES pela LSTM, que permitiu a extração de informações cruciais sobre as ligações entre átomos e a ordem dessas ligações, a saída da LSTM, memoria de longo prazo, gerou uma quantidade significativa de dados, para cada SMILES. Essa saída da LSTM, rica em detalhes, resultou em um aumento substancial da dimensionalidade.
A saída foi então submetida a uma rede linear, que desempenha o papel crucial de reduzir a dimensionalidade do vetor de saída, consolidando a diversidade de informações em um único dado de saída, correspondente à tensão superficial. Essa abordagem simplifica a representação complexa da saída da LSTM, assim correspondendo com a dimensionalidade do nosso alvo, as tensões superficiais. As redes foram criadas usando o Python com o uso das bibliotecas pytorch e o lightning. Esta metodologia não depende de propriedades específicas das moléculas, ou seja, a priori não é necessário o conhecimento de nenhuma propriedade da molécula para a inferência de sua tensão superficial. Isto abre caminho para explorar um grande número de moléculas que não tiveram tal propriedade medida, com a possibilidade de inferência para moléculas ainda não sintetizadas. Os resultados obtidos até o momento mostram que o uso SMILES para a inferência, via LSTM, da tensão superficial, tem resultados promissores, realizando predições com um erro, baseado no RMSE, de 3,38 mN/m.
As perspectivas deste trabalho são melhorar e refinar a predição da tensão superficial a partir do SMILES, por exemplo, com fingerprints moleculares obtidos a partir dos códigos SMILES. Desta maneira, mais informações de características moleculares poderão ser obtidas, melhorando possivelmente a precisão dos modelos. Ainda, tal metodologia pode ser generalizada para outras propriedades, como gaps ou propriedades vibracionais, utilizando bases de dados teóricas com milhões de moléculas já calculadas, bem como bases de dados experimentais, como utilizada neste estudo de caso. Portanto, esta nova metodologia de predição de propriedades possui um grande potencial em engenharia molecular, mais especificamente no desenvolvimento de novas moléculas com propriedades desenhadas computacionalmente.
Bem-vindo(a) aos Anais do VII NanoMat, evento organizado pela Pós-graduação em Nanociências e Materiais Avançados da Universidade Federal do ABC (UFABC) com o intuito de reunir e debater trabalhos desenvolvidos por alunos e pós-doutorandos em Materiais e áreas afins.
Comissão Organizadora
Pedro Alves da Silva Autreto
Andre Luiz Martins de Freitas
Aryane Tofanello
Comissão Científica