## Aprendizado de máquina (machine learning)

De forma simples, aprendizado de máquina consiste em obter **dados**, detectar padrões nos dados e utilizar esses padrões para criar um **modelo** que consiga **prever** um resultado (nosso **objetivo**) com base em novos dados. Vemos que a definição de vários conceitos é necessária. Podemos detalhar melhor cada uma dessas etapas com um exemplo. Como pretendo discutir futuramente sobre quiminformática (uso de métodos computacionais para resolver problemas em química), podemos usar como exemplo o seguinte problema: 

**Problema: Desejamos criar um modelo que nos permita prever se um composto químico será solúvel em água.**

Esse é um problema relevante para diversas áreas da química. Imagine que um pesquisador esteja buscando desenvolver um fármaco para ser tomado por via oral. Seria excelente se ele pudesse, por exemplo, prever a solubilidade de um composto antes de sintetizá-lo, pois compostos devem apresentar solubilidade em água para serem administrados por via oral.

Como poderíamos prosseguir para criar esse modelo?

Uma forma de resolver esse problema seria observar a solubilidade de diferentes compostos e tentar desenvolver uma **teoria** geral, baseada nas propriedades fundamentais das substâncias químicas, que descrevesse, através de uma função matemática, o valor da solubilidade da substância. Pode parecer exagerado, mas somos capazes de realizar essa façanha para diversas propriedades, como cálculo de energia de orbitais atômicos e moleculares (ainda que de forma aproximada, e não exata).

Todavia, uma teoria geral para a solubilidade de compostos químicos (ainda) está além do nosso alcance, pois existem muitos fatores envolvidos. O que fazer nesse caso? Conforme descrito anteriormente, podemos tentar a abordagem do aprendizado de máquina. Para isso, devemos começar coletando um número grande de dados (em geral, quanto mais, melhor). 

O que são os dados? Dados são compostos de diversos exemplos daquilo que estamos tentando prever. No nosso caso, os dados seriam o valor numérico da solubilidade de compostos químicos. 

Como obter dados? Os dados precisam ser gerados, porém, uma vez gerados, podem ser armazenados em **bancos de dados**. Dessa forma, em vez de medir a solubilidade de diversos compostos químicos, podemos simplesmente acessar um banco de dados contendo essa informação. Um banco de dados pode ser algo tão simples quanto uma tabela contendo, em uma coluna, o nome (ou a estrutura química) de uma substância, e o valor numérico de sua solubilidade em água (por exemplo: 1,2 mg/L) em outra coluna. [Este link](https://www.kaggle.com/c/drug-solubility-challenge/data) contém um exemplo de um banco de dados público com valores de solubilidade de compostos químicos. O banco de dados pode ser baixado, e parte dele é mostrada a seguir:


In [3]:
import pandas as pd

df = pd.read_csv("delaney-processed.csv")

df[['Compound ID', 'measured log solubility in mols per litre']].head()

Unnamed: 0,Compound ID,measured log solubility in mols per litre
0,Amigdalin,-0.77
1,Fenfuram,-3.3
2,citral,-2.06
3,Picene,-7.87
4,Thiophene,-1.33


Aqui mostramos os cinco primeiros exemplos da tabela. Veja que esse banco de dados contém, dentre outras colunas não mostradas, identificadores para as substâncias químicas e sua solubilidade em água (em mols por litro).

Será isso suficiente para gerarmos um modelo preditivo? Não é, pois, para prever uma propriedade, é necessário partir de outras propriedades. Por exemplo, é impossível (de forma não-clarividente) prever se um time de futebol vai ganhar ou perder uma partida ou mesmo se vai chover amanhã. Porém, se utilizarmos o histórico das partidas dos dois times, ou medições climáticas (direção do vento, umidade, chegada de uma frente fria), podemos fazer predições com razoável precisão de tais eventos futuros. Da mesma forma, precisamos de propriedades que descrevam nossos dados de forma mais completa possível, e que nos permitam criar um modelo. A essas propriedades damos o nome de **descritores**.

Como podemos descrever nossos dados? Precisamos de propriedades que carreguem informação relevante. Por exemplo, para prever se uma pessoa comprará fraldas ao ir ao mercado, um bom descritor seria: *essa pessoa tem filhos recém-nascidos?* e um péssimo descritor seria a cor dos sapatos da pessoa (isso não deve ter qualquer influência na compra de fraldas).

Vemos que no banco de dados de solubilidade, alguns descritores nos são fornecidos:


In [4]:
df.head()

Unnamed: 0,Compound ID,ESOL predicted log solubility in mols per litre,Minimum Degree,Molecular Weight,Number of H-Bond Donors,Number of Rings,Number of Rotatable Bonds,Polar Surface Area,measured log solubility in mols per litre,smiles
0,Amigdalin,-0.974,1,457.432,7,3,7,202.32,-0.77,OCC3OC(OCC2OC(OC(C#N)c1ccccc1)C(O)C(O)C2O)C(O)...
1,Fenfuram,-2.885,1,201.225,1,2,2,42.24,-3.3,Cc1occc1C(=O)Nc2ccccc2
2,citral,-2.579,1,152.237,0,0,4,17.07,-2.06,CC(C)=CCCC(C)=CC(=O)
3,Picene,-6.618,2,278.354,0,5,0,0.0,-7.87,c1ccc2c(c1)ccc3c2ccc4c5ccccc5ccc43
4,Thiophene,-2.232,2,84.143,0,1,0,0.0,-1.33,c1ccsc1


In [5]:
df.columns

Index(['Compound ID', 'ESOL predicted log solubility in mols per litre',
       'Minimum Degree', 'Molecular Weight', 'Number of H-Bond Donors',
       'Number of Rings', 'Number of Rotatable Bonds', 'Polar Surface Area',
       'measured log solubility in mols per litre', 'smiles'],
      dtype='object')

## Continuar daqui

Vejamos o significado dessas colunas, além das mostradas anteriormente:
- ESOL predicted log solubility in mols per litre: valor de solubilidade predito pelo modelo ESOL
- Minimum Degree: não conheço esse descritor, mas parece estar relacionado à saturação da molécula
- Molecular Weight: peso molecular, ou massa molecular relativa. Essa é uma propriedade molecular muito usado em química
- Number of H-Bond Donors: número de átomos doadores de ligação de hidrogênio (no caso, N e O)
- Number of Rings: número de anéis (sistemas cíclicos)
- Number of Rotatable Bonds: número de ligações rotacionáveis (ou seja, ligações simples com livre rotação)
- Polar Surface Area: área polar superficial
- smiles: SMILES, uma forma de representação molecular muito usada em quiminformática



Note que o aprendizado de máquina também difere do desenvolvimento de software tradicional, pois não escrevemos diretamente as linhas de comando que determinarão a saída do modelo. Por exemplo, se fôssemos usar nosso conhecimento de química para escrever um modelo preditivo, poderíamos pensar em algo assim:

`Comece com um valor de solubilidade igual a 100 mg por litro. 
 Se a massa molecular for menor que 300: aumente o valor de solubilidade em 20 unidades
 Se a massa molecular estiver entre 300 e 500: aumente o valor de solubilidade em 10 unidades
 Se a massa molecular estiver entre 500 e 700: diminua o valor de solubilidade em 10 unidades
 Se a massa molecular for maior que 700: diminua o valor de solubilidade em 20 unidades`

E assim por diante, para cada propriedade.

Todavia, usando aprendizado de máquina, deixamos que "os dados falem por si só", ou seja, o algoritmo tentará várias possibilidades até encontrar a melhor descrição para nosso problema.

Otimizador: código que executa funções matemáticas e altera o modelo, tornando-o melhor a cada etapa

Após treinar um modelo, podemos salvá-lo para uso posterior. Não é necessário treinar o modelo a cada uso.