# Aprendizado de Máquina

+ Aprendizado de Máquina é uma área de IA cujo objetivo é o desenvolvimento de técnicas computacionais sobre o aprendizado bem como a construção de sistemas capazes de adquirir conhecimento de forma automática
+ Um sistema de aprendizado é um programa de computador que toma decisões baseado em experiências acumuladas através da solução bem sucedida de problemas anteriores
+ Nas últimas décadas o aprendizado de máquina tornou-se um dos pilares em tecnologia da informação
+ Embora hoje seja parte central do nosso cotidiano, seus conceitos não são claros para a maioria da pessoas

## Exemplos

+ Ranqueamento de páginas web
    + Em uma busca na web o motor de busca retorna os resultados mais relevantes
    + Como classificar a relevância das páginas encontradas?
![alt_text](ranqueamento.png)    

## Exemplos

+ Filtro colaborativo
    + Livrarias como a Amazon ou serviços de streaming como o Netflix usam essa informação para sugerir livros, filmes ou séries
    + Essa sugestão pode ser "aprendida" com base em compras passadas do próprio usuário ou de decisões tomadas por usuários parecidos
![alt_text](filtro_colaborativo.png)        

## Exemplos

+ Tradução automática
    + Documentos traduzidos podem servir de exemplo para a aprendizagem de um tradutor automático
+ Reconhecimento de discurso
    + Traduzir um áudio em texto
    + Traduzir um texto escrito a mão em um texto digitado    

## Exemplos

+ Classificador
    + Dada a foto de uma pessoa um sistema de segurança pode tentar identificar em sua base de dados quem é aquela pessoa
    + Ou ainda, o sistema pode verificar se aquela pessoa é quem realmente diz ser
![alt_text](verificacao.png)

[![O dilema das fritas enroladas](video.png)](https://www.ted.com/talks/jennifer_golbeck_the_curly_fry_conundrum_why_social_media_likes_say_more_than_you_might_think?language=pt-br#t-1752 "O dilema das fritas enroladas")

### Classificação

+ Problema comum em aprendizado de máquina
+ Exemplo: filtro de spam
    + Depende do usuário a classificação de um e-mail em spam ou não
+ Exemplo: Diagnosticar câncer em um paciente com base em dados histológicos
+ Estes são exemplos de classificação binária
![alt_text](classificacao_binaria.png)

### Dados

+ É útil caracterizar os problemas de aprendizagem de acordo com o tipo de dados que eles trabalham
+ Isso possibilita que quando novos desfios são encontrados com tipos de dados similares, técnicas similares possam ser utilizadas
+ Por exemplo, processamento de linguagem natural e bioinformática usam técnicas bastante similares para tratarem as strings enconytradas nos textos de linguagem natural e nas sequências de DNA
+ Os **vetores** constituem a entidade básica para codificar os dados trabalhados em aprendizado de máquina.

### Dados

+ Por exemplo, para uma companhia de seguro de vida seria interessante obter um vetor de variáveis  (pressão sanguínea, batimentos cardíacos, altura, peso, nível de colesterol, fumante, gênero) para inferir a expectativa de vida de um cliente em potencial.
+ Um engenheiro pode querer descobrir dependências entre pares (voltagem, corrente).

### Dados

+ Referência: http://dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Conceitos-Definicoes.pdf
+ De maneira geral, dados pares (x,f(x)), inferir f.
![alt_text](dados.png)

### Dados

+ Dada uma amostra finita, normalmente é impossível determinar a verdadeira função f.
+ Abordagem: Encontre uma hipótese ( modelo ) nos exemplos de treinamento e assuma que a hipótese se repita para exemplos futuros também

### Exemplos

+ [Chemistry world](https://www.chemistryworld.com/1616.tag)
    + [Ligand selector steers C–N cross-couplings down most sustainable path](Ligand.pdf)
    + [Neural network folds proteins a million times faster than its competitors](Neural.pdf)
    + [Algorithm accurately predicts mechanical properties of existing and theoretical MOFs](MOF.pdf)
    + [Lithium–ion battery book written by machine learning algorithm](Lithium.pdf)


### Dados

![alt_text](dados2.png)
+ $f: X_1 \times X_2 \times X_3 \times X_4 \rightarrow Y$

## Problemas

+ Classificação binária
+ Classificação multiclasse
+ Estimativa estruturada
+ Regressão
+ Detecção de novidades

## Hierarquia do aprendizado
![alt_text](hierarquia_aprendizado.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado2.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado3.png)

## Como funciona o aprendizado de máquina
![alt_text](aprendizado4.png)

## AS X AnS
+ Aprendizado Supervisionado
    + Compreender o relacionamento entre os atributos e a classe
    + Predizer a classe de novos exemplos o melhor possível
+ Aprendizado Não Supervisionado
    + Encontrar representações úteis dos exemplos, tais como:
        + Encontrar agrupamentos (clusters)
        + Redução da dimensão
        + Encontrar as causas ou as fontes ocultas dos exemplos
        + Modelar a densidade dos exemplos

## Exemplo, Atributo e Classe
+ Exemplo
    + Exemplo, caso, registro ou instância
    + É um conjunto fixo de atributos
    + Um exemplo descreve o objeto de interesse, tal como um paciente, exemplos médicos sobre uma determinada doença ou histórico de clientes de uma dada companhia
+ Atributo
    + Atributo, campo ou característica (feature)
    + Uma única característica de um exemplo
+ Classe
    + Atributo especial que descreve o fenômeno de interesse (somente no Aprendizado Supervisionado)

## Exemplo, Atributo e Classe
![alt_text](exemplos.png)

## Conjuntos de Exemplos

+ Em geral, um conjunto de exemplos é dividido em dois subconjuntos disjuntos:
    + conjunto de treinamento que é usado para o aprendizado do conceito e o
    + conjunto de teste que é usado para medir o grau de efetividade do conceito aprendido
+     Os subconjuntos são disjuntos para assegurar que as medidas obtidas utilizando o conjunto de teste sejam de um conjunto diferente do usado para realizar o aprendizado, tornando a medida estatisticamente válida

## Erro aparente
![alt_text](erro1.png)

## Erro verdadeiro
![alt_text](erro2.png)

## Preparação de dados

+ Fase que antecede o processo de aprendizagem, para facilitar ou melhorar o processo.
+ Exemplos:
    + remover exemplos incorretos
    + transformar o formato dos exemplos para que possam ser usados com um determinado indutor
    + selecionar um subconjunto de atributos relevantes (FSS – Feature Subset Selection)

## Sobreajuste (overfitting)

+ A hipótese extraída a partir dos exemplos é muito específica para o conjunto de treinamento
+ A hipótese apresenta um bom desempenho para o conjunto de treinamento, mas um desempenho ruim para os casos fora desse conjunto
![alt_text](overfitting.png)

## Subajuste (underfitting)

+ A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento como no de teste
![alt_text](overfitting_underfitting.png)

## Dado, Informação, Conhecimento

+ Dado: é a estrutura fundamental sobre a qual um sistema de informação é construído
+ Informação: a transformação de dados em informação é freqüentemente realizada através da apresentação dos dados em uma forma compreensível ao usuário
+ Conhecimento:
    + Fornece a capacidade de resolver problemas, inovar e aprender baseado em experiências prévias
    + Uma combinação de instintos, idéias, regras e procedimentos que guiam as ações e decisões

## Estrutura
![alt_text](estrutura.png)

## Importante

+ Dado não é Informação
+ Informação não é Conhecimento
+ Conhecimento não é Inteligência
+ Inteligência não é Sabedoria

## Quimiometria

+ Talvez a principal aplicação de aprendizado de máquina em química se dê no campo de pesquisa conhecido como **quimiometria**.
+ Algumas definições de quimiometria:
    + A quimiometria é a aplicação de ferramentas matemáticas e estatísticas à química (Bruce Kowalski).
    + Quimiometria é a aplicação de estatística  à análise de dados químicos (de química orgânica, analítica ou de química medicinal) e o planejamento de experimentos químicos e simulações (IUPAC).
    + Quimiometria é a disciplina química que usa métodos matemáticos e estatísticos para:
        + planejar ou otimizar procedimentos experimentais; e
        + extrair o máximo da informação química relevante, através da análise dos dados (Bruce Kowalski).
    + Quimiometria é o que os quimiometristas fazem (Quimiometrista anônimo).

## Quimiometria

+ Na parte de análise de dados os principais métodos usados em quimiometria são:
    + Análise exploratória (aprendizado não supervisionado)
        + HCA
        + PCA
    + Métodos de regressão (aprendizado supervisionado)
        + MLR
        + PCR
        + PLS
    + Métodos de classificação (aprendizado supervisionado)
        + KNN
        + SIMCA
        + PLS-DA
        + SVM

## Scikit-learn
https://scikit-learn.org/stable/index.html

## Análise de Agrupamentos por métodos hierárquicos (HCA)

+ A nálise de agrupamentos por métodos hierárquicos (HCA, do inglês *hierarquical cluster analysis*), teve origem na taxonomia numérica
+ É um método de aprendizado não-supervisionado de reconhecimento de padrões, adequado para descobrir "padrões naturais" de comportamento entre amostras
+ HCA é útil para reduzir a dimensionalidade dos dados de grande porte, por exemplo, permitindo que dezenas de milhares de genes possam ser representados por poucos grupos de genes de comportamento semelhante
+ Outro exemplo uso do HCA é na detecção de amostras com comportamento anômalo em um conjunto de dados
+ Outro exemplo na busca por estruturas cristalográficas similares

## Análise de Agrupamentos por métodos hierárquicos (HCA)

+ O HCA é uma técnica interessante porque permite a visualização de dados multidimensionais por meio de um esquema bidimensional
+ Os resultados são apresentados na forma de uma árvore hierárquica também conhecida como **dendrograma**
+ O HCA é uma técnica algomerativa, na qual cada objeto é considerado um grupo unitário. A seguir eles vão sendo agrupados sistematicamente por ordem de similaridade, em um processo iterativo, até que todos eles formem um único grupo
+ É muito razoável assumir que amostras próximas entre si no espaço multidimensional, $R^J$, sejam semelhantes em relação às variáveis selecionadas
+ Isso quer dizer que uma maneira de determinar o quanto um objeto é semelhante a outro é por meio do cálculo da distância entre eles

## Análise de Agrupamentos por métodos hierárquicos (HCA)

+ Essa distância pode ser:
    + Euclideana
        $d_{AB}^M = [(\mathbf{x_A}-\mathbf{x_B})^T (\mathbf{x_A}-\mathbf{x_B})]^{1/2} = \|\mathbf{x_A}-\mathbf{x_B} \|_2$
    + Manhattan
        $d_{AB}^M = \|\mathbf{x_A}-\mathbf{x_B} \|_1 = \sum_{j=1}^{J}|x_{aj}-x_{bj}|$
    + Mahalanobis
        $d_{AB}^M = [(\mathbf{x_A}-\mathbf{x_B})^T \mathbf{Var}^{-1}(\mathbf{x_A}-\mathbf{x_B})]^{1/2}$

In [None]:
import pandas as pd

In [None]:
df = pd.read_excel("liquens.xls")

In [None]:
df

In [None]:
df_numbers = df.iloc[2:,2:]

In [None]:
df_numbers.index = range(1,len(df_numbers)+1)
df_numbers

In [None]:
for i in range (df_numbers.shape[0]):
    for j in range (df_numbers.shape[1]):
        if df_numbers.iloc[i,j] == "<LD":
            df_numbers.iloc[i,j] = 0

In [None]:
df_numbers

In [None]:
df.iloc[2,1]

In [None]:
[(df_numbers.index[i],df.iloc[2:,1][i]) for i in range(len(df_numbers))]

In [None]:
[(df.iloc[2:,1][i]) for i in range(len(df_numbers))]

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt

Z = linkage(df_numbers, 'ward')
fig = plt.figure(figsize=(25, 10))
dn = dendrogram(Z,orientation="right",labels=[(df_numbers.index[i],df.iloc[2+i,1],df.iloc[2+i,0]) for i in range(len(df_numbers))])

## Análise de componentes principais (PCA)

+ A análise de componentes principais (PCA, do inglês *principal component analysis*) é um método utilizado para projetar os dados multivariados em um espaço de menor dimensão reduzindo, assim, a dimensionalidade do espaço original do conjunto de dados, sem que a relação entre as amostras seja afetada
+ Utilizando essa metodologia é possível descobrir, visualizar e interpretar as diferenças existentes entre as variáveis e examinar as relações que podem existir entre as amostras
+ Esa análise também nos permite detectar amostras que apresentam um comportamento distinto (atípico)
+ Os metodos de projeção são importantes na área de meteorologia para o tratamento de imagens de satélite
+ Em química são importantes para o tratamento de dados de espectroscopia e cromatografia

## Análise de componentes principais (PCA)

+ Em PCA é possível fazer uma "compressão" dos dados por meio da criação de um novo conjunto de variáveis que são combinações lineares das variáveis originais
+ Essas novas variáveis são as componentes principais, PC, também conhecidas por fatores ou autovetores
+ Um propriedades importante das PCs é que são não correlacionadas e ortogonais entre si
+ Outra propriedade importante é que a primeira PC (PC1) é definida pela direção que descreve a máxima variância dos dados originais
+ PC2 tem a direção de máxima variância dos dados no subespaço ortogonal à PC1 e assim sucessivamente
+ O número de componentes principais, *A*, que é necessário para descrever adequadamente o sistema em estudo, é chamado de dimensão intrínseca, pseudoposto ou posto químico

## Análise de componentes principais (PCA)

+ Matematicamente PCA equivale a decompor a matriz  **X**(*I* X *J*) em duas matrizes, uma de escores **T** e uma matriz ortonormal de pesos (*loadings*) **L**, de tal maneira que

$\mathbf{X} = \mathbf{T}\mathbf{L}^T$

+ em que os escores expressam as relações entre as amostras, enquanto que os pesos indicam as relações entre as variáveis.

In [None]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler 
df = pd.read_excel("liquens.xls")
df_numbers = df.iloc[2:,2:]
df_numbers = df_numbers.replace("<LD",0)
Xa = StandardScaler().fit_transform(df_numbers)

In [None]:
pca = PCA(n_components=6)
pca.fit(Xa)  
print(pca.explained_variance_ratio_)  
print(pca.singular_values_) 

In [None]:
L= pca.components_.T
L

In [None]:
T = pca.transform(Xa)
T

In [None]:
# PCA

from bokeh.plotting import figure, output_notebook, show
from bokeh.models import LabelSet, Label, ColumnDataSource
import numpy as np
source = ColumnDataSource(data=dict(PC1=T[:,0],
                                    PC2=T[:,1],
                                    names=df_numbers.index))

output_notebook()
p = figure(title="Gráfico de escores", x_axis_label='PC1', y_axis_label='PC2')
p.scatter('PC1','PC2',color='blue',size=6, source=source)
labels = LabelSet(x='PC1', y='PC2', text='names', level='glyph',
              x_offset=5, y_offset=5, source=source, render_mode='canvas')    
p.add_layout(labels)
show(p)

In [None]:
# PCA

source = ColumnDataSource(data=dict(PC1=L[:,0],
                                    PC2=L[:,1],
                                    names=df_numbers.columns))

output_notebook()
p = figure(title="Gráfico de pesos(loadings)", x_axis_label='PC1', y_axis_label='PC2')
p.scatter('PC1','PC2',color='blue',size=6, source=source)
labels = LabelSet(x='PC1', y='PC2', text='names', level='glyph',
              x_offset=5, y_offset=5, source=source, render_mode='canvas')    
p.add_layout(labels)
show(p)

In [None]:
# Novo conjunto de dados
flav = pd.read_csv("../flavonoides2.csv",sep='\t',index_col=0)
flav

In [None]:
X = flav.iloc[:,:-1]
y = flav.iloc[:,-1]
y

In [None]:
## PCA

from bokeh.plotting import figure, output_notebook, show
from bokeh.models import LabelSet, Label, ColumnDataSource
import numpy as np
pca = PCA(n_components=6)
Xa = StandardScaler().fit_transform(X)
pca.fit(Xa)
#T = Xa.dot(pca.components_.T)
T = pca.fit_transform(Xa)
source = ColumnDataSource(data=dict(PC1=T[:,0],
                                    PC2=T[:,1],
                                    names=flav.index))

output_notebook()
p = figure(title="Gráfico de escores", x_axis_label='PC1', y_axis_label='PC2')
p.scatter('PC1','PC2',color='blue',size=6, source=source)
labels = LabelSet(x='PC1', y='PC2', text='names', level='glyph',
              x_offset=5, y_offset=5, source=source, render_mode='canvas')    
p.add_layout(labels)
show(p)

In [None]:
L = pca.components_.T
source = ColumnDataSource(data=dict(PC1=L[:,0],
                                    PC2=L[:,1],
                                    names=flav.columns[:-1]))

output_notebook()
p = figure(title="Gráfico de pesos(loadings)", x_axis_label='PC1', y_axis_label='PC2')
# for i in range(np.shape(T)[0]):
#     x = T[i,0]
#     y = T[i,1]
#     p.circle(x,y,color='blue')
    #p.text(x+0.3,y+0.3,flav.index[i])
p.scatter('PC1','PC2',color='blue',size=6, source=source)
labels = LabelSet(x='PC1', y='PC2', text='names', level='glyph',
              x_offset=5, y_offset=5, source=source, render_mode='canvas')    
p.add_layout(labels)
show(p)

In [None]:
# HCA

from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt

Z = linkage(Xa,'ward')
fig = plt.figure(figsize=(25, 10))
dn = dendrogram(Z,orientation="right", labels=flav.index)

## Modelos de regressão

+ Um modelo de regressão é obtido por meio da resolução do sistema linear

$\mathbf{Xb} = \mathbf{y}$

+ Solução
    + $\mathbf{X^{+}Xb} = \mathbf{X^{+}y}$
    + $\mathbf{b} = \mathbf{X^{+}y}$
+ Em que $\mathbf{X^{+}}$ é a inversa generalizada de Moore-Penrose    

## Modelos de regressão

+ A resolução do sistema inclui as seguintes soluções:
    1. $\mathbf{X^{+}} = \mathbf{X^{-1}}$ quando $\mathbf{X}$ é quadrada e inversível
    2. $\Arrowvert {\mathbf{y-Xb}} \Arrowvert^{2} = min$ Solução de quadrados mínimos
+ Normalmente essa equação linear é obtida através de um dos seguintes métodos:
    + MLR
    + PCR
    + PLS

## MLR (do inglês, Muliple Linear Regression)

+ Nada mais é que a resolução direta do problema de quadrados mínimos
+ A matriz $\mathbf{X}$ deve ter mais linhas (amostras) que colunas (variáveis)
+ As colunas (variáveis) não podem ser correlacionadas, pois assim o sistema não terá uma solução estável

## Métodos de projeção

+ Devido às limitações impostas pelo método MLR, uma solução é projetar as variáveis da matriz $\mathbf{X}$ em um espaço de dimensão menor
+ Se $\mathbf{X}$ é uma matriz ($I \times J$) de posto $P$, ela pode ser decomposta em

$\mathbf{X} = \mathbf{URW^{t}}$

+ $\mathbf{U}$ é ortonormal de dimensões ($I \times P$)
+ $\mathbf{W}$ é ortonormal de dimensões ($J \times P$)
+ $\mathbf{R}$ é não singular de dimensões ($P \times P$)

## Métodos de projeção

+ Assim temos
    + $\mathbf{R} = \mathbf{U^{t}XW}$
    + $\mathbf{X^{+}} = \mathbf{WR^{-1}U^{t}}$
+ e, portanto
    + $\mathbf{b} = \mathbf{WR^{-1}U^{t}y}$

## Métodos de projeção

+ Essa formulação é geral e cobre uma infinidade de métodos, dentre os quais destacam-se:
    + PCR (A matriz R é diagonal)
    + PLS (A matriz R é bidiagonal)
+ O método PLS costuma ser mais usado, pois ele projeta as variáveis originais em um espaço de menor dimensão formado pelas variáveis latentes levando em consideração a informação contida na variável dependente   

In [None]:
# Carregando novos dados
X = pd.read_csv("Xdat.txt",sep='\t',index_col=0)
print("Dimensões de X")
print(X.shape)
y = pd.read_csv("pIC50dat.txt",sep='\t')
print("Dimensões de y")
print(y.shape)

# Autoescalando os dados
scaler = StandardScaler().fit(X)
print("Médias de X")
print(scaler.mean_)
print("Varâncias de X")
print(scaler.var_)
# Autoescalando de fato
Xa = scaler.transform(X)
print("Médias de X autoescalado")
print(Xa.mean(axis=0))
print("Desvios padrão de X autoescalado")
print(Xa.std(axis=0))

In [None]:
# MLR

from sklearn import linear_model 
from sklearn.model_selection import cross_val_predict 
from sklearn.metrics import mean_squared_error, r2_score

mlr = linear_model.LinearRegression()

# Fit
mlr.fit(Xa, y)
 
# # Calibration
y_c = mlr.predict(Xa)
y_c


In [None]:
y_cv = cross_val_predict(mlr, Xa, y, cv=len(Xa))
y_cv

In [None]:
score_c = r2_score(y, y_c)
print(score_c)
score_cv = r2_score(y, y_cv)
print(score_cv)

In [None]:
from sklearn.feature_selection import SelectKBest, f_regression
X_new = SelectKBest(f_regression, k=6).fit_transform(Xa, y)

In [None]:
# Fit
mlr.fit(X_new, y)
 
# # Calibration
y_c = mlr.predict(X_new)


score_c = r2_score(y, y_c)
print(score_c)
y_cv = cross_val_predict(mlr, X_new, y, cv=len(y))
score_cv = r2_score(y, y_cv)
print(score_cv)

In [None]:
# PCR

pca = PCA(n_components = 8)
pca.fit(Xa)
T = pca.fit_transform(Xa)

pcr = linear_model.LinearRegression()

# Fit
pcr.fit(T, y)

# Calibration
y_c_pcr = pcr.predict(T)

# Cross-validation
y_cv_pcr = cross_val_predict(pcr, T, y, cv=len(y))

# Calculate scores for calibration and cross-validation
score_c_pcr = r2_score(y, y_c_pcr)
print(score_c_pcr)
score_cv_pcr = r2_score(y, y_cv_pcr)
print(score_cv_pcr)


In [None]:
cv_scores = []
c_scores = []
mse_c = []
mse_cv = []
for i in range(8):
    Tp = T[:,:i+1]
    # Calibration
    pcr.fit(Tp,y)
    y_c_pcr = pcr.predict(Tp)

    # Cross-validation
    y_cv_pcr = cross_val_predict(pcr, Tp, y, cv=len(Xa))

    # Calculate scores for calibration and cross-validation
    c_scores.append(r2_score(y, y_c_pcr))
    cv_scores.append(r2_score(y, y_cv_pcr))
    mse_c.append(mean_squared_error(y, y_c_pcr))
    mse_cv.append(mean_squared_error(y, y_cv_pcr))
    

In [None]:
p = figure(title="Erro Quadrático médio", x_axis_label='Número de componentes', y_axis_label='RMSECV ou RMSEC')
    #p.text(x+0.3,y+0.3,flav.index[i])
p.line(range(1,len(c_scores)+1),mse_c,legend="RMSEC")
p.circle(range(1,len(c_scores)+1),mse_c,legend="RMSEC")
p.line(range(1,len(cv_scores)+1),mse_cv,color="red", legend="RMSECV")
p.circle(range(1,len(cv_scores)+1),mse_cv,color="red", legend="RMSECV")
show(p)

In [None]:
p = figure(title="Erro Validação cruzada", x_axis_label='Número de componentes', y_axis_label='Q² ou R²')
    #p.text(x+0.3,y+0.3,flav.index[i])
p.line(range(1,len(c_scores)+1),c_scores,legend="R²")
p.circle(range(1,len(c_scores)+1),c_scores,legend="R²")
p.line(range(1,len(cv_scores)+1),cv_scores,color="red", legend="Q²")
p.circle(range(1,len(cv_scores)+1),cv_scores,color="red", legend="Q²")
show(p)

In [None]:
Tp = T[:,:4]
# Calibration
pcr.fit(Tp,y)
y_c_pcr = pcr.predict(Tp)

# Cross-validation
y_cv_pcr = cross_val_predict(pcr, Tp, y, cv=len(Xa))

In [None]:
print(mlr.coef_)
print(mlr.intercept_)

In [None]:
print(pcr.coef_)
print(pcr.intercept_)

In [None]:
# PLS

from sklearn.cross_decomposition import PLSRegression
pls2 = PLSRegression(n_components=8)
pls2.fit(Xa, y)

y_pls = pls2.predict(Xa)
print(y_pls)
print(pls2.score(Xa,y))

y_cv_pls = cross_val_predict(pls2, Xa, y, cv=len(Xa))
print(y_cv_pls)
print(r2_score(y,y_cv_pls))

In [None]:
y_cv_pls = cross_val_predict(pls2, Xa, y, cv=len(Xa))
print(y_cv_pls)
print(r2_score(y,y_cv_pls))

In [None]:
cv_scores = []
c_scores = []
mse_c = []
mse_cv = []
for i in range(8):
    # Calibration
    pls2 = PLSRegression(n_components=i+1)
    pls2.fit(Xa,y)
    y_c_pcr = pls2.predict(Xa)

    # Cross-validation
    y_cv_pcr = cross_val_predict(pls2, Xa, y, cv=len(Xa))

    c_scores.append(r2_score(y, y_c_pcr))
    cv_scores.append(r2_score(y, y_cv_pcr))
    mse_c.append(mean_squared_error(y, y_c_pcr))
    mse_cv.append(mean_squared_error(y, y_cv_pcr))

In [None]:
p = figure(title="Erro Quadrático médio", x_axis_label='Número de varáveis latentes', y_axis_label='RMSECV ou RMSEC')
    #p.text(x+0.3,y+0.3,flav.index[i])
p.line(range(1,len(c_scores)+1),mse_c,legend="RMSEC")
p.circle(range(1,len(c_scores)+1),mse_c,legend="RMSEC")
p.line(range(1,len(cv_scores)+1),mse_cv,color="red", legend="RMSECV")
p.circle(range(1,len(cv_scores)+1),mse_cv,color="red", legend="RMSECV")
show(p)

In [None]:
source = ColumnDataSource(data=dict(
    lv=range(1,len(c_scores)+1),
    R2=c_scores,
    Q2=cv_scores,
))

TOOLTIPS = [
    ("LV", "@lv"),
    ("R2", "@R2"),
    ("Q2", "@Q2")
]

p = figure(title="Erro Validação cruzada - PLS", x_axis_label='Número de variáveis latentes', y_axis_label='Q² ou R²',
          tooltips = TOOLTIPS)
    #p.text(x+0.3,y+0.3,flav.index[i])
p.line("lv","R2",legend="R²", source=source)
p.circle("lv","R2",legend="R²", source=source)
p.line("lv","Q2",color="red", legend="Q²", source=source)
p.circle("lv","Q2",color="red", legend="Q²", source=source)
show(p)

In [None]:
pls2 = PLSRegression(n_components=2)
pls2.fit(Xa, y)

y_pls = pls2.predict(Xa)
print(pls2.score(Xa,y))

y_cv_pls = cross_val_predict(pls2, Xa, y, cv=len(Xa))
print(r2_score(y,y_cv_pls))

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [None]:
scaler = StandardScaler().fit(X_train)
X_train_a = scaler.transform(X_train)
pls2 = PLSRegression(n_components=2)
pls2.fit(X_train_a, y_train)

y_pls = pls2.predict(X_train_a)
print(pls2.score(X_train_a,y_train))

y_cv_pls = cross_val_predict(pls2, X_train_a, y_train, cv=len(X_train_a))
print(r2_score(y_train,y_cv_pls))

In [None]:
X_test_a = scaler.transform(X_test)
y_p = pls2.predict(X_test_a)
print(pls2.score(X_test_a,y_test))

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt

Z = linkage(Xa,'ward')
fig = plt.figure(figsize=(25, 10))
dn = dendrogram(Z,orientation="right", labels=[(int(X.index[i]),"{:.2f}".format(y["pIC50"][i])) for i in range(len(y))])

In [None]:
from bokeh.plotting import figure, output_notebook, show
from bokeh.models import LabelSet, Label, ColumnDataSource
source = ColumnDataSource(data=dict(x=range(1,1+len(y)),
                                    y=y["pIC50"],
                                    names=X.index))

output_notebook()
p = figure(title="Atividades", x_axis_label='Amostras', y_axis_label='pIC50')
p.scatter('x','y',color='blue',source=source)
labels = LabelSet(x='x', y='y', text='names', level='glyph',
              x_offset=5, y_offset=5, source=source, render_mode='canvas')    
p.add_layout(labels)
show(p)

In [None]:
pca = PCA(n_components=3)
pca.fit(Xa)
T = pca.fit_transform(Xa)
source = ColumnDataSource(data=dict(PC1=T[:,0],
                                    PC2=T[:,1],
                                    names=X.index))

output_notebook()
p = figure(title="PCA", x_axis_label='PC1', y_axis_label='PC2')
# for i in range(np.shape(T)[0]):
#     x = T[i,0]
#     y = T[i,1]
#     p.circle(x,y,color='blue')
    #p.text(x+0.3,y+0.3,flav.index[i])
p.scatter('PC1','PC2',color='blue',size=6, source=source)
labels = LabelSet(x='PC1', y='PC2', text='names', level='glyph',
              x_offset=3, y_offset=3, source=source, render_mode='canvas')    
p.add_layout(labels)
show(p)