![verao](imagens/verao_uff.png)

---
# Univerisdade Federal Fluminense - UFF
## Programa de Pós-graduação em Engenharia de Biossistemas

---
# Escola de Verão 2021
### Professor: Jorge Zavaleta. <jorge.zavaleta@ppgi.ufrj.br>

---

# Módulo 05 - Aplicações em Data Science

> **Scikit-Learn** - Biblioteca de aprendizado de máquina. [Scikit-Learn](https://scikit-learn.org/stable/)

## Regressão Linear

>  A **regressão linear** é uma equação para estimar a condicional (valor esperado) de uma variável **y**, dados os valores de algumas outras variáveis **x**. Isto é, a **análise de regressão** estuda a relação entre uma variável chamada a **variável dependente** (y) e outras variáveis chamadas **variáveis independentes** (x).

> $y = ax+b$

In [None]:
# importar o dataset
from sklearn import datasets
from sklearn import model_selection
from sklearn import linear_model
from sklearn import metrics
from sklearn import tree
from sklearn import neighbors
from sklearn import svm
from sklearn import ensemble
from sklearn import cluster
#
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
# thema
sns.set_theme()

In [None]:
# dados
X_all, y_all = datasets.make_regression(n_samples=50,n_features=50, n_informative=10)

In [None]:
# dados de treimamento
X_train, X_test, y_train, y_test = model_selection.train_test_split(X_all, y_all, train_size=0.5)

In [None]:
# criando a instancia de regressao linear
model = linear_model.LinearRegression()

In [None]:
# Ajuste de modelo
model.fit(X_train, y_train)
#LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1,normalize=False)

In [None]:
# Calcular a soma do erro quadratico SSE
def sse(resid):
    return np.sum(resid**2)

In [None]:
# calcula o erro de treinamento
resid_train = y_train - model.predict(X_train)
sse_train = sse(resid_train)
sse_train

In [None]:
# calcula o SSE do test dataset
resid_test = y_test - model.predict(X_test)
sse_test = sse(resid_test)
sse_test

In [None]:
# dados de treinamento
# Resultado muito grande --> valor não fez um bom trabalho
model.score(X_train, y_train)  # escore do r-quadrado = 1.0

In [None]:
# Matriz de coeficientes do modelo = r*r
print(model.coef_)

In [None]:
# dados de teste
# escore do dataset de teste
model.score(X_test, y_test) # grande diferença entre os datasets de treinamento e teste --> indica
                            # modelo "superaquecido"

In [None]:
# função de aproximacao grafica
def plot_valor_residuals_e_coef(resid_train, resid_test, coeff):
    fig, axes = plt.subplots(1, 3, figsize=(12, 3))
    axes[0].bar(np.arange(len(resid_train)), resid_train)
    axes[0].set_xlabel("Número de amostra")
    axes[0].set_ylabel("Residual")
    axes[0].set_title("dado de treinamento")
    axes[1].bar(np.arange(len(resid_test)), resid_test)
    axes[1].set_xlabel("Número de amostra")
    axes[1].set_ylabel("Residual")
    axes[1].set_title("Dados de teste")
    axes[2].bar(np.arange(len(coeff)), coeff)
    axes[2].set_xlabel("Número de coeficiente")
    axes[2].set_ylabel("Coeficiente")
    fig.tight_layout()
    return fig, axes

In [None]:
# grafico dos resultados
fig, ax = plot_valor_residuals_e_coef(resid_train, resid_test, model.coef_)

> O resíduo entre o modelo de regressão linear ordinário e os dados de treinamento (esquerda), o modelo e os dados de teste (meio) e os valores do coeficientes para os 50 recursos (direita).

> Problema de Overfiting devido a  poucos exemplos. Solução adicionar mais amostras.

In [None]:
# 1 solucion: -> regressao regularizada -> modelos matemáticos
model = linear_model.Ridge(alpha=2.5)

In [None]:
# Metodo de ajuste com os dados de treinamento
model.fit(X_train, y_train)

In [None]:
# calcular o modelo de predição para os datasets de treinamento e teste
resid_train = y_train - model.predict(X_train)
sse_train = sse(resid_train)
print('Treinamento:',sse_train)
#
resid_test = y_test - model.predict(X_test)
sse_test = sse(resid_test)
print('Teste:',sse_test)

> Observamos que o SSE dos dados de treinamento não está mais próximo de zero, mas há uma ligeira diminuição no SSE para os dados de teste

In [None]:
# resultados gráficos
fig, ax = plot_valor_residuals_e_coef(resid_train, resid_test, model.coef_)

> O resíduo entre o modelo de regressão regularizado de Ridge e
os dados de treinamento (esquerda), o modelo e os dados de teste (meio) e os valores dos coeficientes para os 50 recursos (direita)

In [None]:
# outro método regularização = LASSO
model = linear_model.Lasso(alpha=1.0)   # alpha = 1.0 arbitrario !!!!
# ajuste
model.fit(X_train, y_train)

In [None]:
# ajuste para o dataset de treinamento
resid_train = y_train - model.predict(X_train)
sse_train = sse(resid_train)
print('Treinameto:',sse_train)

In [None]:
# ajuste para o dataset de teste
resid_test = y_test - model.predict(X_test)
sse_test = sse(resid_test)
print('Teste:',sse_test)

> Notamos que enquanto o SSE dos dados de treinamento aumentou em comparação com a regressão comum, o SSE para os dados de teste diminuiu significativamente

In [None]:
# gráfico
fig, ax = plot_valor_residuals_e_coef(resid_train, resid_test, model.coef_)

> O resíduo entre o modelo de regressão regularizado LASSO e os dados de treinamento (esquerda), o modelo e os dados de teste (meio) e os valores do coeficientes para os 50 recursos (direita)

> Observamos que na regressão LASSO, uma vez que calculada parece funcionar bem para o problema atual, e resolvemos repetidamente o mesmo problema usando valores diferentes para o parâmetro de força de regularização $\alpha$ enquanto armazenamos os valores dos coeficientes e valores SSE em matrizes NumPy.

In [None]:
# criar novos valores
alphas = np.logspace(-4, 2, 100)
coeffs = np.zeros((len(alphas), X_train.shape[1]))
sse_train = np.zeros_like(alphas)
sse_test = np.zeros_like(alphas)

In [None]:
# Em seguida, fazemos um loop pelos valores α e realizamos a regressão LASSO para cada valor:
for n, alpha in enumerate(alphas):
    # modelo
    model = linear_model.Lasso(alpha=alpha, fit_intercept=False, tol=0.00001,
          max_iter=100000, positive=True)
    # ajuste
    model.fit(X_train, y_train)
    coeffs[n, :] = model.coef_
    sse_train[n] = sse(y_train - model.predict(X_train))
    sse_test[n] = sse(y_test - model.predict(X_test))

In [None]:
# Gráfico
fig, axes = plt.subplots(1, 2, figsize=(12, 4), sharex=True)
#
for n in range(coeffs.shape[1]):
    axes[0].plot(np.log10(alphas), coeffs[:, n], color='k', lw=0.5)
#  
axes[1].semilogy(np.log10(alphas), sse_train, label="treinamento")
axes[1].semilogy(np.log10(alphas), sse_test, label="teste")
axes[1].legend(loc=0)
#
axes[0].set_xlabel(r"${\log_{10}}\alpha$", fontsize=18)
axes[0].set_ylabel(r"coeficientes", fontsize=18)
#
axes[1].set_xlabel(r"${\log_{10}}\alpha$", fontsize=18)
axes[1].set_ylabel(r"sse", fontsize=18)
plt.show()

In [None]:
# ajustes usando o modelo
model = linear_model.LassoCV()
model.fit(X_all, y_all)

In [None]:
# valor regularizado
model.alpha_

In [None]:
# valores
esid_train = y_train - model.predict(X_train)
sse_train = sse(resid_train)
print('Treinamento:',sse_train)
resid_test = y_test - model.predict(X_test)
sse_test = sse(resid_test)
print('Teste:',sse_test)

In [None]:
# grafico
fig, ax = plot_valor_residuals_e_coef(resid_train, resid_test, model.coef_)

In [None]:
# ajuste
model = linear_model.ElasticNetCV()
model.fit(X_train, y_train)

In [None]:
# valores
print(model.alpha_)
print(model.l1_ratio)

In [None]:
# valores
resid_train = y_train - model.predict(X_train)
sse_train = sse(resid_train)
print('Treinamento:',sse_train)
resid_test = y_test - model.predict(X_test)
sse_test = sse(resid_test)
print('Teste:',sse_test)

In [None]:
# grafico
fig, ax = plot_valor_residuals_e_coef(resid_train, resid_test, model.coef_)

## Classificação - Iris Dataset

In [None]:
# load o dataset
iris = datasets.load_iris()
type(iris)

In [None]:
# visualizar nomes descritivos
print(iris.target_names)
print(iris.feature_names)

In [None]:
# visualizar dimensoes da matriz de dados
print(iris.data.shape)
print(iris.target.shape)

In [None]:
# split o dataset em dados de treiamento (70%) e teste(30%) e validacao
X_train, X_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target,
                                                                    train_size=0.7)

In [None]:
# clasificador a usar
classifier = linear_model.LogisticRegression()

In [None]:
# treinamento para clasificar é feito por ajustes (fit)
classifier.fit(X_train, y_train)

In [None]:
# Predicao dos dados = predic
y_test_pred = classifier.predict(X_test)

> O módulo **sklearn.metrics** contém funções auxiliares para auxiliar na análise do desempenho e precisão dos classificadores

In [None]:
# visualizar o reporte das metricas
report = metrics.classification_report(y_test, y_test_pred)
print(report)

In [None]:
# matriz de confusão
matriz_conf = metrics.confusion_matrix(y_test, y_test_pred)
print(matriz_conf)

In [None]:
# valores unicos
vu = np.bincount(y_test)
print(vu)

In [None]:
# usar outros classifcadores: arvore de decisão
classifier = tree.DecisionTreeClassifier()
classifier.fit(X_train, y_train)
y_test_pred = classifier.predict(X_test)

In [None]:
# visualiza as metricas
rep = metrics.confusion_matrix(y_test, y_test_pred)
print(rep)

In [None]:
# usando outros classifcadores
# vetor de treinamento
train_size_vec = np.linspace(0.1, 0.9, 30)

In [None]:
# classes de classifcadores arvore, vezinho mais proximo, RandomForest, calssifcador de suporte vetorial (SVC)
classifiers = [tree.DecisionTreeClassifier, neighbors.KNeighborsClassifier, svm.SVC,
               ensemble.RandomForestClassifier]

In [None]:
# guaradar la diagonal da matriz de confusao
cm_diags = np.zeros((3, len(train_size_vec), len(classifiers)),dtype=float)
#print(cm_diags)

In [None]:
# split os dados
for n, train_size in enumerate(train_size_vec):
    X_train, X_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target,
                                                                        train_size=train_size)
    for m, Classifier in enumerate(classifiers):
        classifier = Classifier()
        classifier.fit(X_train, y_train)
        y_test_p = classifier.predict(X_test)
        cm_diags[:, n, m] = metrics.confusion_matrix(y_test,y_test_p).diagonal()
        cm_diags[:, n, m] /= np.bincount(y_test)

In [None]:
# acuracia de clasificação = grafico
fig, axes = plt.subplots(1, len(classifiers), figsize=(12, 3))
#
for m, Classifier in enumerate(classifiers):
    axes[m].plot(train_size_vec, cm_diags[2, :, m], label=iris.target_names[2])
    axes[m].plot(train_size_vec, cm_diags[1, :, m], label=iris.target_names[1])
    axes[m].plot(train_size_vec, cm_diags[0, :, m], label=iris.target_names[0])
    axes[m].set_title(type(Classifier()).__name__)
    axes[m].set_ylim(0, 1.1)
    axes[m].set_ylabel("Acurácia da clssificação")
    axes[m].set_xlabel("P.T.T")
    axes[m].legend(loc=4)

## Clusterização - Iris dataset

In [None]:
# load os dados
X, y = iris.data, iris.target

In [None]:
# cluster usando k-means, especificar o numero de clusters
n_clusters = 3
clustering = cluster.KMeans(n_clusters=n_clusters)

In [None]:
# ajuste
clustering.fit(X)

In [None]:
# visualizar resultados usando metodo predict (fit_predict)
y_pred = clustering.predict(X)

In [None]:
# comparar valores
print(y_pred[::8])
print(y[::8])

In [None]:
# arrumar os valores
idx_0, idx_1, idx_2 = (np.where(y_pred == n) for n in range(3))
y_pred[idx_0], y_pred[idx_1], y_pred[idx_2] = 2, 0, 1
print(y_pred[idx_0])
print(y_pred[idx_1])
print(y_pred[idx_2])
print(y_pred[::8])

In [None]:
# matriz confusão
mc = metrics.confusion_matrix(y, y_pred)
print(mc)

In [None]:
# grafico
N = X.shape[1]
#
fig, axes = plt.subplots(N, N, figsize=(12, 12), sharex=True, sharey=True)
colors = ["coral", "blue", "green"]
markers = ["^", "v", "o"]
for m in range(N):
    for n in range(N):
        for p in range(n_clusters):
            mask = y_pred == p
            axes[m, n].scatter(X[:, m][mask], X[:, n][mask], s=30, marker=markers[p], 
                               color=colors[p], alpha=0.25)
        for idx in np.where(y != y_pred):
            axes[m, n].scatter(X[idx, m], X[idx, n], s=30, marker="s", edgecolor="red",
                               facecolor=(1,1,1,0))
    axes[N-1, m].set_xlabel(iris.feature_names[m], fontsize=16)
    axes[m, 0].set_ylabel(iris.feature_names[m], fontsize=16)

> O resultado do agrupamento das amostras do dataset íris na gigura acima mostra que o agrupamento faz um bom trabalho em reconhecimento de amostras que pertencem a diferentes grupos.

---
**Python para Data Science**. &copy; Jorge Zavaleta, 2021.