![PPGI_UFRJ](imagens/ppgi-ufrj.png)
# Fundamentos de Ciência de Dados

---
[![DOI](https://zenodo.org/badge/335308405.svg)](https://zenodo.org/badge/latestdoi/335308405)

---
# PPGI/UFRJ 2020.3/2022.2
## Prof Sergio Serra e Jorge Zavaleta

---
# Módulo 4 - Machine Learning

> O trabalho de pré-processamento de dados para **aprendizado de máquina** pelo geral leva mais tempo e está relacionado à  limpeça de dados incorretos ou falta dos mesmos. Algumas estimativas sugerem que é gasto cerca de dois terços do tempo previsto limpando e organizando os conjuntos de dados. Esta abordagem inclui tarefas como:

> - Mesclar os datasets em campos comuns para reunir todos os dados em uma única tabela.
> - Engenharia de recursos para melhorar a qualidade dos dados.
> - Remover ou preencher valores incorretos ou ausentes, por exemplo, substituindo os dados ausentes pela média ou mediana dos valores existentes para esse campo.
> - Eliminando registros duplicados.
> - Construir os conjuntos de dados de treinamento padronizando ou normalizando os dados necessários, aplicações para transformas as características e fazer divisão da população em amostras para treinamento, teste e validação.

## Scikit-learn
> A biblioteca **scikit-learn** contém uma coleção de algoritmos relacionados ao aprendizado de máquina, incluindo regressão, classificação, redução de dimensionalidade e agrupamento. 
> - Conta com ferramentas simples e eficientes para análise preditiva de dados.
> - Acessível a todos e reutilizável em vários contextos.
> - Desenvolvida em conjunto com NumPy, SciPy e matplotlib.
> - Código aberto, utilizável comercialmente - licença BSD
> - Maiores informações em [Scikit-learn](http://scikit-learn.org)

# Aprendizado Supervisionado

> ## Regressão Linear
> Uma das técnicas de aprendizado de máquina mais simples é a família de **modelos de regressão**. 
> O **modelo de regressão** é usado para prever uma **resposta** contínua e variável baseada em um conjunto de **caracteristicas**.

> A regressão linear assume que a relação entre as **caracteristicas (entradas)** e o **vetor objetivo** é **aproximadamente linear**. O **objetivo** do modelo linear é encontrar os valores dos parâmetros/características que criarão uma linha reta (**y**) que melhor se ajuste aos dados.

> ### $ y = w_{0} + w_{1}x_{1}+ w_{2}x_{2} +\epsilon $ 
> onde: $w$ são denominados pesos (coeficientes) indentificados ao ajustar o modelo, $x_{i}$ dado da caracteristica, $\epsilon$ é o error e $y$ é o vetor objetivo.

> Se pode definir a função objetivo $J_{w}$ (Jacobiano) para minimizar:
> ## $minJ_{w} = \frac{1}{2m}\sum_{i=1}^{m}(y_{w}(x^{(i)}) - y^{(i)})^{2}$
> onde: **m** número de amostras de treianemnto, $y_{w}(x^{(i)})$ valor estimando na $i^{th}$ amostra e $y^{i}$ é valor atual. 

> Esta é a função de custo de **y** (mede o custo do erro, quanto maior o erro, maior o custo). Este método também é conhecido como **sum of the squared error (SSE)** e outras varientes como **root mean square error (RMSE)** e **mean square error (MSE)** usados segundo seja o caso a ser analisado.

> ### $MSE = \frac{\sum_{i=1}^{n}(y_{p}-y)^{2}}{n}$, $MAE = \frac{\sum_{i=1}^{n}|y_{p}-y|}{n} $, $R^{2}=1- \frac{\sum_{i=1}^{n}(y - y_{p})^{2}}{\sum_{i=1}^{n}(y - \bar{y}_{p}))^{2}}$

In [None]:
# importando as bibliotecas
import numpy as np                                        # numpy
import matplotlib.pyplot as plt                           # graficos
import pandas as pd                                       # pandas
from sklearn.model_selection import train_test_split      # particionar o dataset: treinamento, teste
from sklearn.linear_model import LinearRegression         # regressão linear
from sklearn.preprocessing import StandardScaler          # preprocessamento estandar
import seaborn as sns                                     # seaborn
%matplotlib inline

In [None]:
# exemplo regressão linear
sns.set()
# gerando os dados aleatoriamente
valores = np.random.RandomState(1)
x = 10 * valores.rand(50)
y = 2 * x - 5 + valores.randn(50)
#cria a figura
fig1 = plt.figure(figsize=(8,6))
#
plt.scatter(x, y,color='red', s=50)
plt.show()
#fig1.savefig('imagens/reg0.png') # gravar a figura

In [None]:
# Usando a regressao linear
modelo = LinearRegression(fit_intercept=True)
#
# ajusta os valores no modelo (fit) --> aprendizagem
modelo.fit(x[:, np.newaxis], y)
#
# gera valores de ajuste
xfit = np.linspace(0, 10, 1000)
#
# predice os valores usando os valores de ajuste  --> predição
yfit = modelo.predict(xfit[:, np.newaxis])
#
# gera a gráfico
fig2 = plt.figure(figsize=(8,6))
plt.scatter(x, y, s=50, color='red')     # plota os pontos
plt.plot(xfit, yfit,'k',linewidth=4,label='y = 2.027x - 4.99') # plota a linha reta
plt.legend()
plt.show()
#fig2.savefig('imagens/reg1.png')

> $w_{0}$ é chamado de *bias* ou *interceptação* e poder ser visualizado usndo **intercept_**

In [None]:
# visualiza a interseção da linha reta
w0 = modelo.intercept_
print("Interseção da linha reta: w0 =",w0)

> E os pesos $w_{1}$ e $w_{2}$ são visualizados usando **coef_**

In [None]:
# visualiza os pesos
w1 = modelo.coef_[0]
print("Pesos: w1 = ", w1)

> ### linha reta da regressão

In [None]:
# linha reta
print('Linha reta :', 'y =',w1,'x',w0)

> ## Dataset: Preços das casa em Boston (pre-instalado)

In [None]:
# Leitura dos dados
from sklearn.datasets import load_boston
import warnings
#
with warnings.catch_warnings():
    warnings.filterwarnings("ignore")
    X, y = load_boston(return_X_y=True)
#
print(X.shape)
print(y.shape)
#boston = load_boston()

In [None]:
#x5 = X[:,5]

In [None]:
# descrição do dataset
#print(boston.DESCR)              # descrção do dataset
#print(boston.feature_names)    

In [None]:
# Particionado em entrada e saida
#x = boston.data                  # vetor de entrada
#
#y = boston.target               # vetor objetivo (preços das casas)

In [None]:
# Particionando o dataset por número médio de quartos por habitação (RM)
x5 = X[:,5]
#x5

In [None]:
# grafico
fig3 = plt.figure(figsize=(10,8))
plt.scatter(x5, y, s=50, color='blue')
plt.show()

In [None]:
# gerando o modelo de regressão
lr = LinearRegression()

In [None]:
# Transformando a matriz 2D em 1D
xt = np.transpose(np.atleast_2d(x5))
#
# ajusta os valores no modelo
lr.fit(xt, y)
#
# predição dos preços dos custos das casas
y_predicted = lr.predict(xt)

In [None]:
# grafico
fig4 = plt.figure(figsize=(10,8))
plt.scatter(x5, y, s=50, color='red')     # plota os pontos
plt.plot(xt, y_predicted,'k',linewidth=4, label='y = 9.102x - 34.67') # plota a linha reta
plt.xlabel('Casas em Boston')
plt.ylabel('Precios das casas')
plt.legend()
plt.show()
#fig4.savefig('imagens/reg2.png')

In [None]:
# visualiza a interseção da linha reta
print("Interseção da linha reta:", lr.intercept_)

In [None]:
# visualiza os pesos
print("Pesos da linha reta (w): ", lr.coef_[0])

In [None]:
# linha reta
print('Linha reta :', 'y =',lr.coef_[0],'x',lr.intercept_)

>  O gráfico anterior mostra os pontos e o ajuste (linha reta). Visualmente parecem estar bem distribuidos, no entanto, observa-se que existem **outliers**. 

> Idealmente, entretanto, se pode medir o quão bom é um ajuste quantitativo com a finalidade de comparar métodos alternativos. Isto pode ser feito medindo o quão perto a previsão está dos valores verdadeiros. Este procedimento pode ser feito usando **MSE**.

In [None]:
# usando o MSE do scikit-learn
from sklearn.metrics import mean_squared_error
#
#mse = mean_squared_error(y, lr.predict(xt))
mse = mean_squared_error(y, y_predicted)    # erro = y - yp
print("Mean Squared Error (MSE) = {:.3}".format(mse))

In [None]:
# Tambem se pode usar RMSE
rmse = np.sqrt(mse)
print("RMSE = {:.3}".format(rmse))

In [None]:
# O coeficiente de determinação pode ser obtido usando r2_score
from sklearn.metrics import r2_score
#
r2 = r2_score(y,y_predicted)        # y - yp
print("R2 = {:.2}".format(r2))

In [None]:
# alternativa: calculo dos coeficientes de determianação - opção
r2 = lr.score(xt,y)
print("R2 = {:.2}".format(r2))

> ### Visualização das curvas de treinamento e teste

In [None]:
# particionando o dataset em treiamento e teste
Xb_train, Xb_test, yb_train, yb_test = train_test_split(X,y,test_size=0.3,random_state=42)

In [None]:
# criando o modelo
lr_boston =  LinearRegression()
#
# ajustando os valores
fit_boston = lr_boston.fit(Xb_train,yb_train)
#
print('Escore da Regressão R2: {:.4f}'.format(lr_boston.score(Xb_test,yb_test)))

In [None]:
# predicção
yb_pred = lr_boston.predict(Xb_test)
e_boston = yb_pred-yb_test
print('RMSE: {:.4f}'.format(np.sqrt(mean_squared_error(yb_test,yb_pred))))

In [None]:
# calulda o SSE (sum of squared errors)
def sse(residual):
    return np.sum(np.power(residual,2))

In [None]:
# calculando os residuais
resid_train = yb_train - lr_boston.predict(Xb_train)
print('Residual Treinamento: ',sse(resid_train))
resid_test = yb_test - lr_boston.predict(Xb_test)
print('Residual Teste: ',sse(resid_test))

In [None]:
# alternativa: medir o ajuste do modelo para o dataset é R2 (R-squared score)
print('Treinamento:',lr_boston.score(Xb_train, yb_train))
print('Test',lr_boston.score(Xb_test, yb_test))

In [None]:
# calculos auxiliares
alfas = np.logspace(-6, 2, 100)
coeffs = np.zeros((len(alfas), Xb_train.shape[1]))   # matriz de zeros
sse_train = np.zeros_like(alfas)
sse_test = np.zeros_like(alfas)

In [None]:
# Usando outro modelo de regularização
from sklearn import linear_model                           # Modelo linear
# alfa=2.5
#lm_boston = linear_model.Ridge(alpha=2.5)
#linear_model.Ridge(alpha=2.5)
for n, alpha in enumerate(alfas):
    model_boston = linear_model.Lasso(alpha=alpha)
    model_boston.fit(Xb_train, yb_train)
    coeffs[n, :] = model_boston.coef_
    sse_train[n] = sse(yb_train - model_boston.predict(Xb_train))
    sse_test[n] = sse(yb_test - model_boston.predict(Xb_test))

In [None]:
fig, b = plt.subplots(1, 2, figsize=(12, 4), sharex=True)
for n in range(coeffs.shape[1]):
    b[0].plot(np.log10(alfas), coeffs[:, n], color='k', lw=1)
    #
b[1].semilogy(np.log10(alfas), sse_train, 'b', lw=2, label="treinamento")
b[1].semilogy(np.log10(alfas), sse_test, 'r',lw=2, label="teste")
b[1].legend(loc=0)
#
b[0].set_xlabel(r"${\log_{10}}\alpha$", fontsize=18)
b[0].set_ylabel(r"coeficientes", fontsize=18)
b[1].set_xlabel(r"${\log_{10}}\alpha$", fontsize=18)
b[1].set_ylabel(r"sse", fontsize=18)
#
plt.tight_layout()
plt.show()

> ## dataset: Diabetes
>> Este dataset pode ser encontrado no Kaggle [Diabetes](https://www.kaggle.com/saurabh00007/diabetescsv)

In [None]:
# Dataset diabetes
diabetes_data = pd.read_csv('data/diabetes.csv')
diabetes_data.head()

In [None]:
# processando os dados
df_diabetes=pd.DataFrame(diabetes_data)
#df_diabetes.head()
# Creating a new column containing response variable 'y' 

In [None]:
# Criando a matriz de caracteristicas
XD = df_diabetes.iloc[:,:-1]
#print(XD.head())
# Criando o vetor objetivo (Outcome)
yd = df_diabetes.iloc[:,-1]
#print(yd)

In [None]:
# visualizar por pares
#sns.set()
sns.pairplot(df_diabetes, hue='Outcome', height=1.5);

In [None]:
# Escolher BMI -. variavel de entrada
bmi = np.array(XD['BMI'])
bmi = bmi[:,np.newaxis]
#
# diabetes: objetivo (Outcome)
yd = np.array(df_diabetes.iloc[:,-1])
yd = yd[:,np.newaxis]

In [None]:
# criando o modelo linear
diabetes_lr = LinearRegression()
#
# Ajuste do modelo
diabetes_lr.fit(bmi,yd)
#
# prediction
yd_predicted = diabetes_lr.predict(bmi)

In [None]:
# regressao linear (BMI= Body Mass Index)
diabetes = plt.figure(figsize=(10,6))
plt.scatter(bmi, yd, color='blue', s=50)
plt.plot(bmi, yd_predicted, c='r', linewidth=4, label='y = 0.0161x - 0.176')
plt.title('Regressão Linear - Diabetes')
plt.ylabel("Diabetes:[Sim, Não]")
plt.xlabel("BMI: Índice de Massa Muscular")
plt.legend()
plt.show()
#diabetes.savefig('imagens/diabetes.png')

In [None]:
from sklearn.model_selection import cross_val_score
mse = cross_val_score(diabetes_lr,bmi,yd,scoring='neg_mean_squared_error',cv=10)
# mean(): indicador de bom modelo
mse.mean()

In [None]:
# linha reta
print('Linha reta :', 'y =',diabetes_lr.coef_[0][0],'x',diabetes_lr.intercept_[0])

In [None]:
# particionando o dataset em treiamento e teste
Xd_train, Xd_test, yd_train, yd_test= train_test_split(bmi,yd,test_size=0.3,random_state=42)

In [None]:
# criando o modelo
lr_diabetes =  LinearRegression()
#
# ajustando os valores
fit_diabetes = lr_diabetes.fit(Xd_train,yd_train)
#
print('Escore da Regressão R2: {:.4f}'.format(lr_diabetes.score(Xd_test,yd_test)))

In [None]:
# calculando os residuais
resid_train_dia = yd_train - lr_diabetes.predict(Xd_train)
print('Residual Treinamento: ',sse(resid_train_dia))
resid_test_dia = yd_test - lr_diabetes.predict(Xd_test)
print('Residual Teste: ',sse(resid_test_dia))

In [None]:
# alternativa: medir o ajuste do modelo para o dataset é R2 (R-squared score)
print('Treinamento:',lr_diabetes.score(Xd_train, yd_train))
print('Test',lr_diabetes.score(Xd_test, yd_test))

> ## Classificação
>> A classificação é uma técnica que permite saber se um elemento pertence a uma determianada classe. Se existem duas classes como elementos sim/não, verdadeiro/falso, então é denominada de **classifcação binária**.
>> Os algoritmos usados com maior frequência são:
>> - Regressão logística
>> - Árvores de decisão
>> - SVM - Support Vertor Machine

> ## Dataset: Rede Social
>> Dataset encontrado no Kaggle [dataset](https://www.kaggle.com/rakeshrau/social-network-ads)

In [None]:
# Redes Sociais
rede_social = pd.read_csv('data/Social_Network_Ads.csv',delimiter=',')
rede_social.head()

In [None]:
# conjuntos de Treinamento (X) e Teste (y)
X = rede_social.iloc[:, [2, 3]].values # treinamento colunas Age e EstimatedSalary
y = rede_social.iloc[:, 4].values # teste (comprado ou não)

In [None]:
# cortando em conjuntos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3,random_state = 0)
print('X-train:',X_train.shape)
print('y-train:',y_train.shape)
print('X-test:',X_test.shape)
print('y-test:',y_test.shape)

In [None]:
# escalonamento das caracteristicas
rs_sc = StandardScaler()
X_train = rs_sc.fit_transform(X_train)     # ajusta os dados ao modelo
X_test = rs_sc.transform(X_test)           # std dos dados
#print('X_train:',X_train)
#print('X_test:',X_test)

>### Classificação usando Regressão Logística

In [None]:
# Fitting Logistic Regression to the Training set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
#
classificador_rs = LogisticRegression(random_state = 0)
classificador_rs.fit(X_train, y_train)

In [None]:
# Predicão dos resultados do conjunto de teste
yrs_pred = classificador_rs.predict(X_test)

In [None]:
# calculando os residuais
# calulda o SSE (sum of squared errors)
def sse_rs(residual):
    return np.sum(np.power(residual,2))
#
resid_train_rs = y_train - classificador_rs.predict(X_train)
print('Residual Treinamento RS =',sse_rs(resid_train_rs))
resid_test_rs = y_test - classificador_rs.predict(X_test)
print('Residual Teste RS =',sse_rs(resid_test_rs))

In [None]:
# alternativa: medir o ajuste do modelo para o dataset é R2 (R-squared score)
print('Treinamento RS =',classificador_rs.score(X_train, y_train))
print('Test RS =',classificador_rs.score(X_test, y_test))

In [None]:
# criando a matriz de confusão
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, yrs_pred)
#
plt.figure(figsize=(4,3)) 
sns.heatmap(cm.T, annot=True, cmap='gist_ncar_r')
plt.title('Matriz de confusão da Regressão logística',y=1.05, size=13)
plt.xlabel('Valores verdadeiros')
plt.ylabel('Valores predecidos')
plt.show()

In [None]:
# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, 
                               step=0.01),np.arange(start = X_set[:, 1].min() - 1, 
                                                    stop = X_set[:, 1].max() + 1, step = 0.01))
# gravar a figura
classe0 = plt.figure(figsize=(10,8))
#
plt.contourf(X1, X2, classificador_rs.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('#B0E0E6', '#FF6347')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0 ], X_set[y_set == j, 1], c = ['blue', 'red'][i], label = j)
plt.title('Classificação usando Regressão Logistica (CT: 0 = Não compra, 1 = compra)')
plt.xlabel('Idade')
plt.ylabel('Salario Estimado')
plt.legend()
plt.show()
#classe0.savefig('imagens/classe0.png')

In [None]:
# Visualizar os resultados do teste
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, 
                               step =0.01), 
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, 
                               step = 0.01))
# gravar a figura
classe1 = plt.figure(figsize=(10,8))
#
plt.contourf(X1, X2, classificador_rs.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('#B0E0E6', '#FF6347')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
    c = ['blue', 'red'][i], label = j)
plt.title('Classificação usando Regressão Logistica (Conjunto de Teste: 0 = Não compra, 1 = compra)')
plt.xlabel('Idade')
plt.ylabel('Salário estimado')
plt.legend()
plt.show()
#classe1.savefig('imagens/classe1.png')

> ### Classificação usando SVM

In [None]:
# importando o classificador SVC (Support Vertorial Classifier)
from sklearn.svm import SVC
#
Xr_train, Xr_test, yr_train, yr_test = train_test_split(X, y, test_size = 0.3, random_state=0)  # split dataset

In [None]:
# classificador
scaler = StandardScaler()                          # modelo
#
X_train_std = scaler.fit_transform(Xr_train)       # ajuste ao treinamento
X_test_std = scaler.fit_transform(Xr_test)         # ajuste ao teste
#
svm = SVC(gamma='auto').fit(X_train_std, yr_train)   # svm
#svm = SVC(kernel='rbf', random_state=0, gamma=.10, C=1.0).fit(X_train_std, yr_train)
#
Xr_pred = svm.predict(X_train_std)                   # predição do treinamento
yr_pred = svm.predict(X_test_std)                    # predição no teste

In [None]:
# calcula os residuais
resid_train_r = yr_train - svm.predict(Xr_train)
print('Residual Treinamento RS =',sse_rs(resid_train_r))
resid_test_r = yr_test - svm.predict(Xr_test)
print('Residual Teste RS =',sse_rs(resid_test_r))

In [None]:
# alternativa: medir o ajuste do modelo para o dataset é R2 (R-squared score)
print('Treinamento RS =',svm.score(Xr_train, yr_train))
print('Test RS =',svm.score(Xr_test, yr_test))

In [None]:
# matriz de confussão
cm_rs = confusion_matrix(yr_test, yr_pred)
#
plt.figure(figsize=(6,4)) 
sns.heatmap(cm_rs.T, annot=True, cmap='gist_ncar_r')
plt.title('Matriz de confusão usando SVM',y=1.05, size=15)
plt.xlabel('Valores verdadeiros')
plt.ylabel('Valores predecidos')
plt.show()

> ### dataset: Vinho
>> Dataset encontrado no [Kaggle](https://www.kaggle.com/datasets)

In [None]:
# vinho
vinho = pd.read_csv('data/wine.csv')
vinho.head()

In [None]:
# Transformacoes
Xv = vinho.iloc[:,1]                       # alcool
Xv = np.array(Xv)
# matriz exemplos x caracteristicas
Xvinho =Xv[:,np.newaxis]
# objetivos
yv= vinho.iloc[:,0]                       # classes 1,2,3
yv = np.array(yv)
yvinho=yv[:,np.newaxis]
yvinho = np.ravel(yvinho) #
#print(yvinho.shape)

In [None]:
# estatisticas básica
#vinho.describe()

In [None]:
# plot alcool
sns.histplot(Xvinho, kde=1, color='red', label='Alcohol')
plt.legend()
plt.xlabel('Álcool')
plt.show()

In [None]:
# plot classes
sns.histplot(yvinho, kde=1, color='red',label='Classes')
plt.legend()
plt.xlabel('Classes')
plt.show()

In [None]:
# distribuicao de alcool por classe
figvinho = plt.figure(figsize=(8,6))
sns.histplot(vinho['Alcohol'][yvinho==1],kde=1,label='Classe 1', color='red')
sns.histplot(vinho['Alcohol'][yvinho==2],kde=1,label='Classe 2',color='blue')
sns.histplot(vinho['Alcohol'][yvinho==3],kde=1,label='Classe 3',color='green')
plt.ylabel('Classes')
plt.legend()
plt.show()
#figvinho.savefig('images/classes_vinho.png')

In [None]:
# cortando os dados
Xv_train, Xv_test, yv_train, yv_test = train_test_split(Xvinho, yvinho, test_size=0.3, random_state=0)

In [None]:
# adicionando metricas
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
#
modelo_vinho = DecisionTreeClassifier(random_state=1)     # cria o modelo de Arvore binaria
#
vinho_fit = modelo_vinho.fit(Xv_train, yv_train)          # ajusta aos valores do modelo treinamento
#
#Xv_pred = vinho_fit.predict(Xv_train)                     # predice sobre o treinamento
yv_pred = vinho_fit.predict(Xv_test)                      # predice sobre o teste

In [None]:
# visualzia o resporte de metricas
metricas = classification_report(yv_test, yv_pred)
print(metricas)

In [None]:
# calcula os residuais
def sse_v(residual):
    return np.sum(np.power(residual,2))
#
resid_train_v = yv_train - modelo_vinho.predict(Xv_train)
print('Residual Treinamento RS =',sse_v(resid_train_v))
resid_test_v = yv_test - modelo_vinho.predict(Xv_test)
print('Residual Teste RS =',sse_v(resid_test_v))

In [None]:
# Calculando R2 (R-squared score)
print('Treinamento Vinho =',modelo_vinho.score(Xv_train, yv_train))
print('Teste Vinho =',modelo_vinho.score(Xv_test, yv_test))

In [None]:
# Calcula a acurácia
#ac_vinho = accuracy_score(yv_test, vinho_fit.predict(Xv_test))
ac_vinho = accuracy_score(yv_test, yv_pred)
print('Accuracy score = {:.3}'.format(ac_vinho*100),'%')

In [None]:
# matriz de confusão
cm_v = confusion_matrix(yv_test, yv_pred)
#
plt.figure(figsize=(6,4)) 
sns.heatmap(cm_v.T, annot=True, cmap='gist_ncar_r')
plt.title('Matriz de confusão usando DecisionTree',y=1.05, size=15)
plt.xlabel('Classes')
plt.ylabel('Classes predecidas')
plt.show()

##  Aprendizado Não-Supervisionado

> ## Clusterização
>> O processo de clusterização (agrupamento) permite classificar em conjuntos os dados semelhantes usando alguma característica comum a eles. Neste processo não é fornecido nenhum treinamento para descobrir os agrupamentos existentes nos dados. Os grupos gerados por essa classificação são chamados clusters.

> ### Dataset: Consumidor - Shooping
>> Dataset encontrado no [Kaggle](https://www.kaggle.com/kondapuramshivani/mall-customerscsv)

In [None]:
# clientes de shopping
shopping_data = pd.read_csv('data/Mall_customers.csv')
shopping_data.head()

Deseja-se agrupar os clientes de acordo com sua receita anual e pontuação de gastos no shopping.

O objetivo é encontrar os clusters (conjuntos) e ajudar o departamento de marketing a
formular suas estratégias de venda. Por exemplo, podemos subdividir os clientes em 5 grupos distintos:
1. Renda anual média, pontuação média de gastos
2. Renda anual alta, baixa pontuação de gasto
3. Baixa renda anual, baixa pontuação de gastos
4. Baixa renda anual, alta pontuação de gastos
5. Alta renda anual, alta pontuação de gastos

In [None]:
# Gerandos os conjuntos de Treinamento e teste : clusters (opcao 5)
Xc = shopping_data.iloc[:, [3, 4]].values
#print(Xc)
print(Xc.shape)

In [None]:
# calacula o numero de clustes: metodo ELBOW
from sklearn.cluster import KMeans
warnings.filterwarnings('ignore')
#
def calculate_wcss(data):
    wcss = []
    for i in range(1,11):
        kmeans = KMeans(n_clusters=i)
        kmeans.fit(X=data)
        wcss.append(kmeans.inertia_)
        #
    return wcss

In [None]:
# Calculando o WCSS
wcss = calculate_wcss(Xc)

In [None]:
# gráfico WCSS (Within-Cluster Sum of Square)
fig = plt.figure(figsize=(6,4))
plt.plot(range(1, 11), wcss, 'r', lw=2.0)
plt.title('Método de Elbow')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')
plt.grid()
plt.show()

In [None]:
# Inicializa os clusters
#sns.set()
kmeans= KMeans(n_clusters = 5, init ='k-means++', max_iter=300, n_init = 10, random_state=0)
#
# prognóstico dos clusters
y_kmeans = kmeans.fit_predict(Xc)        # ajusta os clusters
#
# figure
cluster = plt.figure(figsize=(15,10))
#
plt.scatter(Xc[y_kmeans == 0, 0], Xc[y_kmeans == 0, 1], s = 100, c = 'red', label = 'Cluster 1')
plt.scatter(Xc[y_kmeans == 1, 0], Xc[y_kmeans == 1, 1], s = 100, c = 'blue', label = 'Cluster 2')
plt.scatter(Xc[y_kmeans == 2, 0], Xc[y_kmeans == 2, 1], s = 100, c = 'green', label = 'Cluster 3')
plt.scatter(Xc[y_kmeans == 3, 0], Xc[y_kmeans == 3, 1], s = 100, c = 'cyan', label = 'Cluster 4')
plt.scatter(Xc[y_kmeans == 4, 0], Xc[y_kmeans == 4, 1], s = 100, c ='yellow', label = 'Cluster 5')
#
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c = 'black', label = 'Centroides')
plt.title('Clusters de consumidores')
plt.xlabel('Ingresso Anual (R$)')
plt.ylabel('Pontuação de Gastos (1-100)')
plt.legend()
plt.show()
#cluster.savefig('imagens/cluster.png')

In [None]:
# Visualizar as etiquetas
#print(kmeans.labels_)
#print(kmeans.cluster_centers_)

In [None]:
# Metrica de escore para clusters
from sklearn.metrics import silhouette_score
from yellowbrick.cluster import KElbowVisualizer, SilhouetteVisualizer
#
escore = silhouette_score(Xc, kmeans.labels_)
print('Silhouette score: {:.3}'.format(escore))
print('Silhouette score: {:.3}'.format(escore*100),'%')

In [None]:
# Visualizar o Silhouette escore
modelx = KMeans(5)
visualizer = SilhouetteVisualizer(modelx, colors='yellowbrick')
#
visualizer.fit(Xc)    # Fit the data to the visualizer
visualizer.show();

### PCA - Análise de Componentes Principais

In [None]:
#sns.set()
aleatorio = np.random.RandomState(1)
X_PCA = np.dot(aleatorio.rand(2, 2), aleatorio.randn(2, 200)).T
plt.scatter(X_PCA[:, 0], X_PCA[:, 1],color='red')
plt.axis('equal');

In [None]:
# importando a bibliotecas
from sklearn.decomposition import PCA
#
# Principal Components Analysis
pca = PCA(n_components=2)
pca.fit(X_PCA)

In [None]:
# definir a direção do vetor sobre os dados de entrada
print(pca.components_)

In [None]:
# Definir o comprimento do quadrado do vetor
print(pca.explained_variance_)

In [None]:
# desenhar o vetor
def draw_vector(v0, v1, ax=None):
    ax = ax or plt.gca()
    arrowprops=dict(color='blue',arrowstyle='->',linewidth=2,shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

In [None]:
# Plotar os dados
plt.scatter(X_PCA[:, 0], X_PCA[:, 1], alpha=0.5,color='red')
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v)
plt.axis('equal');

> ## Imagem Jackalope - Processamento de imagens
>> Imagem em [Jackalope](https://dx.doi.org/10.6084/m9.figshare.2067186.v1)

In [None]:
# Visualizar imagem Jackalope
from IPython.display import Image
Image(filename='imagens/Jackalope.png') 

In [None]:
# Leitura de uma imagem
from numpy import mean, size
from skimage.io import imread
#
A = imread(r'imagens/Jackalope.png')

In [None]:
# dimensões da matriz da imagem
print(np.shape(A))

In [None]:
# média dos valores das camadas
A1 = np.mean(A,2)
print(A1)

In [None]:
#
full_pc = np.size(A1, axis=1)
print(full_pc)

In [None]:
# decomposicao
from sklearn import decomposition
from pylab import *
from sklearn import preprocessing

In [None]:
components = range(0,250,50)
#
fig = plt.figure()
#
for i, num_pc in enumerate(components):
    i+=1
    pca = decomposition.PCA(n_components=num_pc)
    pca.fit(A1)                                               # ajusta a imagem
    #
    Rec = pca.inverse_transform(pca.transform(A1))
    #
    ax = fig.add_subplot(2,3,i,frame_on=False)
    #
    # removing ticks
    ax.xaxis.set_major_locator(plt.NullLocator())
    ax.yaxis.set_major_locator(plt.NullLocator())
    imshow(Rec)
    title(str(num_pc) + ' PCs')
    gray()

> ## Imagem Andres - Processamento de Imagens

In [None]:
# Visualizar imagem Jackalope
from IPython.display import Image
Image(filename='imagens/Andres_z.png') 

In [None]:
# Leitura de uma imagem
from numpy import mean, size
from skimage.io import imread
#
Andres = imread(r'imagens/Andres_z.png')

In [None]:
# dimensões da matriz da imagem
print(np.shape(Andres))

In [None]:
# média dos valores das camadas
Az = np.mean(Andres,2)
print(Az)

In [None]:
# Componentes principais
Andres_pc = np.size(Andres, axis=1)
print(Andres_pc)

In [None]:
# decomposicao
from sklearn import decomposition
from pylab import *
from sklearn import preprocessing

In [None]:
components = range(0,900,100)
#
fig = plt.figure()
#
for i, num_pc in enumerate(components):
    i+=1
    pca = decomposition.PCA(n_components=num_pc)              # decomposicao em n# componentes
    pca.fit(Az)                                               # ajusta a imagem
    #
    Rec = pca.inverse_transform(pca.transform(Az))            # transformacoes matriciais
    #
    ax = fig.add_subplot(2,6,i,frame_on=False)
    #
    # removing ticks
    ax.xaxis.set_major_locator(plt.NullLocator())
    ax.yaxis.set_major_locator(plt.NullLocator())
    imshow(Rec)
    title(str(num_pc) + ' PCs')
    gray()
#fig.savefig('imagens/andres_pca.png')

> ## Análise da Qualidade de vinho Tinto
>> Dataset encontrado em [Vinho Tinto](http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/)

In [None]:
# leitura do dataset
vtinto = pd.read_csv('data/winequality-red.csv', sep=';')
vtinto.head()

In [None]:
# particionando o dataset
Xt = vtinto.iloc[:,[0,1,2,3,4,5,6,7,8,9,10]].values   # Data
y = vtinto.quality                                    # objetivo

In [None]:
# estandarizar os dados: z = (x-mu)/var
Xt = preprocessing.StandardScaler().fit(Xt).transform(Xt)

In [None]:
# graficar
model_v = PCA()                                            # cria a instancia
result = model_v.fit(Xt)                                   # ajusta ao modelo (preditor)
Z = result.transform(Xt)                                   # Z = (x-mu)/var
plt.plot(result.explained_variance_)                       # explica a varianca
plt.ylabel('% de variança')
plt.xlabel('Número de Componentes')
plt.show()  

In [None]:
# Esplicacao Raio da variancia : 'explained_variance_ratio_'
#
ev = result.explained_variance_ratio_
print(ev)

In [None]:
# Interpretacao do grafico anterior
info = pd.read_csv('data/pca_wine.txt',sep=';')
info.head(11)

In [None]:
# Visualizar o numero de cluster usando k-means
from yellowbrick.cluster import KElbowVisualizer
#
model = KMeans()
visualizer = KElbowVisualizer(model, k=(1,11))          # k(1,11)-> numero de variaveis
#
visualizer.fit(Xt)        
visualizer.show();

> ## Cancer
>> Dataset pre-instalado no scikit-learn

In [None]:
# importando o dataset
from sklearn.datasets import load_breast_cancer
#
cancer = load_breast_cancer()                          # carrega o dataset
#
scaler = StandardScaler()                              # modelo de estandarizacao
scaler.fit(cancer.data)                                     # ajusta os dados ao modelo
X_scaled = scaler.transform(cancer.data)               # transforma os dados  std

In [None]:
# keep the first two principal components of the data
pca_c = PCA(n_components=2)
#                            
pca_c.fit(X_scaled)                                # ajusta os valores ao modelo
#
X_pca = pca_c.transform(X_scaled)                  # transforma os dados em duas PCA
print("Dimensão Original: {}".format(str(X_scaled.shape)))
print("Dimensão Reduzida: {}".format(str(X_pca.shape)))

In [None]:
# gera a cor e a figura
#
B = (cancer.target == 0)
M = (cancer.target == 1)
#
fig = plt.figure(figsize=(8,8))
#
plt.scatter(X_pca[B, 0], X_pca[B, 1], marker='s', c='r', s=60, label='B', edgecolor='r', alpha=0.8)
plt.scatter(X_pca[M, 0], X_pca[M, 1], marker='o', c='b', s=60, label='M', edgecolor='b', alpha=0.8)
plt.legend()
#
plt.title("Treinamento de dados de cancer projetados em subespaços 2D")
plt.xlabel("Primeira Componente Principal")
plt.ylabel("Segunda Componente Principal")
plt.tight_layout()
plt.show()
#fig.savefig('imagens/cancer_pca.png')

> ### Dataset: Handwritten digits
>> Dataset pre-instalado no scikit-learn

In [None]:
# PCA como reducao de dimensoes usando datasets: digitos manuscritos
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape

In [None]:
# imagens de 8x8 pixels
pca = PCA(2) # project from 64 to 2 dimensions
projected = pca.fit_transform(digits.data)
print(digits.data.shape)
print(projected.shape)

In [None]:
# plot PCA
# labels
t0 = (digits.target == 0)
t1 = (digits.target == 1)
t2 = (digits.target == 2)
t3 = (digits.target == 3)
t4 = (digits.target == 4)
t5 = (digits.target == 5)
t6 = (digits.target == 6)
t7 = (digits.target == 7)
t8 = (digits.target == 8)
t9 = (digits.target == 9)
#
pca = plt.figure(figsize=(10,8))
#
plt.scatter(projected[t0, 0], projected[t0, 1],c='r', label='0',edgecolor='none', alpha=0.8)
plt.scatter(projected[t1, 0], projected[t1, 1],c='g', label='1',edgecolor='none', alpha=0.8)
plt.scatter(projected[t2, 0], projected[t2, 1],c='b', label='2',edgecolor='none', alpha=0.8)
plt.scatter(projected[t3, 0], projected[t3, 1],c='k', label='3',edgecolor='none', alpha=0.8)
plt.scatter(projected[t4, 0], projected[t4, 1],c='y', label='4',edgecolor='none', alpha=0.8)
plt.scatter(projected[t5, 0], projected[t5, 1],c='peru', label='5',edgecolor='none', alpha=0.8)
plt.scatter(projected[t6, 0], projected[t6, 1],c='c', label='6', edgecolor='none', alpha=0.8)
plt.scatter(projected[t7, 0], projected[t7, 1],c='lime', label='7',edgecolor='none', alpha=0.8)
plt.scatter(projected[t8, 0], projected[t8, 1],c='deeppink', label='8',edgecolor='none', alpha=0.8)
plt.scatter(projected[t9, 0], projected[t9, 1],c='dodgerblue', label='9',edgecolor='none', alpha=0.8)
#
plt.legend()
plt.xlabel('componente 1')
plt.ylabel('componente 2')
plt.colorbar()
plt.show()
#pca.savefig('imagens/digits_pca.png')

---
#### Fundamentos para Ciência Dados &copy; Copyright 2020-2022, Sergio Serra & Jorge Zavaleta