# Trabalho Prático3 - Bootcamp IGTI: Engenheiro(a) de Machine Learning

## Objetivos

* Exercitar conceitos sobre medidas de desempenho para regressão.
* Modelar um problema como uma tarefa de regressão.
* Exercitar conceitos sobre medidas de desempenho para classificação.
* Modelar um problema como uma tarefa de classificação.
* Avaliar um modelo de classificação.
* Exercitar conceitos sobre medidas de desempenho para clusterização.
* Modelar um problema como uma tarefa de clusterização.
* Avaliar um modelo de clustering.

## Enunciado

Neste trabalho, serão modelados três problemas diferentes utilizando medidas de desempenho vistas em sala de aula. Para o problema de regressão, será utilizada a base de dados diabetes_numeric.csv e uma regressão linear. Para o problema de classificação, será utilizada a base de dados bloodtransf.csv e um SVM. Para o problema de clusterização, será utilizada a base de dados wine.csv e o algoritmo KMeans.

## Atividades

**Os alunos deverão desempenhar as seguintes atividades:**
1. Baixar os arquivos referentes às bases de dados e acessá-las pelo collab.
2. Obter informações sobre números de features e instâncias dos datasets.
3. Identificar a existência de dados faltantes nos datasets.
4. Separar os conjuntos de treino e teste, usando a função train_test_slipt, com test_size = 0.37 e random_state = 5762.
5. Importar o sklearn para:
6. Aplicar à base diabetes_numeric.csv o modelo de regressão linear.
7. Avaliar as métricas R2, MAE e MSE.
8. Aplicar à base bloodtransf.csv o modelo SVC, com kernel=rbf.
9. Avaliar as métricas Acurácia, Precision, Recall, F1 e AUROC
10. Aplicar à base wine.csv o modelo kmeans.
11. Identificar o número de clusters mais adequado de acordo com o dataset.
12. Utilizar random_state = 5762.
13. Avaliar as métricas Coeficiente de Silhueta, Davies-Bouldin Score e Mutual Information

In [2]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 

In [None]:
# Sobre o número de instâncias da base de classificação, marque a alternativa CORRETA:

In [3]:
df = pd.read_csv('../data/diabetes_numeric.csv')

In [4]:
df.shape

(43, 3)

In [7]:
df.head()

Unnamed: 0,age,deficit,c_peptide
0,5.2,-8.1,4.8
1,8.8,-16.1,4.1
2,10.5,-0.9,5.2
3,10.6,-7.8,5.5
4,10.4,-29.0,5.0


In [None]:
# Sobre o número de instâncias da base de classificação, marque a alternativa CORRETA:

In [5]:
df_cl = pd.read_csv('../data/bloodtransf.csv')

In [6]:
df_cl.shape

(748, 5)

In [8]:
# Sobre a base de clusterização, marque a alternativa CORRETA:

In [10]:
df_cluster = pd.read_csv('../data/wine.csv')
df_cluster.head()

Unnamed: 0,class,Alcohol,Malic_acid,Ash,Alcalinity_of_ash,Magnesium,Total_phenols,Flavanoids,Nonflavanoid_phenols,Proanthocyanins,Color_intensity,Hue,OD280%2FOD315_of_diluted_wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [12]:
df_cluster['class'].unique()

array([1, 2, 3], dtype=int64)

In [14]:
# Sobre dados faltantes, marque a alternativa CORRETA:

In [15]:
df.isnull().sum()

age          0
deficit      0
c_peptide    0
dtype: int64

In [16]:
df_cl.isnull().sum()

V1       0
V2       0
V3       0
V4       0
Class    0
dtype: int64

In [17]:
df_cluster.isnull().sum()

class                             0
Alcohol                           0
Malic_acid                        0
Ash                               0
Alcalinity_of_ash                 0
Magnesium                         0
Total_phenols                     0
Flavanoids                        0
Nonflavanoid_phenols              0
Proanthocyanins                   0
Color_intensity                   0
Hue                               0
OD280%2FOD315_of_diluted_wines    0
Proline                           0
dtype: int64

In [19]:
# Em relação à modelagem utilizando a regressão linear, marque a alternativa CORRETA sobre a métrica r2:
# Em relação à modelagem utilizando a regressão linear, marque a alternativa CORRETA sobre a métrica MAE:
# Em relação à modelagem utilizando a regressão linear, marque a alternativa CORRETA sobre a métrica MSE:     

In [26]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [27]:
df.head()

Unnamed: 0,age,deficit,c_peptide
0,5.2,-8.1,4.8
1,8.8,-16.1,4.1
2,10.5,-0.9,5.2
3,10.6,-7.8,5.5
4,10.4,-29.0,5.0


In [28]:
X = df.drop('c_peptide', axis=1)
y = df.c_peptide

In [29]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.37, random_state=5762)

In [30]:
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((27, 2), (27,), (16, 2), (16,))

In [31]:
lr = LinearRegression()

In [32]:
lr.fit(X_train,y_train)

LinearRegression()

In [33]:
y_pred = lr.predict(X_test)

In [35]:
r2_score(y_test, y_pred).round(2)

0.02

In [36]:
mean_absolute_error(y_test,y_pred).round(2)

0.53

In [37]:
mean_squared_error(y_test, y_pred).round(2)

0.44

In [None]:
# Em relação à modelagem utilizando o SVM, marque a alternativa CORRETA sobre a métrica acurácia: 

In [65]:
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score, recall_score, f1_score, roc_auc_score, precision_score, classification_report
from sklearn.model_selection import train_test_split

In [55]:
df_cl.head()

Unnamed: 0,V1,V2,V3,V4,Class
0,2,50,12500,98,2
1,0,13,3250,28,2
2,1,16,4000,35,2
3,2,20,5000,45,2
4,1,24,6000,77,1


In [138]:
X = df_cl.drop('Class', axis=1)
y = df_cl.Class

In [139]:
X_train, X_test , y_train , y_test = train_test_split(X, y, test_size=0.37, random_state=5762)

In [140]:
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((471, 4), (471,), (277, 4), (277,))

In [141]:
svc = SVC(kernel='rbf')

In [142]:
svc.fit(X_train,y_train)

SVC()

In [143]:
y_pred = svc.predict(X_test)

In [144]:
# Em relação à modelagem utilizando o SVM, marque a alternativa CORRETA sobre a métrica acurácia: 
accuracy_score(y_test, y_pred).round(2)

0.79

In [145]:
# Em relação à modelagem utilizando o SVM, marque a alternativa CORRETA sobre as métricas precision e recall: 
print(f'O resultado do recall:{recall_score(y_test, y_pred).round(2)}')
print(f'O resultado da Precision:{precision_score(y_test, y_pred).round(2)}')

O resultado do recall:0.98
O resultado da Precision:0.8


In [146]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.80      0.98      0.88       218
           2       0.50      0.07      0.12        59

    accuracy                           0.79       277
   macro avg       0.65      0.52      0.50       277
weighted avg       0.73      0.79      0.72       277



In [147]:
# Em relação à modelagem utilizando o SVM, marque a alternativa CORRETA sobre a métrica f1
f1_score(y_test, y_pred)

0.8788501026694046

In [104]:
# Em relação à modelagem utilizando o SVM, marque a alternativa CORRETA sobre a métrica AUROC:
roc_auc_score(y_test,y_pred).round(2)

0.52

In [None]:
# Em relação à modelagem utilizando o Kmeans, marque a alternativa CORRETA sobre o número de clusters:


In [106]:
from sklearn.cluster import KMeans
from sklearn import metrics  
from sklearn.metrics import cluster
from sklearn.model_selection import train_test_split

In [82]:
df_cluster.head()

Unnamed: 0,class,Alcohol,Malic_acid,Ash,Alcalinity_of_ash,Magnesium,Total_phenols,Flavanoids,Nonflavanoid_phenols,Proanthocyanins,Color_intensity,Hue,OD280%2FOD315_of_diluted_wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [109]:
X = df_cluster.drop('class', axis=1)
y = df_cluster['class']

In [111]:
train_data, test_data, train_labels, test_labels = train_test_split(X, y, test_size = 0.37, random_state = 5762)

In [124]:
clustering = KMeans(n_clusters = 3, random_state = 5762)
 

In [125]:
# treinando o modelo no conjunto de dados de treino
clustering.fit(train_data);

In [126]:
predictions = clustering.predict(test_data)

In [127]:
p = pd.DataFrame({'Real': test_labels, 'Previsto': predictions})  
p.head(10)

Unnamed: 0,Real,Previsto
141,3,0
129,2,0
101,2,2
95,2,0
175,3,0
20,1,0
174,3,0
59,2,2
79,2,2
92,2,2


In [128]:
p.Previsto.value_counts()

0    27
2    27
1    12
Name: Previsto, dtype: int64

In [123]:
p.Real.value_counts()

2    30
3    19
1    17
Name: Real, dtype: int64

In [None]:
# Em relação à modelagem utilizando o Kmeans, marque a alternativa CORRETA sobre a métrica Coeficiente de Silhueta:
# Em relação à modelagem utilizando o Kmeans, marque a alternativa CORRETA sobre a métrica Davies-Bouldin Score: 
# Em relação à modelagem utilizando o Kmeans, marque a alternativa CORRETA sobre a métrica Mutual information: 

In [137]:
#avaliando o modelo

print('Coeficiente de Silhueta\n', metrics.silhouette_score(test_data, predictions).round(2)) 
print('\nDavies-Bouldin Score\n', metrics.davies_bouldin_score(test_data, predictions).round(2)) 

print('\nMatriz de Contingência\n', metrics.cluster.contingency_matrix(test_labels, predictions).round(2)) 
print('\nMutual information\n', metrics.mutual_info_score(test_labels, predictions).round(2)) 

Coeficiente de Silhueta
 0.6

Davies-Bouldin Score
 0.5

Matriz de Contingência
 [[ 5 12  0]
 [ 7  0 23]
 [15  0  4]]

Mutual information
 0.49
