# Trabalho de Machine Learning - Ciência de Dados - UNDB

Este documento possui os treinamentos com Hold-out.

### Equipe:
- Arthur Avelino Pereira Ferreira
- Cristiano dos Santos Pereira
- Fábio Henrique Silva Furtado
- Thalles Alencar Silva

### Imports

In [14]:
import joblib as jl
import numpy as np
import pandas as pd

from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

from sklearn import metrics
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import train_test_split

### Conhecendo o Dataset 
Os dados são para identificação de casos de diabetes, sendo assim um problema de classificação. Possui 8 colunas de variáveis independentes (X) e 1 coluna de variáveis dependentes (Y).

In [34]:
csv_filename = 'pima_indians_diabetes_binary_classification_dataset.csv'
data = pd.read_csv(csv_filename) # Leitura CSV
data.head()

Unnamed: 0,times_pregnant,glucose_concentration,blood_pressure,triceps_skin_fold_thickness,insulin,bmi,pedigree_function,age,y
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Preparação de Dados

In [26]:
seed = 37 # Seed para gerar os splits
cv = StratifiedShuffleSplit(n_splits=10,
                            test_size=0.1,
                            random_state=seed) # Geração dos splits

shape_x, shape_y = data.shape

data_y = data.iloc[: , shape_y-1:] # Separa segmento X (variáveis)
data_x = data.iloc[: , :shape_y-1] # Separa segmento Y (objetivo)

## Treinamento SVM

In [30]:
C_range = np.logspace(-2, 10, 13) # Definindo range C
gamma_range = np.logspace(-9, 3, 13) # Definindo range gamma

# Gerando grid p/ grid search
param_grid = dict(gamma=gamma_range, C=C_range) 
grid = GridSearchCV(SVC(), param_grid=param_grid, cv=cv)

# Treinamento SVM
# A execução deste comando demora bastante, cuidado para não executar sem necessidade.
# grid.fit(data_x, data_y)

In [33]:
# Salvar informações 
# jl.dump(grid, 'GridSearchCVSVM.pkl')  # Salvando modelo
grid = jl.load("GridSearchCV.pkl")  # Recuperando modelo

# Print dos parâmetros com melhor resultado
print("The best parameters are %s with a score of %0.2f" % (grid.best_params_, grid.best_score_))

The best parameters are {'C': 100000.0, 'gamma': 1e-06} with a score of 0.76


## Árvore de Decisão 

In [15]:
csv_filename = 'pima_indians_diabetes_binary_classification_dataset.csv'
data = pd.read_csv(csv_filename) # Leitura CSV

In [16]:
data.head() #Verificando o dataset escolhido

Unnamed: 0,times_pregnant,glucose_concentration,blood_pressure,triceps_skin_fold_thickness,insulin,bmi,pedigree_function,age,y
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [17]:
#Realizar a separação de dados de treino e de teste para continuar a preparação:
X_train, X_test, y_train, y_test = train_test_split(data.drop('y',axis=1),data['y'],test_size=0.3)

In [18]:
#Vamos ver os resultados dos "X"
X_train.shape,X_test.shape

((537, 8), (231, 8))

In [19]:
#Agora os resultados do "Y"
y_train.shape,y_test.shape

((537,), (231,))

In [20]:
#Vamos agora fazer a classificação da árvore
clf = DecisionTreeClassifier()

In [21]:
#Treinando o modelo
clf = clf.fit(X_train,y_train)

In [22]:
#Array com o resultado da predição
resultado = clf.predict(X_test)
resultado

array([0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1,
       0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1,
       0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1,
       0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0])

In [23]:
#Resultado Final do treinamento
from sklearn import metrics
print(metrics.classification_report(y_test,resultado))

              precision    recall  f1-score   support

           0       0.81      0.71      0.76       156
           1       0.52      0.65      0.58        75

    accuracy                           0.69       231
   macro avg       0.67      0.68      0.67       231
weighted avg       0.72      0.69      0.70       231



### Novos métodos
- Árvores de Decisão (Feito - Arthur)
- Naïve Bayes
- Regressão Logística
- Rede Neural
- K-Nearest Neighbors