# Trabalho de Machine Learning - Ciência de Dados - UNDB
### Equipe:
- Arthur Avelino Pereira Ferreira
- Cristiano dos Santos Pereira
- Fábio Henrique Silva Furtado
- Thalles Alencar Silva

### Imports

In [1]:
import pandas as pd

from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

from sklearn import metrics
from sklearn.model_selection import train_test_split

### Conhecendo o Dataset 
Os dados são para identificação de casos de diabetes, sendo assim um problema de classificação. Possui 8 colunas de variáveis independentes (X) e 1 coluna de variáveis dependentes (Y).

In [2]:
csv_filename = 'pima_indians_diabetes_binary_classification_dataset.csv'
data = pd.read_csv(csv_filename) # Leitura CSV
data.head()

Unnamed: 0,times_pregnant,glucose_concentration,blood_pressure,triceps_skin_fold_thickness,insulin,bmi,pedigree_function,age,y
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Preparação de Dados

In [3]:
# Separação dos dados em conjuntos de treino e teste, variáveis dependentes e independentes.
# O método train_test_split realiza estratificação por default.
X_train, X_test, Y_train, Y_test = train_test_split(
    data.drop('y',axis=1),
    data['y'],
    test_size=0.3
)

# Support Vector Mahcine (SVM)
### Definição de constantes
As constantes C e *gamma* foram definidas em um teste anterior por meio de validação cruzada, onde estes valores deram os melhores resultados.

In [4]:
c = 100000 # Variável C
gamma = 0.000001 # Variável gamma

### Treinamento do modelo
Operação direta ao ponto: cria-se o modelo com as constantes definidas e faz-se o treinamento do modelo.

In [5]:
svc = SVC(gamma=gamma, C=c)
svc.fit(X_train, Y_train)

SVC(C=100000, gamma=1e-06)

### Resultados
Avaliação do modelo SVM treinado.

In [6]:
resultado_svm = svc.predict(X_test)
print(metrics.classification_report(Y_test, resultado_svm))

              precision    recall  f1-score   support

           0       0.75      0.92      0.82       150
           1       0.74      0.42      0.54        81

    accuracy                           0.74       231
   macro avg       0.74      0.67      0.68       231
weighted avg       0.74      0.74      0.72       231



# Árvore de Decisão 
Os passos empregados aqui são bastante similares àqueles empregados anteriormente.

### Treinamento do modelo

In [7]:
clf = DecisionTreeClassifier()
clf = clf.fit(X_train, Y_train)

### Resultados

In [8]:
resultado_ad = clf.predict(X_test)
print(metrics.classification_report(Y_test, resultado_ad))

              precision    recall  f1-score   support

           0       0.77      0.74      0.76       150
           1       0.55      0.59      0.57        81

    accuracy                           0.69       231
   macro avg       0.66      0.67      0.66       231
weighted avg       0.69      0.69      0.69       231



# Considerações Finais
Ambos modelos providenciam resultados bastante similares na classificação de pacientes que não possuem a enfermidade, ambos com acerto pouco acima de 75%. Entretanto o método de SVM se saiu consideralmente melhor no que diz respeito à classificação daqueles que de fato estão doentes, com uma precisão de 74% no SVM contra 55% nas árvores de decisão, uma diferença de quase 20%. Assim, neste dataset o método de SVM se apresentou mais eficaz.

Entretanto poucos métodos foram explorados, e os números obtidos estão longe do ideal. Também o método de avaliação *hold-out*, aqui utilizado, não é o mais ideal para uma avaliação precisa pois com diferentes splits os resultados podem variar bastante, algo que foi observado durante múltiplas execuções deste *notebook*.

Além disso seria interessante opiniões de especialistas a fim de possivelmente reduzir o espaço de características visto que isso poderia não somente acelerar o processo de treinamento (e definição de novos parâmetros para métodos que os precisem) como também os resultados.