## ICD - AS7 - CLASSIFICAÇÃO: ÁRVORES DE DECISÃO E AVALIAÇÃO DE MODELOS

##### Questão 1:
Considere os dados da vertebralcolumn-2C e o código abaixo.   
Use uma árvore de decisão com o critério Gini, isto é, use:    
model = tree.DecisionTreeClassifier(criterion = 'gini', random_state = 101)   
Determine o valor das medidas F1 e precision.    
Arredonde para a primeira casa decimal.

Escolha uma opção:

a.F1 = 0.9, Precision = 0.8<br>
b.F1 = 0.6, Precision = 0.6<br>
c.F1 = 0.6, Precision = 0.8<br>
<font color='red'>d.F1 = 0.7, Precision = 0.7</font> <br>
e.F1 = 0.3, Precision = 0.4<br>

In [1]:
import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

np.random.seed(42)

data = pd.read_csv('data/vertebralcolumn-2C.csv', header=(0))

data = data.to_numpy()
nrow,ncol = data.shape
y = data[:,-1]
X = data[:,0:ncol-1]

p = 0.2 # fracao de elementos no conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = p, random_state = 2)

Vamos construir a árvore de decisão usando o critério Gini como medida de impureza dos nós:

In [2]:
from sklearn import tree
# Cria o modelo usando o criterio Gini
model = tree.DecisionTreeClassifier(criterion = 'gini', random_state = 101)
# Ajusta o modelo usando os dados de treinamento
model.fit(x_train,y_train)
# realizar a predição
y_pred = model.predict(x_test) 

Fazendo as métricas para quantificar a qualidade do modelo

In [3]:
from sklearn.metrics import precision_score, recall_score, classification_report, accuracy_score, f1_score

print('Accuracy:', accuracy_score(y_pred, y_test))
print('F1 score:', f1_score(y_test, y_pred, average="macro"))
print('Precision:', precision_score(y_test, y_pred, average="macro"))
print('Recall:', recall_score(y_test, y_pred, average="macro"))
print('\n clasification report:\n', classification_report(y_test, y_pred))

Accuracy: 0.7741935483870968
F1 score: 0.7163398692810458
Precision: 0.7255434782608696
Recall: 0.7095959595959596

 clasification report:
               precision    recall  f1-score   support

    Abnormal       0.83      0.86      0.84        44
      Normal       0.62      0.56      0.59        18

    accuracy                           0.77        62
   macro avg       0.73      0.71      0.72        62
weighted avg       0.77      0.77      0.77        62



Resultado de F1 e Precision com uma casa decimal

In [4]:
print('F1 score:', round(f1_score(y_test, y_pred, average="macro"),1))
print('Precision:', round(precision_score(y_test, y_pred, average="macro"),1))

F1 score: 0.7
Precision: 0.7


##### Questão 2:
Considere os dados do exercício anterior.   
Qual o valor das medidas F1 e Accuracy quando usamos o algoritmo random forest com 100 árvores?   
Arredonde para a primeira casa decimal.   
Use: model=RandomForestClassifier(n_estimators=100, random_state = 42)

Escolha uma opção:

a.F1 = 0.6, Accuracy = 0.8<br>
b.F1 = 0.6, Accuracy = 0.6<br>
c.F1 = 0.1, Accuracy = 0.4<br>
d.F1 = 0.5, Accuracy = 0.8<br>
<font color='red'>e.F1 = 0.9, Accuracy = 0.9</font> <br>

Vamos construir o modelo RandomForestClassifier (Florestas Aleatórias) usando n_estimators = 100 árvores

In [6]:
from sklearn.ensemble import RandomForestClassifier

# cria o modelo e define os parâmetros
model=RandomForestClassifier(n_estimators=100, random_state=42)
# Ajusta o modelo usando os dados de treinamento
model.fit(x_train,y_train)
#Predict the response for test dataset
y_pred = model.predict(x_test)

Fazendo as métricas para quantificar a qualidade do modelo

In [7]:
from sklearn.metrics import precision_score, recall_score, classification_report, accuracy_score, f1_score

print('Accuracy:', accuracy_score(y_pred, y_test))
print('F1 score:', f1_score(y_test, y_pred, average="macro"))
print('Precision:', precision_score(y_test, y_pred, average="macro"))
print('Recall:', recall_score(y_test, y_pred, average="macro"))
print('\n clasification report:\n', classification_report(y_test, y_pred))

Accuracy: 0.8870967741935484
F1 score: 0.8554778554778555
Precision: 0.8801418439716312
Recall: 0.8383838383838385

 clasification report:
               precision    recall  f1-score   support

    Abnormal       0.89      0.95      0.92        44
      Normal       0.87      0.72      0.79        18

    accuracy                           0.89        62
   macro avg       0.88      0.84      0.86        62
weighted avg       0.89      0.89      0.88        62



Resultado de F1 e Accuracy com uma casa decimal

In [11]:
print('F1 score:', round(f1_score(y_test, y_pred, average="macro"),1))
print('Accuracy:', round(accuracy_score(y_pred, y_test),1))

F1 score: 0.9
Accuracy: 0.9


##### Questão 3:

Com relação às árvores de decisão, indique a alternativa correta: <br>
Escolha uma opção: <br>

a.Só pode ser usada com dados numéricos. <br>
b.É um método paramétrico. <br>
<font color='red'>c.É um método de simples entendimento e interpretação: modelo “caixa branca”. </font> <br>
d.Só pode ser usada com dados nominais. <br>
e.Requer normalização dos dados. <br>

##### Questão 4:

Com relação à curva ROC:

Escolha uma opção:

a.É uma técnica de agrupamento de dados. <br>
<font color='red'>b.Só pode ser usada em classificação binária. </font><br>
c.É usada em modelos de regressão. <br>
d.Pode ser usada em qualquer problema de classificação, independentemente do número de classes. <br>
e.Sempre retorna o mesmo valor que a medida de precisão. <br>