In [1]:
# Modelo de AM para aplicação do algoritmo DecisionTreeClassifier
# Importando bibliotecas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
%matplotlib inline

import statsmodels.api as sm
import statsmodels.formula.api as smf
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

In [2]:
# Carregamento do banco de dados
arquivo = pd.read_csv('C:/UCPEL/IA-ML/EEG_Eye_State_Classification.csv')

In [3]:
# Visualização do conjunto de dados
arquivo.head()

Unnamed: 0,AF3,F7,F3,FC5,T7,P7,O1,O2,P8,T8,FC6,F4,F8,AF4,eyeDetection
0,4329.23,4009.23,4289.23,4148.21,4350.26,4586.15,4096.92,4641.03,4222.05,4238.46,4211.28,4280.51,4635.9,4393.85,0
1,4324.62,4004.62,4293.85,4148.72,4342.05,4586.67,4097.44,4638.97,4210.77,4226.67,4207.69,4279.49,4632.82,4384.1,0
2,4327.69,4006.67,4295.38,4156.41,4336.92,4583.59,4096.92,4630.26,4207.69,4222.05,4206.67,4282.05,4628.72,4389.23,0
3,4328.72,4011.79,4296.41,4155.9,4343.59,4582.56,4097.44,4630.77,4217.44,4235.38,4210.77,4287.69,4632.31,4396.41,0
4,4326.15,4011.79,4292.31,4151.28,4347.69,4586.67,4095.9,4627.69,4210.77,4244.1,4212.82,4288.21,4632.82,4398.46,0


In [4]:
# Visualização do tamanho do banco de dados
arquivo.shape

(14980, 15)

In [11]:
# Busca por dados faltantes
enulo = arquivo.isnull()
enulo.head(100)

Unnamed: 0,AF3,F7,F3,FC5,T7,P7,O1,O2,P8,T8,FC6,F4,F8,AF4,eyeDetection
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
96,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
97,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
98,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [12]:
faltantes = arquivo.isnull().sum
print(faltantes)

<bound method NDFrame._add_numeric_operations.<locals>.sum of          AF3     F7     F3    FC5     T7     P7     O1     O2     P8     T8  \
0      False  False  False  False  False  False  False  False  False  False   
1      False  False  False  False  False  False  False  False  False  False   
2      False  False  False  False  False  False  False  False  False  False   
3      False  False  False  False  False  False  False  False  False  False   
4      False  False  False  False  False  False  False  False  False  False   
...      ...    ...    ...    ...    ...    ...    ...    ...    ...    ...   
14975  False  False  False  False  False  False  False  False  False  False   
14976  False  False  False  False  False  False  False  False  False  False   
14977  False  False  False  False  False  False  False  False  False  False   
14978  False  False  False  False  False  False  False  False  False  False   
14979  False  False  False  False  False  False  False  False  False 

In [16]:
faltantes_percentual = (arquivo.isnull().sum() / len(arquivo['AF3']))*100

In [17]:
print(faltantes_percentual)

AF3             0.0
F7              0.0
F3              0.0
FC5             0.0
T7              0.0
P7              0.0
O1              0.0
O2              0.0
P8              0.0
T8              0.0
FC6             0.0
F4              0.0
F8              0.0
AF4             0.0
eyeDetection    0.0
dtype: float64


In [None]:
# Matriz de correlação (Biblioteca Seaborn), com os dados de correlação nas células
sns.set(font_scale=1)
plt.figure (figsize = (18, 6))
cmap = sns.diverging_palette(160, 140, sep=10, as_cmap=True)
heatmap = sns.heatmap(arquivo.corr(), cmap=cmap, annot=True, vmin=-1, vmax=1,fmt=".2f", annot_kws={'size':10})
heatmap.set_title('Correlation Heatmap', fontdict={'fontsize':10}, pad=14);

In [None]:
# Separação das variáveis preditoras (características) e da variável-alvo (desfecho)
y = arquivo['eyeDetection']
x = arquivo.drop('eyeDetection', axis = 1)

In [None]:
# Criação dos conjuntos de treino e teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.3, random_state = 0)

In [None]:
# Quantidade de dados para treino
x_treino.shape

In [None]:
# Quantidade de dados para teste
x_teste.shape

In [None]:
# Criação do modelo
for i in range(100):
    modelo = DecisionTreeClassifier()
    modelo.fit(x_treino, y_treino)
    
    #Imprimindo resultados
    resultado = modelo.score(x_teste, y_teste)
    print("Acurácia", resultado)

In [None]:
# Determinando a acurácia na amostra de treino
score_treino = modelo.score(x_treino, y_treino)
score_treino

In [None]:
# Realizando previsão na amostra de teste
y_previsto = modelo.predict(x_teste)
score_teste = modelo.score(x_teste, y_teste)
score_teste

In [None]:
# Gerando Matriz de Confusão
cm = confusion_matrix(y_teste, y_previsto)
cm

In [None]:
# Mapa de calor da Matriz de Confusão
sns.heatmap(cm, annot=True, fmt="d")
plt.title('Matriz de Confusão', weight='bold')
plt.xlabel('Valores Previstos')
plt.ylabel('Valores Reais')
plt.show()