In [None]:
# Modelo de AM para aplicação do algoritmo DecisionTreeClassifier
# Importando bibliotecas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
%matplotlib inline

import statsmodels.api as sm
import statsmodels.formula.api as smf
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
# Carregamento do banco de dados
arquivo = pd.read_csv('C:/UCPEL/IA-ML/EEG_Eye_State_Classification.csv')

In [None]:
# Visualização do conjunto de dados
arquivo.head(13180)

In [None]:
# Visualização do tamanho do banco de dados
arquivo.shape

In [None]:
# Boxplot do Matplotlib
arquivo.boxplot(column=['AF3', 'F7', 'F3', 'FC5', 'T7', 'P7', 'O1', 'O2', 'P8', 'T8', 'FC6', 'F4', 'F8', 'AF4'])
plt.show()

In [None]:
# Boxplot da biblioteca Seaborn (Atributo AF3)
sns.boxplot(arquivo['AF3'])

In [None]:
# Posição dos Outliers (Atributo AF3)
print(np.where(arquivo['AF3']<4000))
print(np.where(arquivo['AF3']>5000))

In [None]:
# Método IQR para tratamento de Outliers (AF3)
Q1 = np.percentile(arquivo['AF3'], 25, interpolation = 'midpoint')
Q3 = np.percentile(arquivo['AF3'], 75, interpolation = 'midpoint')
IQR = Q3 - Q1
print("Old Shape: ", arquivo.shape)

In [None]:
# Upper bound
upper = np.where(arquivo['AF3'] >= (Q3+1.5*IQR))
# Lower bound
lower = np.where(arquivo['AF3'] <= (Q1-1.5*IQR))

In [None]:
# Removendo outliers
arquivo.drop(upper[0], inplace=True)
arquivo.drop(lower[0], inplace=True)

print("New Shape: ", arquivo.shape)

In [None]:
# Boxplot da biblioteca Seaborn (Atributo F3)
sns.boxplot(arquivo['AF3'])

In [None]:
# Boxplot do Matplotlib
arquivo.boxplot(column=['AF3', 'F7', 'F3', 'FC5', 'T7', 'P7', 'O1', 'O2', 'P8', 'T8', 'FC6', 'F4', 'F8', 'AF4'])
plt.show()

In [None]:
# Matriz de correlação (Biblioteca Seaborn), com os dados de correlação nas células
sns.set(font_scale=1)
plt.figure (figsize = (18, 6))
cmap = sns.diverging_palette(160, 140, sep=10, as_cmap=True)
heatmap = sns.heatmap(arquivo.corr(), cmap=cmap, annot=True, vmin=-1, vmax=1,fmt=".2f", annot_kws={'size':10})
heatmap.set_title('Correlation Heatmap', fontdict={'fontsize':10}, pad=14);

In [None]:
# Separação das variáveis preditoras (características) e da variável-alvo (desfecho)
y = arquivo['eyeDetection']
x = arquivo.drop('eyeDetection', axis = 1)

In [None]:
# Criação dos conjuntos de treino e teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.3, random_state = 0)

In [None]:
# Quantidade de dados para treino
x_treino.shape

In [None]:
# Quantidade de dados para teste
x_teste.shape

In [None]:
# Criação do modelo
for i in range(100):
    modelo = DecisionTreeClassifier()
    modelo.fit(x_treino, y_treino)
    
    #Imprimindo resultados
    resultado = modelo.score(x_teste, y_teste)
    print("Acurácia", resultado)

In [None]:
# Determinando a acurácia na amostra de treino
score_treino = modelo.score(x_treino, y_treino)
score_treino

In [None]:
# Realizando previsão na amostra de teste
y_previsto = modelo.predict(x_teste)
score_teste = modelo.score(x_teste, y_teste)
score_teste

In [None]:
# Gerando Matriz de Confusão
cm = confusion_matrix(y_teste, y_previsto)
cm

In [None]:
# Mapa de calor da Matriz de Confusão
sns.heatmap(cm, annot=True, fmt="d")
plt.title('Matriz de Confusão', weight='bold')
plt.xlabel('Valores Previstos')
plt.ylabel('Valores Reais')
plt.show()