# Exemplo de classificação com a base IRIS

In [None]:
import numpy as np
import pandas as pd
from sklearn import datasets
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import cohen_kappa_score

## Lendo a base

In [None]:
iris = datasets.load_iris()
#Transformando em dataframe para facilitar a visualizacao
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df.head()

In [None]:
iris_df['target'].value_counts()

## Distribuição dos dados da IRIS

Plot dos dados em função de três atributos

In [None]:
feature_number1 = 0
feature_number2 = 1
feature_number3 = 2

fig = plt.figure(figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
ax.scatter(iris_df.iloc[:, feature_number1], 
           iris_df.iloc[:, feature_number2], 
           iris_df.iloc[:, feature_number3], 
           c=iris_df.iloc[:, 4],
           edgecolor='k', s=40)
ax.set_title("Distribuição dos dados")
ax.set_xlabel(iris_df.columns[feature_number1])
ax.set_ylabel(iris_df.columns[feature_number2])
ax.set_zlabel(iris_df.columns[feature_number3])

plt.show()

Plot dos dados em função de dois atributos

In [None]:
feature_number1 = 0
feature_number2 = 2

plt.scatter(iris_df.iloc[:, feature_number1], 
            iris_df.iloc[:, feature_number2], 
            c=iris_df.iloc[:, 4],
            edgecolor='k')

plt.xlabel(iris.feature_names[feature_number1])
plt.ylabel(iris.feature_names[feature_number2])

plt.xlim(iris_df.iloc[:, feature_number1].min() - 0.5,
         iris_df.iloc[:, feature_number1].max() + 0.5)

plt.ylim(iris_df.iloc[:, feature_number2].min() - 0.5,
         iris_df.iloc[:, feature_number2].max() + 0.5);

## Divisão treino/teste

In [None]:
X = iris_df.iloc[:,0:-1]
Y = iris_df.iloc[:,-1]
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X,
                                            Y,test_size=0.3,
                                            shuffle=True, stratify=Y)
#Quantidade de exemplos de cada classe no conjunto de treino
print('Quantidade de exemplos em cada classe no conjunto de treino')
Y_treino.value_counts()

## Treinando uma MLP

In [None]:
MLP = MLPClassifier(hidden_layer_sizes = (100,100), max_iter = 1000)
MLP.fit(X_treino,Y_treino)

## Fazendo as predições e calculando a taxa de acerto

In [None]:
valores_preditos_teste = MLP.predict(X_teste)
valores_preditos_treinamento = MLP.predict(X_treino)

acuracia_teste = accuracy_score(Y_teste,
                                valores_preditos_teste)

acuracia_treinamento = accuracy_score(Y_treino,
                                      valores_preditos_treinamento)

kappa_teste = cohen_kappa_score(Y_teste,
                                      valores_preditos_teste)

kappa_treinamento = cohen_kappa_score(Y_treino,
                                      valores_preditos_treinamento)

matriz_confusao_teste = confusion_matrix(Y_teste,
                                         valores_preditos_teste)

print('Acuracia treino = ', acuracia_treinamento)
print('Acuracia teste = ', acuracia_teste)
print('Kappa treino = ', kappa_treinamento)
print('Kappa teste = ', kappa_teste)
print(matriz_confusao_teste)

### Exercício

Treine uma random forest e calcule os resultados de Acurácia e Kappa para o conjunto de treino/teste

In [None]:
randomForest = RandomForestClassifier()
randomForest.fit(X_treino,Y_treino)

valores_preditos_teste = randomForest.predict(X_teste)
valores_preditos_treinamento = randomForest.predict(X_treino)

acuracia_teste = accuracy_score(Y_teste,
                                valores_preditos_teste)

acuracia_treinamento = accuracy_score(Y_treino,
                                      valores_preditos_treinamento)

kappa_teste = cohen_kappa_score(Y_teste,
                                      valores_preditos_teste)

kappa_treinamento = cohen_kappa_score(Y_treino,
                                      valores_preditos_treinamento)

matriz_confusao_teste = confusion_matrix(Y_teste,
                                         valores_preditos_teste)

print('Acuracia treino = ', acuracia_treinamento)
print('Acuracia teste = ', acuracia_teste)
print('Kappa treino = ', kappa_treinamento)
print('Kappa teste = ', kappa_teste)
print(matriz_confusao_teste)

# Exemplo de classificação com a base pima-indians-diabetes

In [None]:
dados = pd.read_csv('dados/pima-indians-diabetes.csv')
dados.head()

In [None]:
#Contando o número de exemplos de cada classe
dados.iloc[:,-1].value_counts()

## Calculando a correlação 

In [None]:
# Compute the correlation matrix
corr = dados.corr()

# Gerando uma mascara para a parte de cima do triangulo
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Criando figura
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Desenhando o heatmap
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=0.35, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

## Dividindo treino/teste

In [None]:
X = dados.iloc[:,0:-1]
Y = dados.iloc[:,-1]
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X,Y,
                                        test_size=0.3,stratify=Y)
print('Quant de amostras de treino \n', Y_treino.value_counts())
print('\nQuant de amostras de teste \n', Y_teste.value_counts())

## Treinando a MLP

In [None]:
MLP = MLPClassifier(hidden_layer_sizes=(1000,100),
                    max_iter=1500,shuffle=True)

MLP.fit(X_treino,Y_treino)
Y_predito = MLP.predict(X_teste)
matriz_confusao = confusion_matrix(Y_predito,Y_teste)
acuracia = accuracy_score(Y_predito,Y_teste)
kappa = cohen_kappa_score(Y_predito,Y_teste)

print(matriz_confusao)
print('Acurácia = ', acuracia)
print('Kappa = ', kappa)

# Atributos selecionados

In [None]:
X_treino_selecionados = X_treino.iloc[:,[0,1,5,6,7]]
X_teste_selecionado = X_teste.iloc[:,[0,1,5,6,7]]

MLP = MLPClassifier(hidden_layer_sizes=(1000,100),
                    max_iter=1500,shuffle=True)

MLP.fit(X_treino_selecionados,Y_treino)
Y_predito = MLP.predict(X_teste_selecionado)
matriz_confusao = confusion_matrix(Y_predito,Y_teste)
acuracia = accuracy_score(Y_predito,Y_teste)
kappa = cohen_kappa_score(Y_predito,Y_teste)

print(matriz_confusao)
print('Acurácia = ', acuracia)
print('Kappa = ', kappa)

# Normalizando os dados

In [None]:
scaler = preprocessing.MinMaxScaler().fit(X_treino)
X_treino_normalizado = scaler.transform(X_treino)
X_teste_normalizado = scaler.transform(X_teste)

### Exercício

Compare os resultados obtidos pela MLP treinada com os dados normalizados e não normalizados

In [None]:
MLP = MLPClassifier(hidden_layer_sizes=(1000,100),
                    max_iter=1500,shuffle=True)

MLP.fit(X_treino_normalizado,Y_treino)
Y_predito = MLP.predict(X_teste_normalizado)
matriz_confusao_normalizada = confusion_matrix(Y_predito,Y_teste)
acuracia_normalizada = accuracy_score(Y_predito,Y_teste)
kappa_normalizada = cohen_kappa_score(Y_predito,Y_teste)

print('DADOS NÃO NORMALIZADOS\n',matriz_confusao)
print('Acurácia = ', acuracia)
print('Kappa = ', kappa)

print('\n\nDADOS NORMALIZADOS\n', matriz_confusao_normalizada)
print('Acurácia = ', acuracia_normalizada)
print('Kappa = ', kappa_normalizada)

## Balanceando os dados

### Exercício

Faça o balancemento dos dados de treino replicando os exemplos da classe minoritária. Em seguida, treine novamente a MLP com os dados normalizados e observe o que acontece com os resultados. 

In [None]:
X_somente_classe_1 = X_treino.loc[Y_treino == 1,:]
Y_somente_classe_1 = np.ones(X_somente_classe_1.shape[0])

X_treino_balanceado = pd.concat([X_treino,
                                 X_somente_classe_1])
Y_treino_balanceado = pd.concat([Y_treino,
                                 pd.DataFrame(Y_somente_classe_1,
                                              dtype=np.int8)])

In [None]:
MLP_balanceada = MLPClassifier(hidden_layer_sizes=(1000,100),
                               max_iter=1500,shuffle=True)

MLP_balanceada.fit(X_treino_balanceado,Y_treino_balanceado)
Y_predito_balanceada = MLP_balanceada.predict(X_teste)
matriz_confusao_balanceada = confusion_matrix(Y_predito_balanceada,
                                              Y_teste)
acuracia_balanceada = accuracy_score(Y_predito_balanceada,Y_teste)
kappa_balanceada = cohen_kappa_score(Y_predito_balanceada,Y_teste)



print('DADOS NÃO BALANCEADOS\n',matriz_confusao)
print('Acurácia = ', acuracia)
print('Kappa = ', kappa)

print('\n\nDADOS BALANCEADOS\n', matriz_confusao_balanceada)
print('Acurácia = ', acuracia_balanceada)
print('Kappa = ', kappa_balanceada)

In [None]:
Y_treino.value_counts()

In [None]:
print(np.sum(Y_treino_balanceado == 0))
print(np.sum(Y_treino_balanceado == 1))