# Redes Neurais - Classificação de Cogumelos

Este notebook realiza um estudo, um conjunto de experimentos, de algoritmos de redes neurais sobre o dataset [Mushroom Classification](https://www.kaggle.com/uciml/mushroom-classification). Um conjunto de dados que reúne dados de mais de 8 mil cogumelos, com 21 características, tais como formato, odor, seu habitat, entre outros. Nosso objetivo é classificar se um cogumelo é venenoso (classe p) ou comestível (classe e).

> Conteúdo voltado para iniciantes de Aprendizado de Máquina e Ciência de Dados!

<a id="top"></a>
## Conteúdo

> **Nota.** Alguns códigos foram ocultados a fim de facilitar a leitura.

O notebook está organizado como segue:

- [Dados](#data) - Carregamento dos dados, pré-processamento.
- [Classificação](#classification) - Experimentos de Redes Neurais.
    - [Perceptron](#perceptron) - Algoritmo Perceptron.
    - [Multilayer Perceptron](#multi-perceptron) - Algoritmo Multilayer Perceptron.

-----

<a id="data"></a>
# Dados

- Carregamento dos dados.
- Pré-processamento dos dados.

[Voltar para o Topo](#top)

## Carregamento dos Dados

In [None]:
# processamento de dados, algebra linear
import numpy as np 
import pandas as pd

In [None]:
# imprime os arquvios
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
df = pd.read_csv('/kaggle/input/mushroom-classification/mushrooms.csv')
df.sample(3)

## Pré-Processamento dos Dados

Vamos transformar os dados categóricos em valores numéricos, simplesmente substituindo cada valor único por um número. Para fazer esta tarefa automaticamente utilizaremos o [Label Encoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html).

> Este processamento é necessário para alguns algoritmos de Redes Neurais.

Separando os valores de entrada e as classes correspondentes.

In [None]:
# recupera os valores (X), e as classes (Y)
X = df.drop('class', axis=1)
Y = df['class']

Observe que todas as colunas de entrada são valores categóricos.

In [None]:
X.info()

### Transformação dos Dados

In [None]:
from sklearn.preprocessing import LabelEncoder

Executando a transformação dos dados para todas as colunas.

In [None]:
for column in X.columns:
    tranformer = LabelEncoder()
    X[column] = tranformer.fit_transform(X[column])

In [None]:
X.sample(3)

-----

<a id="classification"></a>
# Classificação

- Conjunto de dados.
- Experimentos.

[Voltar para o Topo](#top)

In [None]:
# acurácia
from sklearn.metrics import accuracy_score

In [None]:
# variável de resultado final
# será armazenado o resultado de todos experimentos
experiment = {}

## Conjunto de Dados

Separa os conjuntos de treinamento e teste.

In [None]:
# treinamento, test split
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=26)

In [None]:
print('treinamento:', len(y_train))
print('teste      :', len(y_test))

<a id="perceptron"></a>
## Perceptron

In [None]:
from sklearn.linear_model import Perceptron

In [None]:
model1 = Perceptron(random_state=26)
model1.fit(X_train, y_train)

### Avaliação

In [None]:
y_pred = model1.predict(X_test)

In [None]:
acc = accuracy_score(y_pred, y_test)
print('acurácia :', acc)

In [None]:
experiment['Perceptron'] = {'acc':acc}

**Discussão Perceptron**

O Perceptron conseguiu classificar bem o conjunto de dados, alcançando acurácia de 89%.

-----

<a id="multi-perceptron"></a>
## Multilayer Perceptron

In [None]:
from sklearn.neural_network import MLPClassifier

In [None]:
model2 = MLPClassifier(hidden_layer_sizes=(50, 50), max_iter=1_000, random_state=26)
model2.fit(X_train, y_train)

### Avaliação

In [None]:
y_pred = model2.predict(X_test)

In [None]:
acc = accuracy_score(y_pred, y_test)
print('acurácia :', acc)

In [None]:
experiment['Multilayer Perceptron'] = {'acc':acc}

**Discussão Multilayer Perceptron**

O Multilayer Perceptron alcançou a acurácia máxima de 100%.

-----

# Conclusão

Por fim, o melhor algoritmo foi o Multilayer Perceptron com acurácia de 100%.   
Sua arquitetura possui duas camadas escondidas com 50 neurônios cada, _i.e.,_ `(50, 50)`.

In [None]:
pd.DataFrame(experiment).T