# Aula 09 - MLP

Na aula de hoje abordaremos, pela primeira vez, algoritmos de redes neurais, as famosas MLP. A aula será dividida nas seguintes partes:

### - Primeira parte

- Introdução e contextualização  
- A diferença da abordagem por Redes Neurais  

### - Segunda parte

- Funcionamento das Redes Neurais
- Aprendizado das redes

### - Terceira parte

- Tempo para o projeto

# Introdução e contextualização

Até o momento, vimos diversos algoritmos de Machine Learning e, se nos atentarmos, a grande maioria deles foram desenvolvidos há um bom tempo. Nos dias atuais, ouvimos muito falar sobre técnicas que revolucionaram as tarefas de resolução de problemas em diversos domínios: as __Redes Neurais__. 

A história das Redes Neurais é bem longa e começaremos pelo início: as Redes Neurais do tipo MLP. Essas redes não são revolucionarias, pelo menos não tanto as que estampam portais de notícias nos dias recentes, e existem desde a década de 70, contudo, possuem muitos dos mesmos mecanismos de funcionamento das redes mais modernas.  

## Abordagem clássica x abordagem moderna

Modelos clássicos possuem, no geral, uma interpretabilidade muito superior do que os modelos de redes neurais. Isso se deve ao fato de os modelos mais modernos terem surgido para resolver problemas em que o fator mais desafiador era atingir um bom desempenho, não importando como o resultado fosse obtido. Todos os algoritmos que vimos até esse ponto do curso podem ser considerador __clássicos__.

![image.png](attachment:image.png)

Para entender o conceito do funcionamento da primeira rede, estudaremos os seguintes tópicos:

1 - __O Perceptron__

2 - __MLP - Multi Layer Perceptron__

3 - __Como as redes aprendem?__

---------

$$ y = X_{1}*W_{1} + X_{2}*W_{2} + W_{0} $$ 

$$ y = \sum{X_{i}*W_{i}}\ + W_{0} $$ 

# O Perceptron


O Perceptron é a unidade básica das redes neurais. Ele é uma abstração extremamente simplificada de um _neurônio_.

![image-2.png](attachment:image-2.png)

O Perceptron mapeia um conunto de entrada X numa saída y. Para isso, duas etapas ocorrem: a multiplicação e agregação das entradas e dos pesos; e a passagem do resultado por uma função de ativação. Podemos, então, enxergar o perceptron pela seguinte expressão:  



$$ y = f(\sum{X_{i}*W_{i}}\ + W_{0}) $$  


A função f é chamada de __função de ativação__ e tem um papel fundamental no funcionamento de algoritmos de redes neurais. Existes diversos tipos delas, alguns exemplos estão abaixo:  

### Linear

![image-3.png](attachment:image-3.png)

### Sigmoid

![image-4.png](attachment:image-4.png)

### Tanh

![image-5.png](attachment:image-5.png)

### ReLu

![image-6.png](attachment:image-6.png)  

Se a função f for uma função do tipo $ f(x) = x $, o nosso perceptron funcionará exatamente igual a uma regressão linear. Contudo, nem sempre faz sentido usar uma função linear como função de ativação, pois o grande trunfo desse tipo de modelo é a capacidade de generalização.  

Um único perceptron não possui grandes capacidades em termos de modelo. Por isso, uma ideia bem direta surgiu: combinar perceptrons, numa arquitetura que chamamos de MLP - Multi Layer Perceptron.  

# MLP - Multi Layer Perceptron

A arquitetura que combina perceptrons em camadas se popularizou como a primeira rede neural de uso genérico. A composição dos neurônios é mostrada na figura a seguir:  

![image-2.png](attachment:image-2.png)

As redes MLP podem ser divididas em 3 partes:

1 - __Primeira camada__: variáveis de entrada. Cada uma das variáveis são alimentadas diretamente na rede;  

2 - __Última camada__: perceptrons com as saídas do modelo;  

3 - __Camadas intermediarias__: também chamadas de camadas ocultas (hidden layers), pode conter uma ou mais camadas de perceptrons.  


Como a expressão matemática do perceptron é relativamente simples, é possível expandir a expressão para toda a rede. Mesmo com poucas camadas, é perceptível como a expressão começa a ficar completamente não interpretável, além de ser de difícil representação. A grande pergunta é: como as redes neurais de fato resolvem os problemas do dia a dia?

# Como as redes aprendem?

Podemos dizer que a tarefa de aprendizado da rede neural é, nada mais nada menos, a atualização dos seus pesos. Para definir qual é o melhor peso, as redes neurais aplicam duas técnicas muito poderosas: o gradiente descendente e o backpropagation.  


## Gradiente Descendente

Vamos utilizar a figura de uma parábola para exemplificar esse algoritmo:  

![image-2.png](attachment:image-2.png)

O gradiente descendente é um algoritmo iterativo que, a partir de um ponto inicial, utiliza o gradiente da função como base para escolher uma direção de busca do ponto de mínimo. Para cada etapa da iteração, o algoritmo calcula o gradiente e desloca o ponto candidato a mínimo um passo na direção contrária. Dado tempo suficiente, com um passo pequeno o bastante, o algoritmo converge para, pelo menos, um mínimo local. 

## Backpropagation

Assim como nós, as redes neurais aprendem com os erros. Isso não acontece de qualquer maneira: elas aplicam um algoritmo muito poderoso chamado de backpropagation, que consiste em, a partir do cálculo do gradiente da última camada, propagar as atualizações dos parâmetros para as camadas anteriores. Para que isso seja possível, é necessário definir uma __função de custo__ na saída da rede. Em geral, é utilizado o __MSE__ para regressão e a __log-loss__ para classificação.

A sequência de passos que faz a atualização dos pesos é, então:  

1 - Aplica um conjunto de dados de entrada na rede, gerando saídas;  

2 - Calcula o erro comparando as predições com o target real: __mse__ para regressão, __log-loss__ para classificação;  

3 - Aplica o gradiente descendente para atualizar os pesos da última camada;  

4 - Propaga o gradiente para as camadas anteriores, atualizando os pesos camada por camada.  

![image.png](attachment:image.png)

#### Glossário:

__batch size__: a quantidade de dados que entram na rede antes de cada atualização dos pesos;

__épocas__: cada época é uma passagem completa por todo o dataset de treinamento;



# Usando o sklearn

In [71]:
import pandas as pd

In [64]:
base_treino = pd.read_csv('adult_train.csv')

base_treino.head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,17,Private,144752,10th,6,Never-married,Handlers-cleaners,Own-child,Amer-Indian-Eskimo,Male,0,0,20,United-States,<=50K
1,21,Local-gov,402230,Some-college,10,Never-married,Adm-clerical,Unmarried,White,Male,0,0,36,United-States,<=50K
2,41,Private,149576,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,>50K
3,29,Private,535978,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,45,United-States,<=50K
4,54,Private,111469,Some-college,10,Divorced,Exec-managerial,Not-in-family,White,Female,0,0,40,United-States,<=50K


In [65]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder

base_treino['income'] = base_treino['income'].map({'<=50K': 0, '>50K': 1})

categ_features = ['workclass', 'marital-status', 'occupation', 'relationship', 'race', 'gender', 'native-country']
num_features = ['age', 'educational-num', 'capital-gain', 'capital-loss', 'hours-per-week']

X = base_treino[categ_features + num_features]
y = base_treino['income']

# Tratamento das categóricas

X = pd.get_dummies(X, columns=categ_features)

print(X.shape, y.shape)

X_train, X_valid, y_train, y_valid = train_test_split(X, 
                                                    y, 
                                                    test_size=0.3, 
                                                    random_state=12)

print(X_train.shape, y_train.shape)
print(X_valid.shape, y_valid.shape)

# Tratamento numéricas

standard_scaler = StandardScaler()

X_train[num_features] = standard_scaler.fit_transform(X_train[num_features])
X_valid[num_features] = standard_scaler.transform(X_valid[num_features])

X_train.head()

(39074, 91) (39074,)
(27351, 91) (27351,)
(11723, 91) (11723,)


Unnamed: 0,age,educational-num,capital-gain,capital-loss,hours-per-week,workclass_?,workclass_Federal-gov,workclass_Local-gov,workclass_Never-worked,workclass_Private,...,native-country_Portugal,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia
31768,-0.560344,-0.031624,-0.145729,-0.215178,-2.052385,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
32904,0.241956,1.134584,-0.145729,-0.215178,-0.191903,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1855,0.606637,-0.420359,-0.145729,-0.215178,-0.839027,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
34608,-0.487408,0.745848,-0.145729,-0.215178,1.749469,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
4609,1.263064,1.912055,13.476934,-0.215178,0.37433,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [87]:
from sklearn.neural_network import MLPClassifier

modelo = MLPClassifier(
    hidden_layer_sizes=(100, 50), activation='tanh', solver='sgd', learning_rate_init=0.001, random_state=12)

In [88]:
# Treino do modelo

modelo.fit(X_train.values, y_train.values)

MLPClassifier(activation='tanh', hidden_layer_sizes=(100, 50), random_state=12,
              solver='sgd')

In [89]:
y_train_pred = modelo.predict(X_train.values)

y_valid_pred = modelo.predict(X_valid.values)

print(y_train_pred.shape, y_valid_pred.shape)

(27351,) (11723,)


In [90]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

acc_train = accuracy_score(y_train, y_train_pred)
prec_train = precision_score(y_train, y_train_pred)
rec_train = recall_score(y_train, y_train_pred)

acc_valid = accuracy_score(y_valid, y_valid_pred)
prec_valid = precision_score(y_valid, y_valid_pred)
rec_valid = recall_score(y_valid, y_valid_pred)

print(f'Treino:\nAcc: {acc_train:.2f}, Precision: {prec_train:.2f}, Recall: {rec_train:.2f}')
print(f'Validação:\nAcc: {acc_valid:.2f}, Precision: {prec_valid:.2f}, Recall: {rec_valid:.2f}')

Treino:
Acc: 0.86, Precision: 0.74, Recall: 0.63
Validação:
Acc: 0.85, Precision: 0.73, Recall: 0.60


----------

# Pra anotar

- Redes neurais MLP são extremamente versáteis e podem ser aplicadas em diversas tarefas de aprendizado supervisionado;

- Perdemos muita interpretabilidade ao utilizar esse tipo de modelo, então dê prefência para algoritmos mais simbólicos, ao menos que o desempenho utilizando MLP seja significativamente maior.

# Exemplo do .predict_proba

In [91]:
base_treino = pd.read_csv('adult_train.csv')

base_treino.head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,17,Private,144752,10th,6,Never-married,Handlers-cleaners,Own-child,Amer-Indian-Eskimo,Male,0,0,20,United-States,<=50K
1,21,Local-gov,402230,Some-college,10,Never-married,Adm-clerical,Unmarried,White,Male,0,0,36,United-States,<=50K
2,41,Private,149576,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,>50K
3,29,Private,535978,Some-college,10,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,45,United-States,<=50K
4,54,Private,111469,Some-college,10,Divorced,Exec-managerial,Not-in-family,White,Female,0,0,40,United-States,<=50K


In [92]:
base_treino['income'] = base_treino['income'].map({'<=50K': 0, '>50K': 1})

In [93]:
categ_features = ['workclass', 'marital-status', 'occupation', 'relationship', 'race', 'gender', 'native-country']
num_features = ['age', 'educational-num', 'capital-gain', 'capital-loss', 'hours-per-week']

In [94]:
X = base_treino[categ_features + num_features]
y = base_treino['income']

print(X.shape, y.shape)

(39074, 12) (39074,)


In [95]:
X_train, X_valid, y_train, y_valid = train_test_split(X, 
                                                    y, 
                                                    test_size=0.3, 
                                                    random_state=12)

print(X_train.shape, y_train.shape)
print(X_valid.shape, y_valid.shape)

(27351, 12) (27351,)
(11723, 12) (11723,)


In [96]:
from sklearn.preprocessing import OrdinalEncoder
pd.options.mode.chained_assignment = None

oe = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)

oe.fit(X_train[categ_features])

X_train[categ_features] = oe.transform(X_train[categ_features])

X_valid[categ_features] = oe.transform(X_valid[categ_features])

X_train.head()

Unnamed: 0,workclass,marital-status,occupation,relationship,race,gender,native-country,age,educational-num,capital-gain,capital-loss,hours-per-week
31768,4.0,0.0,8.0,1.0,4.0,0.0,38.0,31,10,0,0,15
32904,7.0,4.0,4.0,1.0,4.0,0.0,38.0,42,13,0,0,38
1855,4.0,2.0,8.0,5.0,2.0,0.0,38.0,47,9,0,0,30
34608,4.0,2.0,7.0,0.0,4.0,1.0,38.0,32,12,0,0,62
4609,5.0,2.0,10.0,0.0,4.0,1.0,38.0,56,15,99999,0,45


In [172]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier
from matplotlib import pyplot as plt

modelo = RandomForestClassifier(max_depth=6)

modelo.fit(X_train, y_train)

# plt.figure(figsize=(10, 10))

# plot_tree(modelo, feature_names=X_train.columns)

# plt.show()

RandomForestClassifier(max_depth=6)

In [136]:
zeros = 14701
uns = 1258

print(f'{uns/(uns+zeros):.8f}')

0.07882699


In [185]:
y_train_pred = modelo.predict_proba(X_train)[:,1]

y_valid_pred = modelo.predict_proba(X_valid)[:,1]

y_train_pred

array([0.05067439, 0.10647013, 0.24493212, ..., 0.94530361, 0.20976926,
       0.02061948])

In [186]:
corte = 0.3

mask_train = (y_train_pred >= corte)

y_train_pred[mask_train] = 1
y_train_pred[~mask_train] = 0

mask_valid = (y_valid_pred >= corte)

y_valid_pred[mask_valid] = 1
y_valid_pred[~mask_valid] = 0

In [187]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

acc_train = accuracy_score(y_train, y_train_pred)
prec_train = precision_score(y_train, y_train_pred)
rec_train = recall_score(y_train, y_train_pred)

acc_valid = accuracy_score(y_valid, y_valid_pred)
prec_valid = precision_score(y_valid, y_valid_pred)
rec_valid = recall_score(y_valid, y_valid_pred)

print(f'Treino:\nAcc: {acc_train:.2f}, Precision: {prec_train:.2f}, Recall: {rec_train:.2f}')
print(f'Validação:\nAcc: {acc_valid:.2f}, Precision: {prec_valid:.2f}, Recall: {rec_valid:.2f}')

Treino:
Acc: 0.82, Precision: 0.58, Recall: 0.85
Validação:
Acc: 0.81, Precision: 0.57, Recall: 0.83
