**Daniel Penna Chaves Bertazzo - 10349561
<br>
SCC0270 - Redes Neurais e Aprendizado Profundo
<br>
Aula 5 - prática**
<br><br>
Para o exercício 2, o *dataset* foi dividido usando o método *holdout*, onde o conjunto de treino possui 75% do tamanho do original, e o conjunto de validação contém 25% dos dados.
<br>
Já para o exercício 3, o método de divisão foi o mesmo, porém com uma proporção 70/30.
<br>
A medida utilizada para avaliação dos classificadores para os exercícios 2 e 3 foi a acurácia, visto que os *datasets* utilizados possuem classes bem distribuídas. 

# Exercício 1
### - Classificador binário
No caso de uma tarefa de classificação binária (apenas duas classes, positivo e negativo por exemplo), a matriz de confusão é simples: uma tabela 2x2 onde as colunas representam as classes preditas pelo classificador, e as linhas as classes verdadeiras. Por exemplo, tome a matriz de confusão a seguir:

$$ \begin{bmatrix}          & Positivo & Negativo  \\
                   Positivo & 45       & 4         \\
                   Negativo & 3        & 53         \end{bmatrix} $$

Em relação à classe positiva (primeira coluna), vemos que um certo algoritmo classificou corretamente 45 instâncias como positivas e 3 erroneamente (foram classificadas como positivas, porém são negativas -> **falsos positivos**). Já em relação à classe negativa (segunda coluna), vemos que ele classificou corretamente 53 instâncias como negativas e 4 erroneamente (foram classificadas como negativas, porém são positivas -> **falsos negativos**).
Nesse contexto, pode-se estruturar a matriz da seguinte forma:

$$ \begin{bmatrix}          & Positivo & Negativo  \\
                   Positivo & TP       & FN        \\
                   Negativo & FP       & TN        \end{bmatrix} $$

Onde:<br>
TP = *true positive* (classificados como positivo e são de fato positivos);<br>
TN = *true negative* (classificados como negativo e são de fato negativos);<br>
FP = *false positive* (classificados como positivos, porém são negativos);<br>
FN = *false negative* (classificados como negativos, porém são positivos).

### - Classificador multiclasse
No caso de um classificador multiclasse, teremos uma matriz de confusão maior do que 2x2. Na verdade, teremos uma matriz nxn, onde n = número de classes. Nesse caso, os rótulos apresentados acima serão um pouco mais complexos. Dada uma matriz de confusão $C_{ij}$:

$$ \begin{bmatrix} C_{11} & \cdots & C_{1n} \\
                   \vdots & \ddots & \vdots \\
                   C_{n1} & \cdots & C_{nn} \end{bmatrix} $$

Não é mais possível calcular os rótulos de forma geral. É preciso calcular para cada classe:
<br><br>
TP = $C_{ij}$, onde $i=j$. Isso representa a diagonal principal, ou seja, todas as instâncias cuja classe predita $j$ é igual à classe verdadeira $i$;
<br><br>
TN = $ \Big(\sum_{i \neq c,j \neq c} C_{ij}\Big) $, onde $c$ é a classe da qual queremos extrair tal informação. Em outras palavras, isso representa a soma de todos as instâncias que não foram classificadas como $c$ e, de fato, não são da classe $c$.
<br><br>
FP = $ \Big(\sum_{i \neq c} C_{ic}\Big) $, onde $c$ é a classe da qual queremos extrair tal informação. Essa expressão representa a soma da coluna inteira da classe $c$, com exceção da instância onde $c=i$, ou seja, aquela que foi corretamente predita. Com isso, estamos somando todas as instâncias classificadas como sendo da classe $c$, porém que não são, de fato, de tal *label*.
<br><br>
FN = $ \Big(\sum_{j \neq c} C_{cj}\Big) $, onde $c$ é a classe da qual queremos extrair tal informação. Essa expressão representa a soma da linha inteira da classe $c$, com exceção da instância onde $c=j$, ou seja, aquela que foi corretamente predita. Com isso, estamos somando todas as instâncias pertencentes à classe $c$, porém que foram classificadas erroneamente com outro *label*.

# Exercício 2

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import confusion_matrix

In [2]:
df = pd.read_csv('Dataset_3Cluster_4features.csv')

# Divide o dataset em conjunto de treino e conjunto de validacao
train_set, test_set = train_test_split(df, test_size=0.25)

# Divide o conjunto de treino em features e labels
X_train = train_set.iloc[:, :-1]
y_train = train_set.iloc[:, -1]
# Divide o conjunto de validacao em features e labels
X_test = test_set.iloc[:, :-1]
y_test = test_set.iloc[:, -1]

In [3]:
# Cria o primeiro modelo
classifier1 = MLPClassifier(hidden_layer_sizes=(3, 3), max_iter=1000, activation='relu',
                           learning_rate_init=0.1)

In [4]:
# Cria o segundo modelo
classifier2 = MLPClassifier(hidden_layer_sizes=(5, 5), max_iter=1000, activation='logistic',
                           learning_rate_init=0.1)

In [5]:
# Treina o primeiro modelo
classifier1.fit(X_train, y_train)

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(3, 3), learning_rate='constant',
              learning_rate_init=0.1, max_fun=15000, max_iter=1000,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=None, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

In [6]:
# Treina o segundo modelo
classifier2.fit(X_train, y_train)

MLPClassifier(activation='logistic', alpha=0.0001, batch_size='auto',
              beta_1=0.9, beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(5, 5), learning_rate='constant',
              learning_rate_init=0.1, max_fun=15000, max_iter=1000,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=None, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

In [7]:
# Faz a predicao usando o conjunto de treino => para calcular o erro empirico da generalizacao
y_emp1 = classifier1.predict(X_train)
y_emp2 = classifier2.predict(X_train)

In [8]:
# Faz a predicao usando o conjunto de testes => para poder calcular a metrica de avaliacao do modelo
y_pred1 = classifier1.predict(X_test)
y_pred2 = classifier2.predict(X_test)

In [9]:
# Gera as matrizes de confusao dos resultados
cm_emp1  = confusion_matrix(y_train, y_emp1)
cm_emp2  = confusion_matrix(y_train, y_emp2)
cm_pred1 = confusion_matrix(y_test, y_pred1)
cm_pred2 = confusion_matrix(y_test, y_pred2)

In [10]:
def accuracy(cm):
    '''
    Retorna a acuracia de um modelo, dada sua matriz de confusao.
    O metodo consiste em somar os elementos da diagonal principal (corretamente preditos)
    e dividir pela soma de todos os elementos da matriz (numero total de predicoes)
    Input:
        cm: matriz de confusao
    Return:
        Acuracia do modelo
    '''
    return cm.trace() / cm.sum()

In [11]:
# Calcula as acuracias empiricas (erro no conjunto de treino)
acc_emp1 = accuracy(cm_emp1)
acc_emp2 = accuracy(cm_emp2)

# Calcula as acuracias estimadas (erro no conjunto de validacao)
acc_est1 = accuracy(cm_pred1)
acc_est2 = accuracy(cm_pred2)

# Calcula os riscos
Remp1 = 1 - acc_emp1
Remp2 = 1 - acc_emp2

Rest1 = 1 - acc_est1
Rest2 = 1 - acc_est2

In [12]:
print('Risco empirico do modelo 1: ', Remp1)
print('Risco empirico do modelo 2: ', Remp2)
print()
print('Risco estimado do modelo 1: ', Rest1)
print('Risco estimado do modelo 2: ', Rest2)

print('Acuracia do modelo 1: ', acc_est1)
print('Acuracia do modelo 2: ', acc_est2)

print('\nDe acordo com os valores dos riscos (erros), o modelo que melhor generalizou foi: ')

if Rest1 < Rest2:
    print('o primeiro modelo!')
elif Rest2 < Rest1:
    print('o segundo modelo!')
else:
    print('ambos!')

Risco empirico do modelo 1:  0.013333333333333308
Risco empirico do modelo 2:  0.004444444444444473

Risco estimado do modelo 1:  0.013333333333333308
Risco estimado do modelo 2:  0.0
Acuracia do modelo 1:  0.9866666666666667
Acuracia do modelo 2:  1.0

De acordo com os valores dos riscos (erros), o modelo que melhor generalizou foi: 
o segundo modelo!


Percebe-se que, para o *dataset* `Dataset_3Cluster_4features.csv`, ambos os modelos são capazes de generalizar muito bem.

# Exercício 3

In [13]:
# Carrega o dataset Iris
from sklearn import datasets
iris = datasets.load_iris()

In [14]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, shuffle=True)

In [15]:
# Cria o primeiro modelo
classifier1 = MLPClassifier(hidden_layer_sizes=(3, 3), max_iter=1000, activation='relu',
                           learning_rate_init=0.1)

In [16]:
# Cria o segundo modelo
classifier2 = MLPClassifier(hidden_layer_sizes=(5, 5), max_iter=1000, activation='logistic',
                           learning_rate_init=0.1)

In [17]:
# Treina o primeiro modelo
classifier1.fit(X_train, y_train)

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(3, 3), learning_rate='constant',
              learning_rate_init=0.1, max_fun=15000, max_iter=1000,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=None, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

In [18]:
# Treina o segundo modelo
classifier2.fit(X_train, y_train)

MLPClassifier(activation='logistic', alpha=0.0001, batch_size='auto',
              beta_1=0.9, beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(5, 5), learning_rate='constant',
              learning_rate_init=0.1, max_fun=15000, max_iter=1000,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=None, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

In [19]:
# Faz a predicao usando o conjunto de treino => para calcular o erro empirico da generalizacao
y_emp1 = classifier1.predict(X_train)
y_emp2 = classifier2.predict(X_train)

In [20]:
# Faz a predicao usando o conjunto de testes => para poder calcular a metrica de avaliacao do modelo
y_pred1 = classifier1.predict(X_test)
y_pred2 = classifier2.predict(X_test)

In [21]:
# Gera as matrizes de confusao dos resultados
cm_emp1  = confusion_matrix(y_train, y_emp1)
cm_emp2  = confusion_matrix(y_train, y_emp2)
cm_pred1 = confusion_matrix(y_test, y_pred1)
cm_pred2 = confusion_matrix(y_test, y_pred2)

In [23]:
def accuracy(cm):
    '''
    Retorna a acuracia de um modelo, dada sua matriz de confusao.
    O metodo consiste em somar os elementos da diagonal principal (corretamente preditos)
    e dividir pela soma de todos os elementos da matriz (numero total de predicoes)
    Input:
        cm: matriz de confusao
    Return:
        Acuracia do modelo
    '''
    return cm.trace() / cm.sum()

In [24]:
# Calcula as acuracias empiricas (erro no conjunto de treino)
acc_emp1 = accuracy(cm_emp1)
acc_emp2 = accuracy(cm_emp2)

# Calcula as acuracias estimadas (erro no conjunto de validacao)
acc_est1 = accuracy(cm_pred1)
acc_est2 = accuracy(cm_pred2)

# Calcula os riscos
Remp1 = 1 - acc_emp1
Remp2 = 1 - acc_emp2

Rest1 = 1 - acc_est1
Rest2 = 1 - acc_est2

In [25]:
print('Risco empirico do modelo 1: ', Remp1)
print('Risco empirico do modelo 2: ', Remp2)
print()
print('Risco estimado do modelo 1: ', Rest1)
print('Risco estimado do modelo 2: ', Rest2)

print('Acuracia do modelo 1: ', acc_est1)
print('Acuracia do modelo 2: ', acc_est2)

print('\nDe acordo com os valores dos riscos (erros), o modelo que melhor generalizou foi: ')

if Rest1 < Rest2:
    print('o primeiro modelo!')
elif Rest2 < Rest1:
    print('o segundo modelo!')
else:
    print('ambos!')

Risco empirico do modelo 1:  0.2952380952380952
Risco empirico do modelo 2:  0.01904761904761909

Risco estimado do modelo 1:  0.4222222222222223
Risco estimado do modelo 2:  0.0
Acuracia do modelo 1:  0.5777777777777777
Acuracia do modelo 2:  1.0

De acordo com os valores dos riscos (erros), o modelo que melhor generalizou foi: 
o segundo modelo!


Percebe-se que para o *dataset* `Iris`, o primeiro modelo não foi capaz de generalizar, ficando com uma acurácia perto de 50%, o que indica uma classificação aleatória. Já o segundo modelo resultou em uma acurácia de 100%.