# Trabalho MPL

#### Alunos: Alexsandro Guilherme Thomas, Igor Andrey Ronsoni
#### Palavras Chave: Abóbora, Banana, Cenoura
#### Repositório Github: [https://github.com/igorronsoni/inteligencia-artificial](https://github.com/igorronsoni/inteligencia-artificial)

## Modelo para o Sensor CEI

Este dataset **"DataCEI.csv"** possui informações dispostas em colunas sobre as características dos objetos que passam pelo sensor:

* **Tamanho**:  Segue a classificação do CEI2020 (Tamanho='0' - Grande 100%).
* **Referencia**:  Referência dinâmica do *Threshold.
* **NumAmostra**:  Número de amostras adquiridas.
* **Area**:  Somatório das Amplitudes das amostras.
* **Delta**:  Máxima Amplitude da amostra.
* **Output1**:  Peça tipo 1.
* **Output2**:  Peça tipo 2.

### Definições

In [1]:
plot_graphs, display_info = False, False # Poupa tempo se estiver desligado

### Bibliotecas

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

#Função do cáculo da sigmóide
def sigmoid(x):
    return 1/(1+np.exp(-x))

### Carregando os dados

Vamos começar lendo o arquivo DataCEI.csv em um dataframe do pandas.

In [3]:
DataSet=pd.read_csv('arruela_.csv')

In [4]:
if display_info :
    DataSet.head()

In [5]:
DataSet.drop(['Hora','Tamanho','Referencia'],axis=1,inplace=True)

In [6]:
if display_info :
    DataSet.head()

In [7]:
if display_info :
    DataSet.describe()

### Váriaveis do *Dataset*

In [8]:
if display_info :
    DataSet.columns

### Número de Peças

#### Vamos classificar os grupos pelo número de peças: 
1. Grupo com uma peça
2. Grupo com duas peças

In [9]:
if plot_graphs :
    sns.set_style('whitegrid')
    sns.countplot(x='Output2',data=DataSet,palette='RdBu_r')
    plt.show()

#### Gráfico da distribuição das áreas das peças

In [10]:
if plot_graphs :
    sns.distplot(DataSet['Area'].dropna(),kde=False,color='darkred',bins=30)
    plt.show()

In [11]:
if plot_graphs :
    sns.set_style('whitegrid')
    sns.countplot(x='Area',hue='Output2',data=DataSet,palette='rainbow')
    plt.show()

In [12]:
if plot_graphs :
    sns.set_style('whitegrid')
    sns.countplot(x='NumAmostra',hue='Output2',data=DataSet,palette='rainbow')
    plt.show()

In [13]:
if plot_graphs :
    sns.set_style('whitegrid')
    sns.countplot(x='Delta',hue='Output1',data=DataSet,palette='rainbow')
    plt.show()

## As variáveis preditoras e a variável de resposta

Para treinar o modelo de regressão, primeiro precisaremos dividir nossos dados em uma matriz **X** que contenha os dados das variáveis preditoras e uma matriz **y** com os dados da variável de destino.

### Matrizes X e y

In [14]:
#X = DataSet[[ 'NumAmostra', 'Area', 'Delta']]
#y = DataSet[['Output1','Output2']]

### Relação entre as variáveis preditoras

####  Algumas questões importantes
1. Pelo menos um dos preditores ***x1, x2, ... ,x5***  é útil na previsão da resposta?
2. Todos os preditores ajudam a explicar **y**, ou apenas um subconjunto dos preditores?
3. Quão bem o modelo se ajusta aos dados?
4. Dado um conjunto de valores de previsão, quais valores de resposta devemos prever e quais as métricas indicam um bom modelo de previsão?

**Gráficos simples de dispersão**

Pelos gráficos abaixo percebemos ... nossa variável de resposta

In [15]:
if plot_graphs :
    sns.pairplot(DataSet)
    plt.show()

**Mapa de Calor**

O gráfico abaixo mostra através de uma escala de cores a correlação entre as variáveis do *Dataset*. Se observarmos as cores deste gráfico, a variável preditora **'Area'** possui maior correlação com a variável de resposta **'Output'** e a variável **'NumAmostra'** a menor.

In [16]:
if plot_graphs :
    sns.heatmap(DataSet.corr())
    plt.show()

## Normalização dos Dados

In [17]:
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
DataScaled=scaler.fit_transform(DataSet)
DataSetScaled=pd.DataFrame(np.array(DataScaled),columns = ['NumAmostra', 'Area', 'Delta', 'Output1','Output2'])

In [18]:
if display_info :
    DataSetScaled.head()

### Conjunto de dados para o treinamento

In [19]:
X = DataSetScaled.drop(['Output1', 'Output2'],axis=1)
y = DataSet[['Output1','Output2']]

## Separando os dados de treinamento e de validação

Agora vamos dividir os dados em um conjunto de treinamento e um conjunto de testes. Vamos treinar o modelo no conjunto de treinamento, em seguida, usar o conjunto de teste para validar o modelo.

Em nosso exemplo iremos separar de forma randômica 33% dos dados para validação. Estes dados não serão utilizados para determinação dos coeficientes preditores do modelo. 


In [20]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=101)

if display_info :
    print(y_test)
    print(X_test)

## Criando o Modelo de MPL

In [21]:
#Tamanho do DataSet de Treinamento
n_records, n_features = X_train.shape

#Arquitetura da MPL
N_input = 3 # Vale a pena cortar alguma entrada?
N_hidden = 30 # Vale a pena abaixar ou aumentar?
N_output = 2
learnrate = 1 # Vale a pena abaixar ou aumentar?

## Inicialização dos pesos da MPL (Aleatório)

In [22]:
#Pesos da Camada Oculta (Inicialização Aleatória)
weights_input_hidden = np.random.normal(0, scale=0.1, size=(N_input, N_hidden))
if display_info :
    print('Pesos da Camada Oculta:')
    print(weights_input_hidden)

#Pesos da Camada de Saída (Inicialização Aleatória)
weights_hidden_output = np.random.normal(0, scale=0.1, size=(N_hidden, N_output))
if display_info :
    print('Pesos da Camada de Saída:')
    print(weights_hidden_output)

## Algoritmo Backpropagation

In [None]:
epochs = 20000
n_prints = 20
last_loss=None
EvolucaoError=[]
IndiceError=[]

print(f"Executando {epochs} épocas com {n_prints} passos de coleção de dados")

for e in range(epochs):
    delta_w_i_h = np.zeros(weights_input_hidden.shape)
    delta_w_h_o = np.zeros(weights_hidden_output.shape)
    for xi, yi in zip(X_train.values, y_train.values):
        
# Forward Pass
        #Camada oculta
        #Calcule a combinação linear de entradas e pesos sinápticos
        hidden_layer_input = np.dot(xi, weights_input_hidden)
        #Aplicado a função de ativação
        hidden_layer_output = sigmoid(hidden_layer_input)
    
        #Camada de Saída
        #Calcule a combinação linear de entradas e pesos sinápticos
        output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)

        #Aplicado a função de ativação 
        output = sigmoid(output_layer_in)
        #print('As saídas da rede são',output)
#-------------------------------------------    
    
# Backward Pass
        ## TODO: Cálculo do Erro
        error = yi - output
    
        # TODO: Calcule o termo de erro de saída (Gradiente da Camada de Saída)
        output_error_term = error * output * (1 - output)

        # TODO: Calcule a contribuição da camada oculta para o erro
        hidden_error = np.dot(weights_hidden_output,output_error_term)
    
        # TODO: Calcule o termo de erro da camada oculta (Gradiente da Camada Oculta)
        hidden_error_term = hidden_error * hidden_layer_output * (1 - hidden_layer_output)
    
        # TODO: Calcule a variação do peso da camada de saída
        delta_w_h_o += output_error_term*hidden_layer_output[:, None]

        # TODO: Calcule a variação do peso da camada oculta
        delta_w_i_h += hidden_error_term * xi[:, None]
        
    #Atualização dos pesos na época em questão
    weights_input_hidden += learnrate * delta_w_i_h / n_records
    weights_hidden_output += learnrate * delta_w_h_o / n_records
    
    
    # Imprimir o erro quadrático médio no conjunto de treinamento
    
    if  e % (epochs / n_prints) == 0:
        hidden_output = sigmoid(np.dot(xi, weights_input_hidden))
        out = sigmoid(np.dot(hidden_output,
                             weights_hidden_output))
        loss = np.mean((out - yi) ** 2)

        print("({:2.0f}/{})".format(e//(epochs / n_prints)+1, n_prints), end=' ')
        if last_loss and last_loss < loss:
            print("Erro quadrático no treinamento: ", loss, " Atenção: O erro está aumentando")
        else:
            print("Erro quadrático no treinamento: ", loss)
        last_loss = loss
         
        EvolucaoError.append(loss)
        IndiceError.append(e)

Executando 20000 épocas com 20 passos de coleção de dados
( 1/20) Erro quadrático no treinamento:  0.2950602411664641
( 2/20) Erro quadrático no treinamento:  0.05509546788559491
( 3/20) Erro quadrático no treinamento:  0.009723861524576029
( 4/20) Erro quadrático no treinamento:  0.0035941855880562397
( 5/20) Erro quadrático no treinamento:  0.0017894790917270232
( 6/20) Erro quadrático no treinamento:  0.0010476981001755667
( 7/20) Erro quadrático no treinamento:  0.0006769662179263451
( 8/20) Erro quadrático no treinamento:  0.00045483314273884535
( 9/20) Erro quadrático no treinamento:  0.00030994059892201916
(10/20) Erro quadrático no treinamento:  0.00021157226916617826
(11/20) Erro quadrático no treinamento:  0.00014174515090218146


In [None]:
### Gráfico da Evolução do Erro

In [None]:
plt.plot(IndiceError, EvolucaoError, 'r') # 'r' is the color red
plt.xlabel('')
plt.ylabel('Erro Quadrático')
plt.title('Evolução do Erro no treinamento da MPL')
plt.show()

## Validação do modelo

In [None]:
# Calcule a precisão dos dados de teste
n_records, n_features = X_test.shape
predictions=0

for xi, yi in zip(X_test.values, y_test.values):

# Forward Pass
        #Camada oculta
        #Calcule a combinação linear de entradas e pesos sinápticos
        hidden_layer_input = np.dot(xi, weights_input_hidden)
        #Aplicado a função de ativação
        hidden_layer_output = sigmoid(hidden_layer_input)
    
        #Camada de Saída
        #Calcule a combinação linear de entradas e pesos sinápticos
        output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)

        #Aplicado a função de ativação 
        output = sigmoid(output_layer_in)

#-------------------------------------------    
    
#Cálculo do Erro da Predição
        ## TODO: Cálculo do Erro        
        if (output[0]>output[1]):
            if (yi[0]>yi[1]):
                predictions+=1
                
        if (output[1]>=output[0]):
            if (yi[1]>yi[0]):
                predictions+=1

print("Para os pesos:")

print('Camada Oculta:')
print(weights_input_hidden)

print('Camada de Saída:')
print(weights_hidden_output)

print("A Acurácia da Predição é de: {:.3f}".format(predictions/n_records))

### Apreciação dos resultados

Formato descritivo, 150 a 500 palavras.

Pontos chave para discutir:

- Variáveis que tem maior correlação com cada uma das saídas (Quais entradas acabam influênciando mais na saída? Uma análise dos pesos finais revela algo?)
- Pesos que levaram ao melhor cenário (quais?)
- Acurácia média do treinamento (Pode mudar dependendo da execução, devido à inicialização randômica dos pesos.)
- Por que escolhemos o número x de camadas intermediárias? (Melhorou quando subimos? Piorou?)

#### Nossa apreciação
 Após longos períodos de testes e mudanças de variáveis, concluímos que os dados que interferem mais na saída de nossa rede neural é o input: pois quanto mais dados temos, mais nossa Rede neural é capaz de aprender, portanto ao diminuir a quantidade de entradas para um número significativamente pequeno, a porcentagem da acurácia da predição diminui também, outro dado que interfere bastante na saída de nossa rede neural é o campo hidden: após os teste, notamos que quando tínhamos um número um tanto quanto alto de neurônios na camada oculta, a taxa de predição diminuía, mas quando tínhamos um número razoavelmente pequeno também diminui, portanto, concluímos que a quantidade não pode ser exagerada mas também não pode ser pequena, então deixamos ela com 30, porque foi com essa quantidade de neurônios na camada oculta que obtivemos a maior acurácia de predição que se estabilizou em 86.1%.
 
 Ao mudar as variáveis diversas e diversas vezes, obtivemos o melhor resultado com o valor de entrada em 3, neurônios na camada oculta em 30 e a saída com 2.
 
 A acurácia média girou em torno dos 85%, mas estabilizou como valor mais com os últimos dados inseridos em 86.1% que também foi o maior valor obtido de todos os testes.
 
 Os valores de entrada foram escolhidos utilizando uma famosa forma desenvolvida chamada 'tentativa e erro'. De acordo com os resultados obtidos com dados escolhidos, decidimos se deveríamos aumentar ou diminuir determinada variável.