# Curso: Redes Neurais e Deep Learning

Prof. Denilson Alves Pereira 
https://sites.google.com/ufla.br/denilsonpereira/ 
Departamento de Ciência da Computação - 
Instituto de Ciências Exatas e Tecnológicas - 
Universidade Federal de Lavras

# Atividade Prática 03

**Tempo estimado para execução**: 3 horas

Versão: Junho, 2021

## Projeto Final

O objetivo da atividade é desenvolver um projeto prático livre utilizando o conhecimento adquirido no curso. Você deve escolher um *dataset* para um problema de classificação, ler e efetuar o pré-processamento desse conjunto de dados e configurar uma rede neural para efetuar a classificação. Execute as seguintes etapas: definição, compilação e treinamento do modelo, avaliação e predição no conjunto de teste. Você deve avaliar diversas configurações para a sua rede neural, de forma a obter um resultado satisfatório. Verifique na literatura os melhores resultados obtidos com o *dataset*, se você estiver usando um *dataset* público.

Para o *dataset*, escolha uma das opções abaixo:
- um dataset que você esteja trabalhando em um projeto pessoal ou da sua empresa;
- um dataset público.

Existem diversos *datasets* públicos disponíveis na Web. A plataforma *Kaggle* (https://www.kaggle.com/) é uma das principais fontes. A *Kaggle* é formada por uma comunidade *online* de cientistas de dados e programadores em *machine learning*. Os usuários podem encontrar *datasets* e códigos em Python que os utilizam. Também podem participar de competições, fazendo parte de equipes, para resolver desafios da ciência de dados, inclusive com possibilidades de premiações em dinheiro.

Este link (https://analyticsindiamag.com/10-most-popular-datasets-on-kaggle/) apresenta os 10 *datasets* mais populares na plataforma *Kaggle*.

Este link (https://enoumen.com/2021/04/23/data-sciences-datasets-data-visualization-data-analytics-big-data-data-lakes/) apresenta 300 *datasets* públicos que pode ser úteis para execução da atividade prática. 

#### Importante:
Documente cada etapa do seu código. Crie céluas de *Markdown* com textos explicativos e links para referências. Adicione comentários ao seu código.

# Predição de atraso em determinado voo

O objetivo deste trabalho é fazer predições sobre o atraso de determinado voo, o dataset escolhido se encontra no link https://www.kaggle.com/datasets/jimschacko/airlines-dataset-to-predict-a-delay. 


In [4]:
#importando os pacotes 

import tensorflow as tf  
from tensorflow import keras
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt


#  Criação do dataset e pré - processamento

**Passos :**

- Lê o dataset, com a base escolhida 
- Exibe as primeiras linhas com os dados 
- Retira a váriavel Delay, e coloca em outra váriavel  que será o nosso y (ou seja o que será estimado)
- Exibe os tipos de dados 
- Usando a função train_test_split cria-se o conjunto de testes com amostras aleatórias.

In [5]:
# lendo o csv

df=pd.read_csv("C:/Users/iarac/Documents/CC/redes neurais/notebooks-atividades-praticas/notebooks-atividades-praticas/Airlines.csv")

#exibe data frame 
print(df.head())

#separando o delay que é a variavel que irá indicar a existencia de atraso dado os dados 

x = df.drop(["Delay"], axis=1) 
y = df["Delay"]

#ver os tipos das variaveis

print(df.dtypes)

#dividir os dados em treino e teste  
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(x, y , test_size=0.20, random_state=5)

#remove a media e padroniza a variancia

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

train_x = scaler.fit_transform(train_x)
test_x = scaler.fit_transform(test_x)





   id  Flight  DayOfWeek  Time  Length  Delay
0   1     269          3    15     205      1
1   2    1558          3    15     222      1
2   3    2400          3    20     165      1
3   4    2466          3    20     195      1
4   5     108          3    30     202      0
id           int64
Flight       int64
DayOfWeek    int64
Time         int64
Length       int64
Delay        int64
dtype: object


# Criação do modelo 

**Passos **
- Cria o input e atribui os atributos da base 
- Cria uma camada com 500 neurônios com função de ativação reLU
- Cria uma camada com 250 neurônios com função de ativação reLU
- Cria uma camada com 10 neurônios com função de ativação reLU
- Cria uma camada para output, com 1 neurônio que tem a ativação sigmoid
- Usa-se keras.Model para receber o objeto com as redes
- Exibe informações sobre o modelo criado



In [16]:
inputs = keras.Input(shape=(train_x.shape[1]))  
network1 = keras.layers.Dense(units=500, activation="relu")(inputs)
network2 = keras.layers.Dense(units=250, activation="relu")(network1) 
network3 = keras.layers.Dense(units=10, activation="relu")(network2)
outputs = keras.layers.Dense(units=1, activation="sigmoid")(network3)
#variavel model recebe a criação do modelo 
model = keras.Model(inputs=inputs, outputs=outputs)

model.summary()

Model: "model_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_4 (InputLayer)        [(None, 5)]               0         
                                                                 
 dense_9 (Dense)             (None, 500)               3000      
                                                                 
 dense_10 (Dense)            (None, 250)               125250    
                                                                 
 dense_11 (Dense)            (None, 10)                2510      
                                                                 
 dense_12 (Dense)            (None, 1)                 11        
                                                                 
Total params: 130,771
Trainable params: 130,771
Non-trainable params: 0
_________________________________________________________________


# Compilação do Modelo 

O método compile configura o processo de treinamento da rede neural.
- Otimizador: Adam
- Função de Perda: Binary Crossentropy 
- Metrics : Accuracy 

In [17]:

model.compile(optimizer="adam", loss="binary_crossentropy",  metrics='accuracy' ) 

# Treinamento do modelo 


O método fit é usado para fazer o treinamento da rede neural , ele recebe os dados de treinamento e ajusta os pesos. O tamanho do lote escolhido é 20 e 
o número de vezes que a rede vai ser processada é 10. (Passando pelo conjunto de dados)


In [19]:
history = model.fit(train_x, train_y, batch_size=20, epochs=10) 
print(history)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
<keras.callbacks.History object at 0x000001DC610AB130>


# Avaliação do Modelo

In [21]:
loss, accuracy = model.evaluate(test_x, test_y) 
print(loss)
print(accuracy)

0.6445845365524292
0.62441486120224


Temos que a função de perda é 0.6445 e a acurácia é 0.62441


# Predição 

In [29]:
predictions = model.predict(test_x)
print("Predictions: ", [round(x[0]) for x in predictions][:200])
print("\nCorrect:     ", [round(x) for x in test_y] [:200])

Predictions:  [0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1]

Correct:      [0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 

Como foram muitas predições, eu imprimi as vinte primeiras. Através delas é possivel dizer qual avião sofrerá um atraso de acordo com os dados referentes
ao id, Flight, DayOfWeek, Time e Length. 