<a href="https://colab.research.google.com/github/Henzocosta/Alura/blob/main/Manipula%C3%A7%C3%A3o_de_dados_para_artigo_cba.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manipulação da base de dados obrigatória para treinar os modelos de IA

In [None]:
# Instalação das bibliotecas (pode não ser necessária no Colab, pois já vem pré-instalado)
# !pip install tensorflow pandas numpy

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler


In [None]:
# Carregando os dados
data = pd.read_csv('dados_filtrados_z_100.csv') # Não esquecer de colocar o nome do arquivo que foi enviado no whats

data.dropna(inplace=True)  # Remove todas as linhas onde há pelo menos um valor nulo

In [None]:
# Define a frequência como 10 para toda a coluna 'Frequência'
data['Frequência'] = 10


# Verifica se a transformação foi feita corretamente
data.head()

Unnamed: 0,Data,Hora,Frequência,z,speed,dir
0,2023-12-01,00:10:00,10,100,6.13,29.1
1,2023-12-01,00:20:00,10,100,6.04,27.1
2,2023-12-01,00:30:00,10,100,5.99,19.8
3,2023-12-01,00:40:00,10,100,5.39,22.5
4,2023-12-01,00:50:00,10,100,5.43,26.6


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3507 entries, 0 to 3840
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Data        3507 non-null   object 
 1   Hora        3507 non-null   object 
 2   Frequência  3507 non-null   int64  
 3   z           3507 non-null   int64  
 4   speed       3507 non-null   float64
 5   dir         3507 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 320.8+ KB


In [None]:
# Combina as colunas 'Data' e 'Hora' em uma única coluna do tipo datetime
data['DataHora'] = pd.to_datetime(data['Data'] + ' ' + data['Hora'])

# Exclui as colunas 'Data' e 'Hora'
data.drop(columns=['Data', 'Hora'], inplace=True)

In [None]:
data.head()

Unnamed: 0,Frequência,z,speed,dir,DataHora
0,10,100,6.13,29.1,2023-12-01 00:10:00
1,10,100,6.04,27.1,2023-12-01 00:20:00
2,10,100,5.99,19.8,2023-12-01 00:30:00
3,10,100,5.39,22.5,2023-12-01 00:40:00
4,10,100,5.43,26.6,2023-12-01 00:50:00


In [None]:
# Converte a coluna 'DataHora' para a data juliana
data['DataJuliana'] = data['DataHora'].apply(lambda x: x.toordinal())

# Exclui as colunas 'DataHora'
data.drop(columns=['DataHora'], inplace=True)

# Visualizar as alterações feitas
data.head()

Unnamed: 0,Frequência,z,speed,dir,DataJuliana
0,10,100,6.13,29.1,738855
1,10,100,6.04,27.1,738855
2,10,100,5.99,19.8,738855
3,10,100,5.39,22.5,738855
4,10,100,5.43,26.6,738855
5,10,100,5.86,25.3,738855
6,10,100,6.05,20.7,738855
7,10,100,6.51,24.5,738855
8,10,100,6.63,23.5,738855
9,10,100,6.38,26.3,738855


In [None]:
# Visualizar as informações da base de dados
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3507 entries, 0 to 3840
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Frequência   3507 non-null   int64  
 1   z            3507 non-null   int64  
 2   speed        3507 non-null   float64
 3   dir          3507 non-null   float64
 4   DataJuliana  3507 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 293.4 KB


# Treinamento do Modelo

In [None]:
# Selecionando as colunas para o modelo
features = data[['Frequência','z', 'dir', 'DataJuliana']]
target = data['speed']

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# Normalização dos dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


In [None]:
# Construindo o modelo
model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=(X_train_scaled.shape[1],)),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
])

model.compile(optimizer='adam',
              loss='mse',
              metrics=['mae'])

# Treinando o modelo
history = model.fit(X_train_scaled, y_train, epochs=100, validation_split=0.2)


Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

In [None]:
# Avaliação do modelo
model.evaluate(X_test_scaled, y_test)



[3.9223411083221436, 1.5418599843978882]