## Etapa: 04. Balanceamento

#### Código criado por: Eduardo Arthur Bitencourt  | Data: 31/07/2023
##### Github: https://github.com/bitencourt-eduardo  | Linkedin: https://www.linkedin.com/in/bitencourt-eduardo/

In [10]:
#!pip install matplotlib
#!pip install imbalanced-learn
#!pip install xgboost

In [24]:
#Importar Bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score




#### Carregando arquivos FieldPRO

Sensor_FieldPRO, dados transmitidos pelo sensor

In [2]:
# Carregar arquivo de dados transmitidos pelo sensor
diretorio = '../datasets/{name_file}'

df_oversampling = pd.read_csv(diretorio.format(name_file='df_oversampling.csv'), sep=';', decimal='.')
df_undersampling = pd.read_csv(diretorio.format(name_file='df_undersampling.csv'), sep=';', decimal='.')
df_bsmote = pd.read_csv(diretorio.format(name_file='df_bsmote.csv'), sep=';', decimal='.')

df_normalized = pd.read_csv(diretorio.format(name_file='df_normalized.csv'), sep=';', decimal='.')

df_oversampling.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39690 entries, 0 to 39689
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   air_humidity_100   39690 non-null  float64
 1   atm_pressure_main  39690 non-null  float64
 2   num_of_resets      39690 non-null  float64
 3   piezo_charge       39690 non-null  float64
 4   piezo_temperature  39690 non-null  float64
 5   chuva              39690 non-null  int64  
dtypes: float64(5), int64(1)
memory usage: 1.8 MB


In [None]:
df_undersampling.info()

In [None]:
df_bsmote.info()

_____________________________________________________________________________________________________________________________

# REGRESSÃO LINEAR

* REGRESSÃO LINEAR OVERSAMPLED

In [None]:
# Selecionando as variáveis independentes e a variável alvo (chuva)
data = df_oversampling

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão linear
reg_model = LinearRegression()

# Treinando o modelo com o conjunto de treinamento
reg_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = reg_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

*  REGRESSÃO LINEAR  UNDERSAMPLED

In [None]:
# Selecionando as variáveis independentes e a variável alvo (chuva)
data = df_undersampling
X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão linear
reg_model = LinearRegression()

# Treinando o modelo com o conjunto de treinamento
reg_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = reg_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

*  REGRESSÃO LINEAR  BOARD SMOTE

In [None]:
# Selecionando as variáveis independentes e a variável alvo (chuva)
data = df_bsmote
X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão linear
reg_model = LinearRegression()

# Treinando o modelo com o conjunto de treinamento
reg_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = reg_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

*  REGRESSÃO LINEAR DADOS NORMALIZADOS E NAO BALANCEADOS

In [None]:
# Selecionando as variáveis independentes e a variável alvo (chuva)
data = df_normalized
X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão linear
reg_model = LinearRegression()

# Treinando o modelo com o conjunto de treinamento
reg_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = reg_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Observado:
* Regressão Linear para DataSets balanceamento Invalidados
* Modelo de Regressão Linear sem Balanceamento acerta mais, devido a alta assertividade de não chuva. O que significa que o modelo explica apenas uma pequena proporção da variabilidade

# RANDO FOREST

* RANDOM OVERSAMPLING

In [3]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_oversampling

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinando o modelo com o conjunto de treinamento
rf_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = rf_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 0.1370281683043588
Coeficiente de determinação (R²): 0.9997645535865921


In [None]:
import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor

# Carregando os dados
data = pd.read_csv('caminho/do/arquivo.csv', sep=';')

# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
X = data.drop(columns=['chuva'])
y = data['chuva']

# Criando o modelo Random Forest
rf_model = RandomForestRegressor(random_state=42)

# Realizando a validação cruzada com 5 folds
cv_scores = cross_val_score(rf_model, X, y, cv=5, scoring='neg_mean_squared_error')

# Convertendo os scores de MSE negativos para positivos
cv_scores = -cv_scores

# Calculando a média e desvio padrão dos scores
mean_mse = cv_scores.mean()
std_mse = cv_scores.std()

print("Média do MSE:", mean_mse)
print("Desvio padrão do MSE:", std_mse)


* RANDOM FOREST UNDERSAMPLING

In [4]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_undersampling

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinando o modelo com o conjunto de treinamento
rf_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = rf_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 690.24735
Coeficiente de determinação (R²): -4.822142596063729


* RANDOM FOREST BORD SMOTE

In [5]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_bsmote

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinando o modelo com o conjunto de treinamento
rf_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = rf_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 2.1405901172529314
Coeficiente de determinação (R²): 0.183752214033984


* RANDOM FOREST NORMALIZED SEM BALANCEAMENTO

In [6]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_normalized

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinando o modelo com o conjunto de treinamento
rf_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = rf_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 0.0023699798799301152
Coeficiente de determinação (R²): -1.8651427978104658


Observado:
* Bom desempenho para Random Forest com OverSampling

# XGBOST

In [11]:
import xgboost as xgb

* XGBOOST OVERSAMPLING

In [12]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_oversampling

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo XGBoost
xgb_model = xgb.XGBRegressor(random_state=42)

# Treinando o modelo com o conjunto de treinamento
xgb_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = xgb_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 0.2620537724778621
Coeficiente de determinação (R²): 0.9995497303830781


* XGBOOST UNDERSAMPLING

In [14]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_undersampling

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo XGBoost
xgb_model = xgb.XGBRegressor(random_state=42)

# Treinando o modelo com o conjunto de treinamento
xgb_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = xgb_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 257.8603844943
Coeficiente de determinação (R²): -1.175017301264011


* XGBOOST BORD SMOTE

In [15]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_bsmote

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo XGBoost
xgb_model = xgb.XGBRegressor(random_state=42)

# Treinando o modelo com o conjunto de treinamento
xgb_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = xgb_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 1.7288307899760458
Coeficiente de determinação (R²): 0.3407638887734413


* XGBOOST DADOS NORMALIZADOS E NÃO BALANCEADOS

In [16]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_normalized

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo XGBoost
xgb_model = xgb.XGBRegressor(random_state=42)

# Treinando o modelo com o conjunto de treinamento
xgb_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = xgb_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

Erro quadrático médio (MSE): 0.0036813334233945414
Coeficiente de determinação (R²): -3.450479108999372


Observado:
* Bom desempenho para XGBOOST com OverSampling

# CROSVALIDATION

In [18]:
from sklearn.model_selection import cross_val_score

In [20]:
# Selecionando as colunas de features (variáveis independentes) e a variável alvo (chuva)
data = df_oversampling

X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividindo os dados em conjunto de treinamento e conjunto de teste (80% treinamento, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo XGBoost
xgb_model = xgb.XGBRegressor(random_state=42)

# Treinando o modelo com o conjunto de treinamento
xgb_model.fit(X_train, y_train)

# Realizando as previsões no conjunto de teste
y_pred = xgb_model.predict(X_test)

# Avaliando o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Erro quadrático médio (MSE):", mse)
print("Coeficiente de determinação (R²):", r2)

# Criando o modelo XGBoost
xgb_model = xgb.XGBRegressor(random_state=42)

# Realizando a validação cruzada com 5 folds
cv_scores = cross_val_score(xgb_model, X, y, cv=5, scoring='neg_mean_squared_error')

# Convertendo os scores de MSE negativos para positivos
cv_scores = -cv_scores

# Calculando a média e desvio padrão dos scores
mean_mse = cv_scores.mean()
std_mse = cv_scores.std()

print("Média do MSE:", mean_mse)
print("Desvio padrão do MSE:", std_mse)

Erro quadrático médio (MSE): 0.2620537724778621
Coeficiente de determinação (R²): 0.9995497303830781
Média do MSE: 163.37294361341986
Desvio padrão do MSE: 324.9177838624907


In [33]:
!pip install tensorflow

Collecting tensorflow
  Obtaining dependency information for tensorflow from https://files.pythonhosted.org/packages/d6/69/d461fa09235326e08b7ca463d5491426fdd4908ef6d3f9ed51d0777dc071/tensorflow-2.13.0-cp311-cp311-macosx_12_0_arm64.whl.metadata
  Downloading tensorflow-2.13.0-cp311-cp311-macosx_12_0_arm64.whl.metadata (2.6 kB)
Collecting tensorflow-macos==2.13.0 (from tensorflow)
  Obtaining dependency information for tensorflow-macos==2.13.0 from https://files.pythonhosted.org/packages/f1/cc/6c262ae6f3a23b118b1104fa5f6126067744ffa9226faade202b0a20bdd3/tensorflow_macos-2.13.0-cp311-cp311-macosx_12_0_arm64.whl.metadata
  Downloading tensorflow_macos-2.13.0-cp311-cp311-macosx_12_0_arm64.whl.metadata (3.2 kB)
Collecting absl-py>=1.0.0 (from tensorflow-macos==2.13.0->tensorflow)
  Downloading absl_py-1.4.0-py3-none-any.whl (126 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m126.5/126.5 kB[0m [31m541.6 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting astu

In [34]:
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

In [30]:
# Carregar os dado
data = df_oversampling

# Selecionar as colunas de features (variáveis independentes) e a variável alvo (chuva)
X = data.drop(columns=['chuva'])
y = data['chuva']

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar os dados usando Min-Max Scaler

X_train_scaled = X_train
X_test_scaled = X_test

# Reshape dos dados para a entrada da RNN (formato [amostras, timesteps, features])
timesteps = 1  # Defina o número de timesteps, podemos ajustar conforme necessário
X_train_rnn = X_train_scaled.reshape(-1, timesteps, X_train_scaled.shape[1])
X_test_rnn = X_test_scaled.reshape(-1, timesteps, X_test_scaled.shape[1])


AttributeError: 'DataFrame' object has no attribute 'reshape'