In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Carregar dados
data = pd.read_csv('C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima.csv')

# Convertendo 'Data' para datetime e calculando a diferença diária do 'Preco_Dolar'
data['Data'] = pd.to_datetime(data['Data'])
data['Dif_Preco_Dolar'] = data['Preco_Dolar'].Dif()
data = data.dropna()

# Tratamento de outliers (exemplo simples)
# Substitua com seu método preferido de tratamento de outliers
# data = seu_metodo_de_tratamento_de_outliers(data)

# Separando os dados para treino, validação e teste
cutoff_date = pd.to_datetime("2023-01-01")
train_val_data = data[data['Data'] < cutoff_date]
test_data = data[data['Data'] >= cutoff_date]

# Preparação dos dados
features_train_val = train_val_data.drop(['Preco_Dolar', 'Dif_Preco_Dolar', 'Data'], axis=1)
target_train_val = train_val_data['Dif_Preco_Dolar']

# Dividindo treino e validação
features_train, features_val, target_train, target_val = train_test_split(features_train_val, target_train_val, test_size=0.2, random_state=42)

# Ajuste fino dos hiperparâmetros
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_features': ['auto', 'sqrt'],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'bootstrap': [True, False]
}

rf = RandomForestRegressor(random_state=42)
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, n_jobs=-1, verbose=2)
grid_search.fit(features_train, target_train)

best_params = grid_search.best_params_
print("Melhores hiperparâmetros:", best_params)

rf_best = RandomForestRegressor(**best_params, random_state=42)
rf_best.fit(features_train, target_train)

# Avaliação usando Gradient Boosting para comparação
gb = GradientBoostingRegressor(random_state=42)
gb.fit(features_train, target_train)

# Avaliação do modelo
window_size = 30
mse_values_rf, r2_values_rf = [], []
mse_values_gb, r2_values_gb = [], []
all_predictions_rf, all_predictions_gb = [], []
all_actual_values = []

for start in range(0, len(test_data) - window_size + 1):
    end = start + window_size
    test_subset = test_data.iloc[start:end]
    features_test = test_subset.drop(['Preco_Dolar', 'Dif_Preco_Dolar', 'Data'], axis=1)
    target_test = test_subset['Dif_Preco_Dolar']

    prediction_rf = rf_best.predict(features_test)
    prediction_gb = gb.predict(features_test)

    mse_values_rf.append(mean_squared_error(target_test, prediction_rf))
    r2_values_rf.append(r2_score(target_test, prediction_rf))

    mse_values_gb.append(mean_squared_error(target_test, prediction_gb))
    r2_values_gb.append(r2_score(target_test, prediction_gb))

    all_predictions_rf.extend(prediction_rf)
    all_predictions_gb.extend(prediction_gb)
    all_actual_values.extend(target_test)

# Exibindo os resultados para Random Forest
print("Random Forest - Média do MSE:", np.mean(mse_values_rf))
print("Random Forest - Média do R²:", np.mean(r2_values_rf))

# Exibindo os resultados para Gradient Boosting
print("Gradient Boosting - Média do MSE:", np.mean(mse_values_gb))
print("Gradient Boosting - Média do R²:", np.mean(r2_values_gb))


Fitting 3 folds for each of 144 candidates, totalling 432 fits


  warn(


Melhores hiperparâmetros: {'bootstrap': True, 'max_depth': 10, 'max_features': 'auto', 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 200}


  warn(


Random Forest - Média do MSE: 9.146935874181615
Random Forest - Média do R²: -0.02339024755003896
Gradient Boosting - Média do MSE: 10.252676417009145
Gradient Boosting - Média do R²: -0.2633344220592247


In [26]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Carregar os dados
file_path_dolar =('C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima.csv')
data_dolar = pd.read_csv(file_path_dolar)
data_dolar.fillna(0, inplace=True)
# Converter a coluna 'Data' para datetime e ordenar os dados
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])
data_dolar = data_dolar.sort_values(by='Data')

# Calcular a diferença diária do 'Preco_Dolar'
data_dolar['Dif_Preco_Dolar'] = data_dolar['Preco_Dolar'].Dif()

# Remover a primeira linha
data_dolar = data_dolar.iloc[1:]

# Dividir os dados em treino, teste e validação
# Filtrar os dados para treino e teste
train_data = data_dolar[data_dolar['Data'] < pd.to_datetime("2020-01-01")]
test_data = data_dolar[data_dolar['Data'] >= pd.to_datetime("2020-01-01")]

# Selecionar variáveis dependentes e independentes
y_train = train_data['Dif_Preco_Dolar']
X_train = train_data.drop(columns=['Data', 'Preco_Dolar', 'Dif_Preco_Dolar'])

y_test = test_data['Dif_Preco_Dolar']
X_test = test_data.drop(columns=['Data', 'Preco_Dolar', 'Dif_Preco_Dolar'])

# O restante do código para tratamento de dados não numéricos, treinamento e avaliação do modelo permanece o mesmo.
X_train.fillna(0, inplace=True)
X_test.fillna(0, inplace=True)
#Tratar valores não numéricos
non_numeric_columns = X_train.select_dtypes(include=['object']).columns
for col in non_numeric_columns:
    X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
    X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Treinar o modelo de regressão linear
X_train.fillna(0, inplace=True)
X_test.fillna(0, inplace=True)
model = LinearRegression()

model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular as métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir os resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)

# Criar um DataFrame com as datas, valores reais e previstos
resultados = pd.DataFrame()
resultados['Data'] = test_data['Data']
resultados['Valor_Real'] = y_test
resultados['Valor_Previsto'] = y_pred

# Exibir os primeiros registros para verificar
print(resultados.head())

MSE: 9.595039206728583
MAE: 2.260820458170779
R^2: 0.18082554425127229
           Data  Valor_Real  Valor_Previsto
5524 2020-01-02       -3.67       -0.407749
5525 2020-01-03       -1.07       -0.872377
5526 2020-01-06       -5.45       -0.020286
5527 2020-01-07       -0.83        0.177764
5528 2020-01-08       -1.42        0.415451


  X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
  X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')


In [12]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np
from sklearn.preprocessing import StandardScaler


# Carregar os dados
file_path_dolar =('C:/Users/milen/OneDrive/Documentos/TCC/new/teste.csv')
data_dolar = pd.read_csv(file_path_dolar)
data_dolar.fillna(0, inplace=True)
# Converter a coluna 'Data' para datetime e ordenar os dados
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])
data_dolar = data_dolar.sort_values(by='Data')

# Calcular a diferença diária do 'Preco_Dolar'
#data_dolar['Dif_Preco_Dolar'] = data_dolar['Preco_Dolar'].Dif()

# Remover a primeira linha
data_dolar = data_dolar.iloc[1:]

# Dividir os dados em treino, teste e validação
# Filtrar os dados para treino e teste
train_data = data_dolar[data_dolar['Data'] < pd.to_datetime("2020-01-01")]
test_data = data_dolar[data_dolar['Data'] >= pd.to_datetime("2020-01-01")]

# Selecionar variáveis dependentes e independentes
y_train = train_data['Dif_Preco_Dolar']
X_train = train_data.drop(columns=['Data', 'Dif_Preco_Dolar'])

y_test = test_data['Dif_Preco_Dolar']
X_test = test_data.drop(columns=['Data', 'Dif_Preco_Dolar'])

# O restante do código para tratamento de dados não numéricos, treinamento e avaliação do modelo permanece o mesmo.
X_train.fillna(0, inplace=True)
X_test.fillna(0, inplace=True)
#Tratar valores não numéricos
non_numeric_columns = X_train.select_dtypes(include=['object']).columns
for col in non_numeric_columns:
    X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
    X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Treinar o modelo de regressão linear
X_train.fillna(0, inplace=True)
X_test.fillna(0, inplace=True)
model = LinearRegression()

model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular as métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir os resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)

# Criar um DataFrame com as datas, valores reais e previstos
resultados = pd.DataFrame()
resultados['Data'] = test_data['Data']
resultados['Valor_Real'] = y_test
resultados['Valor_Previsto'] = y_pred

# Exibir os primeiros registros para verificar
print(resultados.head())

MSE: 9.602041201664678
MAE: 2.262701273054817
R^2: 0.1802277504051658
           Data  Valor_Real  Valor_Previsto
5524 2020-01-02       -3.67       -0.400155
5525 2020-01-03       -1.07       -0.854128
5526 2020-01-06       -5.45       -0.011394
5527 2020-01-07       -0.83        0.065152
5528 2020-01-08       -1.42        0.429875


In [48]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Carregar os dados
file_path_dolar =('C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima_atualizado.csv')
data_dolar = pd.read_csv(file_path_dolar)

# Converter a coluna 'Data' para datetime
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])

# Separar os últimos 10 dias de dados
ultimos_10_dias = data_dolar.tail(7)
data_dolar = data_dolar.iloc[:-7]

# Continuar com o pré-processamento como antes...

# Remover a primeira linha
data_dolar = data_dolar.iloc[1:]

# Função para remover outliers
def remove_outliers(df, column_names):
    for column in column_names:
        Q1 = df[column].quantile(0.21)
        Q3 = df[column].quantile(0.69)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    return df

# Aplicar a remoção de outliers
numeric_columns = data_dolar.select_dtypes(include=[np.number]).columns.tolist()
data_dolar = remove_outliers(data_dolar, numeric_columns)

# Dividir os dados em treino e teste
train_data = data_dolar[data_dolar['Data'] < pd.to_datetime("2020-01-01")]
test_data = data_dolar[data_dolar['Data'] >= pd.to_datetime("2020-01-01")]

# Selecionar variáveis dependentes e independentes
y_train = train_data['Dif_Preco_Dolar']
X_train = train_data.drop(columns=['Data', 'Pontos', 'Dif_Preco_Dolar', 'TaxaSelic','OperacoesSeleic','UltimoEUR'])

y_test = test_data['Dif_Preco_Dolar']
X_test = test_data.drop(columns=['Data','Pontos', 'Dif_Preco_Dolar','TaxaSelic','OperacoesSeleic','UltimoEUR'])

# Calcular a média para as colunas e substituir NaN pela média
mean_values_train = X_train.mean()
X_train.fillna(mean_values_train, inplace=True)

mean_values_test = X_test.mean()
X_test.fillna(mean_values_test, inplace=True)

# Tratar valores não numéricos
non_numeric_columns = X_train.select_dtypes(include=['object']).columns
for col in non_numeric_columns:
    X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
    X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular as métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir os resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)

# Criar um DataFrame com as datas, valores reais e previstos
resultados = pd.DataFrame()
resultados['Data'] = test_data['Data']
resultados['Valor_Real'] = y_test
resultados['Valor_Previsto'] = y_pred

# Exibir os primeiros registros para verificar
print(resultados.head())

# Preparar dados dos últimos 10 dias para a previsão
X_ultimos_10_dias = ultimos_10_dias.drop(columns=['Data', 'Pontos', 'Dif_Preco_Dolar', 'TaxaSelic', 'OperacoesSeleic', 'UltimoEUR'])
X_ultimos_10_dias.fillna(mean_values_train, inplace=True)

# Prever os valores para 'ultimos_10_dias'
y_ultimos_10_dias_pred = model.predict(X_ultimos_10_dias)

# Comparar as previsões com os valores reais
ultimos_10_dias['Valor_Previsto'] = y_ultimos_10_dias_pred
print(ultimos_10_dias[['Data', 'Dif_Preco_Dolar', 'Valor_Previsto']])


MSE: 0.3042401838010091
MAE: 0.47309690168550916
R^2: 0.8024968425733761
           Data  Valor_Real  Valor_Previsto
5529 2020-01-09       -2.08       -1.849504
5530 2020-01-10        1.16        1.674853
5531 2020-01-13       -3.78       -4.323781
5532 2020-01-14       -0.44       -0.739955
5533 2020-01-15       -1.68       -1.326707
           Data  Dif_Preco_Dolar  Valor_Previsto
6479 2023-10-30            -1.83       -2.364640
6480 2023-10-31             5.45       10.038079
6481 2023-11-01            -3.32       -8.973129
6482 2023-11-03             7.86      -12.851147
6483 2023-11-06             2.20        3.941211
6484 2023-11-07             0.43       -0.433789
6485 2023-11-08             2.86      -20.423782


In [61]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np
import lightgbm as lgb
import shap

# Carregar os dados
file_path_dolar =('C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima_atualizado.csv')
data_dolar = pd.read_csv(file_path_dolar)

# Converter a coluna 'Data' para datetime e ordenar os dados
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])
# data_dolar = data_dolar.sort_values(by='Data')

# Remover a primeira linha
data_dolar = data_dolar.iloc[1:]

# Função para remover outliers
def remove_outliers(df, column_names):
    for column in column_names:
        Q1 = df[column].quantile(0.21)
        Q3 = df[column].quantile(0.69)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    return df

# Aplicar a remoção de outliers
numeric_columns = data_dolar.select_dtypes(include=[np.number]).columns.tolist()
data_dolar = remove_outliers(data_dolar, numeric_columns)

# Dividir os dados em treino, teste e validação
train_data = data_dolar[data_dolar['Data'] < pd.to_datetime("2020-01-01")]
test_data = data_dolar[data_dolar['Data'] >= pd.to_datetime("2020-01-01")]

# Selecionar variáveis dependentes e independentes
y_train = train_data['Dif_Preco_Dolar']
X_train = train_data.drop(columns=['Data', 'Pontos', 'Dif_Preco_Dolar', 'TaxaSelic','OperacoesSeleic','UltimoEUR'])

y_test = test_data['Dif_Preco_Dolar']
X_test = test_data.drop(columns=['Data','Pontos', 'Dif_Preco_Dolar','TaxaSelic','OperacoesSeleic','UltimoEUR'])

# Calcular a média para as colunas e substituir NaN pela média
mean_values_train = X_train.mean()
X_train.fillna(mean_values_train, inplace=True)

mean_values_test = X_test.mean()
X_test.fillna(mean_values_test, inplace=True)

# Tratar valores não numéricos
non_numeric_columns = X_train.select_dtypes(include=['object']).columns
for col in non_numeric_columns:
    X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
    X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Treinar o modelo de regressão linear
model = LinearRegression()
#model = lgb.LGBMRegressor()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular as métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir os resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)

# Criar um DataFrame com as datas, valores reais e previstos
resultados = pd.DataFrame()
resultados['Data'] = test_data['Data']
resultados['Valor_Real'] = y_test
resultados['Valor_Previsto'] = y_pred

# Exibir os primeiros registros para verificar
print(resultados.head())


MSE: 0.3042401838010091
MAE: 0.47309690168550916
R^2: 0.8024968425733761
           Data  Valor_Real  Valor_Previsto
5529 2020-01-09       -2.08       -1.849504
5530 2020-01-10        1.16        1.674853
5531 2020-01-13       -3.78       -4.323781
5532 2020-01-14       -0.44       -0.739955
5533 2020-01-15       -1.68       -1.326707


In [56]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import GridSearchCV
from tqdm import tqdm

# Carregar os dados
file_path_dolar = 'C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima_atualizado.csv'
data_dolar = pd.read_csv(file_path_dolar)

# Converter a coluna 'Data' para datetime
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])

# Calcular a diferença diária do 'Preco_Dolar'
data_dolar['Diff_Preco_Dolar'] = data_dolar['Preco_Dolar'].diff()

# Remover a primeira linha
data_dolar = data_dolar.iloc[1:]

# Função para remover outliers
def remove_outliers(df, column_names):
    for column in column_names:
        Q1 = df[column].quantile(0.25)
        Q3 = df[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    return df

# Aplicar a remoção de outliers
numeric_columns = data_dolar.select_dtypes(include=[np.number]).columns.tolist()
data_dolar = remove_outliers(data_dolar, numeric_columns)

# Dividir os dados em treino e teste
train_data = data_dolar[data_dolar['Data'] < pd.to_datetime("2020-01-01")]
test_data = data_dolar[data_dolar['Data'] >= pd.to_datetime("2020-01-01")]

# Selecionar variáveis dependentes e independentes
y_train = train_data['Diff_Preco_Dolar']
X_train = train_data.drop(columns=['Data', 'Pontos', 'Diff_Preco_Dolar', 'TaxaSelic', 'OperacoesSeleic', 'UltimoEUR'])

y_test = test_data['Diff_Preco_Dolar']
X_test = test_data.drop(columns=['Data', 'Pontos', 'Diff_Preco_Dolar', 'TaxaSelic', 'OperacoesSeleic', 'UltimoEUR'])

# Calcular a média para as colunas e substituir NaN pela média
mean_values_train = X_train.mean()
X_train.fillna(mean_values_train, inplace=True)

mean_values_test = X_test.mean()
X_test.fillna(mean_values_test, inplace=True)

# Tratar valores não numéricos
non_numeric_columns = X_train.select_dtypes(include=['object']).columns
for col in non_numeric_columns:
    X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
    X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Definir hiperparâmetros a serem testados
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

# Inicializar o modelo LGBM
lgb_model = lgb.LGBMRegressor()

# Inicializar a pesquisa em grade com validação cruzada
grid_search = GridSearchCV(estimator=lgb_model, param_grid=param_grid, scoring='neg_mean_squared_error', cv=3)

# Executar a pesquisa em grade
grid_search.fit(X_train, y_train)

# Exibir os melhores hiperparâmetros encontrados
best_params = grid_search.best_params_
print("Melhores Hiperparâmetros:")
print(best_params)

# Treinar o modelo LGBM com os melhores hiperparâmetros
best_lgb_model = lgb.LGBMRegressor(**best_params)
best_lgb_model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = best_lgb_model.predict(X_test)

# Calcular as métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir os resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)

# Criar um DataFrame com as datas, valores reais e previstos
resultados = pd.DataFrame()
resultados['Data'] = test_data['Data']
resultados['Valor_Real'] = y_test
resultados['Valor_Previsto'] = y_pred

# Exibir os primeiros registros para verificar
print(resultados.head())


[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000308 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4638
[LightGBM] [Info] Number of data points in the train set: 1719, number of used features: 21
[LightGBM] [Info] Start training from score -0.016946
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000236 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4969
[LightGBM] [Info] Number of data points in the train set: 1719, number of used features: 21
[LightGBM] [Info] Start training from score -0.001513
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000271 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 5127
[LightGBM] [Info] Number of data points in the train set: 1720, number of used features: 21
[LightGBM] [Info] Start trai

In [58]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np
import lightgbm as lgb
import shap
import xgboost as xgb

# Carregar os dados
file_path_dolar =('C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima_atualizado.csv')
data_dolar = pd.read_csv(file_path_dolar)

# Converter a coluna 'Data' para datetime e ordenar os dados
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])
# data_dolar = data_dolar.sort_values(by='Data')

# Remover a primeira linha
data_dolar = data_dolar.iloc[1:]

# Função para remover outliers
def remove_outliers(df, column_names):
    for column in column_names:
        Q1 = df[column].quantile(0.21)
        Q3 = df[column].quantile(0.79)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    return df

# Aplicar a remoção de outliers
numeric_columns = data_dolar.select_dtypes(include=[np.number]).columns.tolist()
data_dolar = remove_outliers(data_dolar, numeric_columns)

# Dividir os dados em treino, teste e validação
train_data = data_dolar[data_dolar['Data'] < pd.to_datetime("2020-01-01")]
test_data = data_dolar[data_dolar['Data'] >= pd.to_datetime("2020-01-01")]

# Selecionar variáveis dependentes e independentes
y_train = train_data['Dif_Preco_Dolar']
X_train = train_data.drop(columns=['Data', 'Pontos', 'Dif_Preco_Dolar', 'TaxaSelic','OperacoesSeleic','UltimoEUR'])

y_test = test_data['Dif_Preco_Dolar']
X_test = test_data.drop(columns=['Data','Pontos', 'Dif_Preco_Dolar','TaxaSelic','OperacoesSeleic','UltimoEUR'])

# Calcular a média para as colunas e substituir NaN pela média
mean_values_train = X_train.mean()
X_train.fillna(mean_values_train, inplace=True)

mean_values_test = X_test.mean()
X_test.fillna(mean_values_test, inplace=True)

# Tratar valores não numéricos
non_numeric_columns = X_train.select_dtypes(include=['object']).columns
for col in non_numeric_columns:
    X_train[col] = pd.to_numeric(X_train[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')
    X_test[col] = pd.to_numeric(X_test[col].str.replace('.', '').str.replace(',', '.'), errors='coerce')

# Treinar o modelo de regressão linear
model = xgb.XGBRegressor(objective ='reg:squarederror')
#model = lgb.LGBMRegressor()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular as métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir os resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)

# Criar um DataFrame com as datas, valores reais e previstos
resultados = pd.DataFrame()
resultados['Data'] = test_data['Data']
resultados['Valor_Real'] = y_test
resultados['Valor_Previsto'] = y_pred

# Exibir os primeiros registros para verificar
print(resultados.head())


MSE: 2.8061885518250462
MAE: 1.337238613139223
R^2: -0.16498360700708758
           Data  Valor_Real  Valor_Previsto
5527 2020-01-07       -0.83       -1.534620
5529 2020-01-09       -2.08       -1.174062
5530 2020-01-10        1.16        1.275843
5531 2020-01-13       -3.78       -1.929153
5532 2020-01-14       -0.44        0.382835


In [70]:
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Carregar os dados
file_path_dolar = 'C:/Users/milen/OneDrive/Documentos/TCC/new/sem_clima_atualizado.csv'
data_dolar = pd.read_csv(file_path_dolar)

# Converter a coluna 'Data' para datetime e definir como índice
data_dolar['Data'] = pd.to_datetime(data_dolar['Data'])
data_dolar = data_dolar.set_index('Data')

# Identificar e tratar datas duplicadas (mantendo a primeira ocorrência)
data_dolar = data_dolar[~data_dolar.index.duplicated(keep='first')]

# Redefinir a frequência para diária
data_dolar = data_dolar.asfreq('D')

# Tratar valores faltantes (por exemplo, preenchendo com o valor anterior)
data_dolar = data_dolar.fillna(method='ffill')

# Selecionar a coluna de interesse para a análise ARIMA
y = data_dolar['Dif_Preco_Dolar']

# Dividir os dados em treino e teste
train_end = pd.to_datetime("2020-01-01")
y_train = y[y.index < train_end]
y_test = y[y.index >= train_end]

# Definir e ajustar o modelo ARIMA
p = 0  # Autoregressivo
d = 0  # Diferenciação
q = 1  # Média móvel
model = ARIMA(y_train, order=(p, d, q))
model_fit = model.fit()

# Fazer previsões
y_pred = model_fit.forecast(steps=len(y_test))

# Calcular métricas de desempenho
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Exibir resultados
print("MSE:", mse)
print("MAE:", mae)
print("R^2:", r2)



MSE: 11.64805272530947
MAE: 2.5377869771929062
R^2: 0.00010582294008376625
