In [4]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import TimeSeriesSplit

# Carregar o conjunto de dados 'dolar.csv'
dolar_file_path = 'C:/Users/milen/OneDrive/Documentos/TCC/Bases/clima.csv'
dolar_data = pd.read_csv(dolar_file_path)

# Converter a coluna de data para o tipo datetime
dolar_data['Date'] = pd.to_datetime(dolar_data['Date'])

# Preparar as características (features) removendo a coluna de preço real e a data
dolar_features = dolar_data.drop(['Preco_Real', 'Date'], axis=1)

# Definir o número de splits para a validação cruzada walk-forward
n_splits = 5  # Definido para 5 como um exemplo. Pode ser ajustado conforme necessário.
tscv = TimeSeriesSplit(n_splits=n_splits)

# Preparar os dados para a validação cruzada walk-forward
# Combinar as características e o alvo para a validação cruzada walk-forward
dolar_combined = dolar_data[['Date', 'Preco_Real']].join(dolar_features)

# Inicializar o modelo Random Forest Regressor
rf_regressor = RandomForestRegressor(random_state=42)

# Variáveis para acumular as métricas de cada passo
walk_forward_results = []

# Executar a validação cruzada walk-forward
for train_index, test_index in tscv.split(dolar_combined):
    # Dividir os dados em treino e teste para o atual split
    train = dolar_combined.iloc[train_index]
    test = dolar_combined.iloc[test_index]

    # Separar as características (features) e o alvo (target) para os conjuntos de treino e teste
    X_train = train.drop(['Preco_Real', 'Date'], axis=1)
    y_train = train['Preco_Real']
    X_test = test.drop(['Preco_Real', 'Date'], axis=1)
    y_test = test['Preco_Real']

    # Treinar o modelo com o conjunto de treino do atual split
    rf_regressor.fit(X_train, y_train)

    # Realizar previsões no conjunto de teste do atual split
    y_pred = rf_regressor.predict(X_test)

    # Avaliar o modelo utilizando métricas de erro
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Armazenar as métricas do atual split
    walk_forward_results.append((mse, rmse, mae, r2))

# Calcular as médias das métricas
average_mse = np.mean([result[0] for result in walk_forward_results])
average_rmse = np.mean([result[1] for result in walk_forward_results])
average_mae = np.mean([result[2] for result in walk_forward_results])
average_r2 = np.mean([result[3] for result in walk_forward_results])

# Exibir as médias das métricas
print(f"Average MSE: {average_mse}")
print(f"Average RMSE: {average_rmse}")
print(f"Average MAE: {average_mae}")
print(f"Average R^2: {average_r2}")



Average MSE: 109087.42467386369
Average RMSE: 227.69950682697913
Average MAE: 201.83519397151
Average R^2: -4.065166394043549


In [3]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import TimeSeriesSplit

# Carregar o conjunto de dados 'dolar.csv'
dolar_file_path = 'C:/Users/milen/OneDrive/Documentos/TCC/Bases/dolar.csv'
dolar_data = pd.read_csv(dolar_file_path)

# Converter a coluna de data para o tipo datetime
dolar_data['Date'] = pd.to_datetime(dolar_data['Date'])

# Preparar as características (features) removendo a coluna de preço real e a data
dolar_features = dolar_data.drop(['Preco_Real', 'Date'], axis=1)

# Definir o número de splits para a validação cruzada walk-forward
n_splits = 5  # Definido para 5 como um exemplo. Pode ser ajustado conforme necessário.
tscv = TimeSeriesSplit(n_splits=n_splits)

# Preparar os dados para a validação cruzada walk-forward
# Combinar as características e o alvo para a validação cruzada walk-forward
dolar_combined = dolar_data[['Date', 'Preco_Real']].join(dolar_features)

# Inicializar o modelo Random Forest Regressor
rf_regressor = RandomForestRegressor(random_state=42)

# Variáveis para acumular as métricas de cada passo
walk_forward_results = []

# Executar a validação cruzada walk-forward
for train_index, test_index in tscv.split(dolar_combined):
    # Dividir os dados em treino e teste para o atual split
    train = dolar_combined.iloc[train_index]
    test = dolar_combined.iloc[test_index]

    # Separar as características (features) e o alvo (target) para os conjuntos de treino e teste
    X_train = train.drop(['Preco_Real', 'Date'], axis=1)
    y_train = train['Preco_Real']
    X_test = test.drop(['Preco_Real', 'Date'], axis=1)
    y_test = test['Preco_Real']

    # Treinar o modelo com o conjunto de treino do atual split
    rf_regressor.fit(X_train, y_train)

    # Realizar previsões no conjunto de teste do atual split
    y_pred = rf_regressor.predict(X_test)

    # Avaliar o modelo utilizando métricas de erro
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Armazenar as métricas do atual split
    walk_forward_results.append((mse, rmse, mae, r2))

# Calcular as médias das métricas
average_mse = np.mean([result[0] for result in walk_forward_results])
average_rmse = np.mean([result[1] for result in walk_forward_results])
average_mae = np.mean([result[2] for result in walk_forward_results])
average_r2 = np.mean([result[3] for result in walk_forward_results])

# Exibir as médias das métricas
print(f"Average MSE: {average_mse}")
print(f"Average RMSE: {average_rmse}")
print(f"Average MAE: {average_mae}")
print(f"Average R^2: {average_r2}")



Average MSE: 61663.76767830654
Average RMSE: 165.069764127725
Average MAE: 139.41635065527072
Average R^2: -0.9716392703196114


In [5]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import TimeSeriesSplit

# Carregar o conjunto de dados 'dolar.csv'
dolar_file_path = 'C:/Users/milen/OneDrive/Documentos/TCC/Bases/selic.csv'
dolar_data = pd.read_csv(dolar_file_path)

# Converter a coluna de data para o tipo datetime
dolar_data['Date'] = pd.to_datetime(dolar_data['Date'])

# Preparar as características (features) removendo a coluna de preço real e a data
dolar_features = dolar_data.drop(['Preco_Real', 'Date'], axis=1)

# Definir o número de splits para a validação cruzada walk-forward
n_splits = 5  # Definido para 5 como um exemplo. Pode ser ajustado conforme necessário.
tscv = TimeSeriesSplit(n_splits=n_splits)

# Preparar os dados para a validação cruzada walk-forward
# Combinar as características e o alvo para a validação cruzada walk-forward
dolar_combined = dolar_data[['Date', 'Preco_Real']].join(dolar_features)

# Inicializar o modelo Random Forest Regressor
rf_regressor = RandomForestRegressor(random_state=42)

# Variáveis para acumular as métricas de cada passo
walk_forward_results = []

# Executar a validação cruzada walk-forward
for train_index, test_index in tscv.split(dolar_combined):
    # Dividir os dados em treino e teste para o atual split
    train = dolar_combined.iloc[train_index]
    test = dolar_combined.iloc[test_index]

    # Separar as características (features) e o alvo (target) para os conjuntos de treino e teste
    X_train = train.drop(['Preco_Real', 'Date'], axis=1)
    y_train = train['Preco_Real']
    X_test = test.drop(['Preco_Real', 'Date'], axis=1)
    y_test = test['Preco_Real']

    # Treinar o modelo com o conjunto de treino do atual split
    rf_regressor.fit(X_train, y_train)

    # Realizar previsões no conjunto de teste do atual split
    y_pred = rf_regressor.predict(X_test)

    # Avaliar o modelo utilizando métricas de erro
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Armazenar as métricas do atual split
    walk_forward_results.append((mse, rmse, mae, r2))

# Calcular as médias das métricas
average_mse = np.mean([result[0] for result in walk_forward_results])
average_rmse = np.mean([result[1] for result in walk_forward_results])
average_mae = np.mean([result[2] for result in walk_forward_results])
average_r2 = np.mean([result[3] for result in walk_forward_results])

# Exibir as médias das métricas
print(f"Average MSE: {average_mse}")
print(f"Average RMSE: {average_rmse}")
print(f"Average MAE: {average_mae}")
print(f"Average R^2: {average_r2}")



Average MSE: 93608.2400626934
Average RMSE: 218.70591819422503
Average MAE: 188.66713785977822
Average R^2: -4.112813790518006


In [9]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import TimeSeriesSplit

# Carregar o conjunto de dados 'dolar.csv'
dolar_file_path = 'C:/Users/milen/OneDrive/Documentos/TCC/Bases/ibovespa.csv'
dolar_data = pd.read_csv(dolar_file_path)

# Converter a coluna de data para o tipo datetime
dolar_data['Date'] = pd.to_datetime(dolar_data['Date'])

# Preparar as características (features) removendo a coluna de preço real e a data
dolar_features = dolar_data.drop(['Preco_Real', 'Date'], axis=1)

# Definir o número de splits para a validação cruzada walk-forward
n_splits = 5  # Definido para 5 como um exemplo. Pode ser ajustado conforme necessário.
tscv = TimeSeriesSplit(n_splits=n_splits)

# Preparar os dados para a validação cruzada walk-forward
# Combinar as características e o alvo para a validação cruzada walk-forward
dolar_combined = dolar_data[['Date', 'Preco_Real']].join(dolar_features)

# Inicializar o modelo Random Forest Regressor
rf_regressor = RandomForestRegressor(random_state=42)

# Variáveis para acumular as métricas de cada passo
walk_forward_results = []

# Executar a validação cruzada walk-forward
for train_index, test_index in tscv.split(dolar_combined):
    # Dividir os dados em treino e teste para o atual split
    train = dolar_combined.iloc[train_index]
    test = dolar_combined.iloc[test_index]

    # Separar as características (features) e o alvo (target) para os conjuntos de treino e teste
    X_train = train.drop(['Preco_Real', 'Date'], axis=1)
    y_train = train['Preco_Real']
    X_test = test.drop(['Preco_Real', 'Date'], axis=1)
    y_test = test['Preco_Real']

    # Treinar o modelo com o conjunto de treino do atual split
    rf_regressor.fit(X_train, y_train)

    # Realizar previsões no conjunto de teste do atual split
    y_pred = rf_regressor.predict(X_test)

    # Avaliar o modelo utilizando métricas de erro
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Armazenar as métricas do atual split
    walk_forward_results.append((mse, rmse, mae, r2))

# Calcular as médias das métricas
average_mse = np.mean([result[0] for result in walk_forward_results])
average_rmse = np.mean([result[1] for result in walk_forward_results])
average_mae = np.mean([result[2] for result in walk_forward_results])
average_r2 = np.mean([result[3] for result in walk_forward_results])

# Exibir as médias das métricas
print(f"Average MSE: {average_mse}")
print(f"Average RMSE: {average_rmse}")
print(f"Average MAE: {average_mae}")
print(f"Average R^2: {average_r2}")



Average MSE: 75172.55887673763
Average RMSE: 211.37078697733642
Average MAE: 180.78559303805454
Average R^2: -4.9005678269255615


In [8]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import TimeSeriesSplit

# Carregar o conjunto de dados 'dolar.csv'
dolar_file_path = 'C:/Users/milen/OneDrive/Documentos/TCC/Bases/base_completa.csv'
dolar_data = pd.read_csv(dolar_file_path)

# Converter a coluna de data para o tipo datetime
dolar_data['Date'] = pd.to_datetime(dolar_data['Date'])

# Preparar as características (features) removendo a coluna de preço real e a data
dolar_features = dolar_data.drop(['Preco_Real', 'Date'], axis=1)

# Definir o número de splits para a validação cruzada walk-forward
n_splits = 5  # Definido para 5 como um exemplo. Pode ser ajustado conforme necessário.
tscv = TimeSeriesSplit(n_splits=n_splits)

# Preparar os dados para a validação cruzada walk-forward
# Combinar as características e o alvo para a validação cruzada walk-forward
dolar_combined = dolar_data[['Date', 'Preco_Real']].join(dolar_features)

# Inicializar o modelo Random Forest Regressor
rf_regressor = RandomForestRegressor(random_state=42)

# Variáveis para acumular as métricas de cada passo
walk_forward_results = []

# Executar a validação cruzada walk-forward
for train_index, test_index in tscv.split(dolar_combined):
    # Dividir os dados em treino e teste para o atual split
    train = dolar_combined.iloc[train_index]
    test = dolar_combined.iloc[test_index]

    # Separar as características (features) e o alvo (target) para os conjuntos de treino e teste
    X_train = train.drop(['Preco_Real', 'Date'], axis=1)
    y_train = train['Preco_Real']
    X_test = test.drop(['Preco_Real', 'Date'], axis=1)
    y_test = test['Preco_Real']

    # Treinar o modelo com o conjunto de treino do atual split
    rf_regressor.fit(X_train, y_train)

    # Realizar previsões no conjunto de teste do atual split
    y_pred = rf_regressor.predict(X_test)

    # Avaliar o modelo utilizando métricas de erro
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Armazenar as métricas do atual split
    walk_forward_results.append((mse, rmse, mae, r2))

# Calcular as médias das métricas
average_mse = np.mean([result[0] for result in walk_forward_results])
average_rmse = np.mean([result[1] for result in walk_forward_results])
average_mae = np.mean([result[2] for result in walk_forward_results])
average_r2 = np.mean([result[3] for result in walk_forward_results])

# Exibir as médias das métricas
print(f"Average MSE: {average_mse}")
print(f"Average RMSE: {average_rmse}")
print(f"Average MAE: {average_mae}")
print(f"Average R^2: {average_r2}")



Average MSE: 72588.85100553502
Average RMSE: 182.4463569550666
Average MAE: 154.69799928774927
Average R^2: -1.5243839403114232


In [10]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Load the dataset
file_path = 'C:/Users/milen/OneDrive/Documentos/TCC/Bases/dolar.csv'
dolar_data = pd.read_csv(file_path)

# Convert the 'Date' column to datetime format and sort the data by date
dolar_data['Date'] = pd.to_datetime(dolar_data['Date'])
dolar_data.sort_values('Date', inplace=True)

# Separate the features and target variable for the model
features = dolar_data.drop(['Preco_Real', 'Date'], axis=1)
target = dolar_data['Preco_Real']

# Split the data into training and testing sets
X_train = features.iloc[:-1]
y_train = target.iloc[:-1]
X_test = features.iloc[-1:]
y_test = target.iloc[-1:]

# Initialize the RandomForestRegressor
rf_regressor = RandomForestRegressor(random_state=42)

# Train the model
rf_regressor.fit(X_train, y_train)

# Predict the last day's value
y_pred = rf_regressor.predict(X_test)

# Compare the predicted and actual values
prediction_vs_actual = {'Predicted': y_pred[0], 'Actual': y_test.values[0]}

# Evaluate the model's accuracy on the training set
y_train_pred = rf_regressor.predict(X_train)
mse = mean_squared_error(y_train, y_train_pred)
rmse = mse ** 0.5
mae = mean_absolute_error(y_train, y_train_pred)
r2 = r2_score(y_train, y_train_pred)

# Compile the accuracy metrics
model_accuracy_metrics = {
    'MSE': mse,
    'RMSE': rmse,
    'MAE': mae,
    'R^2': r2
}

# Output the prediction vs actual value and the accuracy metrics
(prediction_vs_actual, model_accuracy_metrics)


({'Predicted': 837.4584000000002, 'Actual': 836.98},
 {'MSE': 17.629789777988357,
  'RMSE': 4.198784321442143,
  'MAE': 1.2219297271649001,
  'R^2': 0.9997837416925193})