In [23]:
import statsmodels.api as sm
import pandas as pd

In [24]:
df = pd.read_csv("processed_tables/merged_standardized.csv")

## Partición de la data

Debido a que la naturaleza de la data es de carácter temporal, se realizará una partición de la data en 3 partes: entrenamiento y prueba. La data de test será los últimos 3 meses de la data, es decir desde julio 2023 hasta septiembre 2023.


In [25]:
fecha_corte = "2023-07-01"
X_train = df[df["Date"] < fecha_corte].drop(["Date", "energy_price"], axis=1)
X_test = df[df["Date"] >= fecha_corte].drop(["Date", "energy_price"], axis=1)
y_train = df[df["Date"] < fecha_corte]["energy_price"]
y_test = df[df["Date"] >= fecha_corte]["energy_price"]

## Regresión lineal

Usando `statsmodels` se puede realizar una regresión lineal, para ello se debe importar la librería y crear un modelo de regresión lineal, para luego ajustarlo con los datos de entrenamiento.


In [27]:
X = sm.add_constant(X_train)

# Create a model
model = sm.OLS(y_train, X)

# Fit the model
result = model.fit()
result_summary = result.summary()

# Print out the statistics
print(result_summary)

                            OLS Regression Results                            
Dep. Variable:           energy_price   R-squared:                       0.514
Model:                            OLS   Adj. R-squared:                  0.447
Method:                 Least Squares   F-statistic:                     7.636
Date:                Sat, 25 Nov 2023   Prob (F-statistic):           1.22e-43
Time:                        12:24:21   Log-Likelihood:                -3438.4
No. Observations:                 552   AIC:                             7013.
Df Residuals:                     484   BIC:                             7306.
Df Model:                          67                                         
Covariance Type:            nonrobust                                         
                                                                   coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------

In [28]:
result_summary_df = result_summary.tables[1]
significant_variables = []
significance_level = 0.05
for i in range(1, len(result_summary_df)):
    p_value = float(result_summary_df[i][4].data)
    if p_value < significance_level:
        significant_variables.append(result_summary_df[i][0].data)
print(pd.DataFrame({"Variables significativas": significant_variables}))

               Variables significativas
0                                 const
1                 precipitacion_caqueta
2                   precipitacion_cauca
3            precipitacion_cundinamarca
4                  precipitacion_vaupes
5   precipitacion_departamentos_represa
6                           temp_ARAUCA
7                           temp_CALDAS
8                          temp_CAQUETA
9                         temp_CASANARE
10                    temp_CUNDINAMARCA
11                            temp_META
12              temp_NORTE DE SANTANDER
13                        temp_PUTUMAYO
14                         temp_QUINDIO
15                    temp_avg_represas
16                          brent_value
