# Dataset utilizado "Balance"
Objetivo: analizar y pronosticar la evolución del desarrollo de las fuentes de energía renovable en Argentina para los próximos años.

In [17]:
#Tratamiento de datos
#======================
import numpy as np
import pandas as pd

#Graficos
#==========
import matplotlib.pyplot as plt

#Procesado y modelado
#======================
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from scipy import stats

In [2]:
url= "https://raw.githubusercontent.com/Lalita635/Grupo24-TSCDIA/main/datasets/balance.csv"
datos= pd.read_csv(url)

### Análisis exploratorio


In [3]:
datos.head(5)

Unnamed: 0,id,anio,mes,balance,tipo,energia_mwh,fecha_proceso,lote_id_log,indice_tiempo
0,6272,2017,1,OFERTA,Hidráulica,3281399.106,2020-05-05 11:07:24.323786,67,2017-01
1,6273,2017,1,OFERTA,Importacion,125443.188,2020-05-05 11:07:24.323786,67,2017-01
2,6274,2017,1,OFERTA,Nuclear,637244.316,2020-05-05 11:07:24.323786,67,2017-01
3,6275,2017,1,OFERTA,Renovable,245312.545,2020-05-05 11:07:24.323786,67,2017-01
4,6276,2017,1,OFERTA,Térmica,8643945.596,2020-05-05 11:07:24.323786,67,2017-01


In [4]:
#Tipo de cada columna
#======================
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 380 entries, 0 to 379
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             380 non-null    int64  
 1   anio           380 non-null    int64  
 2   mes            380 non-null    int64  
 3   balance        380 non-null    object 
 4   tipo           380 non-null    object 
 5   energia_mwh    380 non-null    float64
 6   fecha_proceso  380 non-null    object 
 7   lote_id_log    380 non-null    int64  
 8   indice_tiempo  380 non-null    object 
dtypes: float64(1), int64(4), object(4)
memory usage: 26.8+ KB


In [5]:
# Dimensiones del dataset (cantidad de filas y columnas)
# ========================================================
datos.shape

(380, 9)

In [6]:
#Nombre de las columnas
#========================
datos.columns

Index(['id', 'anio', 'mes', 'balance', 'tipo', 'energia_mwh', 'fecha_proceso',
       'lote_id_log', 'indice_tiempo'],
      dtype='object')

In [7]:
# Número de datos ausentes por variable
# =======================================
datos.isna().sum().sort_values()

id               0
anio             0
mes              0
balance          0
tipo             0
energia_mwh      0
fecha_proceso    0
lote_id_log      0
indice_tiempo    0
dtype: int64

In [8]:
#Creo un dataframe con las columnas de año y tipo.
nuevo_dataframe = datos[['anio', 'tipo','energia_mwh']]
nuevo_dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 380 entries, 0 to 379
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   anio         380 non-null    int64  
 1   tipo         380 non-null    object 
 2   energia_mwh  380 non-null    float64
dtypes: float64(1), int64(1), object(1)
memory usage: 9.0+ KB


In [9]:
nuevo_dataframe.head(5)

Unnamed: 0,anio,tipo,energia_mwh
0,2017,Hidráulica,3281399.106
1,2017,Importacion,125443.188
2,2017,Nuclear,637244.316
3,2017,Renovable,245312.545
4,2017,Térmica,8643945.596


In [10]:
# Variables independientes
x = nuevo_dataframe[['anio', 'tipo']]
# Variable dependiente
y = nuevo_dataframe['energia_mwh']


In [11]:
# Codifico la columna "tipo" como valores numéricos
x['tipo'] = x['tipo'].astype('category').cat.codes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x['tipo'] = x['tipo'].astype('category').cat.codes


In [12]:
#divido los datos
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2, random_state=42)

In [13]:
# Crear una instancia del modelo de regresión lineal
modelo_regresion = linear_model.LinearRegression()

# Ajustar el modelo a tus datos
modelo_regresion.fit(x_train, y_train)

In [14]:
#predecir con los datos de prueba
y_predi=modelo_regresion.predict(x_test)

In [15]:
# métricas
#error medio cuadratico
emc=mean_squared_error(y_test, y_predi)
#coeficiente de r
r2=r2_score(y_test, y_predi)

In [16]:
#imprimo
print(f"error medio cuadratico: {emc}")
print(f"coeficiente de r: {r2}")


error medio cuadratico: 8943593972618.39
coeficiente de r: -0.014039017993294767


In [19]:
nuevo_dataframe.head(15
                     )

Unnamed: 0,anio,tipo,energia_mwh
0,2017,Hidráulica,3281399.106
1,2017,Importacion,125443.188
2,2017,Nuclear,637244.316
3,2017,Renovable,245312.545
4,2017,Térmica,8643945.596
5,2017,Hidráulica,2993141.023
6,2017,Importacion,77978.091
7,2017,Nuclear,634134.657
8,2017,Renovable,210416.556
9,2017,Térmica,7558658.716


In [24]:
# Escalar las variables numéricas
columnas_numericas = ['anio', 'tipo']
x_numerico = x_train[columnas_numericas]  # Usamos x_train para el escalado
escalador = StandardScaler()
x_numerico_escalado = escalador.fit_transform(x_numerico)

# Crear una instancia del modelo de regresión lineal
modelo_regresion2 = linear_model.LinearRegression()

# Ajustar el modelo a tus datos de entrenamiento
modelo_regresion2.fit(x_numerico_escalado, y_train)

# Predecir con los datos de prueba
x_test_numerico = x_test[columnas_numericas]  # Escalar los datos de prueba
x_test_numerico_escalado = escalador.transform(x_test_numerico)
y_pred = modelo_regresion.predict(x_test_numerico_escalado)




In [25]:
# métricas
#error medio cuadratico
emc=mean_squared_error(y_test, y_predi)
#coeficiente de r
r2=r2_score(y_test, y_predi)
#imprimo
print(f"error medio cuadratico: {emc}")
print(f"coeficiente de r: {r2}")


error medio cuadratico: 8943593972618.39
coeficiente de r: -0.014039017993294767


# El valor del Error Medio Cuadrático que obtuve es extremadamente alto, lo que indica que el modelo no está haciendo buenas predicciones en los datos de prueba. Un Error Medio Cuadrático tan grande sugiere que las predicciones del modelo están muy lejos de los valores reales. Además, el coeficiente de determinación (R-squared) es negativo, lo que generalmente significa que el modelo es inadecuado para el conjunto de datos o que las características seleccionadas no explican bien la variabilidad de la variable dependiente.