# Ejemplo Regresión

Si faltan datos sobre el consumo energético en ciertos periodos, se puede usar un modelo de regresión que tenga en cuenta variables como la temperatura y el día de la semana para predecir los valores ausentes basados en los registros completos.

In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [4]:
# Crear un DataFrame de ejemplo con datos de consumo energético, temperatura y día de la semana
data = {
    'Consumo': [200, 220, np.nan, 250, 270, np.nan, 300],
    'Temperatura': [15, 16, 15, 17, 18, 17, 19],
    'DiaSemana': [1, 2, 3, 4, 5, 6, 7]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Consumo,Temperatura,DiaSemana
0,200.0,15,1
1,220.0,16,2
2,,15,3
3,250.0,17,4
4,270.0,18,5
5,,17,6
6,300.0,19,7


In [5]:
# Separar los datos completos de los incompletos
df_completo = df.dropna()
df_incompleto = df[df.isna().any(axis=1)]

In [6]:
# Definir las variables independientes (X) y dependiente (y)
X = df_completo[['Temperatura', 'DiaSemana']]
y = df_completo['Consumo']

In [7]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
# Crear y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [9]:
# Predecir los valores ausentes
X_incompleto = df_incompleto[['Temperatura', 'DiaSemana']]
df_incompleto['Consumo'] = modelo.predict(X_incompleto)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_incompleto['Consumo'] = modelo.predict(X_incompleto)


In [10]:
# Combinar los datos completos e incompletos con los valores predichos
df_final = pd.concat([df_completo, df_incompleto]).sort_index()

print(df_final)

   Consumo  Temperatura  DiaSemana
0    200.0           15          1
1    220.0           16          2
2    220.0           15          3
3    250.0           17          4
4    270.0           18          5
5    270.0           17          6
6    300.0           19          7


In [11]:
# Mostrar el dataframe inicial y el final
print(df)

   Consumo  Temperatura  DiaSemana
0    200.0           15          1
1    220.0           16          2
2      NaN           15          3
3    250.0           17          4
4    270.0           18          5
5      NaN           17          6
6    300.0           19          7
