In [1]:
import pandas as pd

## Preprocesamiento dataframe clima

In [62]:
# Lista para almacenar los DataFrames
dfs = []

# Rango de años desde 2019 hasta 2024
for year in range(2019, 2025):
    file_name = f"datos_climaticos_{year}.csv"  # Ajusta el formato del nombre de archivo según corresponda
    try:
        # Leer el archivo CSV
        df = pd.read_csv(file_name)
        # Añadir una columna para identificar el año
        df['Año'] = year
        # Agregar el DataFrame a la lista
        dfs.append(df)
    except FileNotFoundError:
        print(f"Archivo {file_name} no encontrado.")
    
# Concatenar todos los DataFrames en uno solo
df_clima_raw = pd.concat(dfs, ignore_index=True)

In [63]:
df_clima = df_clima_raw.copy()

In [64]:
df_clima.dtypes

fecha       object
tmed       float64
hrMedia    float64
Año          int64
dtype: object

In [65]:
if 'fecha' in df_clima.columns:
    df_clima['fecha'] = pd.to_datetime(df_clima['fecha'], errors='coerce')  # Convertir 'fecha' a datetime

In [66]:
df_clima.dtypes

fecha      datetime64[ns]
tmed              float64
hrMedia           float64
Año                 int64
dtype: object

In [67]:
df_clima = df_clima.drop(columns=['Año'])

In [68]:
df_clima.head()

Unnamed: 0,fecha,tmed,hrMedia
0,2019-01-01,7.546275,64.551332
1,2019-01-02,6.2992,68.139083
2,2019-01-03,5.589226,66.484092
3,2019-01-04,5.572486,64.748375
4,2019-01-05,6.092966,59.188741


## Preprocesamiento dataframe demanda

In [92]:
# Leer el archivo CSV
df_demanda_raw = pd.read_csv('datos_demanda_media_diaria.csv')

# Seleccionar solo las columnas que necesitas
df_demanda = df_demanda_raw.copy()

df_demanda = df_demanda[['datetime_utc', 'Demanda real']]

# Mostrar el DataFrame resultante
print(df_seleccionado.head())

                datetime_utc  Demanda real
0  2018-12-31 00:00:00+00:00  23459.000000
1  2019-01-01 00:00:00+00:00  23083.583333
2  2019-01-02 00:00:00+00:00  29587.326389
3  2019-01-03 00:00:00+00:00  31287.312500
4  2019-01-04 00:00:00+00:00  31500.986111


In [93]:
df_demanda['datetime_utc'] = pd.to_datetime(df_demanda['datetime_utc']).dt.strftime('%Y-%m-%d')


In [94]:
df_demanda.dtypes

datetime_utc     object
Demanda real    float64
dtype: object

In [95]:
df_demanda.head()

Unnamed: 0,datetime_utc,Demanda real
0,2018-12-31,23459.0
1,2019-01-01,23083.583333
2,2019-01-02,29587.326389
3,2019-01-03,31287.3125
4,2019-01-04,31500.986111


In [96]:
# Renombrar la columna 'datetime_utc' a 'fecha'
df_demanda.rename(columns={'datetime_utc': 'fecha'}, inplace=True)

# Convertir la columna 'fecha' al tipo datetime64[ns]
df_demanda['fecha'] = pd.to_datetime(df_demanda['fecha'])

In [97]:
df_demanda.dtypes

fecha           datetime64[ns]
Demanda real           float64
dtype: object

In [98]:
df_demanda['fecha'] = df_demanda['fecha'] + pd.Timedelta(days=1)

In [99]:
df_demanda.head()
df_demanda.to_csv('datos_demanda_modificado.csv', index=False)
len(df_clima)

2083

## Unificación de ambos dataframe

In [164]:
df = pd.merge(df_demanda, df_clima, on='fecha', how='inner')

In [165]:
# Ver si falta algún día consecutivo

# Ordenar el DataFrame por la columna 'fecha'
#df = df.sort_values(by='fecha')

# Calcular la diferencia entre fechas consecutivas
#df['diferencia_dias'] = df['fecha'].diff().dt.days

# Encontrar días donde no hay días consecutivos (diferencia > 1)
#días_sin_consecutivos = df[df['diferencia_dias'] > 1]

# Mostrar los días donde no hay consecutivos
#print(días_sin_consecutivos[['fecha', 'diferencia_dias']])

# Si no se encuentran días sin consecutivos
#if días_sin_consecutivos.empty:
#    print("Todos los días están consecutivos.")
#else:
#    print(f"Se encontraron {len(días_sin_consecutivos)} periodos con días no consecutivos.")

## Preprocesamiento dataframe unificado

In [166]:
# Filtramos por años (todos menos el 2024 ya que no está completo)
df = df[df['fecha'].dt.year != 2024]

In [167]:
# Redondear las columnas a una decimal
df['Demanda real'] = df['Demanda real'].round(2)
df['tmed'] = df['tmed'].round(2)
df['hrMedia'] = df['hrMedia'].round(2)

In [168]:
df

Unnamed: 0,fecha,Demanda real,tmed,hrMedia
0,2019-01-01,23459.00,7.55,64.55
1,2019-01-02,23083.58,6.30,68.14
2,2019-01-03,29587.33,5.59,66.48
3,2019-01-04,31287.31,5.57,64.75
4,2019-01-05,31500.99,6.09,59.19
...,...,...,...,...
1821,2023-12-27,25735.32,6.42,69.44
1822,2023-12-28,27314.30,7.18,74.20
1823,2023-12-29,27768.56,8.25,75.97
1824,2023-12-30,27334.70,8.63,75.08


In [169]:
# Añadir columna para el día de la semana en formato numérico
df['diaSem'] = df['fecha'].dt.dayofweek  # 0=lunes, 1=martes, ..., 6=domingo COMPROBAR ALGO RARO

# Añadir columna para el trimestre en formato numérico de 0 a 3
df['trim'] = df['fecha'].dt.to_period('Q').dt.quarter - 1  # 0=Q1, 1=Q2, 2=Q3, 3=Q4 (invierno primero)

In [170]:
df

Unnamed: 0,fecha,Demanda real,tmed,hrMedia,diaSem,trim
0,2019-01-01,23459.00,7.55,64.55,1,0
1,2019-01-02,23083.58,6.30,68.14,2,0
2,2019-01-03,29587.33,5.59,66.48,3,0
3,2019-01-04,31287.31,5.57,64.75,4,0
4,2019-01-05,31500.99,6.09,59.19,5,0
...,...,...,...,...,...,...
1821,2023-12-27,25735.32,6.42,69.44,2,3
1822,2023-12-28,27314.30,7.18,74.20,3,3
1823,2023-12-29,27768.56,8.25,75.97,4,3
1824,2023-12-30,27334.70,8.63,75.08,5,3


In [171]:
# Contar la cantidad de valores nulos por columna
df.isnull().sum()

fecha           0
Demanda real    0
tmed            0
hrMedia         0
diaSem          0
trim            0
dtype: int64

In [175]:
# Contar la cantidad de filas duplicadas
df.duplicated().sum()

0

Mencionar que no hace falta hacer codificación y tratamiento de valores atípicos. Justificarlo

In [176]:
df.to_csv('datos_preprocesados.csv', index=False)