In [132]:
import pandas as pd
import numpy as np
from datetime import datetime

# 1. Generar un DataFrame
folder = 'data/'
files = ['emisiones-2016.csv', 'emisiones-2017.csv', 'emisiones-2018.csv', 'emisiones-2019.csv']

df_list = [pd.read_csv(folder + file) for file in files]
df = pd.concat(df_list, ignore_index=True)

print("Columnas disponibles en el DataFrame:")
print(df.columns.tolist())

# 2. Filtrar las columnas
basic_columns = ['ESTACION', 'MAGNITUD', 'ANO', 'MES']

day_columns = [col for col in df.columns if col.startswith('D')]

print("Columnas disponibles en el DataFrame:")
print(df.columns.tolist())

basic_columns = ['ESTACION', 'MAGNITUD', 'ANO', 'MES']

day_columns = [col for col in df.columns if col.startswith('D')]

existing_columns = [col for col in basic_columns + day_columns if col in df.columns]

df_filtered = df[existing_columns]

print("Columnas en el DataFrame filtrado:")
print(df_filtered.columns.tolist())

df = pd.concat([pd.read_csv(f'data/emisiones-{year}.csv') for year in range(2016, 2020)], ignore_index=True)

basic_columns = ['ESTACION', 'MAGNITUD', 'ANO', 'MES']
day_columns = [col for col in df.columns if col.startswith('D')]

print("Columnas disponibles en df:")
print(df.columns.tolist())



# 3. Reestructurar el DataFrame

df_melted = pd.DataFrame()

for day_col in day_columns:
    df_temp = df_filtered[['ESTACION', 'MAGNITUD', 'ANO', 'MES', day_col]].copy()
    df_temp = df_temp.rename(columns={day_col: 'EMISION'})
    df_temp['DIA'] = day_col
    df_melted = pd.concat([df_melted, df_temp], ignore_index=True)

print("Primeras filas del DataFrame reestructurado:")
print(df_melted.head())


# 4. Definir las columnas básicas y obtener las columnas de días
basic_columns = ['ESTACION', 'MAGNITUD', 'ANO', 'MES']
day_columns = [col for col in df.columns if col.startswith('D')]



# 5. Filtrar las columnas que existen en el DataFrame
existing_columns = [col for col in basic_columns + day_columns if col in df.columns]



# 6. Filtrar el DataFrame para quedarse solo con las columnas de interés
df_filtered = df[existing_columns]



# 7. Verificar las columnas del DataFrame filtrado
print("Columnas en el DataFrame filtrado:")
print(df_filtered.columns.tolist())

# 8. Reestructurar el DataFrame para que los valores de los contaminantes de los días aparezcan en una única columna

df_melted = pd.DataFrame()

for day_col in day_columns:
    df_temp = df_filtered[['ESTACION', 'MAGNITUD', 'ANO', 'MES', day_col]].copy()
    df_temp = df_temp.rename(columns={day_col: 'EMISION'})
    df_temp['DIA'] = day_col[1:]
    df_melted = pd.concat([df_melted, df_temp], ignore_index=True)

print("Primeras filas del DataFrame reestructurado:")
print(df_melted.head())


# 9. Verificar el DataFrame reestructurado
print("Primeras filas del DataFrame reestructurado:")
print(df_melted.head())



# 10. Eliminar el prefijo 'D' de 'DIA' y asegurarse de que tenga dos dígitos

def format_day(day):
    return f'{int(day[1:]):02d}'

df_melted['DIA'] = df_melted['DIA'].apply(format_day)

# 11. Crear la columna 'FECHA' en formato datetime

df_melted['FECHA'] = pd.to_datetime(
    df_melted['ANO'].astype(str) + '-' +
    df_melted['MES'].astype(str).str.zfill(2) + '-' +
    df_melted['DIA'],
    format='%Y-%m-%d',
    errors='coerce'
)


print("Primeras filas del DataFrame reestructurado:")
print(df_melted.head())


# 12. Verificar el DataFrame con la nueva columna de fecha
print("Primeras filas del DataFrame con fecha:")
print(df_melted.head())


Columnas disponibles en el DataFrame:
['PROVINCIA;MUNICIPIO;ESTACION;MAGNITUD;PUNTO_MUESTREO;ANO;MES;D01;V01;D02;V02;D03;V03;D04;V04;D05;V05;D06;V06;D07;V07;D08;V08;D09;V09;D10;V10;D11;V11;D12;V12;D13;V13;D14;V14;D15;V15;D16;V16;D17;V17;D18;V18;D19;V19;D20;V20;D21;V21;D22;V22;D23;V23;D24;V24;D25;V25;D26;V26;D27;V27;D28;V28;D29;V29;D30;V30;D31;V31']
Columnas disponibles en el DataFrame:
['PROVINCIA;MUNICIPIO;ESTACION;MAGNITUD;PUNTO_MUESTREO;ANO;MES;D01;V01;D02;V02;D03;V03;D04;V04;D05;V05;D06;V06;D07;V07;D08;V08;D09;V09;D10;V10;D11;V11;D12;V12;D13;V13;D14;V14;D15;V15;D16;V16;D17;V17;D18;V18;D19;V19;D20;V20;D21;V21;D22;V22;D23;V23;D24;V24;D25;V25;D26;V26;D27;V27;D28;V28;D29;V29;D30;V30;D31;V31']
Columnas en el DataFrame filtrado:
[]
Columnas disponibles en df:
['PROVINCIA;MUNICIPIO;ESTACION;MAGNITUD;PUNTO_MUESTREO;ANO;MES;D01;V01;D02;V02;D03;V03;D04;V04;D05;V05;D06;V06;D07;V07;D08;V08;D09;V09;D10;V10;D11;V11;D12;V12;D13;V13;D14;V14;D15;V15;D16;V16;D17;V17;D18;V18;D19;V19;D20;V20;D21;V21;D