# 3. Problema de clasificación

In [429]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score


In [430]:
pd_pred = pd.read_csv("prediction.csv")

# Convertir 'date' en datetime
pd_pred['date'] = pd.to_datetime(pd_pred['date'])

# Ordenar por fecha date
pd_pred = pd_pred.sort_values(by='date')


pd_pred.head()

Unnamed: 0,date,ICA_PM25_target
1601,2019-01-01,1
413,2019-01-02,0
1715,2019-01-03,0
508,2019-01-04,1
1580,2019-01-05,1


In [431]:
df_air = pd.read_csv("air_quality_gijon.csv")


# Eliminamos una columna repetida en calidad del aire
df_air.drop("NO2_OesteAvdaArgentina.1", axis=1, inplace=True)
df_air.drop("NO_EsteAvdaCastilla", axis=1, inplace=True)

# Eliminamos las columnas de Avenida Castilla y Argentina
df_air.drop("SO2_OesteAvdaArgentina", axis=1, inplace=True)
df_air.drop("SO2_EsteAvdaCastilla", axis=1, inplace=True)
df_air.drop("NO2_OesteAvdaArgentina", axis=1, inplace=True)
df_air.drop("NO2_EsteAvdaCastilla", axis=1, inplace=True)
df_air.drop("CO_OesteAvdaArgentina", axis=1, inplace=True)
df_air.drop("CO_EsteAvdaCastilla", axis=1, inplace=True)
df_air.drop("PM10_OesteAvdaArgentina", axis=1, inplace=True)
df_air.drop("PM10_EsteAvdaCastilla", axis=1, inplace=True)
df_air.drop("O3_OesteAvdaArgentina", axis=1, inplace=True)
df_air.drop("O3_EsteAvdaCastilla", axis=1, inplace=True)


df_air.head()

Unnamed: 0,date,SO2_GijonGlobal,NO_GijonGlobal,NO2_GijonGlobal,CO_GijonGlobal,PM10_GijonGlobal,O3_GijonGlobal
0,2023-12-18,14.0,141.0,73.0,0.86,164.0,72.0
1,2021-12-13,26.0,239.0,75.0,6.45,199.0,38.0
2,2022-10-13,21.0,43.0,42.0,2.16,70.0,58.0
3,2019-07-29,26.0,57.0,31.0,3.87,86.0,71.0
4,2021-11-26,19.0,44.0,67.0,3.02,77.0,76.0


In [432]:
# Datos de tráfico
df_meteo = pd.read_csv("meteo_gijon.csv")

df_meteo.head()

df_meteo.columns = df_meteo.columns.str.replace('_Gijon', '')


df_meteo.head()

Unnamed: 0,date,velmediaCampus,rachaCampus,tmed,prec,sol,presMin,presMax,dir,velmedia,racha
0,2020-06-03,2.8,9.4,18.666667,7.466667,5.533333,1000.95,1005.05,30.0,3.05,9.85
1,2022-11-14,1.1,9.7,13.633333,1.833333,3.35,1001.533333,1011.0,27.5,2.35,12.05
2,2021-03-26,2.8,11.4,12.566667,1.066667,5.25,1014.833333,1023.133333,32.0,3.5,11.4
3,2023-12-07,1.4,,12.9,12.7,0.0,999.55,1007.1,27.0,2.8,22.8
4,2020-01-30,1.1,3.9,13.633333,1.1,0.433333,1008.533333,1013.033333,30.5,1.8,7.1


In [433]:
# Convertir la columna 'date' al tipo de datos datetime si aún no está en ese formato
df_air['date'] = pd.to_datetime(df_air['date'])
df_meteo['date'] = pd.to_datetime(df_meteo['date'])
pd_pred['date'] = pd.to_datetime(pd_pred['date'])

# Concatenar los DataFrames utilizando la columna 'date'
df_merged = pd.concat([df_air, df_meteo, pd_pred], axis=1)

# Eliminar filas con valores faltantes en características y variable objetivo
df_merged.dropna(subset=df_merged.columns, inplace=True)

df_merged.head()

df_merged.columns



Index(['date', 'SO2_GijonGlobal', 'NO_GijonGlobal', 'NO2_GijonGlobal',
       'CO_GijonGlobal', 'PM10_GijonGlobal', 'O3_GijonGlobal', 'date',
       'velmediaCampus', 'rachaCampus', 'tmed', 'prec', 'sol', 'presMin',
       'presMax', 'dir', 'velmedia', 'racha', 'date', 'ICA_PM25_target'],
      dtype='object')

In [434]:
# Selección de características y variable objetivo
X = df_merged.drop(['date', 'ICA_PM25_target'], axis=1)
y = df_merged['ICA_PM25_target']  # Variable objetivo dicotómica: 0 para buena calidad del aire, 1 para mala calidad del aire




In [435]:
# División de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar el modelo de clasificación
model = RandomForestClassifier()

# print(X_train)
# print(X_test)
# print(y_train)
# print(y_test)




In [436]:
# Entrenar el modelo
model.fit(X_train, y_train)

# Evaluar el modelo
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)



Accuracy: 0.7492537313432835


In [437]:
# Generar un rango de fechas para diciembre de 2023
fechas_diciembre_2023 = pd.date_range(start='2023-12-01', end='2023-12-31', freq='D')

# Crear un DataFrame con estas fechas
df_blind = pd.DataFrame({'date': fechas_diciembre_2023})
print(df_blind.head())


        date
0 2023-12-01
1 2023-12-02
2 2023-12-03
3 2023-12-04
4 2023-12-05


In [438]:
# Convertir 'date' en datetime
df_air['date'] = pd.to_datetime(df_air['date'])
df_meteo['date'] = pd.to_datetime(df_meteo['date'])
pd_pred['date'] = pd.to_datetime(pd_pred['date'])

# Concatenar los DataFrames utilizando la columna 'date'
df_blind = pd.concat([df_air.set_index('date'), df_meteo.set_index('date'), pd_pred.set_index('date')], axis=1)

# Resetear el índice para que 'date' sea una columna regular
df_blind.reset_index(inplace=True)
# Ordenar el DataFrame por la columna 'date'
df_blind['date'] = pd.to_datetime(df_blind['date'])
df_blind = df_blind.sort_values(by='date')


# Tomar los 31 días de diciembre
df_blind = df_blind.tail(31)

df_blind = df_blind.drop(['date', 'ICA_PM25_target'], axis=1)

In [439]:
df_merged.columns

Index(['date', 'SO2_GijonGlobal', 'NO_GijonGlobal', 'NO2_GijonGlobal',
       'CO_GijonGlobal', 'PM10_GijonGlobal', 'O3_GijonGlobal', 'date',
       'velmediaCampus', 'rachaCampus', 'tmed', 'prec', 'sol', 'presMin',
       'presMax', 'dir', 'velmedia', 'racha', 'date', 'ICA_PM25_target'],
      dtype='object')

In [440]:
df_blind.columns

Index(['SO2_GijonGlobal', 'NO_GijonGlobal', 'NO2_GijonGlobal',
       'CO_GijonGlobal', 'PM10_GijonGlobal', 'O3_GijonGlobal',
       'velmediaCampus', 'rachaCampus', 'tmed', 'prec', 'sol', 'presMin',
       'presMax', 'dir', 'velmedia', 'racha'],
      dtype='object')

In [441]:
# Hacer predicciones en el conjunto ciego de 31 días
y_blind_pred = model.predict(df_blind)

y_blind_pred = y_blind_pred.astype(int)

print("Predicciones para 31 días de Diciembre 2023:")




# Valores enteros separados por comas
y_blind_pred_comas = ', '.join(map(str, y_blind_pred))
print(y_blind_pred_comas)




Predicciones para 31 días de Diciembre 2023:
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0


In [442]:


# Crear un DataFrame con las fechas de diciembre y las predicciones de y_blind_pred
df_resultado = pd.DataFrame({'date': fechas_diciembre_2023, 'ICA_PM25_target': y_blind_pred})

# Guardar el DataFrame como un archivo CSV
df_resultado.to_csv('predicciones_diciembre.csv', index=False)

In [445]:
df_resultado.head(31)

Unnamed: 0,date,ICA_PM25_target
0,2023-12-01,0
1,2023-12-02,0
2,2023-12-03,0
3,2023-12-04,0
4,2023-12-05,0
5,2023-12-06,0
6,2023-12-07,0
7,2023-12-08,0
8,2023-12-09,0
9,2023-12-10,0
