# DATA FLITERED

In [14]:
import pandas as pd
from datetime import datetime

In [6]:
# Cargar los datos
df = pd.read_csv('ozono_maximo_diario.csv')

# Convertir FECHA correctamente
df['FECHA'] = pd.to_datetime(df['FECHA'], format='ISO8601')  # Detecta automáticamente formatos ISO como '2024-01-01'

# O también puedes simplemente hacer (pandas lo infiere bien en muchos casos):
# df['FECHA'] = pd.to_datetime(df['FECHA'])  # Sin especificar formato

# Luego sigue igual...
df['MES_ANIO'] = df['FECHA'].dt.to_period('M')

df_ozono_valido = df[df['OZONO'].notna()]

datos_por_estacion = df_ozono_valido.groupby('ESTACION').size().reset_index(name='conteo_total')
top_10_estaciones = datos_por_estacion.nlargest(10, 'conteo_total')

print("Top 10 estaciones con más datos de OZONO:")
print(top_10_estaciones)

df_top_10 = df_ozono_valido[df_ozono_valido['ESTACION'].isin(top_10_estaciones['ESTACION'])]

desglose_mensual = df_top_10.groupby(['ESTACION', 'MES_ANIO']).size().reset_index(name='dias_con_datos')

tabla_desglose = desglose_mensual.pivot(index='ESTACION', columns='MES_ANIO', values='dias_con_datos').fillna(0).astype(int)

print("\nDesglose mensual (días con datos de OZONO por estación):")
print(tabla_desglose)

Top 10 estaciones con más datos de OZONO:
   ESTACION  conteo_total
14      IZT           361
18      MGH           357
5       CCA           354
22      PED           352
1       AJU           348
27      TLI           347
0       AJM           344
7       CUA           341
29      UIZ           341
17      MER           340

Desglose mensual (días con datos de OZONO por estación):
MES_ANIO  2024-01  2024-02  2024-03  2024-04  2024-05  2024-06  2024-07  \
ESTACION                                                                  
AJM            31       27       29       30       25       28       28   
AJU            28       28       29       28       29       27       30   
CCA            31       27       30       28       30       27       31   
CUA            28       27       31       30       31       29       31   
IZT            31       28       31       30       26       30       31   
MER            31       26       30       30       24       30       31   
MGH           

In [None]:
# Cargar el archivo CSV
df = pd.read_csv('ozono_maximo_diario.csv')

# Convertir FECHA a datetime (opcional, pero recomendado)
df['FECHA'] = pd.to_datetime(df['FECHA'], format='ISO8601')

# Lista de estaciones que deseas conservar
estaciones_deseadas = ['MPA', 'AJU', 'AJM', 'CUT', 'TLI', 'GAM', 'IZT', 'CCA', 'HGM']

# Filtrar solo esas estaciones
df_filtrado = df[df['ESTACION'].isin(estaciones_deseadas)].copy()

# Definir mapeo de categorías
mapeo_categoria = {
    'MPA': 'RURAL',
    'AJU': 'RURAL',
    'CUT': 'SUBURBANO',
    'TLI': 'SUBURBANO',
    'AJM': 'RURAL',
    'GAM': 'URBANO',
    'IZT': 'URBANO',
    'CCA': 'URBANO',
    'HGM': 'URBANO'
}

# Crear la nueva columna 'CATEGORIA'
df_filtrado['CATEGORIA'] = df_filtrado['ESTACION'].map(mapeo_categoria)

# Guardar en un nuevo archivo CSV
df_filtrado.to_csv('ozono_filtrado_categorizado.csv', index=False)

print("✅ Archivo guardado como 'ozono_filtrado_categorizado.csv'")
print("Estaciones y categorías asignadas correctamente.")

✅ Archivo guardado como 'ozono_filtrado_categorizado.csv'
Estaciones y categorías asignadas correctamente.
