In [1]:
import pandas as pd
import numpy as np
import os
from glob import glob
import calendar
import unicodedata
from fuzzywuzzy import fuzz
from fuzzywuzzy import process



In [4]:
base_path = "/workspaces/Finarosalina_proyecto_final/data/raw"
dfs = []

# Función para extraer año de la carpeta (ejemplo: "2013_Datos_diarios" -> 2013)
def extraer_anno(nombre_carpeta):
    import re
    match = re.search(r'(\d{4})', nombre_carpeta)
    return int(match.group(1)) if match else None

# 1. Leer Excel (2014-2016)
for year_folder in ['2014_datos_Diarios', '2015_datos_Diarios', '2016_datos_Diarios']:
    folder_path = os.path.join(base_path, "2014_2016_Datos_diarios_excel", year_folder)
    anno = extraer_anno(year_folder)
    excel_files = glob(os.path.join(folder_path, "*.xlsx")) + glob(os.path.join(folder_path, "*.xls"))
    for file in excel_files:
        print(f"Leyendo Excel: {file}")
        df = pd.read_excel(file)
        if 'ANNO' not in df.columns:
            df['ANNO'] = anno
        dfs.append(df)

# 2. Leer CSVs (otros años)
years_with_csv = [
    "2013_Datos_diarios", "2017_Datos_diarios", "2018_Datos_diarios",
    "2019_datos_diarios", "2020_Datos_diarios", "2021_Datos_diarios",
    "2022_Datos_diarios", "2023_Datos_diarios"
]

for year_folder in years_with_csv:
    folder_path = os.path.join(base_path, year_folder)
    anno = extraer_anno(year_folder)
    csv_files = glob(os.path.join(folder_path, "*.csv"))
    for file in csv_files:
        print(f"Leyendo CSV: {file}")
        df = pd.read_csv(file, sep=';', encoding='utf-8')
        if 'ANNO' not in df.columns:
            df['ANNO'] = anno
        dfs.append(df)

# Concatenar y guardar
air_data = pd.concat(dfs, ignore_index=True)
output_path = "/workspaces/Finarosalina_proyecto_final/data/air_data.csv"
air_data.to_csv(output_path, index=False, sep=';')
print(f"Archivo combinado guardado en {output_path}")


Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/Pb_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/As_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/B(a)P_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/Cd_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/PM10_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/Ni_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_excel/2014_datos_Diarios/PM2.5_DD_2014.xlsx
Leyendo Excel: /workspaces/Finarosalina_proyecto_final/data/raw/2014_2016_Datos_diarios_e

In [11]:
df = pd.read_csv('/workspaces/Finarosalina_proyecto_final/data/processed/air_data.csv', sep=';')


In [12]:
df.head()

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANNO,MES,D01,D02,D03,...,D22,D23,D24,D25,D26,D27,D28,D29,D30,D31
0,3,9,6,19,03009006_19_M,2014,1,,,,...,0.0,,,,0.0,,,0.0,,0.0
1,3,9,6,19,03009006_19_M,2014,2,,,,...,0.0,,0.0,,,0.0,,,,
2,3,9,6,19,03009006_19_M,2014,3,0.0,,0.0,...,0.0,,0.0,,,0.0,,0.0,,0.0
3,3,9,6,19,03009006_19_M,2014,4,,,0.0,...,,,0.0,,0.0,,,0.0,,
4,3,9,6,19,03009006_19_M,2014,5,,0.0,0.0,...,0.0,0.0,0.0,0.0,,0.0,,0.0,,0.0


In [4]:
df.shape

(123569, 38)

In [13]:
nan_por_columna = df.isna().sum()
print(nan_por_columna)

PROVINCIA             0
MUNICIPIO             0
ESTACION              0
MAGNITUD              0
PUNTO_MUESTREO        0
ANNO                  0
MES                   0
D01               69227
D02               67484
D03               66910
D04               67538
D05               67838
D06               68581
D07               66855
D08               67692
D09               66312
D10               66078
D11               66564
D12               66024
D13               65844
D14               65580
D15               65176
D16               66060
D17               66210
D18               66726
D19               65876
D20               66015
D21               65737
D22               66692
D23               66768
D24               67866
D25               67295
D26               67259
D27               67150
D28               67653
D29               71966
D30               72915
D31               92599
dtype: int64


In [14]:
df.columns

Index(['PROVINCIA', 'MUNICIPIO', 'ESTACION', 'MAGNITUD', 'PUNTO_MUESTREO',
       'ANNO', 'MES', 'D01', 'D02', 'D03', 'D04', 'D05', 'D06', 'D07', 'D08',
       'D09', 'D10', 'D11', 'D12', 'D13', 'D14', 'D15', 'D16', 'D17', 'D18',
       'D19', 'D20', 'D21', 'D22', 'D23', 'D24', 'D25', 'D26', 'D27', 'D28',
       'D29', 'D30', 'D31'],
      dtype='object')

In [15]:
# Función para validar la fecha
def es_fecha_valida(anno, mes, dia):
    if mes < 1 or mes > 12 or dia < 1:
        return False
    ultimo_dia = calendar.monthrange(anno, mes)[1]  # Obtiene el último día del mes
    return dia <= ultimo_dia  # Comprueba si el día es válido

# Primero, seleccionamos las columnas de días
dias_columnas = [f'D{i:02d}' for i in range(1, 32)]  # ['D01', 'D02', ..., 'D31']

# Aplanamos el DataFrame para que cada fila represente un día
df = df.melt(id_vars=['PROVINCIA', 'MUNICIPIO', 'ESTACION', 'MAGNITUD', 'PUNTO_MUESTREO', 'ANNO', 'MES'],
             value_vars=dias_columnas,
             var_name='DIA', value_name='VALOR')

# Extraer el número de día de la columna 'DIA'
df['DIA'] = df['DIA'].str.extract(r'D(\d+)').astype(int)

# Aplicamos la validación de la fecha para cada fila
df['fecha_valida'] = df.apply(lambda row: es_fecha_valida(row['ANNO'], row['MES'], row['DIA']), axis=1)

# Filtramos las filas que tengan fecha válida
df = df[df['fecha_valida']]

# Verificar si alguna columna tiene valores nulos o vacíos antes de convertir a fecha
print("Valores nulos en columnas ANNO, MES, DIA antes de crear la columna FECHA:")
print(df[['ANNO', 'MES', 'DIA']].isna().sum())

# Filtrar filas con valores nulos en ANNO, MES o DIA
df = df.dropna(subset=['ANNO', 'MES', 'DIA'])

# Crear la columna FECHA usando las columnas 'ANNO', 'MES', y 'DIA'
df['FECHA'] = pd.to_datetime(df[['ANNO', 'MES', 'DIA']].astype(str).agg('-'.join, axis=1))

# Ya podemos eliminar la columna auxiliar 'fecha_valida'
df.drop(columns=['fecha_valida'], inplace=True)

# Mostrar el DataFrame final
print(df.head())


Valores nulos en columnas ANNO, MES, DIA antes de crear la columna FECHA:
ANNO    0
MES     0
DIA     0
dtype: int64
   PROVINCIA  MUNICIPIO  ESTACION  MAGNITUD PUNTO_MUESTREO  ANNO  MES  DIA  \
0          3          9         6        19  03009006_19_M  2014    1    1   
1          3          9         6        19  03009006_19_M  2014    2    1   
2          3          9         6        19  03009006_19_M  2014    3    1   
3          3          9         6        19  03009006_19_M  2014    4    1   
4          3          9         6        19  03009006_19_M  2014    5    1   

   VALOR      FECHA  
0    NaN 2014-01-01  
1    NaN 2014-02-01  
2    0.0 2014-03-01  
3    NaN 2014-04-01  
4    NaN 2014-05-01  


In [22]:
df.shape

(3760021, 10)

In [33]:
# que sea string
df['PUNTO_MUESTREO'] = df['PUNTO_MUESTREO'].astype(str)

# Extraer la clave: primeros 5 dígitos (provincia + municipio)
df['PUNTO_MUESTREO'] = df['PUNTO_MUESTREO'].astype(str)

# Extraer la clave como los primeros 5 dígitos del campo
df['CLAVE'] = df['PUNTO_MUESTREO'].str.extract(r'(\d{5})')



In [34]:
import pandas as pd
import unidecode

# === 1. Cargar diccionario de municipios desde Excel ===
df_dic = pd.read_excel(
    '/workspaces/Finarosalina_proyecto_final/data/raw/diccionario23.xlsx',
    skiprows=1,  # Saltar primera fila de paja
    dtype={'CPRO': str, 'CMUN': str}  # Asegurar lectura como texto
)

# Asegurar formato correcto de códigos
df_dic['CPRO'] = df_dic['CPRO'].str.zfill(2)
df_dic['CMUN'] = df_dic['CMUN'].str.zfill(3)
df_dic['CLAVE'] = df_dic['CPRO'] + df_dic['CMUN']

# Normalizar nombres para que no tengan tildes ni caracteres especiales
df_dic['NOMBRE_NORMALIZADO'] = df_dic['NOMBRE '].apply(lambda x: unidecode.unidecode(str(x)).strip())

# === 2. Diccionario de capitales de provincia ===
capitales_mun_dict = {
    '0159': 'Vitoria Gasteiz', '02003': 'Albacete', '0314': 'Alacant Alicante', '0413': 'Almeria', '0519': 'Avila',
    '15': 'Badajoz', '0740': 'Palma', '19': 'Barcelona', '0959': 'Burgos', '37': 'Caceres',
    '12': 'Cadiz', '1240': 'Castello de la Plana', '13': 'Ciudad Real', '14': 'Cordoba',
    '15': 'Coruna', '16': 'Cuenca', '17': 'Girona', '18': 'Granada', '19': 'Guadalajara',
    '20': 'San Sebastian', '21': 'Huelva', '22': 'Huesca', '23': 'Jaen', '24': 'Leon',
    '25': 'Lleida', '26': 'Logrono', '27': 'Lugo', '28': 'Madrid', '29': 'Malaga',
    '30': 'Murcia', '31': 'Pamplona', '32': 'Ourense', '33': 'Oviedo', '34': 'Palencia',
    '35': 'Las Palmas', '36': 'Pontevedra', '37': 'Salamanca', '38': 'Santa Cruz de Tenerife',
    '39': 'Santander', '40': 'Segovia', '41': 'Sevilla', '42': 'Soria', '43': 'Tarragona',
    '44': 'Teruel', '45': 'Toledo', '46': 'Valencia', '47': 'Valladolid', '48': 'Bilbao',
    '49': 'Zamora', '50': 'Zaragoza', '51': 'Ceuta', '52': 'Melilla'
}

# Crear diccionario final: claves válidas del Excel que estén en el dict de capitales
diccionario_capitales = {
    clave: capitales_mun_dict[clave]
    for clave in df_dic['CLAVE']
    if clave in capitales_mun_dict
}



In [38]:

df_capitales = df[df['CLAVE'].isin(diccionario_capitales.keys())].copy()

# Añadir nombre de la capital

df['NOMBRE_CAPITAL'] = df['CLAVE'].map(diccionario_capitales)
df_capitales = df[df['NOMBRE_CAPITAL'].notna()].copy()


In [39]:
df_capitales = df[df['PUNTO_MUESTREO'].str[:5].isin(diccionario_capitales.keys())].copy()


In [41]:
df_capitales.shape

(16505, 12)

In [42]:
# Ver la forma (filas, columnas)
print("Shape df_capitales:", df_capitales.shape)

# Cantidad de valores nulos por columna
print("\nValores nulos por columna:")
print(df_capitales.isnull().sum())


Shape df_capitales: (16505, 12)

Valores nulos por columna:
PROVINCIA             0
MUNICIPIO             0
ESTACION              0
MAGNITUD              0
PUNTO_MUESTREO        0
ANNO                  0
MES                   0
DIA                   0
VALOR             10347
FECHA                 0
CLAVE                 0
NOMBRE_CAPITAL        0
dtype: int64


In [44]:
# Diccionario de nombres contaminantes
magnitud_dict = {
    9: 'PM2.5',
    10: 'PM10',
    17: 'As',
    19: 'Pb',
    27: 'BaP',
    28: 'Cd',
    62: 'Ni'
}

# Mapear nombre del contaminante
df_capitales['MAGNITUD_NOMBRE'] = df_capitales['MAGNITUD'].map(magnitud_dict)

# Filtrar filas que tienen valor y contaminante reconocido
df_filtrado = df_capitales[
    df_capitales['VALOR'].notnull() &
    df_capitales['MAGNITUD_NOMBRE'].notnull()
]

# Pivotar para tener cada contaminante como columna
df_contaminantes = df_filtrado.pivot_table(
    index=['PROVINCIA', 'MUNICIPIO', 'ESTACION', 'PUNTO_MUESTREO', 'ANNO', 'MES', 'DIA', 'FECHA', 'NOMBRE_CAPITAL'],
    columns='MAGNITUD_NOMBRE',
    values='VALOR',
    aggfunc='first'  # O 'mean' si hay múltiples valores
).reset_index()

# Limpiar el nombre del índice de columnas creado por pivot_table
df_contaminantes.columns.name = None

df_contaminantes.head()


Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,PUNTO_MUESTREO,ANNO,MES,DIA,FECHA,NOMBRE_CAPITAL,As,BaP,Cd,Ni,PM10,PM2.5,Pb
0,2,3,1,02003001_10_49,2017,1,1,2017-01-01,Albacete,,,,,27.0,,
1,2,3,1,02003001_10_49,2017,1,2,2017-01-02,Albacete,,,,,21.0,,
2,2,3,1,02003001_10_49,2017,1,3,2017-01-03,Albacete,,,,,32.0,,
3,2,3,1,02003001_10_49,2017,1,6,2017-01-06,Albacete,,,,,25.0,,
4,2,3,1,02003001_10_49,2017,1,7,2017-01-07,Albacete,,,,,24.0,,


In [45]:
# la columna punto_muestreo contiene codigo provincia(2)+codigo municipio(3)+estacion(3)
df_contaminantes = df_contaminantes.drop(columns=['PROVINCIA', 'MUNICIPIO', 'ESTACION'])


In [46]:
df_contaminantes.head()


Unnamed: 0,PUNTO_MUESTREO,ANNO,MES,DIA,FECHA,NOMBRE_CAPITAL,As,BaP,Cd,Ni,PM10,PM2.5,Pb
0,02003001_10_49,2017,1,1,2017-01-01,Albacete,,,,,27.0,,
1,02003001_10_49,2017,1,2,2017-01-02,Albacete,,,,,21.0,,
2,02003001_10_49,2017,1,3,2017-01-03,Albacete,,,,,32.0,,
3,02003001_10_49,2017,1,6,2017-01-06,Albacete,,,,,25.0,,
4,02003001_10_49,2017,1,7,2017-01-07,Albacete,,,,,24.0,,


In [51]:
df_contaminantes.shape

(6158, 13)

In [None]:
# https://www.miteco.gob.es/es/calidad-y-evaluacion-ambiental/temas/atmosfera-y-calidad-del-aire/evaluacion-y-datos-de-calidad-del-aire/datos.html
# hemos encontrado un plan de muestreo segun el que no se tienen que medir todos los contaminantes en todas las zonas

# 1. Cargar el plan de medición
df_plan_medicion = pd.read_excel('/workspaces/Finarosalina_proyecto_final/data/raw/plan_medicion_2022_por_zona.xlsx')

# 2. Ver las primeras filas para entender su estructura
print(df_plan_medicion.head())

# 3. Mostrar columnas para conocer las variables que miden (por ejemplo SO2, NO2, PM10...)
print(df_plan_medicion.columns)

# no podemos relacionarlo con nuestro data set pq no hay codigos unicos que lo hagan.

        CCAA                            NOMBRE_ZONA CODIGO_ZONA          TIPO  \
0  ANDALUCÍA  ZONA INDUSTRIAL DE BAHIA DE ALGECIRAS      ES0104          zona   
1  ANDALUCÍA              ZONA INDUSTRIAL DE BAILEN      ES0108          zona   
2  ANDALUCÍA                                CORDOBA      ES0111  aglomeracion   
3  ANDALUCÍA          ZONA INDUSTRIAL DE CARBONERAS      ES0116          zona   
4  ANDALUCÍA           GRANADA Y AREA METROPOLITANA      ES0118  aglomeracion   

     AREA  POBLACION  SO2  SO2_E  NO2  NOX_V  ...  PM25   PB  C6H6   CO   O3  \
0  583.50     242508  1.0    NaN  1.0    NaN  ...   1.0  1.0   1.0  1.0  1.0   
1  121.01      17498  1.0    NaN  1.0    NaN  ...   1.0  1.0   1.0  1.0  1.0   
2  141.03     322071  1.0    NaN  1.0    NaN  ...   1.0  1.0   1.0  1.0  1.0   
3  695.01      39641  1.0    NaN  1.0    NaN  ...   1.0  1.0   1.0  1.0  1.0   
4  560.74     500735  1.0    NaN  1.0    NaN  ...   1.0  1.0   1.0  1.0  1.0   

   'AS'   CD   NI  BAP  O3_V  
0

In [57]:
def calcular_ica(row):
    # Umbrales
    umbrales_bajos = {'As': 1, 'BaP': 0.1, 'Cd': 0.5, 'Ni': 1, 'PM10': 20, 'PM2.5': 10, 'Pb': 0.5}
    umbrales_altos = {'As': 5, 'BaP': 0.5, 'Cd': 1.0, 'Ni': 5, 'PM10': 50, 'PM2.5': 25, 'Pb': 1.5}

    calidad = 1  # Empezamos en buena calidad

    for c in umbrales_bajos.keys():
        valor = row.get(c, float('nan'))
        if pd.isna(valor):
            continue  # ignoramos valores NaN

        if valor > umbrales_altos[c]:
            return 3  # Mala calidad, primer umbral alto superado
        elif valor > umbrales_bajos[c]:
            calidad = max(calidad, 2)  # Calidad moderada si supera umbral bajo

    return calidad

# Aplicar al dataframe
df_contaminantes['ICA'] = df_contaminantes.apply(calcular_ica, axis=1)


In [58]:
df_contaminantes.head()

Unnamed: 0,PUNTO_MUESTREO,ANNO,MES,DIA,FECHA,NOMBRE_CAPITAL,As,BaP,Cd,Ni,PM10,PM2.5,Pb,ICA
0,02003001_10_49,2017,1,1,2017-01-01,Albacete,,,,,27.0,,,2
1,02003001_10_49,2017,1,2,2017-01-02,Albacete,,,,,21.0,,,2
2,02003001_10_49,2017,1,3,2017-01-03,Albacete,,,,,32.0,,,2
3,02003001_10_49,2017,1,6,2017-01-06,Albacete,,,,,25.0,,,2
4,02003001_10_49,2017,1,7,2017-01-07,Albacete,,,,,24.0,,,2


In [59]:
df_contaminantes.to_csv('/workspaces/Finarosalina_proyecto_final/data/processed/df_contaminantes_processed.csv', index=False)


In [8]:
df=pd.read_csv('/workspaces/Finarosalina_proyecto_final/data/processed/df_contaminantes_processed.csv')

In [9]:

# Total de filas
total = len(df)

# Crear resumen por columna
resumen = pd.DataFrame({
    'Valores válidos': df.apply(lambda col: ((~col.isna()) & (col != 0)).sum()),
    'NaN': df.isna().sum(),
    'Ceros': (df == 0).sum(),
})

resumen['% NaN'] = (resumen['NaN'] / total * 100).round(2)
resumen['% Ceros'] = (resumen['Ceros'] / total * 100).round(2)
resumen['% NaN o 0'] = ((resumen['NaN'] + resumen['Ceros']) / total * 100).round(2)

# Reorganizar columnas para claridad
resumen = resumen[['Valores válidos', 'NaN', '% NaN', 'Ceros', '% Ceros', '% NaN o 0']]

# Mostrar resumen
print(resumen)


                Valores válidos   NaN  % NaN  Ceros  % Ceros  % NaN o 0
PUNTO_MUESTREO             6158     0   0.00      0     0.00       0.00
ANNO                       6158     0   0.00      0     0.00       0.00
MES                        6158     0   0.00      0     0.00       0.00
DIA                        6158     0   0.00      0     0.00       0.00
FECHA                      6158     0   0.00      0     0.00       0.00
NOMBRE_CAPITAL             6158     0   0.00      0     0.00       0.00
As                          826  5331  86.57      1     0.02      86.59
BaP                         839  5319  86.38      0     0.00      86.38
Cd                          826  5331  86.57      1     0.02      86.59
Ni                          839  5319  86.38      0     0.00      86.38
PM10                        982  5176  84.05      0     0.00      84.05
PM2.5                      1006  5152  83.66      0     0.00      83.66
Pb                          838  5320  86.39      0     0.00    

In [2]:
df_total=pd.read_csv('/workspaces/Finarosalina_proyecto_final/data/processed/air_data.csv', sep=';')

In [18]:
df_total.head()

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANNO,MES,D01,D02,D03,...,D22,D23,D24,D25,D26,D27,D28,D29,D30,D31
0,3,9,6,19,03009006_19_M,2014,1,,,,...,0.0,,,,0.0,,,0.0,,0.0
1,3,9,6,19,03009006_19_M,2014,2,,,,...,0.0,,0.0,,,0.0,,,,
2,3,9,6,19,03009006_19_M,2014,3,0.0,,0.0,...,0.0,,0.0,,,0.0,,0.0,,0.0
3,3,9,6,19,03009006_19_M,2014,4,,,0.0,...,,,0.0,,0.0,,,0.0,,
4,3,9,6,19,03009006_19_M,2014,5,,0.0,0.0,...,0.0,0.0,0.0,0.0,,0.0,,0.0,,0.0


In [5]:
import pandas as pd

# Suponiendo que ya tienes cargado df_total y las columnas D01 a D31 existen
# Paso 1: Seleccionar columnas de días
columnas_dias = [col for col in df_total.columns if col.startswith('D')]

# Paso 2: Filtrar registros donde al menos un día tenga valor no nulo
df_no_nulos = df_total[df_total[columnas_dias].notna().any(axis=1)]

# Paso 3: Agrupar por ESTACION y contar los registros no nulos
registros_por_estacion = df_no_nulos.groupby('ESTACION').size().reset_index(name='NUM_REGISTROS_NO_NULOS')

# Mostrar el resultado
print(registros_por_estacion)


    ESTACION  NUM_REGISTROS_NO_NULOS
0          1                   29096
1          2                   12428
2          3                    6209
3          4                    8926
4          5                    7150
5          6                    9051
6          7                    4511
7          8                    3195
8          9                    3876
9         10                    2187
10        11                     282
11        12                    2008
12        13                     437
13        14                     909
14        15                    1916
15        16                    1085
16        17                     800
17        18                     335
18        19                     163
19        20                    1224
20        21                     402
21        22                     580
22        23                     259
23        24                     292
24        25                     642
25        26                     513
2

In [6]:
import pandas as pd

# Agrupar por ESTACION y contar todos los registros, sin filtrar por valores nulos
registros_por_estacion = df_total.groupby('ESTACION').size().reset_index(name='NUM_REGISTROS')

# Mostrar el resultado
print(registros_por_estacion)


    ESTACION  NUM_REGISTROS
0          1          32152
1          2          13522
2          3           6643
3          4           9421
4          5           7551
5          6           9459
6          7           4657
7          8           3251
8          9           4006
9         10           2449
10        11            296
11        12           2090
12        13            441
13        14            910
14        15           2007
15        16           1103
16        17            800
17        18            339
18        19            216
19        20           1224
20        21            466
21        22            596
22        23            262
23        24            440
24        25            648
25        26            694
26        27            649
27        28           1068
28        29            180
29        30            414
30        31            144
31        32            370
32        33             48
33        36            204
34        37        

In [7]:
# Total de filas del DataFrame
total_filas = len(df_total)

# Calcular estadísticas por columna
resumen_nulos = pd.DataFrame({
    'Total valores': total_filas,
    'Nulos': df_total.isna().sum(),
})

# Calcular el porcentaje de nulos
resumen_nulos['% Nulos'] = (resumen_nulos['Nulos'] / total_filas * 100).round(2)

# Ordenar por mayor % de nulos (opcional)
resumen_nulos = resumen_nulos.sort_values(by='% Nulos', ascending=False)

# Mostrar resultado
print(resumen_nulos)


                Total valores  Nulos  % Nulos
D31                    123569  92599    74.94
D30                    123569  72915    59.01
D29                    123569  71966    58.24
D01                    123569  69227    56.02
D06                    123569  68581    55.50
D24                    123569  67866    54.92
D05                    123569  67838    54.90
D08                    123569  67692    54.78
D28                    123569  67653    54.75
D04                    123569  67538    54.66
D02                    123569  67484    54.61
D25                    123569  67295    54.46
D26                    123569  67259    54.43
D27                    123569  67150    54.34
D03                    123569  66910    54.15
D07                    123569  66855    54.10
D23                    123569  66768    54.03
D18                    123569  66726    54.00
D22                    123569  66692    53.97
D11                    123569  66564    53.87
D09                    123569  663

In [12]:
df_total.columns

Index(['PROVINCIA', 'MUNICIPIO', 'ESTACION', 'MAGNITUD', 'PUNTO_MUESTREO',
       'ANNO', 'MES', 'D01', 'D02', 'D03', 'D04', 'D05', 'D06', 'D07', 'D08',
       'D09', 'D10', 'D11', 'D12', 'D13', 'D14', 'D15', 'D16', 'D17', 'D18',
       'D19', 'D20', 'D21', 'D22', 'D23', 'D24', 'D25', 'D26', 'D27', 'D28',
       'D29', 'D30', 'D31'],
      dtype='object')

In [15]:
import pandas as pd

# Asumiendo que tu DataFrame original se llama df_total

# Diccionario para mapear magnitudes a contaminantes
magnitud_dict = {
    9: 'PM2.5',
    10: 'PM10',
    17: 'As',
    19: 'Pb',
    27: 'BaP',
    28: 'Cd',
    62: 'Ni'
}

# Columnas que NO quieres cambiar
columnas_clave = ['PROVINCIA', 'MUNICIPIO', 'ESTACION', 'PUNTO_MUESTREO', 'ANNO', 'MES']

# Columnas de días (D01, D02, ..., D31)
dias_columnas = [f'D{i:02d}' for i in range(1, 32)]

# 1. Melt: pasar columnas D01-D31 a filas (una fila por día)
df_long = df_total.melt(
    id_vars=columnas_clave + ['MAGNITUD'],
    value_vars=dias_columnas,
    var_name='DIA',
    value_name='VALOR'
)

# 2. Extraer número de día como entero
df_long['DIA'] = df_long['DIA'].str.extract(r'D(\d+)').astype(int)

# 3. Mapear la magnitud a contaminante
df_long['CONTAMINANTE'] = df_long['MAGNITUD'].map(magnitud_dict)

# 4. Eliminar filas con valores nulos en VALOR o CONTAMINANTE
df_long = df_long.dropna(subset=['VALOR', 'CONTAMINANTE'])

# 5. Pivotear para tener cada contaminante como columna
df_total_fecha = df_long.pivot_table(
    index=columnas_clave + ['DIA'],
    columns='CONTAMINANTE',
    values='VALOR',
    aggfunc='first'
).reset_index()

# 6. Crear columna FECHA con año, mes y día
df_total_fecha['FECHA'] = pd.to_datetime(dict(year=df_total_fecha['ANNO'], month=df_total_fecha['MES'], day=df_total_fecha['DIA']))

# 7. Reordenar columnas, sin perder ninguna clave ni contaminante
column_order = columnas_clave + ['ANNO', 'MES', 'DIA', 'FECHA'] + list(magnitud_dict.values())
# Algunos contaminantes pueden no aparecer, filtramos sólo los que existen
column_order = [col for col in column_order if col in df_total_fecha.columns]

df_total_fecha = df_total_fecha.reindex(columns=column_order)

# Mostrar resultado
print(df_total_fecha.head())


CONTAMINANTE  PROVINCIA  MUNICIPIO  ESTACION  PUNTO_MUESTREO  ANNO  MES  ANNO  \
0                     1         22         1  01022001_10_47  2017    1  2017   
1                     1         22         1  01022001_10_47  2017    1  2017   
2                     1         22         1  01022001_10_47  2017    1  2017   
3                     1         22         1  01022001_10_47  2017    1  2017   
4                     1         22         1  01022001_10_47  2017    1  2017   

CONTAMINANTE  MES  DIA      FECHA  PM2.5  PM10  As  Pb  BaP  Cd  Ni  
0               1    1 2017-01-01    NaN   7.3 NaN NaN  NaN NaN NaN  
1               1    2 2017-01-02    NaN   9.1 NaN NaN  NaN NaN NaN  
2               1    3 2017-01-03    NaN  16.0 NaN NaN  NaN NaN NaN  
3               1    4 2017-01-04    NaN  16.0 NaN NaN  NaN NaN NaN  
4               1    5 2017-01-05    NaN  11.0 NaN NaN  NaN NaN NaN  


In [17]:
# Columnas de días
dias_columnas = [f'D{i:02d}' for i in range(1, 32)]

# Filtrar filas donde NO haya ningún NaN en esas columnas de días
df_sin_nan = df_total.dropna(subset=dias_columnas, how='any')

# Mostrar el resultado
print(df_sin_nan)


        PROVINCIA  MUNICIPIO  ESTACION  MAGNITUD PUNTO_MUESTREO  ANNO  MES  \
21              8         19        45        19  08019045_19_M  2014    8   
22              8         19        54        19  08019054_19_M  2014    8   
24              8         19         4        19  08019004_19_M  2014    8   
25              8         19        42        19  08019042_19_M  2014    8   
26              8         19        43        19  08019043_19_M  2014    8   
...           ...        ...       ...       ...            ...   ...  ...   
121452          8         19        54        28  08019054_28_M  2023   12   
122524         50        297        26        28  50297026_28_M  2023    3   
122526         50        297        26        28  50297026_28_M  2023    5   
123142         15         30        27        27  15030027_27_M  2023    1   
123145         15         30        27        27  15030027_27_M  2023    5   

             D01       D02       D03  ...       D22       D23  

In [18]:
cols_dias = [col for col in df_total.columns if col.startswith('D')]

puntos_sin_nan = df_total.groupby('PUNTO_MUESTREO')[cols_dias].apply(lambda x: x.isna().sum().sum() == 0)

puntos_sin_nan = puntos_sin_nan[puntos_sin_nan].index.tolist()

print("Puntos de muestreo sin ningún valor NaN:")
print(puntos_sin_nan)


Puntos de muestreo sin ningún valor NaN:
[]


In [22]:
# Contar NaN por fila
num_nan_por_fila = df_total.isna().sum(axis=1)

# Filas con exactamente 1 NaN en todo el mes
puntos_1_nan = num_nan_por_fila[num_nan_por_fila == 1].index
num_puntos_1_nan = len(puntos_1_nan)

# Filas con exactamente 2 NaN en todo el mes
puntos_2_nan = num_nan_por_fila[num_nan_por_fila == 2].index
num_puntos_2_nan = len(puntos_2_nan)

print("Número de puntos con exactamente 1 NaN en todo el mes:", num_puntos_1_nan)
print("Número de puntos con exactamente 2 NaN en todo el mes:", num_puntos_2_nan)


Número de puntos con exactamente 1 NaN en todo el mes: 9126
Número de puntos con exactamente 2 NaN en todo el mes: 3645
