In [39]:
#importar librerías
import pandas as pd
import numpy as np
import os

In [1]:
#abrir archivo
df = pd.read_csv(f"../01_DATA/SMN_limpio/SMN_14002.csv", sep=';', na_values=["NULO"])#, parse_dates=["FECHA"])
df.head(5)
# df["FECHA"]
# #cuantos NA hay en cada columna
# df.isnull().sum()
# df.head(5)

NameError: name 'pd' is not defined

#### Bloque 1: Preparación y carga de los archivo
En este bloque de código se hacen cada uno de los siguientes pasos:
**1. Identificación dinámica:** En lugar de usar `skiprows`se busca la fila donde están los encabezados para que todos los archivos se carguen a partir de la misma fila (con *skiprows* se pone fijo el renglón apartir del cual se inician a leer los datos).

**2. Conversión de nulos:** El SMN registra los valores no registrados como **"NULOS"**, así se que cambian a NaN. Así se evitan errores al hacer cálculos después.

**3. Limpieza de unidades:** Se elimina la fila (renglón) en el que se tienen las unidades de cada variable

Ejemplo de entrada:

|index	| FECHA	     | PRECIP |  EVAP	 | TMAX	| TMIN
|--|-----|------|------|------|------|
0	| 1961-01-01 |	0	  | NULO	 | 27	| 6
1	| 1961-01-02 |	0	  | NULO	 | 28.5	| 7
2	| 1961-01-03 |	0	  | NULO	 | 27.5	| 7.5
3	| 1961-01-04 |	0	  | NULO	 | 26	| 7.5
4	| 1961-01-05 |	0	  | NULO	 | 28.5	| 9.5

Ejemplo de salida:
|index |   FECHA   |  PRECIP | EVAP | TMAX | TMIN
|--|-----|------|------|------|------|
0   |   1961-01-01|   0.0 |  NaN | 27.0 |  6.0
1   |   1961-01-02|   0.0 |  NaN | 28.5 |  7.0
2   |   1961-01-03|   0.0 |  NaN | 27.5 |  7.5
3   |   1961-01-04|   0.0 |  NaN | 26.0 |  7.5
4   |   1961-01-05|   0.0 |  NaN | 28.5 |  9.5


In [43]:
def carga_smn(id_estac):

    ruta = f"../01_DATA/raw/dia{id_estac}.txt"
    
    # 1. Encontrar en qué línea empiezan los datos (donde está 'FECHA')
    linea_inicio = 0
    with open(ruta, 'r', encoding='latin-1') as f:
        for i, linea in enumerate(f):
            if 'FECHA' in linea:
                linea_inicio = i
                break
    
    # 2. Leer el archivo saltando los metadatos dinámicamente
    # na_values=['NULO'] convierte automáticamente esas cadenas a NaN
    df = pd.read_csv(
        ruta, 
        skiprows=linea_inicio, 
        sep="\\s+", 
        na_values=['NULO'],
        #encoding='latin-1'
    )
    
    # 3. Eliminar la fila de unidades (mm, °C) que queda en el índice 0
    df = df.drop(index=0).reset_index(drop=True)
    
    # 4. Asegurar que las columnas climáticas sean numéricas (float)
    cols_climaticas = ['PRECIP', 'EVAP', 'TMAX', 'TMIN']
    for col in cols_climaticas:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    
    # 5. Convertir columna FECHA a formato datetime
    df['FECHA'] = pd.to_datetime(df['FECHA'], errors='coerce')
    
    print(f"Estación {id_estac}: Carga inicial completada.")
    return df

###### --- EJECUCIÓN DEL BUCLE ---

# Lista de estaciones (puedes descomentar las demás conforme las necesites)
estacs = ["14002", "14006", "14009", "14011" , "14016" , "14017" , "14018" , "14023" , "14024",
    "14026" , "14028" , "14029" , "14030" , "14032" , "14033" , "14034" , "14035" , "14036" , "14037",
    "14038" , "14039" , "14040" , "14044" , "14046" , "14047" , "14048" , "14052" , "14053" , "14054",
    "14056" , "14059" , "14060" , "14063" , "14065" , "14066" , "14067" , "14068" , "14070" , "14071",
    "14072" , "14075" , "14076" , "14078" , "14080" , "14081" , "14083" , "14084" , "14087" , "14089",
    "14090" , "14093" , "14096" , "14099" , "14100" , "14101" , "14104" , "14111" , "14113" , "14114",
    "14117" , "14118" , "14119" , "14122" , "14123" , "14125" , "14129" , "14132" , "14136" , "14139",
    "14140" , "14141" , "14142" , "14143" , "14144" , "14145" , "14146" , "14155" , "14156" , "14157",
    "14160" , "14165" , "14167" , "14168" , "14169" , "14171" , "14179" , "14180" , "14187" , "14189",
    "14195" , "14197" , "14198" , "14199" , "14200" , "14202" , "14266" , "14269" , "14297" , "14306",
    "14311" , "14320" , "14323" , "14324" , "14326" , "14329" , "14331" , "14336" , "14337" , "14339",
    "14343" , "14346" , "14348" , "14349" , "14350" , "14351" , "14355" , "14367" , "14368" , "14369",
    "14379" , "14386" , "14391" , "14392" , "14396" , "14397"]# , "16170" , "18030" , "32118"]

# Diccionario para almacenar los DataFrames
# Esto evita que los datos se sobrescriban en el bucle
estaciones_raw = {}

for i in estacs:
    resultado = carga_smn(i)
    if resultado is not None:
        # Guardamos el DataFrame en el diccionario usando el ID como llave
        estaciones_raw[i] = resultado

# print(estaciones_raw['14002'].head())


Estación 14002: Carga inicial completada.
Estación 14006: Carga inicial completada.
Estación 14009: Carga inicial completada.
Estación 14011: Carga inicial completada.
Estación 14016: Carga inicial completada.
Estación 14017: Carga inicial completada.
Estación 14018: Carga inicial completada.
Estación 14023: Carga inicial completada.
Estación 14024: Carga inicial completada.
Estación 14026: Carga inicial completada.
Estación 14028: Carga inicial completada.
Estación 14029: Carga inicial completada.
Estación 14030: Carga inicial completada.
Estación 14032: Carga inicial completada.
Estación 14033: Carga inicial completada.
Estación 14034: Carga inicial completada.
Estación 14035: Carga inicial completada.
Estación 14036: Carga inicial completada.
Estación 14037: Carga inicial completada.
Estación 14038: Carga inicial completada.
Estación 14039: Carga inicial completada.
Estación 14040: Carga inicial completada.
Estación 14044: Carga inicial completada.
Estación 14046: Carga inicial comp

##### Bloque 2: Control de calidad (QC) lógico
En este segundo bloque de código, se hace el control de calidad lógico considerando:
**1. Validación térmica:** No es posible que Tmax < Tmin; de modo que si un registro tiene esta condición, se invalidarán ambos registros (se convierten en NaN).

**2.Límites físicos:** Tanto la evapotranspiración como la precpitación no pueden ser negativas (menores a 0). De modo que, como en el caso anterior, si existe esta condición, se invalida el registro.

**3. Estandarización de las fechas:** Se coloca la columna de 'FECHA' como índice para futuros cálculos.

In [44]:
def qc_logico(df):   
    # 1. Consistencia Térmica: La Máxima no puede ser menor a la Mínima
    # Identificamos errores de captura/digitalización
    mask_temp_error = df['TMIN'] > df['TMAX']
    
    # Si TMIN > TMAX, invalidamos ambos registros asignando NaN
    df.loc[mask_temp_error, ['TMAX', 'TMIN']] = np.nan
    
    # 2. Límites Físicos: Valores negativos imposibles
    # La precipitación y evaporación deben ser >= 0
    df.loc[df['PRECIP'] < 0, 'PRECIP'] = np.nan
    df.loc[df['EVAP'] < 0, 'EVAP'] = np.nan
    
    # --- INDEXACIÓN CON FECHAS ---
    
    # 3. Asegurar que FECHA sea tipo datetime
    df['FECHA'] = pd.to_datetime(df['FECHA'], errors='coerce')
    
    # 4. Eliminar duplicados de fecha antes de indexar
    df = df.drop_duplicates(subset=['FECHA'])
    
    # 5. Establecer FECHA como índice
    df = df.set_index('FECHA')
    
    # 6. Ordenar cronológicamente
    df = df.sort_index()
    
    # Reporte de limpieza para seguimiento
    # Usamos len(mask_temp_error) o el ID si lo tuviéramos para identificar
    print(f"QC: {mask_temp_error.sum()} errores térmicos corregidos. Total: {len(df)} registros.")
    
    return df

# --- BUCLE PARA PROCESAR EL DICCIONARIO ---

# Creamos un nuevo diccionario para los datos limpios
estaciones_qc = {}

for id_estac, df_raw in estaciones_raw.items():
    print(f"Procesando QC para Estación {id_estac}...")
    # Aplicamos la función y guardamos el resultado
    estaciones_qc[id_estac] = qc_logico(df_raw)

# Ahora puedes acceder a cualquier estación limpia así:
# estaciones_qc['14002'].head()

Procesando QC para Estación 14002...
QC: 0 errores térmicos corregidos. Total: 22291 registros.
Procesando QC para Estación 14006...
QC: 0 errores térmicos corregidos. Total: 30209 registros.
Procesando QC para Estación 14009...
QC: 0 errores térmicos corregidos. Total: 29692 registros.
Procesando QC para Estación 14011...
QC: 0 errores térmicos corregidos. Total: 22304 registros.
Procesando QC para Estación 14016...
QC: 0 errores térmicos corregidos. Total: 26442 registros.
Procesando QC para Estación 14017...
QC: 0 errores térmicos corregidos. Total: 26760 registros.
Procesando QC para Estación 14018...
QC: 0 errores térmicos corregidos. Total: 28421 registros.
Procesando QC para Estación 14023...
QC: 0 errores térmicos corregidos. Total: 27781 registros.
Procesando QC para Estación 14024...
QC: 0 errores térmicos corregidos. Total: 23453 registros.
Procesando QC para Estación 14026...
QC: 0 errores térmicos corregidos. Total: 23671 registros.
Procesando QC para Estación 14028...
QC:

##### Bloque 3: Integridad de la serie de tiempo

In [45]:
def integridad_temporal_masiva(diccionario_estaciones):
    # 1. Validar que el diccionario no esté vacío
    if not diccionario_estaciones:
        print("El diccionario de estaciones está vacío.")
        return {}

    # 2. Identificar la fecha mínima y máxima global de TODO el set de Jalisco
    # Recorremos todos los DataFrames para encontrar los extremos temporales
    fecha_min_global = min([df.index.min() for df in diccionario_estaciones.values()])
    fecha_max_global = max([df.index.max() for df in diccionario_estaciones.values()])
    
    # 3. Crear el calendario maestro diario (sin saltos)
    calendario_maestro = pd.date_range(start=fecha_min_global, end=fecha_max_global, freq='D')
    
    estaciones_normalizadas = {}
    
    # 4. Bucle para reindexar cada estación con el calendario maestro
    for id_est, df in diccionario_estaciones.items():
        # .reindex() es la clave: inserta filas con NaN en las fechas faltantes
        df_norm = df.reindex(calendario_maestro)
        df_norm.index.name = 'FECHA'
        
        # Marcamos qué días son "rellenados" (útil para auditoría de datos)
        # Si PRECIP es NaN, asumimos que es un dato faltante insertado ahora
        df_norm['MISSING_DAY'] = df_norm['PRECIP'].isna().astype(int)
        
        estaciones_normalizadas[id_est] = df_norm
        print(f"Estación {id_est}: Calendario normalizado.")
    
    print(f"\n--- NORMALIZACIÓN GLOBAL FINALIZADA ---")
    print(f"Rango de estudio Jalisco: {fecha_min_global.date()} a {fecha_max_global.date()}")
    print(f"Longitud de la serie: {len(calendario_maestro)} días.")
    
    return estaciones_normalizadas

# --- EJECUCIÓN ---

# Usamos el diccionario 'estaciones_qc' que generamos en el Bloque 2
estaciones_listas = integridad_temporal_masiva(estaciones_qc)

# Ejemplo de verificación:
#print(estaciones_listas['14002'].head())

Estación 14002: Calendario normalizado.
Estación 14006: Calendario normalizado.
Estación 14009: Calendario normalizado.
Estación 14011: Calendario normalizado.
Estación 14016: Calendario normalizado.
Estación 14017: Calendario normalizado.
Estación 14018: Calendario normalizado.
Estación 14023: Calendario normalizado.
Estación 14024: Calendario normalizado.
Estación 14026: Calendario normalizado.
Estación 14028: Calendario normalizado.
Estación 14029: Calendario normalizado.
Estación 14030: Calendario normalizado.
Estación 14032: Calendario normalizado.
Estación 14033: Calendario normalizado.
Estación 14034: Calendario normalizado.
Estación 14035: Calendario normalizado.
Estación 14036: Calendario normalizado.
Estación 14037: Calendario normalizado.
Estación 14038: Calendario normalizado.
Estación 14039: Calendario normalizado.
Estación 14040: Calendario normalizado.
Estación 14044: Calendario normalizado.
Estación 14046: Calendario normalizado.
Estación 14047: Calendario normalizado.


In [48]:
def exportar_rango_especifico(diccionario_normalizado, carpeta_salida, fecha_inicio, fecha_fin):
    if not os.path.exists(carpeta_salida):
        os.makedirs(carpeta_salida)

    for id_est, df in diccionario_normalizado.items():
        # 1. Filtrar el DataFrame usando el índice (que es la FECHA)
        # .loc es inclusivo en ambos extremos
        try:
            df_filtrado = df.loc[fecha_inicio : fecha_fin]
            
            if df_filtrado.empty:
                print(f"Estación {id_est}: Sin datos en el rango {fecha_inicio} a {fecha_fin}. Saltando...")
                continue

            # 2. Guardar el archivo filtrado
            nombre_archivo = f"SMN_{id_est}_{fecha_inicio[:4]}_{fecha_fin[:4]}.csv"
            ruta_completa = os.path.join(carpeta_salida, nombre_archivo)
            
            df_filtrado.to_csv(ruta_completa, sep=',', encoding='utf-8', index=True)
            print(f"Estación {id_est}: Guardada con éxito ({len(df_filtrado)} días).")
            
        except Exception as e:
            print(f"Error al filtrar la estación {id_est}: {e}")

    print(f"\n--- PROCESO FINALIZADO ---")

# --- EJECUCIÓN ---
# Define tus fechas de interés (ejemplo: periodo de 30 años)
inicio = '1991-01-01'
fin = '2020-12-31'
carpeta_proyectos = "../01_DATA/SMN_limpio"

exportar_rango_especifico(estaciones_listas, carpeta_proyectos, inicio, fin)

Estación 14002: Guardada con éxito (10958 días).
Estación 14006: Guardada con éxito (10958 días).
Estación 14009: Guardada con éxito (10958 días).
Estación 14011: Guardada con éxito (10958 días).
Estación 14016: Guardada con éxito (10958 días).
Estación 14017: Guardada con éxito (10958 días).
Estación 14018: Guardada con éxito (10958 días).
Estación 14023: Guardada con éxito (10958 días).
Estación 14024: Guardada con éxito (10958 días).
Estación 14026: Guardada con éxito (10958 días).
Estación 14028: Guardada con éxito (10958 días).
Estación 14029: Guardada con éxito (10958 días).
Estación 14030: Guardada con éxito (10958 días).
Estación 14032: Guardada con éxito (10958 días).
Estación 14033: Guardada con éxito (10958 días).
Estación 14034: Guardada con éxito (10958 días).
Estación 14035: Guardada con éxito (10958 días).
Estación 14036: Guardada con éxito (10958 días).
Estación 14037: Guardada con éxito (10958 días).
Estación 14038: Guardada con éxito (10958 días).
Estación 14039: Guar