In [61]:
import pandas as pd

In [62]:
df = pd.read_csv('df_rios_precipitaciones_limpio.csv')
df

Unnamed: 0.1,Unnamed: 0,date,rio_id,lat,lon,altura_value,precipitaciones_value,es_null
0,0,2020-10-05,8-8,-25.583333,-53.983333,0.30,0.0,False
1,1,2020-10-06,8-8,-25.583333,-53.983333,0.67,0.0,False
2,2,2020-10-07,8-8,-25.583333,-53.983333,1.20,0.0,False
3,3,2020-10-08,8-8,-25.583333,-53.983333,1.08,3.0,False
4,4,2020-10-09,8-8,-25.583333,-53.983333,0.96,8.1,False
...,...,...,...,...,...,...,...,...
358121,358121,2025-10-01,37597-6622,-34.216389,-64.386111,1.11,,True
358122,358122,2025-10-02,37597-6622,-34.216389,-64.386111,1.12,,True
358123,358123,2025-10-03,37597-6622,-34.216389,-64.386111,1.11,,True
358124,358124,2025-10-04,37597-6622,-34.216389,-64.386111,1.11,,True


In [63]:
df = df.drop(columns=["Unnamed: 0"])

In [64]:
#Tirando abajo todas las fechas antesesoras del 1/1/2023. Ya que los datos de atras son muy pobres.
df["date"] = pd.to_datetime(df["date"])
df = df[df['date'] >= '2023-01-01']

In [65]:
print(f"La cantidad de rios: {len(df["rio_id"].unique())}")

print(f"La cantidad de filas con valores de prec. nulos: \n {df["es_null"].value_counts()}")
df

La cantidad de rios: 396
La cantidad de filas con valores de prec. nulos: 
 es_null
False    257295
True       6986
Name: count, dtype: int64


Unnamed: 0,date,rio_id,lat,lon,altura_value,precipitaciones_value,es_null
814,2023-01-01,8-8,-25.583333,-53.983333,-0.06,0.2,False
815,2023-01-02,8-8,-25.583333,-53.983333,0.01,46.5,False
816,2023-01-03,8-8,-25.583333,-53.983333,-0.02,20.8,False
817,2023-01-04,8-8,-25.583333,-53.983333,0.64,5.5,False
818,2023-01-05,8-8,-25.583333,-53.983333,0.56,0.0,False
...,...,...,...,...,...,...,...
358121,2025-10-01,37597-6622,-34.216389,-64.386111,1.11,,True
358122,2025-10-02,37597-6622,-34.216389,-64.386111,1.12,,True
358123,2025-10-03,37597-6622,-34.216389,-64.386111,1.11,,True
358124,2025-10-04,37597-6622,-34.216389,-64.386111,1.11,,True


In [66]:
# 1. Identificar los rio_id que tienen al menos un valor "es_null" en True
# Se puede usar unique() en la serie filtrada para obtener la lista de IDs.
# El m√©todo .any() dentro de un .groupby() tambi√©n ser√≠a una opci√≥n.
rios_a_eliminar = df[df['es_null'] == True]['rio_id'].unique()

# 2. Filtrar el DataFrame original para mantener solo los r√≠os que NO est√°n en la lista de r√≠os a eliminar
# Se usa el operador `~` para negar la condici√≥n, junto con .isin()
df = df[~df['rio_id'].isin(rios_a_eliminar)]

print(f"La nueva cantidad de rios: {len(df['rio_id'].unique())}")
print(f"La nueva cantidad de filas con valores de prec. nulos: \n {df['es_null'].value_counts()}")


La nueva cantidad de rios: 379
La nueva cantidad de filas con valores de prec. nulos: 
 es_null
False    257295
Name: count, dtype: int64


In [67]:
df = df.drop(columns= "es_null")


In [68]:
print(f"La cantidad de rios es de: 379")
print(f"La cantidad de dias registrados 'por rio' es: {len(df.date.unique())}")
print(f"La cantidad de filas es de: {len(df)}")
print(f"Deber√≠an ser 382.411...")

La cantidad de rios es de: 379
La cantidad de dias registrados 'por rio' es: 1009
La cantidad de filas es de: 257295
Deber√≠an ser 382.411...


### Este codigo, nos dice cuantas filas se comi√≥ la API del gobierno a la hora de hacer los registros por cada rio.

In [69]:
# 1. Asegurar que la columna 'date' sea el √≠ndice y de tipo Datetime
df['date'] = pd.to_datetime(df['date'])

# 2. Definir el rango de fechas completo y continuo
fecha_minima = df['date'].min()
fecha_maxima = df['date'].max()
rango_completo = pd.date_range(start=fecha_minima, end=fecha_maxima, freq='D')

# 3. Funci√≥n de Detecci√≥n y Conteo de Huecos
def contar_dias_faltantes(grupo_df):
    """Devuelve el n√∫mero de d√≠as faltantes para un r√≠o."""
    
    # Establecer la fecha como √≠ndice para este r√≠o
    df_temporal = grupo_df.set_index('date')
    
    # Aplicar reindexaci√≥n: rellena las fechas faltantes con NaN
    df_reindexado = df_temporal.reindex(rango_completo)
    
    # Contar los lugares donde 'altura_value' es nulo
    dias_faltantes = df_reindexado['altura_value'].isnull().sum()
    
    return dias_faltantes


# 4. Aplicar la funci√≥n a cada r√≠o y obtener el conteo
print("Iniciando el conteo de d√≠as faltantes...")
conteo_huecos = df.groupby('rio_id').apply(contar_dias_faltantes)


# 5. Crear y Mostrar la Tabla de Resultados
df_conteo_final = conteo_huecos.reset_index(name='dias_faltantes')

# Filtrar: Mostrar solo los r√≠os que tienen huecos (> 0 d√≠as faltantes)
df_conteo_final = df_conteo_final[df_conteo_final['dias_faltantes'] > 0]

# Ordenar de mayor a menor falta de datos
df_conteo_final = df_conteo_final.sort_values(by='dias_faltantes', ascending=False)

print("\n--- R√çOS CON D√çAS DE REGISTRO FALTANTES ---")
print(f"Total de r√≠os analizados: {df['rio_id'].nunique()}")
print(f"Total de r√≠os con huecos: {len(df_conteo_final)}")
print("\nTabla de Registros Faltantes:")
df_conteo_final.to_csv('df_conteo_faltantes.csv')



Iniciando el conteo de d√≠as faltantes...

--- R√çOS CON D√çAS DE REGISTRO FALTANTES ---
Total de r√≠os analizados: 379
Total de r√≠os con huecos: 372

Tabla de Registros Faltantes:


  conteo_huecos = df.groupby('rio_id').apply(contar_dias_faltantes)


In [70]:
import pandas as pd

# Asumiendo que tu dataframe se llama df
df = pd.read_csv('df_conteo_faltantes.csv')

# Definir los rangos de 100 en 100
rangos = []
rangos.append((0, 100, "Menor a 100"))

# Rangos de 100 en 100
for i in range(100, 900, 100):
    rangos.append((i, i+100, f"{i}-{i+100}"))

rangos.append((900, float('inf'), "Mayor a 900"))

# Contar registros por rango
print("="*60)
print("DISTRIBUCI√ìN DE REGISTROS POR RANGO DE D√çAS FALTANTES")
print("="*60)

for inicio, fin, etiqueta in rangos:
    if fin == float('inf'):
        cantidad = len(df[df['dias_faltantes'] > inicio])
    else:
        cantidad = len(df[(df['dias_faltantes'] >= inicio) & (df['dias_faltantes'] < fin)])
    
    porcentaje = (cantidad / len(df)) * 100
    print(f"{etiqueta:>15}: {cantidad:>8,} registros ({porcentaje:>6.2f}%)")

print("="*60)
print(f"{'TOTAL':>15}: {len(df):>8,} registros")
print("="*60)

DISTRIBUCI√ìN DE REGISTROS POR RANGO DE D√çAS FALTANTES
    Menor a 100:      134 registros ( 36.02%)
        100-200:       55 registros ( 14.78%)
        200-300:       16 registros (  4.30%)
        300-400:       11 registros (  2.96%)
        400-500:        3 registros (  0.81%)
        500-600:        8 registros (  2.15%)
        600-700:      110 registros ( 29.57%)
        700-800:       15 registros (  4.03%)
        800-900:        7 registros (  1.88%)
    Mayor a 900:       13 registros (  3.49%)
          TOTAL:      372 registros


## Viendo estos resultados, puedo asumir que podria eliminar todos  los que le falten mas de 200 registros, quedandome asi con el 50% de los datos (aprox) para imputar.

In [71]:
df_200 = pd.read_csv('df_conteo_faltantes.csv', index_col=0)
df_200 = df_200[df_200["dias_faltantes"] <= 200]
df_200

Unnamed: 0,rio_id,dias_faltantes
107,33256-6389,199
297,6789-2179,198
176,34340-6356,196
371,9494-2844,190
307,6833-2205,182
...,...,...
296,6785-2122,4
347,8230-2607,2
363,9197-2824,1
295,6778-2165,1


```
Esta tabla muestra los ids de los rios que poseen menos de 200 datos faltantes. En base a estos ids, tengo que:
. Crear la tabla que contenga todos los registros habidos de estos rios
. Agregarle una columna con datos vacios por cada fecha que se saltee (la fecha tiene que estar, lat, lon y estacion tmb)
. Completar todas las columnas de precipitaciones con la API de OpenMeteo
. Una vez hecho ese dataframe, buscar la mejor manera de imputar los datos (creo que va a ser de manera global)
```

In [72]:
# --- CARGA DE DATOS (evitando la columna 'Unnamed: 0') ---
df = pd.read_csv("df_rios_precipitaciones_limpio.csv", index_col=False)
rios_faltantes_df = df_200

# Si por alguna raz√≥n a√∫n existe la columna 'Unnamed: 0', la eliminamos
if "Unnamed: 0" in df.columns:
    df = df.drop(columns=["Unnamed: 0"])
if "Unnamed: 0" in rios_faltantes_df.columns:
    rios_faltantes_df = rios_faltantes_df.drop(columns=["Unnamed: 0"])

# --- ASEGURAR TIPOS DE DATOS ---
df["rio_id"] = df["rio_id"].astype(str)
rios_faltantes_df["rio_id"] = rios_faltantes_df["rio_id"].astype(str)
df["date"] = pd.to_datetime(df["date"])

# --- FILTRAR POR FECHA ---
df = df[df["date"] >= "2023-01-01"]

# --- FILTRAR POR LOS R√çOS DESEADOS ---
df_filtrado = df[df["rio_id"].isin(rios_faltantes_df["rio_id"])]

# --- CONFIRMACIONES ---
print(f"‚úÖ R√≠os seleccionados: {df_filtrado['rio_id'].nunique()}")
print(f"‚úÖ Registros totales: {len(df_filtrado)}")
print(f"üìÖ Rango de fechas: {df_filtrado['date'].min()} ‚Üí {df_filtrado['date'].max()}")


‚úÖ R√≠os seleccionados: 189
‚úÖ Registros totales: 178263
üìÖ Rango de fechas: 2023-01-01 00:00:00 ‚Üí 2025-10-05 00:00:00


In [73]:
df_filtrado = df_filtrado.reset_index(drop=True)
len(df_filtrado["rio_id"].unique())

189

In [76]:
fecha_inicio = pd.to_datetime("2023-01-01")
fecha_fin = pd.to_datetime("2025-10-05")
rango_fechas_global = pd.date_range(start=fecha_inicio, end=fecha_fin, freq="D")

dfs_completos = []

for rio_id, grupo in df_filtrado.groupby("rio_id"):
    grupo = grupo.set_index("date").reindex(rango_fechas_global)
    grupo = grupo.reset_index().rename(columns={"index": "date"})
    grupo["rio_id"] = rio_id
    grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
    grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
    dfs_completos.append(grupo)

df_completo = pd.concat(dfs_completos, ignore_index=True)
df_completo = df_completo.sort_values(["rio_id", "date"]).reset_index(drop=True)


  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon"] = grupo["lon"].fillna(method="ffill").fillna(method="bfill")
  grupo["lat"] = grupo["lat"].fillna(method="ffill").fillna(method="bfill")
  grupo["lon

In [80]:
df_completo

Unnamed: 0,date,rio_id,lat,lon,altura_value,precipitaciones_value,es_null
0,2023-01-01,10-10,-25.916679,-54.621134,7.80,0.0,False
1,2023-01-02,10-10,-25.916679,-54.621134,6.50,38.5,False
2,2023-01-03,10-10,-25.916679,-54.621134,7.20,22.3,False
3,2023-01-04,10-10,-25.916679,-54.621134,7.10,1.3,False
4,2023-01-05,10-10,-25.916679,-54.621134,8.10,0.0,False
...,...,...,...,...,...,...,...
190696,2025-10-01,99-99,-33.014444,-58.504167,2.06,0.0,False
190697,2025-10-02,99-99,-33.014444,-58.504167,2.06,0.0,False
190698,2025-10-03,99-99,-33.014444,-58.504167,2.00,0.0,False
190699,2025-10-04,99-99,-33.014444,-58.504167,1.98,0.1,False


### Ahora si, para este momento el df "registros_rios_con_200" tiene filas con datos vacios. Listos para rellenar

In [None]:
df_completo["es_null"].value_counts()
#En promedio, a cada rio le faltan 65 datos de 1008

es_null
False    178263
Name: count, dtype: int64