<a href="https://colab.research.google.com/github/nunsongi/quito-risk-mapping-python/blob/main/02_lluvias_quito_inamhi_etl.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üßº ETL de datos de precipitaci√≥n (INAMHI) para Quito

Este notebook realiza la limpieza y transformaci√≥n del dataset de lluvias y exporta un CSV listo para usar en el notebook principal de an√°lisis de riesgo por lluvias en Quito.

---

## Contenido

1. [Contexto y objetivo del ETL](#1-contexto-y-objetivo-del-etl)  
2. [Configuraci√≥n del Entorno y Librer√≠as](#2-configuraci√≥n-del-entorno-y-librer√≠as)  
3. [Carga del dataset de lluvias](#3-carga-del-dataset-de-lluvias)  
4. [Validaci√≥n de estructura y tipos de datos](#4-validaci√≥n-de-estructura-y-tipos-de-datos)  
5. [Limpieza de datos](#5-limpieza-de-datos)  
   - [5.1 Conversi√≥n de comas decimales y tipos num√©ricos](#51-conversi√≥n-de-comas-decimales-y-tipos-num√©ricos)  
   - [5.2 Manejo de valores faltantes y registros sin informaci√≥n](#52-manejo-de-valores-faltantes-y-registros-sin-informaci√≥n)  
   - [5.3 Filtrado temporal y espacial (Quito y a√±os de inter√©s)](#53-filtrado-temporal-y-espacial-quito-y-a√±os-de-inter√©s)  
6. [Ingenier√≠a de caracter√≠sticas base](#6-ingenier√≠a-de-caracter√≠sticas-base)  
7. [Exportaci√≥n del dataset limpio](#7-exportaci√≥n-del-dataset-limpio)  
8. [Resumen del proceso](#8-resumen-del-proceso)  

---

## 1. Contexto y objetivo del ETL

En este notebook se realiza la **limpieza y transformaci√≥n** del archivo bruto de precipitaciones (INAMHI) para obtener un dataset depurado.

**Objetivo del ETL:** generar un archivo CSV limpio y documentado que sirva como insumo confiable para el notebook principal de an√°lisis, modelado y visualizaci√≥n del riesgo por lluvias en Quito.


## 2. **Configuraci√≥n del Entorno y Librer√≠as**

In [1]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings("ignore")


## 3. **Carga del dataset de lluvias**


In [2]:
# Carga del dataset de lluvias
df_lluvias_raw = pd.read_csv(
    "/content/inamhi-precipitacion-2019diciembre.csv",
    sep=";",
    encoding="latin-1"
)

df_lluvias_raw.head()


Unnamed: 0,Estacion,NombreEstacion,longitud2,latitud2,altitud,anio,ene,feb,mar,abr,may,jun,jul,ago,sep,oct,nov,dic
0,M0001,INGUINCHO,-78408,2575,3140,1964,,819.0,,,,,,,,,,
1,M0001,INGUINCHO,-78408,2575,3140,1977,,,,,,61.0,19.0,441.0,1209.0,1798.0,962.0,1659.0
2,M0001,INGUINCHO,-78408,2575,3140,1978,981.0,1615.0,1077.0,1966.0,1156.0,124.0,371.0,176.0,1316.0,626.0,1075.0,1334.0
3,M0001,INGUINCHO,-78408,2575,3140,1979,712.0,832.0,3071.0,139.0,2528.0,405.0,59.0,1048.0,1821.0,89.0,571.0,271.0
4,M0001,INGUINCHO,-78408,2575,3140,1980,1819.0,3196.0,1011.0,2276.0,27.0,393.0,29.0,368.0,283.0,1375.0,1206.0,183.0


## 4. **Validaci√≥n de estructura y tipos de datos**

En esta secci√≥n se valida:

- Dimensiones del dataset y vista r√°pida (`shape`, `head`, `info`, `describe`).
- Presencia de las columnas esperadas (`Estacion`, `NombreEstacion`, coordenadas, altitud, a√±o y meses `ene`‚Ä¶`dic`).
- Rangos b√°sicos de `anio`, `latitud2`, `longitud2` y `altitud`.
- Porcentaje de valores faltantes por columna.
- Posibles duplicados por combinaci√≥n (`Estacion`, `anio`).


In [3]:
# 4. Validaci√≥n de estructura y tipos de datos

df = df_lluvias_raw  # alias corto para trabajar

# 1) Tama√±o del dataset y primeras filas
print("Shape (filas, columnas):", df.shape)
display(df.head())

# 2) Tipos de datos
print("\n=== Info del DataFrame ===")
df.info()

# 3) Estad√≠sticas descriptivas (num√©ricas y categ√≥ricas)
print("\n=== Descripci√≥n general (incluye categ√≥ricas) ===")
display(df.describe(include="all"))

# 4) Verificar que las columnas clave est√©n presentes
expected_cols = [
    "Estacion", "NombreEstacion",
    "longitud2", "latitud2", "altitud",
    "anio",
    "ene", "feb", "mar", "abr", "may", "jun",
    "jul", "ago", "sep", "oct", "nov", "dic"
]

missing_cols = [col for col in expected_cols if col not in df.columns]
extra_cols   = [col for col in df.columns if col not in expected_cols]

print("\n=== Columnas esperadas ===")
print("Faltan columnas:", missing_cols if missing_cols else "Ninguna, todas presentes ‚úÖ")
print("Columnas extra en el dataset:", extra_cols if extra_cols else "Ninguna")

# 5) Revisar rangos esperados
print("\n=== Rangos de columnas clave ===")
if "anio" in df.columns:
    print("Rango anio:", df["anio"].min(), "‚Üí", df["anio"].max())

if "latitud2" in df.columns:
    print("Rango latitud2:", df["latitud2"].min(), "‚Üí", df["latitud2"].max())

if "longitud2" in df.columns:
    print("Rango longitud2:", df["longitud2"].min(), "‚Üí", df["longitud2"].max())

if "altitud" in df.columns:
    print("Rango altitud:", df["altitud"].min(), "‚Üí", df["altitud"].max())

# 6) Revisar valores faltantes
print("\n=== Porcentaje de valores faltantes por columna ===")
na_pct = df.isna().mean().sort_values(ascending=False) * 100
display(na_pct)

# 7) Revisar duplicados por combinaci√≥n (Estacion, anio)
if {"Estacion", "anio"}.issubset(df.columns):
    dup_count = df.duplicated(subset=["Estacion", "anio"]).sum()
    print(f"\nDuplicados por (Estacion, anio): {dup_count}")
    if dup_count > 0:
        print("Ejemplos de filas duplicadas:")
        display(df[df.duplicated(subset=["Estacion", "anio"], keep=False)].head())
else:
    print("\nNo se puede revisar duplicados (faltan columnas 'Estacion' o 'anio').")


Shape (filas, columnas): (20588, 18)


Unnamed: 0,Estacion,NombreEstacion,longitud2,latitud2,altitud,anio,ene,feb,mar,abr,may,jun,jul,ago,sep,oct,nov,dic
0,M0001,INGUINCHO,-78408,2575,3140,1964,,819.0,,,,,,,,,,
1,M0001,INGUINCHO,-78408,2575,3140,1977,,,,,,61.0,19.0,441.0,1209.0,1798.0,962.0,1659.0
2,M0001,INGUINCHO,-78408,2575,3140,1978,981.0,1615.0,1077.0,1966.0,1156.0,124.0,371.0,176.0,1316.0,626.0,1075.0,1334.0
3,M0001,INGUINCHO,-78408,2575,3140,1979,712.0,832.0,3071.0,139.0,2528.0,405.0,59.0,1048.0,1821.0,89.0,571.0,271.0
4,M0001,INGUINCHO,-78408,2575,3140,1980,1819.0,3196.0,1011.0,2276.0,27.0,393.0,29.0,368.0,283.0,1375.0,1206.0,183.0



=== Info del DataFrame ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20588 entries, 0 to 20587
Data columns (total 18 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Estacion        20588 non-null  object
 1   NombreEstacion  20588 non-null  object
 2   longitud2       20588 non-null  object
 3   latitud2        20588 non-null  object
 4   altitud         20588 non-null  int64 
 5   anio            20588 non-null  int64 
 6   ene             18313 non-null  object
 7   feb             18214 non-null  object
 8   mar             18306 non-null  object
 9   abr             18208 non-null  object
 10  may             18222 non-null  object
 11  jun             18136 non-null  object
 12  jul             18106 non-null  object
 13  ago             18130 non-null  object
 14  sep             18084 non-null  object
 15  oct             18114 non-null  object
 16  nov             18004 non-null  object
 17  dic             18049 

Unnamed: 0,Estacion,NombreEstacion,longitud2,latitud2,altitud,anio,ene,feb,mar,abr,may,jun,jul,ago,sep,oct,nov,dic
count,20588,20588,20588.0,20588.0,20588.0,20588.0,18313.0,18214.0,18306.0,18208.0,18222.0,18136.0,18106.0,18130.0,18084.0,18114.0,18004.0,18049.0
unique,947,943,832.0,843.0,,,4852.0,5450.0,5692.0,5203.0,4125.0,3362.0,2952.0,2543.0,2742.0,3051.0,3083.0,3502.0
top,M0037,CA¬•AR,-785.0,0.0,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
freq,60,60,110.0,93.0,,,213.0,126.0,183.0,278.0,748.0,1693.0,2859.0,3396.0,2339.0,1765.0,1838.0,787.0
mean,,,,,1470.165242,1989.226928,,,,,,,,,,,,
std,,,,,1233.827746,15.234333,,,,,,,,,,,,
min,,,,,0.0,1960.0,,,,,,,,,,,,
25%,,,,,152.0,1977.0,,,,,,,,,,,,
50%,,,,,1453.0,1988.0,,,,,,,,,,,,
75%,,,,,2620.0,2002.0,,,,,,,,,,,,



=== Columnas esperadas ===
Faltan columnas: Ninguna, todas presentes ‚úÖ
Columnas extra en el dataset: Ninguna

=== Rangos de columnas clave ===
Rango anio: 1960 ‚Üí 2019
Rango latitud2: -0,009755556 ‚Üí 1,36
Rango longitud2: -75,403 ‚Üí 0
Rango altitud: 0 ‚Üí 4200

=== Porcentaje de valores faltantes por columna ===


Unnamed: 0,0
nov,12.551001
dic,12.332427
sep,12.162425
jul,12.055566
oct,12.016709
ago,11.938994
jun,11.90985
abr,11.560132
feb,11.530989
may,11.492131



Duplicados por (Estacion, anio): 0


## 5. **Limpieza de datos**


## 5.1 **Conversi√≥n de comas decimales y tipos num√©ricos**


## 5.2 **Manejo de valores faltantes y registros sin informaci√≥n**


## 5.3 **Filtrado temporal y espacial (Quito y a√±os de inter√©s)**


## 6. **Ingenier√≠a de caracter√≠sticas base**


## 7. **Exportaci√≥n del dataset limpio**


## 8. **Resumen del proceso**