# Limpieza y normalización del dataset de Río Grande

- Importo las librerías 

In [2]:
import pandas as pd
from datetime import datetime

- Cargo el dataset de Río Grande

In [3]:
df_rg = pd.read_excel("../data/raw/Rio Grande - Delitos.xlsx", header=None)


- Extraigo los encabezados de años y meses

In [5]:
años = df_rg.iloc[2, 1:].fillna(method='ffill').fillna(method='bfill').astype(int).tolist()
meses = df_rg.iloc[3, 1:].astype(str).str.lower().tolist()

- Abrevio el nombre de los meses

In [6]:
mes_mapeo = {
    'ene': 'enero', 'feb': 'febrero', 'mar': 'marzo', 'abr': 'abril', 'may': 'mayo', 'jun': 'junio',
    'jul': 'julio', 'ago': 'agosto', 'sept': 'septiembre', 'sep': 'septiembre',
    'oct': 'octubre', 'nov': 'noviembre', 'dic': 'diciembre'
}

- Genero el nombre de las columnas y posiciones de las mismas

In [7]:
columnas = []
indices = []
for idx, (y, m) in enumerate(zip(años, meses)):
    mes_key = m[:4]
    if mes_key in mes_mapeo:
        columnas.append(f"{mes_mapeo[mes_key]} {y}")
        indices.append(idx + 1)  # +1 por la columna de nombre

- Extraigo las filas que me serán de utilidad del archivo original

In [8]:
df_rg_limpio = df_rg.iloc[5:47, [0] + indices].reset_index(drop=True)
df_rg_limpio.columns = ['Tipo de Delito'] + columnas


- En caso de haber filas vacías, las elimina

In [9]:
df_rg_limpio = df_rg_limpio.dropna(how="all").reset_index(drop=True)


- Convierto y reemplazo los valores nulos de "-" o "," por ceros

In [12]:
df_rg_limpio.replace(['-', ','], 0, inplace=True)
df_reemplazo_rg = df_rg_limpio.apply(pd.to_numeric, errors='ignore')

- Exporto el archivo final

In [13]:
ruta_final = "../data/processed/dataset_riogrande_limpio.csv"
df_reemplazo_rg.to_csv(ruta_final, sep=";", encoding="utf-8", index=False)