# Capítulo 4: Limpieza de Datos - Power Query vs. Pandas

Este notebook contiene el código en Python para replicar los pasos de limpieza de datos que un analista de BI haría en Power Query, usando el dataset de las elecciones de Honduras 2017.

### Paso 1: Importar la Librería Pandas
Como siempre, nuestro primer paso es importar nuestra navaja suiza para la manipulación de datos. Le damos el alias `pd` por convención para escribir menos.

In [1]:
import pandas as pd

### Paso 2: Cargar y Limpiar los Datos Crudos
Aquí es donde la magia de Pandas brilla. Vamos a replicar casi todos los pasos de Power Query con una sola función: `read_csv`, pero usando parámetros específicos para manejar nuestro archivo "sucio".

In [2]:
# Definimos la ruta relativa al archivo desde la carpeta 'notebooks'
# ../ significa "subir un nivel" para llegar a la raíz del proyecto y luego entrar a 'datos'.
ruta_elecciones = '../datos/elecciones_honduras_2017.csv'

# Usamos la función read_csv con parámetros clave para la limpieza inicial:
# 1. skiprows=11: Le indicamos que ignore las primeras 11 filas en blanco del archivo.
# 2. sep=';'     : Especificamos que las columnas no están separadas por comas, sino por punto y coma.
# 3. engine='python': Usamos un motor de lectura más flexible para evitar errores con archivos complejos.
# 4. on_bad_lines='warn': Si Pandas encuentra una línea con un formato inesperado más adelante, nos avisará pero continuará.
df_elecciones = pd.read_csv(
    ruta_elecciones, 
    skiprows=11, 
    engine='python', 
    sep=';', 
    on_bad_lines='warn'
)

# Ahora, replicamos el paso de "Quitar filas en blanco" de Power Query.
# El método .dropna() elimina las filas donde todos los valores son nulos.
# inplace=True aplica el cambio directamente a nuestro DataFrame.
df_elecciones.dropna(how='all', inplace=True)

### Paso 3: Inspeccionar las Columnas y los Datos
Es una buena práctica visualizar siempre el resultado de nuestras transformaciones. Usamos `.head()` para ver las primeras 5 filas y `.columns` para verificar que los nombres de las columnas se hayan cargado correctamente.

In [3]:
# Visualizamos las primeras filas
df_elecciones.head()

Unnamed: 0,MESA,CODIGO MUNICIPIO,DEPARTAMENTO,MUNICIPIO,PARTIDO UNIFICACION DEMOCRATICA,PARTIDO ALIANZA,PARTIDO VA MOVIMIENTO SOLIDARIO,PARTIDO DEMOCRATA CRISTIANO DE HONDURAS,PARTIDO LIBERAL DE HONDURAS,PARTIDO ALIANZA PATRIOTICA HONDUREÑA,...,PARTIDO ANTICORRUPCION,PARTIDO NACIONAL DE HONDURAS,BLANCOS,NULOS,VALIDOS,FECHA DE RECEPCION,LONGITUD,LATITUD,TIPO DE CENTRO,NOMBRE DE CENTRO
0,6198,511,CORTES,VILLANUEVA,0,84,0,0,21,0,...,0,40,0,4,145,26/11/2017 16:56,-87.987454,15.31732,URBANA,CENTRO EVANGELICO BETHEL
1,7444,611,CHOLUTECA,PESPIRE,1,55,1,0,17,0,...,0,53,1,6,127,26/11/2017 16:56,-87.454252,13.670132,URBANA,CENTRO EVANGELICO BETHEL
2,10780,801,FRANCISCO MORAZAN,DISTRITO CENTRAL,1,47,0,1,21,0,...,0,53,7,3,123,26/11/2017 17:02,-87.186416,14.218436,URBANA,CENTRO EVANGELICO BETHEL
3,4718,501,CORTES,SAN PEDRO SULA,2,53,0,0,9,0,...,0,71,10,5,135,26/11/2017 17:03,-87.976568,15.43883,URBANA,CENTRO EVANGELICO BETHEL
4,16332,1627,SANTA BARBARA,LAS VEGAS,1,45,0,0,6,0,...,0,47,1,4,99,26/11/2017 17:05,-88.027547,14.881562,URBANA,CENTRO EVANGELICO BETHEL


### Paso 4: Seleccionar las Columnas Finales
Ahora que la tabla está estructurada, replicamos el paso de "Elegir columnas" de Power Query. Creamos una lista con los nombres exactos de las columnas que nos interesan (¡cuidado con los espacios extra al final de algunos nombres!) y la usamos para filtrar nuestro DataFrame.

In [4]:
# Creamos una lista con los nombres de las columnas que queremos conservar.
# Es importante que los nombres coincidan exactamente con los del DataFrame.
columnas_deseadas = [
    'DEPARTAMENTO', 
    'MUNICIPIO', 
    'PARTIDO ALIANZA PATRIOTICA HONDUREÑA',
    'PARTIDO LIBERAL DE HONDURAS',
    'PARTIDO NACIONAL DE HONDURAS',
    'BLANCOS', 
    'NULOS', 
    'FECHA DE RECEPCION',
    'LATITUD', 
    'LONGITUD'
]

# Creamos nuestro DataFrame final, que contiene solo las columnas de nuestra lista.
df_limpio = df_elecciones[columnas_deseadas]

### Paso 5: Visualizar el Resultado Final
Finalmente, inspeccionamos nuestro DataFrame limpio para asegurarnos de que todo está en orden.

In [5]:
# Visualizamos el resultado final.
df_limpio.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,PARTIDO ALIANZA PATRIOTICA HONDUREÑA,PARTIDO LIBERAL DE HONDURAS,PARTIDO NACIONAL DE HONDURAS,BLANCOS,NULOS,FECHA DE RECEPCION,LATITUD,LONGITUD
0,CORTES,VILLANUEVA,0,21,40,0,4,26/11/2017 16:56,15.31732,-87.987454
1,CHOLUTECA,PESPIRE,0,17,53,1,6,26/11/2017 16:56,13.670132,-87.454252
2,FRANCISCO MORAZAN,DISTRITO CENTRAL,0,21,53,7,3,26/11/2017 17:02,14.218436,-87.186416
3,CORTES,SAN PEDRO SULA,0,9,71,10,5,26/11/2017 17:03,15.43883,-87.976568
4,SANTA BARBARA,LAS VEGAS,0,6,47,1,4,26/11/2017 17:05,14.881562,-88.027547
