# Análisis Exploratorio de Datos - Censo Población
Este notebook permite explorar los datos correspondientes a Poblacion del censo 2024 y generar dos tipos de csv, uno para analisis regional y otro para analisis comunal

## Importación librerias

In [4]:
import pandas as pd

## Creacion CSV regional

### Lectura datos población - regional
Se obtienen datos de archivo de población del censo, los correspondientes a la hoja 1 es informacion de caracter regional.

In [5]:
ruta = '../../data/raw_data/censo2024_poblacion.xlsx' 
df_region = pd.read_excel(ruta, engine="openpyxl", sheet_name="1", header=3)

# Mostrar las primeras filas
df_region=df_region.iloc[:-2]
df_region.head()

Unnamed: 0,Código región,Región,Población censada,Hombres,Mujeres,Razón hombre-mujer
0,0,País,18480432.0,8967033.0,9513399.0,94.3
1,15,Arica y Parinacota,244569.0,120381.0,124188.0,96.9
2,1,Tarapacá,369806.0,183343.0,186463.0,98.3
3,2,Antofagasta,635416.0,313995.0,321421.0,97.7
4,3,Atacama,299180.0,148263.0,150917.0,98.2


### Exportación a csv
Se exporta la lectura de la hoja con informacion regional a un formato csv.

In [6]:
df_region.to_csv('../../data/processed_data/censo/censo_poblacion/poblacion_pais.csv', index=False)

## Creación CSV comunal

### Lectura datos población - comunal
Se obtienen datos de archivo de población del censo, los correspondientes a la hoja 2 es informacion de caracter comunal.

In [8]:
ruta = '../../data/raw_data/censo2024_poblacion.xlsx' 
df_comuna = pd.read_excel(ruta, engine="openpyxl", sheet_name="2", header=3)

# Mostrar las primeras filas
df_comuna=df_comuna.iloc[:-2]
df_comuna.head()

Unnamed: 0,Código región,Región,Código provincia,Provincia,Código comuna,Comuna,Población censada,Hombres,Mujeres,Razón hombre-mujer
0,0,País,0.0,País,0.0,País,18480432.0,8967033.0,9513399.0,94.3
1,15,Arica y Parinacota,151.0,Arica,15101.0,Arica,241653.0,118844.0,122809.0,96.8
2,15,Arica y Parinacota,151.0,Arica,15102.0,Camarones,861.0,430.0,431.0,99.8
3,15,Arica y Parinacota,152.0,Parinacota,15201.0,Putre,1547.0,846.0,701.0,120.7
4,15,Arica y Parinacota,152.0,Parinacota,15202.0,General Lagos,508.0,261.0,247.0,105.7


### Obtención de listado de regiones disponibles

In [9]:
regiones = df_comuna["Región"].unique().tolist()

regiones.remove("País")

print(regiones)

['Arica y Parinacota', 'Tarapacá', 'Antofagasta', 'Atacama', 'Coquimbo', 'Valparaíso', 'Metropolitana de Santiago', "Libertador General Bernardo O'Higgins", 'Maule', 'Ñuble', 'Biobío', 'La Araucanía', 'Los Ríos', 'Los Lagos', 'Aysén del General Carlos Ibáñez del Campo', 'Magallanes y de la Antártica Chilena']


### Generacion datasets por region
Se crean distintos datasets con informacion regional

In [10]:
dfs = []
for region in regiones:
    censo_region = df_comuna[df_comuna["Región"] == region]
    dfs.append(censo_region)

### Exportación a csv
Se exportan los distintos datasets creados por region a archivos csv separados.

In [12]:
for df in dfs:
    nombre = df["Región"].iloc[0]
    codigo = df["Código región"].iloc[0]
    df.to_csv(f'../../data/processed_data/censo/censo_poblacion/poblacion_comunas_{codigo}_{nombre}.csv', index=False)

## Creacion CSV codigos de comunas
Adicionalmente se creará un csv con informacion de codigo de comuna y su nombre para poder ser incorporado como llave en aquellos archivos que no lo contengan, como codigo unico territorial.

In [13]:
codigos = df_comuna[["Código comuna","Comuna"]].copy()

codigos["Código comuna"] = codigos["Código comuna"].astype(int)

codigos = codigos[codigos["Código comuna"] != 0]

### Exportacion codigos a csv

In [14]:
codigos.to_csv('../../data/processed_data/codigo_comuna.csv', index=False)