# Análisis Exploratorio de Datos - Censo inmigración
Este notebook permite explorar los datos correspondientes a inmigracion del censo 2024 y generar dos tipos de csv, uno para analisis regional y otro para analisis comunal

## Importación librerias

In [8]:
import pandas as pd

## Creacion csv Regional

### Lectura datos inmigración - regional
Se obtienen datos de archivo de inmigracion del censo, los correspondientes a la hoja 1 es informacion de caracter regional.

In [9]:
ruta = '../../data/raw_data/censo2024_inmigracion.xlsx' 
df_region = pd.read_excel(ruta, engine="openpyxl", sheet_name="1", header=3)

# Mostrar las primeras filas
df_region=df_region.iloc[:-2]
df_region.head()

Unnamed: 0,Código región,Región,Inmigrantes internacionales,Hombres,Mujeres,Razón hombre-mujer,Lugar de nacimiento no declarado
0,0,País,1608650.0,776388.0,832262.0,93.3,113061.0
1,15,Arica y Parinacota,36188.0,17044.0,19144.0,89.0,2010.0
2,1,Tarapacá,84935.0,39736.0,45199.0,87.9,3019.0
3,2,Antofagasta,124006.0,57501.0,66505.0,86.5,4660.0
4,3,Atacama,25167.0,11942.0,13225.0,90.3,1944.0


### Exportación a csv
Se exporta la lectura de la hoja con informacion regional a un formato csv.

In [10]:
df_region.to_csv('../../data/processed_data/censo/censo_inmigracion/inmigracion_pais.csv', index=False)

## Creación csv - comunal

### Lectura datos inmigración - comunal
Se obtienen datos de archivo de inmigracion del censo, los correspondientes a la hoja 4 es informacion de caracter comunal.

In [11]:
ruta = '../../data/raw_data/censo2024_inmigracion.xlsx' 
df_comuna = pd.read_excel(ruta, engine="openpyxl", sheet_name="4", header=3)

# Mostrar las primeras filas
df_comuna = df_comuna.iloc[:-2]
df_comuna.head()

Unnamed: 0,Código región,Región,Código provincia,Provincia,Codigo comuna,Comuna,País o continente de nacimiento,Inmigrantes internacionales
0,0,País,0.0,País,0.0,País,Total nacidos fuera del país,1608650
1,0,País,0.0,País,0.0,País,Argentina,70266
2,0,País,0.0,País,0.0,País,Bolivia (Estado Plurinacional de),168083
3,0,País,0.0,País,0.0,País,Colombia,197813
4,0,País,0.0,País,0.0,País,Haití,80781


### Obtención de listado de regiones disponibles

In [13]:
regiones = df_comuna["Región"].unique().tolist()

regiones.remove("País")

print(regiones)

['Arica y Parinacota', 'Tarapacá', 'Antofagasta', 'Atacama', 'Coquimbo', 'Valparaíso', 'Metropolitana de Santiago', "Libertador General Bernardo O'Higgins", 'Maule', 'Ñuble', 'Biobío', 'La Araucanía', 'Los Ríos', 'Los Lagos', 'Aysén del General Carlos Ibáñez del Campo', 'Magallanes y de la Antártica Chilena']


### Generacion datasets por region
Se crean distintos datasets con informacion regional

In [15]:
dfs = []
for region in regiones:
    censo_region = df_comuna[df_comuna["Región"] == region]
    dfs.append(censo_region)

### Exportación a csv
Se exportan los distintos datasets creados por region a archivos csv separados.

In [16]:
for df in dfs:
    nombre = df["Región"].iloc[0]
    codigo = df["Código región"].iloc[0]
    df.to_csv(f'../../data/processed_data/censo/censo_inmigracion/inmigracion_comunas_{codigo}_{nombre}.csv', index = False)