# Datos censales

En este notebook, se tomarán las bases de datos de los censos correspondientes a los años 2017 y 2024. Se juntarpan por comuna, y se interpolarán para hacer una estimación de la población aproximada durante los años intermedios.

In [30]:
import pandas as pd

In [31]:
# Función para manejar los nombres de las comunas

def limpiar_comuna(nombre):
    nombre = nombre.strip().title()
    nombre = nombre.replace('Nunoa', 'Ñuñoa')
    nombre = nombre.replace('Penalolen', 'Peñalolén')
    nombre = nombre.replace('Peñalolen', 'Peñalolén')
    nombre = nombre.replace('Conchali', 'Conchalí')
    nombre = nombre.replace('Estacion Central', 'Estación Central')
    nombre = nombre.replace('San Joaquin', 'San Joaquín')
    nombre = nombre.replace('San Jose De Maipo', 'San José de Maipo')
    nombre = nombre.replace('San Ramon', 'San Ramón')
    nombre = nombre.replace('Maipu', 'Maipú')
    nombre = nombre.replace('Alhue', 'Alhué')
    nombre = nombre.replace('Curacavi', 'Curacaví')
    if 'Desconocido' in nombre or 'Total' in nombre:
        return None
    return nombre

# Base de datos 2017

In [32]:
df_2017 = pd.read_excel('Poblacion-censada-y-residentes-habituales-Censo-2017.xlsx', sheet_name=2, header=3)
df_2017.reset_index(drop=True, inplace=True)
df_2017.head()

Unnamed: 0,Código región,Región,Código provincia,Provincia,Código comuna,Comuna,Población censada,Residentes habituales
0,0,País,0.0,País,0.0,País,17574003.0,17327192.0
1,1,Tarapacá,11.0,Iquique,1101.0,Iquique,191468.0,191824.0
2,1,Tarapacá,11.0,Iquique,1107.0,Alto Hospicio,108375.0,106596.0
3,1,Tarapacá,14.0,Del Tamarugal,1401.0,Pozo Almonte,15711.0,13942.0
4,1,Tarapacá,14.0,Del Tamarugal,1402.0,Camiña,1250.0,1217.0


In [33]:
# Filtramos para la región metropolitana

df_2017 = df_2017[df_2017['Región'] == 'Metropolitana De Santiago']
df_2017 = df_2017.reset_index(drop=True)
df_2017.head()

Unnamed: 0,Código región,Región,Código provincia,Provincia,Código comuna,Comuna,Población censada,Residentes habituales
0,13,Metropolitana De Santiago,131.0,Santiago,13101.0,Santiago,404495.0,411183.0
1,13,Metropolitana De Santiago,131.0,Santiago,13102.0,Cerrillos,80832.0,79842.0
2,13,Metropolitana De Santiago,131.0,Santiago,13103.0,Cerro Navia,132622.0,131433.0
3,13,Metropolitana De Santiago,131.0,Santiago,13104.0,Conchalí,126955.0,125278.0
4,13,Metropolitana De Santiago,131.0,Santiago,13105.0,El Bosque,162505.0,161571.0


In [34]:
df_2017 = df_2017[['Comuna', 'Residentes habituales']].copy()
df_2017.rename(columns={'Residentes habituales': 'Población 2017'}, inplace=True)
df_2017.reset_index(drop=True, inplace=True)
df_2017.head()

Unnamed: 0,Comuna,Población 2017
0,Santiago,411183.0
1,Cerrillos,79842.0
2,Cerro Navia,131433.0
3,Conchalí,125278.0
4,El Bosque,161571.0


# Base de datos 2024

In [35]:
df_2024 = pd.read_excel('D1_Poblacion-censada-por-sexo-y-edad-en-grupos-quinquenales.xlsx', sheet_name=2, header=3)
df_2024.reset_index(drop=True, inplace=True)
df_2024.head()

Unnamed: 0,Código región,Región,Código provincia,Provincia,Código comuna,Comuna,Población censada,Hombres,Mujeres,Razón hombre-mujer
0,0,País,0.0,País,0.0,País,18480432.0,8967033.0,9513399.0,94.3
1,15,Arica y Parinacota,151.0,Arica,15101.0,Arica,241653.0,118844.0,122809.0,96.8
2,15,Arica y Parinacota,151.0,Arica,15102.0,Camarones,861.0,430.0,431.0,99.8
3,15,Arica y Parinacota,152.0,Parinacota,15201.0,Putre,1547.0,846.0,701.0,120.7
4,15,Arica y Parinacota,152.0,Parinacota,15202.0,General Lagos,508.0,261.0,247.0,105.7


In [36]:
df_2024 = df_2024[df_2024['Región'] == 'Metropolitana de Santiago']
df_2024 = df_2024.reset_index(drop=True)
df_2024.head()

Unnamed: 0,Código región,Región,Código provincia,Provincia,Código comuna,Comuna,Población censada,Hombres,Mujeres,Razón hombre-mujer
0,13,Metropolitana de Santiago,131.0,Santiago,13101.0,Santiago,438856.0,223237.0,215619.0,103.5
1,13,Metropolitana de Santiago,131.0,Santiago,13102.0,Cerrillos,85041.0,41216.0,43825.0,94.0
2,13,Metropolitana de Santiago,131.0,Santiago,13103.0,Cerro Navia,127250.0,62329.0,64921.0,96.0
3,13,Metropolitana de Santiago,131.0,Santiago,13104.0,Conchalí,121587.0,59122.0,62465.0,94.6
4,13,Metropolitana de Santiago,131.0,Santiago,13105.0,El Bosque,155257.0,75720.0,79537.0,95.2


In [37]:
df_2024 = df_2024[['Comuna', 'Población censada']].copy()
df_2024['Comuna'] = df_2024['Comuna'].apply(limpiar_comuna)
df_2024.rename(columns={'Población censada': 'Población 2024'}, inplace=True)
df_2024.head()

Unnamed: 0,Comuna,Población 2024
0,Santiago,438856.0
1,Cerrillos,85041.0
2,Cerro Navia,127250.0
3,Conchalí,121587.0
4,El Bosque,155257.0


# Merge censo 2017 - 2024

In [38]:
df_censo = pd.merge(df_2017, df_2024, on='Comuna', how='inner')
df_censo

Unnamed: 0,Comuna,Población 2017,Población 2024
0,Santiago,411183.0,438856.0
1,Cerrillos,79842.0,85041.0
2,Cerro Navia,131433.0,127250.0
3,Conchalí,125278.0,121587.0
4,El Bosque,161571.0,155257.0
5,Estación Central,139257.0,181049.0
6,Huechuraba,97829.0,101808.0
7,Independencia,98513.0,116943.0
8,La Cisterna,89204.0,103157.0
9,La Florida,364039.0,374836.0


Para ver si estos datos tienen sentido, hagamos la suma por columnas a ambos años:

In [39]:
# Sumar la columna de población 2017
total_2017 = df_censo['Población 2017'].sum()
print(f"Población total 2017 RM: {total_2017:,.0f}")

# Sumar la columna de población 2024
total_2024 = df_censo['Población 2024'].sum()
print(f"Población total 2024 RM: {total_2024:,.0f}")


Población total 2017 RM: 6,976,539
Población total 2024 RM: 7,344,026


# Interpolación: estimación de habitantes por comuna entre el período 2017-2024

In [40]:
anios = list(range(2017, 2025)) 
comunas = df_censo['Comuna']

filas = []

for index, fila in df_censo.iterrows():
    pob_2017 = fila['Población 2017']
    pob_2024 = fila['Población 2024']
    # Interpolación lineal para cada año
    for j, año in enumerate(anios):
        pob_interp = pob_2017 + (pob_2024 - pob_2017) * j / (2024 - 2017)
        filas.append({'Comuna': fila['Comuna'], 'Año': año, 'Población': pob_interp})

print(filas)


[{'Comuna': 'Santiago', 'Año': 2017, 'Población': 411183.0}, {'Comuna': 'Santiago', 'Año': 2018, 'Población': 415136.28571428574}, {'Comuna': 'Santiago', 'Año': 2019, 'Población': 419089.5714285714}, {'Comuna': 'Santiago', 'Año': 2020, 'Población': 423042.85714285716}, {'Comuna': 'Santiago', 'Año': 2021, 'Población': 426996.14285714284}, {'Comuna': 'Santiago', 'Año': 2022, 'Población': 430949.4285714286}, {'Comuna': 'Santiago', 'Año': 2023, 'Población': 434902.71428571426}, {'Comuna': 'Santiago', 'Año': 2024, 'Población': 438856.0}, {'Comuna': 'Cerrillos', 'Año': 2017, 'Población': 79842.0}, {'Comuna': 'Cerrillos', 'Año': 2018, 'Población': 80584.71428571429}, {'Comuna': 'Cerrillos', 'Año': 2019, 'Población': 81327.42857142857}, {'Comuna': 'Cerrillos', 'Año': 2020, 'Población': 82070.14285714286}, {'Comuna': 'Cerrillos', 'Año': 2021, 'Población': 82812.85714285714}, {'Comuna': 'Cerrillos', 'Año': 2022, 'Población': 83555.57142857143}, {'Comuna': 'Cerrillos', 'Año': 2023, 'Población': 8

In [41]:
# Luego de crear la función para la interpolación de datos, lo ponemos en un DataFrame

df_interpolado = pd.DataFrame(filas)
df_interpolado.head()

Unnamed: 0,Comuna,Año,Población
0,Santiago,2017,411183.0
1,Santiago,2018,415136.285714
2,Santiago,2019,419089.571429
3,Santiago,2020,423042.857143
4,Santiago,2021,426996.142857


In [42]:
df_interpolado.to_csv('estimacion_poblacion_por_comunas.csv', index=False)