# Lectura archivos población DANE

### Importar librerías

In [1]:
import pandas as pd

### Importar información de población

In [2]:
# Cargar archivo con información de población 2010 - 2019
pobl_2010_2019 = pd.read_excel('DCD-area-proypoblacion-dep-2005-2019.xlsx')
# Limpiar archivo
pobl_2010_2019.columns = pobl_2010_2019.iloc[10]
pobl_2010_2019 = pobl_2010_2019.drop(pobl_2010_2019[0:11].index)
pobl_2010_2019.drop(columns=['DP'], inplace=True)
pobl_2010_2019.rename(columns={'DPNOM':'Departamento', 'AÑO':'Año', 'ÁREA GEOGRÁFICA':'Área'}, inplace=True)
filas_drop = pobl_2010_2019[(pobl_2010_2019['Año'] < 2010) | (pobl_2010_2019['Año'] > 2019)].index
pobl_2010_2019.drop(filas_drop, inplace=True)
pobl_2010_2019

10,Departamento,Año,Área,Población
26,Antioquia,2010,Cabecera,4382447
27,Antioquia,2010,Centros Poblados y Rural Disperso,1417713
28,Antioquia,2010,Total,5800160
29,Antioquia,2011,Cabecera,4451741
30,Antioquia,2011,Centros Poblados y Rural Disperso,1417450
...,...,...,...,...
1491,Vaupés,2019,Centros Poblados y Rural Disperso,30209
1492,Vaupés,2019,Total,42721
1493,Vichada,2019,Cabecera,26910
1494,Vichada,2019,Centros Poblados y Rural Disperso,83689


In [3]:
# Cargar archivo con información de población 2020 - 2030
pobl_2020_2030 = pd.read_excel('DCD-area-proypoblacion-dep-2020-2050-ActPostCOVID-19.xlsx')
# Limpiar archivo
pobl_2020_2030.columns = pobl_2020_2030.iloc[10]
pobl_2020_2030 = pobl_2020_2030.drop(pobl_2020_2030[0:11].index)
pobl_2020_2030.drop(columns=['DP'], inplace=True)
pobl_2020_2030.rename(columns={'DPNOM':'Departamento', 'AÑO':'Año', 'ÁREA GEOGRÁFICA':'Área'}, inplace=True)
filas_drop = pobl_2020_2030[(pobl_2020_2030['Año'] < 2020) | (pobl_2020_2030['Año'] > 2030)].index
pobl_2020_2030.drop(filas_drop, inplace=True)
pobl_2020_2030.dropna(inplace=True)
pobl_2020_2030

10,Departamento,Año,Área,Población
11,Antioquia,2020,Cabecera,5250157
12,Antioquia,2020,Centros Poblados y Rural Disperso,1399244
13,Antioquia,2020,Total,6649401
14,Antioquia,2021,Cabecera,5350556
15,Antioquia,2021,Centros Poblados y Rural Disperso,1375663
...,...,...,...,...
2055,Vichada,2029,Centros Poblados y Rural Disperso,102744
2056,Vichada,2029,Total,134421
2057,Vichada,2030,Cabecera,31891
2058,Vichada,2030,Centros Poblados y Rural Disperso,104145


In [4]:
# Unir las dos tablas y reiniciar índice
poblacion_DANE = pd.concat([pobl_2010_2019, pobl_2020_2030])
poblacion_DANE.reset_index(drop=True, inplace=True)
poblacion_DANE.columns.name = ''
poblacion_DANE

Unnamed: 0,Departamento,Año,Área,Población
0,Antioquia,2010,Cabecera,4382447
1,Antioquia,2010,Centros Poblados y Rural Disperso,1417713
2,Antioquia,2010,Total,5800160
3,Antioquia,2011,Cabecera,4451741
4,Antioquia,2011,Centros Poblados y Rural Disperso,1417450
...,...,...,...,...
2074,Vichada,2029,Centros Poblados y Rural Disperso,102744
2075,Vichada,2029,Total,134421
2076,Vichada,2030,Cabecera,31891
2077,Vichada,2030,Centros Poblados y Rural Disperso,104145


### Estandarizar nombre de departamentos según información IPM

In [5]:
# Lista de nombres únicos de departamentos en información de Población
dptos_poblacion = poblacion_DANE.Departamento.unique().tolist()

# Lectura de la información de archivo con nombres estándar de regiones DANE
df_reg_dpto = pd.read_csv('Regiones_Departamentos.csv', sep=';')
departamentos = df_reg_dpto.Dpto_DANE.tolist()



In [6]:
# Identificar cuáles departamentos en Población son diferentes a los nombres en IPM del DANE
dpto_no_DANE = []
for dpto in dptos_poblacion:
    if dpto not in departamentos:
        dpto_no_DANE.append(dpto)
dpto_no_DANE

['Bogotá, D.C.', 'Quindio', 'Archipiélago de San Andrés']

In [7]:
# Indicaciones para cambio
# 'Bogotá, D.C.': 'Bogotá D.C.',
# Quindio': 'Quindío',
# 'Archipiélago de San Andrés': 'San Andrés'

# Cambiar nombres de departamentos para que sean iguales a los definidos en IPM del DANE
poblacion_DANE.loc[poblacion_DANE['Departamento'] == 'Bogotá, D.C.', 'Departamento'] = 'Bogotá D.C.'
poblacion_DANE.loc[poblacion_DANE['Departamento'] == 'Quindio', 'Departamento'] = 'Quindío'
poblacion_DANE.loc[poblacion_DANE['Departamento'] == 'Archipiélago de San Andrés', 'Departamento'] = 'San Andrés'

### Base de datos final con población por departamentos 2010-2030

In [8]:
poblacion_DANE

Unnamed: 0,Departamento,Año,Área,Población
0,Antioquia,2010,Cabecera,4382447
1,Antioquia,2010,Centros Poblados y Rural Disperso,1417713
2,Antioquia,2010,Total,5800160
3,Antioquia,2011,Cabecera,4451741
4,Antioquia,2011,Centros Poblados y Rural Disperso,1417450
...,...,...,...,...
2074,Vichada,2029,Centros Poblados y Rural Disperso,102744
2075,Vichada,2029,Total,134421
2076,Vichada,2030,Cabecera,31891
2077,Vichada,2030,Centros Poblados y Rural Disperso,104145
