## Pobalción Colombia 1984 - 2019

Las herramientas de recolección de infomración en Colombia estan en manos del Departamento Administrativo Nacional de Estadística -DANE-, entidad que nace en el año 1951 por medio del Decreto 2240, inicialmente como Dirección Nacional de Estadística y para el año 1953 y bajo el Decreto 2263 adquiere el nombre que se mantiene hasta el día de hoy.

Así, la función principal del DANE es "Producir y difundir información estadística oficial, como bien público, con altos estándares de calidad y rigor técnico para la toma de decisiones a nivel nacional y territorial, que contribuyan a la consolidación de un Estado con justicia social, económica y ambiental." (Fuente: DANE).

El presente proyecto busca hacer una interpretación de la infomración censal de Colombia durante las últimas dos decadas de información disponible para consulta, esto con el fin de entender la movilización social el interior del territorio colombiano.

## Descripción del proyecto

El presente proyecto tiene como objetivo hacer un análisis descriptivo de la infomración poblacional por parte del DANE, de esta manera se disponen los siguientes pasos:

    1. Descripción, limpieza y unificación de los datos.
    2. Descripción general de la información disponible.
    3. Visualización de datos.
    4. Conclusiones.

### 1. Sobre los datos.

La fuente de infomración provee la siguientes bases:

Población, Fuente DANE: https://www.dane.gov.co/index.php/estadisticas-por-tema/demografia-y-poblacion/proyecciones-de-poblacion

        1. DCD-area-proypoblacion-Mun-1985-1994
        2. DCD-area-proypoblacion-Mun-1995-2004
        3. DCD-area-proypoblacion-Mun-2005-2019
        4. DCD-area-sexo-edad-proypoblacion-Mun-1985-1994
        5. DCD-area-sexo-edad-proypoblacion-Mun-1995-2004
        6. DCD-area-sexo-edad-proypoblacion-Mun-2005-2019

La infomración proviene en base CSV y se trabjará con los datos más completos de información disponible en este proyecto.

In [1]:
import os
import pandas as pd
import numpy as np
import plotly.offline as py
import plotly.graph_objs as go
import plotly.offline as py_offline
import plotly.express as px
from dash import Dash, html, dcc, callback, Output, Input

# Configurar el modo offline
py.init_notebook_mode(connected=True) 


urllib3 v2 only supports OpenSSL 1.1.1+, currently the 'ssl' module is compiled with 'LibreSSL 2.8.3'. See: https://github.com/urllib3/urllib3/issues/3020



In [2]:
# ubicación de la carpeta que contiene los archivos Excel
carpeta = '/Users/daab/Desktop/DANE/Detalle poblacion'

# Lista todos los archivos en la carpeta
archivos = os.listdir(carpeta)

# Lista donde almacenaremos los datos de los archivos Excel
datos_excel = []

# Itera sobre los archivos en la carpeta
for archivo in archivos:
    # Verifica si el archivo es un archivo Excel
    if archivo.endswith('.xlsx') or archivo.endswith('.xls'):
        # Crea la ruta completa al archivo
        ruta_completa = os.path.join(carpeta, archivo)
        # Lee el archivo Excel y almacena los datos en un DataFrame de pandas
        datos_excel.append(pd.read_excel(ruta_completa))

# Concatena todos los DataFrames en uno solo
datos_completos = pd.concat(datos_excel, ignore_index=True)

# Ahora puedes trabajar con los datos completos como desees
print(datos_completos)

        DP      DPNOM   DPMP      MPIO   AÑO  \
0        5  Antioquia   5001  Medellín  1985   
1        5  Antioquia   5001  Medellín  1985   
2        5  Antioquia   5001  Medellín  1985   
3        5  Antioquia   5001  Medellín  1986   
4        5  Antioquia   5001  Medellín  1986   
...     ..        ...    ...       ...   ...   
117805  99    Vichada  99773  Cumaribo  2003   
117806  99    Vichada  99773  Cumaribo  2003   
117807  99    Vichada  99773  Cumaribo  2004   
117808  99    Vichada  99773  Cumaribo  2004   
117809  99    Vichada  99773  Cumaribo  2004   

                          ÁREA GEOGRÁFICA  Hombres_0  Hombres_1  Hombres_2  \
0                      Cabecera Municipal      13945      13868      13854   
1       Centros Poblados y Rural Disperso        689        685        679   
2                                   Total      14634      14553      14533   
3                      Cabecera Municipal      14101      13951      13934   
4       Centros Poblados y Rural 

In [3]:
# Resumen estadístico de los datos en datos_completos
descripcion_datos = datos_completos.describe()

In [4]:
# 1. Exploración inicial de los datos
print(datos_completos.head())

   DP      DPNOM  DPMP      MPIO   AÑO                    ÁREA GEOGRÁFICA  \
0   5  Antioquia  5001  Medellín  1985                 Cabecera Municipal   
1   5  Antioquia  5001  Medellín  1985  Centros Poblados y Rural Disperso   
2   5  Antioquia  5001  Medellín  1985                              Total   
3   5  Antioquia  5001  Medellín  1986                 Cabecera Municipal   
4   5  Antioquia  5001  Medellín  1986  Centros Poblados y Rural Disperso   

   Hombres_0  Hombres_1  Hombres_2  Hombres_3  ...  Total_79  Total_80  \
0      13945      13868      13854      13822  ...      1870      1764   
1        689        685        679        668  ...        68        63   
2      14634      14553      14533      14490  ...      1938      1827   
3      14101      13951      13934      13953  ...      1804      1732   
4        684        676        669        661  ...        65        63   

   Total_81  Total_82  Total_83  Total_84  Total_85 y más  Total Hombres  \
0      1681     

In [5]:
# 2. Entender las dimensiones de los datos
print("Dimensiones de los datos:", datos_completos.shape)

Dimensiones de los datos: (117810, 267)


In [6]:
# 3. Explorar las columnas
print("Nombres de las columnas:", datos_completos.columns)

Nombres de las columnas: Index(['DP', 'DPNOM', 'DPMP', 'MPIO', 'AÑO', 'ÁREA GEOGRÁFICA', 'Hombres_0',
       'Hombres_1', 'Hombres_2', 'Hombres_3',
       ...
       'Total_79', 'Total_80', 'Total_81', 'Total_82', 'Total_83', 'Total_84',
       'Total_85 y más', 'Total Hombres', 'Total Mujeres', 'Total General'],
      dtype='object', length=267)


In [7]:
# 4. Verificar tipos de datos
print("Tipos de datos de las columnas:\n", datos_completos.dtypes)

Tipos de datos de las columnas:
 DP                 int64
DPNOM             object
DPMP               int64
MPIO              object
AÑO                int64
                   ...  
Total_84           int64
Total_85 y más     int64
Total Hombres      int64
Total Mujeres      int64
Total General      int64
Length: 267, dtype: object


In [8]:
# 5. Explorar valores únicos
print("Valores únicos en cada columna:\n", datos_completos.nunique())

Valores únicos en cada columna:
 DP                   33
DPNOM                33
DPMP               1122
MPIO               1040
AÑO                  35
                  ...  
Total_84            972
Total_85 y más     2423
Total Hombres     24527
Total Mujeres     24426
Total General     35727
Length: 267, dtype: int64


In [9]:
# 6. Manejo de valores nulos o faltantes
print("Valores nulos en cada columna:\n", datos_completos.isnull().sum())

Valores nulos en cada columna:
 DP                0
DPNOM             0
DPMP              0
MPIO              0
AÑO               0
                 ..
Total_84          0
Total_85 y más    0
Total Hombres     0
Total Mujeres     0
Total General     0
Length: 267, dtype: int64


In [10]:
# 7. Exploración estadística básica
print("Estadísticas descriptivas:\n", datos_completos.describe())

Estadísticas descriptivas:
                   DP           DPMP            AÑO      Hombres_0  \
count  117810.000000  117810.000000  117810.000000  117810.000000   
mean       38.282531   38716.410873    2002.000000     244.743383   
std        26.576533   26563.172507      10.099548    1667.019654   
min         5.000000    5001.000000    1985.000000       0.000000   
25%        15.000000   15676.000000    1993.000000      31.000000   
50%        25.000000   25840.000000    2002.000000      78.000000   
75%        66.000000   66572.000000    2011.000000     179.000000   
max        99.000000   99773.000000    2019.000000   74878.000000   

           Hombres_1      Hombres_2      Hombres_3      Hombres_4  \
count  117810.000000  117810.000000  117810.000000  117810.000000   
mean      243.932009     243.505424     243.172142     242.787013   
std      1660.186384    1655.253463    1650.885151    1646.377229   
min         0.000000       0.000000       0.000000       0.000000   
25%  

In [11]:
#Creación de grupos etareos
gpetareoh = {'HoPrimera_infancia': ['Hombres_0','Hombres_1','Hombres_2','Hombres_3','Hombres_4','Hombres_5'],
          'HoInfancia': ['Hombres_6','Hombres_7','Hombres_8','Hombres_9','Hombres_10','Hombres_11'],
          'HoAdolescencia': ['Hombres_12','Hombres_13','Hombres_14','Hombres_15','Hombres_16','Hombres_17','Hombres_18'],
          'HoJuventud': ['Hombres_19','Hombres_20','Hombres_21','Hombres_22','Hombres_23','Hombres_24','Hombres_25','Hombres_26'],
          'HoAdultez': ['Hombres_27','Hombres_28','Hombres_29','Hombres_30','Hombres_31','Hombres_32','Hombres_33','Hombres_34','Hombres_35','Hombres_36','Hombres_37','Hombres_38','Hombres_39','Hombres_40','Hombres_41','Hombres_42','Hombres_43','Hombres_44','Hombres_45','Hombres_46','Hombres_47','Hombres_48','Hombres_49','Hombres_50','Hombres_51','Hombres_52','Hombres_53','Hombres_54','Hombres_55','Hombres_56','Hombres_57','Hombres_58','Hombres_59'],
          'HoPersona Mayor': ['Hombres_60','Hombres_61','Hombres_62','Hombres_63','Hombres_64','Hombres_65','Hombres_66','Hombres_67','Hombres_68','Hombres_69','Hombres_70','Hombres_71','Hombres_72','Hombres_73','Hombres_74','Hombres_75','Hombres_76','Hombres_77','Hombres_78','Hombres_79','Hombres_80','Hombres_81','Hombres_82','Hombres_83','Hombres_84','Hombres_85 y más']}
gpetareom = {'MuPrimera_infancia': ['Mujeres_0','Mujeres_1','Mujeres_2','Mujeres_3','Mujeres_4','Mujeres_5'],
          'MuInfancia': ['Mujeres_6','Mujeres_7','Mujeres_8','Mujeres_9','Mujeres_10','Mujeres_11'],
          'MuAdolescencia': ['Mujeres_12','Mujeres_13','Mujeres_14','Mujeres_15','Mujeres_16','Mujeres_17','Mujeres_18'],
          'MuJuventud': ['Mujeres_19','Mujeres_20','Mujeres_21','Mujeres_22','Mujeres_23','Mujeres_24','Mujeres_25','Mujeres_26'],
          'MuAdultez': ['Mujeres_27','Mujeres_28','Mujeres_29','Mujeres_30','Mujeres_31','Mujeres_32','Mujeres_33','Mujeres_34','Mujeres_35','Mujeres_36','Mujeres_37','Mujeres_38','Mujeres_39','Mujeres_40','Mujeres_41','Mujeres_42','Mujeres_43','Mujeres_44','Mujeres_45','Mujeres_46','Mujeres_47','Mujeres_48','Mujeres_49','Mujeres_50','Mujeres_51','Mujeres_52','Mujeres_53','Mujeres_54','Mujeres_55','Mujeres_56','Mujeres_57','Mujeres_58','Mujeres_59'],
          'MuPersona Mayor': ['Mujeres_60','Mujeres_61','Mujeres_62','Mujeres_63','Mujeres_64','Mujeres_65','Mujeres_66','Mujeres_67','Mujeres_68','Mujeres_69','Mujeres_70','Mujeres_71','Mujeres_72','Mujeres_73','Mujeres_74','Mujeres_75','Mujeres_76','Mujeres_77','Mujeres_78','Mujeres_79','Mujeres_80','Mujeres_81','Mujeres_82','Mujeres_83','Mujeres_84','Mujeres_85 y más']}
gpetareot = {'ToPrimera_infancia': ['Total_0','Total_1','Total_2','Total_3','Total_4','Total_5'],
          'ToInfancia': ['Total_6','Total_7','Total_8','Total_9','Total_10','Total_11'],
          'ToAdolescencia': ['Total_12','Total_13','Total_14','Total_15','Total_16','Total_17','Total_18'],
          'ToJuventud': ['Total_19','Total_20','Total_21','Total_22','Total_23','Total_24','Total_25','Total_26'],
          'ToAdultez': ['Total_27','Total_28','Total_29','Total_30','Total_31','Total_32','Total_33','Total_34','Total_35','Total_36','Total_37','Total_38','Total_39','Total_40','Total_41','Total_42','Total_43','Total_44','Total_45','Total_46','Total_47','Total_48','Total_49','Total_50','Total_51','Total_52','Total_53','Total_54','Total_55','Total_56','Total_57','Total_58','Total_59'],
          'ToPersona Mayor': ['Total_60','Total_61','Total_62','Total_63','Total_64','Total_65','Total_66','Total_67','Total_68','Total_69','Total_70','Total_71','Total_72','Total_73','Total_74','Total_75','Total_76','Total_77','Total_78','Total_79','Total_80','Total_81','Total_82','Total_83','Total_84','Total_85 y más']}
nuevas_columnas = ['DP', 'DPNOM', 'DPMP', 'MPIO', 'AÑO', 'ÁREA GEOGRÁFICA','Total Hombres', 'Total Mujeres', 'Total General']


In [12]:
#Grupos etareos Hombres
for grupo, columnas in gpetareoh.items():
    datos_completos[grupo] = datos_completos[columnas].sum(axis=1)
    nuevas_columnas.append(grupo)
    #Grupos etareos Mujeres
for grupo, columnas in gpetareom.items():
    datos_completos[grupo] = datos_completos[columnas].sum(axis=1)
    nuevas_columnas.append(grupo)
    #Grupos etareos Total
for grupo, columnas in gpetareot.items():
    datos_completos[grupo] = datos_completos[columnas].sum(axis=1)
    nuevas_columnas.append(grupo)

In [13]:
#Columnas a eliminar
columnas_a_eliminar = [col for col in datos_completos if col not in nuevas_columnas]

In [14]:
# Luego, eliminamos esas columnas del DataFrame
datos_completos.drop(columns=columnas_a_eliminar, inplace=True)

In [15]:
datos_completos.head()

Unnamed: 0,DP,DPNOM,DPMP,MPIO,AÑO,ÁREA GEOGRÁFICA,Total Hombres,Total Mujeres,Total General,HoPrimera_infancia,...,MuAdolescencia,MuJuventud,MuAdultez,MuPersona Mayor,ToPrimera_infancia,ToInfancia,ToAdolescencia,ToJuventud,ToAdultez,ToPersona Mayor
0,5,Antioquia,5001,Medellín,1985,Cabecera Municipal,664721,729143,1393864,82621,...,103934,135934,267197,55788,169451,153434,199805,260460,510030,100684
1,5,Antioquia,5001,Medellín,1985,Centros Poblados y Rural Disperso,27773,28540,56313,3984,...,4338,5214,9775,1705,8182,6451,8388,10050,19633,3609
2,5,Antioquia,5001,Medellín,1985,Total,692494,757683,1450177,86605,...,108272,141148,276972,57493,177633,159885,208193,270510,529663,104293
3,5,Antioquia,5001,Medellín,1986,Cabecera Municipal,675600,746145,1421745,83710,...,102318,138621,278242,57081,171862,157617,196010,264991,528771,102494
4,5,Antioquia,5001,Medellín,1986,Centros Poblados y Rural Disperso,27669,28554,56223,3958,...,4180,5183,9957,1723,8126,6512,8057,9980,19919,3629


La información permite observar la existencia de infomración de 35 años de información, esta información se describe para 33 Departamento, 1040 Municipios, descrito por edad, área geográfica y género, a partir de esta base se realizará una descripción de la infomración agrupando los grupos etareos y haciendo diversas revisiones por Departamento, regiones y capitales para comprender la movilización social al interior del país.

Para este caso se generó una agrupación etarea definida por el ministerio de Salud colombiana que establece los siguientes grupos etareos o de "ciclo de vida":

- Ciclo de Vida
- Familia.
- Primera Infancia (0-5 años)
- Infancia (6 - 11 años)
- Adolescencia (12 - 18 años)
- Juventud (14 - 26 años)
- Adultez (27- 59 años)
- Persona Mayor (60 años o mas) envejecimiento y vejez.

In [18]:
dftotal = datos_completos.loc[datos_completos['ÁREA GEOGRÁFICA'] == 'Total']

### 2. Descripción general de la información disponible.

In [19]:
dftotal = pd.DataFrame(datos_completos)

In [20]:
print("Nombres de las columnas:", dftotal.columns)

Nombres de las columnas: Index(['DP', 'DPNOM', 'DPMP', 'MPIO', 'AÑO', 'ÁREA GEOGRÁFICA',
       'Total Hombres', 'Total Mujeres', 'Total General', 'HoPrimera_infancia',
       'HoInfancia', 'HoAdolescencia', 'HoJuventud', 'HoAdultez',
       'HoPersona Mayor', 'MuPrimera_infancia', 'MuInfancia', 'MuAdolescencia',
       'MuJuventud', 'MuAdultez', 'MuPersona Mayor', 'ToPrimera_infancia',
       'ToInfancia', 'ToAdolescencia', 'ToJuventud', 'ToAdultez',
       'ToPersona Mayor'],
      dtype='object')


In [21]:
# Identificar las columnas para los grupos y las columnas para sumar
columnas_para_grupos = ['DPNOM', 'MPIO', 'AÑO', 'ÁREA GEOGRÁFICA']
columnas_para_sumar = ['Total Hombres', 'Total Mujeres', 'Total General', 'HoPrimera_infancia',
       'HoInfancia', 'HoAdolescencia', 'HoJuventud', 'HoAdultez',
       'HoPersona Mayor', 'MuPrimera_infancia', 'MuInfancia', 'MuAdolescencia',
       'MuJuventud', 'MuAdultez', 'MuPersona Mayor', 'ToPrimera_infancia',
       'ToInfancia', 'ToAdolescencia', 'ToJuventud', 'ToAdultez',
       'ToPersona Mayor']

In [22]:
# Lista para almacenar los DataFrames resultantes
dfs_grupos = []

In [24]:
# Filtro de ubicacion geográfica 

dftotal = dftotal[dftotal['ÁREA GEOGRÁFICA'] == 'Total']

In [25]:
# DF para el país en temas generacionales
agg_dict = {col: 'sum' for col in columnas_para_sumar}

dfnaciongen = dftotal.groupby(['AÑO']).agg(agg_dict)

In [26]:
# Piramide por año
columnas_para_remover = ['HoPrimera_infancia',
       'HoInfancia', 'HoAdolescencia', 'HoJuventud', 'HoAdultez',
       'HoPersona Mayor', 'MuPrimera_infancia', 'MuInfancia', 'MuAdolescencia',
       'MuJuventud', 'MuAdultez', 'MuPersona Mayor', 'ToPrimera_infancia',
       'ToInfancia', 'ToAdolescencia', 'ToJuventud', 'ToAdultez',
       'ToPersona Mayor', 'Total General']

for col in columnas_para_remover:
    del dfnaciongen[col]

In [27]:
# Construcción de DF para Departamento
agg_dict = {col: ['sum'] for col in columnas_para_sumar}

# Realizar la agrupación y agregación
dfdepartamento = dftotal.groupby(['DPNOM', 'AÑO']).agg(agg_dict)

# Renombrar las columnas para reflejar las operaciones de agregación
dfdepartamento.columns = ['_'.join(col).strip() for col in dfdepartamento.columns.values]

dfdepartamento.reset_index(inplace=True)