# **Distribución de la población por género y rango de edad**

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()

# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, '../../db/datos_json')

# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

# Cargar los archivos JSON y crear DataFrames
for archivo in archivos_json:
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())

# Filtrar los nombres que comienzan con "df_", contienen "alfa_q" y "pachuca"
nombres_df_filtrados = [
    nombre for nombre in nombres_variables_globales 
    # Caso de cuando no son las alfa q
    if nombre.startswith("df_poblacion") and ('pachuca' in nombre or 'tulancingo' in nombre)

    #if nombre.startswith("df_") and "tulancingo" in nombre    
    #and ("alfa_q" in nombre or "jul_2023" in nombre or "sep_2023" in nombre or "feb_2024" in nombre or "mar_2024" in nombre or "may_2024" in nombre)
]

# Imprimir la lista de DataFrames filtrados
print("Lista de DataFrames filtrados:")
nombres_df_filtrados

ImportError: DLL load failed while importing _multiarray_umath: No se puede encontrar el módulo especificado.

Lista de DataFrames filtrados:


['df_poblacion_pachuca', 'df_poblacion_tulancingo']

In [2]:
# Iterar sobre cada DataFrame en la lista filtrada
for nombre_df in nombres_df_filtrados:
    # Obtener el DataFrame usando globals()
    df = globals()[nombre_df]
    
    df.rename(columns={'Hombres':'hombres','Mujeres':'mujeres'}, inplace=True)
        # Asignar el DataFrame modificado de nuevo a la variable global
    globals()[nombre_df] = df 

# Imprimir confirmación
print("Columnas renombradas en los DataFrames filtrados.")

Columnas renombradas en los DataFrames filtrados.


In [3]:
# Crear una lista de DataFrames seleccionados con las columnas específicas
dataframes_list = []
for nombre_df in nombres_df_filtrados:
    # Seleccionar las columnas 'id' y 'categoria'
    segment_df = globals()[nombre_df][['id', 'rango', 'total', 'hombres', 'mujeres']]
    # Añadir el DataFrame a la lista
    dataframes_list.append(segment_df)

In [4]:
dfs = []
for df in dataframes_list:
    dfs.append(df)
dfs = pd.concat(dfs, ignore_index=True)
dfs

Unnamed: 0,id,rango,total,hombres,mujeres
0,1,0 a 4 años,19961,10129,9832
1,2,10 a 14 años,23330,11747,11583
2,3,15 a 19 años,25810,12982,12828
3,4,20 a 24 años,26675,13434,13241
4,5,25 a 29 años,25477,12530,12947
5,6,30 a 34 años,24099,11337,12762
6,7,35 a 39 años,22790,10610,12180
7,8,40 a 44 años,21466,9831,11635
8,9,45 a 49 años,21105,9533,11572
9,10,5 a 9 años,21666,10947,10719


In [5]:
# Sumar los valores por una columna común (por ejemplo, 'rango_amplio')
dfs = dfs.groupby('rango').sum().reset_index()
print(dfs)

            rango  id  total  hombres  mujeres
0      0 a 4 años   2  33531    17076    16455
1    10 a 14 años   4  38306    19435    18871
2    15 a 19 años   6  40913    20589    20324
3    20 a 24 años   8  40288    20123    20165
4    25 a 29 años  10  38409    18696    19713
5    30 a 34 años  12  36520    16991    19529
6    35 a 39 años  14  34940    16017    18923
7    40 a 44 años  16  33145    15024    18121
8    45 a 49 años  18  32028    14460    17568
9      5 a 9 años  20  35888    18155    17733
10   50 a 54 años  22  29685    13323    16362
11   55 a 59 años  24  24562    10993    13569
12   60 a 64 años  26  21085     9484    11601
13   65 a 69 años  28  15264     6945     8319
14   70 a 74 años  30  10826     4767     6059
15   75 a 79 años  32   6904     3039     3865
16   80 a 84 años  34   4220     1664     2556
17  85 años o más  36   3865     1388     2477


In [6]:
dfs['limite_inferior'] = df['rango'].apply(lambda x: int(x.split()[0]))
# Ordenar el DataFrame por el límite inferior
dfs = dfs.sort_values(by='limite_inferior').reset_index(drop=True)
dfs['ids'] = range(1, len(dfs) + 1)
dfs

Unnamed: 0,rango,id,total,hombres,mujeres,limite_inferior,ids
0,0 a 4 años,2,33531,17076,16455,0,1
1,5 a 9 años,20,35888,18155,17733,5,2
2,10 a 14 años,4,38306,19435,18871,10,3
3,15 a 19 años,6,40913,20589,20324,15,4
4,20 a 24 años,8,40288,20123,20165,20,5
5,25 a 29 años,10,38409,18696,19713,25,6
6,30 a 34 años,12,36520,16991,19529,30,7
7,35 a 39 años,14,34940,16017,18923,35,8
8,40 a 44 años,16,33145,15024,18121,40,9
9,45 a 49 años,18,32028,14460,17568,45,10


In [7]:
rangos_edad = {
    "0-19": (1, 4),
    "20-34": (5, 7),
    "35-49": (8,10),
    "50-64": (11,13),
    "65+":(14, float('inf'))
}
# Función para asignar la categoría según el rango de edad
def asignar_categoria(id_value):
    # Usar directamente el valor de ids (límite inferior)
    for categoria, (limite_inferior, limite_superior) in rangos_edad.items():
        if limite_inferior <= id_value <= limite_superior:
            return categoria
    return None  # En caso de que el id no caiga en ningún rango definido

# Asignar la categoría a cada registro
dfs['rango_amplio'] = dfs['ids'].apply(asignar_categoria)
dfs

Unnamed: 0,rango,id,total,hombres,mujeres,limite_inferior,ids,rango_amplio
0,0 a 4 años,2,33531,17076,16455,0,1,0-19
1,5 a 9 años,20,35888,18155,17733,5,2,0-19
2,10 a 14 años,4,38306,19435,18871,10,3,0-19
3,15 a 19 años,6,40913,20589,20324,15,4,0-19
4,20 a 24 años,8,40288,20123,20165,20,5,20-34
5,25 a 29 años,10,38409,18696,19713,25,6,20-34
6,30 a 34 años,12,36520,16991,19529,30,7,20-34
7,35 a 39 años,14,34940,16017,18923,35,8,35-49
8,40 a 44 años,16,33145,15024,18121,40,9,35-49
9,45 a 49 años,18,32028,14460,17568,45,10,35-49


In [8]:
# Agrupar y sumar en una línea
datos_agrupados = dfs.groupby('rango_amplio').sum(numeric_only=False).reset_index()
datos_agrupados

Unnamed: 0,rango_amplio,rango,id,total,hombres,mujeres,limite_inferior,ids
0,0-19,0 a 4 años5 a 9 años10 a 14 años15 a 19 años,32,148638,75255,73383,30,10
1,20-34,20 a 24 años25 a 29 años30 a 34 años,30,115217,55810,59407,75,18
2,35-49,35 a 39 años40 a 44 años45 a 49 años,48,100113,45501,54612,120,27
3,50-64,50 a 54 años55 a 59 años60 a 64 años,72,75332,33800,41532,165,36
4,65+,65 a 69 años70 a 74 años75 a 79 años80 a 84 añ...,160,41079,17803,23276,375,80


In [9]:
import plotly.graph_objects as go

# Crear una gráfica de pirámide de población
def crear_grafico_piramide(dfs):
    fig = go.Figure()

    # Sumar los valores de hombres y mujeres por rango amplio
    datos_agrupados = dfs.groupby('rango_amplio').sum(numeric_only=False).reset_index()
    

    # Calcular el total de hombres y mujeres
    total_hombres = datos_agrupados['hombres'].sum()
    total_mujeres = datos_agrupados['mujeres'].sum()
    total_poblacion = total_hombres + total_mujeres

    # Crear texto para el hover que incluya total y porcentaje
    text_hombres = [
        f'Total: {row["hombres"]}<br>Porcentaje: {row["hombres"] / total_poblacion * 100:.1f}%'
        for index, row in datos_agrupados.iterrows()
    ]

    text_mujeres = [
        f'Total: {row["mujeres"]}<br>Porcentaje: {row["mujeres"] / total_poblacion * 100:.1f}%'
        for index, row in datos_agrupados.iterrows()
    ]

    # Crear barras para hombres a la izquierda
    fig.add_trace(go.Bar(
        y=datos_agrupados['rango_amplio'],
        x=-datos_agrupados['hombres'],  # Mantener la barra en negativo para la forma de pirámide
        orientation='h',
        marker=dict(color='#9500ff'),
        text=text_hombres,
        textposition='none',  # Ocultar el texto en las barras
        hoverinfo='text',  # Usar solo el texto personalizado al hacer hover
        name='Hombres'
    ))

    # Crear barras para mujeres a la derecha
    fig.add_trace(go.Bar(
        y=datos_agrupados['rango_amplio'],
        x=datos_agrupados['mujeres'],
        orientation='h',
        marker=dict(color='#ff0059'),
        text=text_mujeres,
        textposition='none',  # Ocultar el texto en las barras
        hoverinfo='text',  # Usar solo el texto personalizado al hacer hover
        name='Mujeres'
    ))

    # Configurar el gráfico
    fig.update_layout(
        barmode='overlay',
        bargap=0.35,
        xaxis=dict(
            title='Población',
            gridcolor='#dddcda',  # Color de las líneas que dividen los rangos del eje Y
            tickvals=[-80000,-70000, -60000,-50000, -40000, -30000, -20000, -10000, 0, 10000, 20000, 30000, 40000, 50000,60000, 70000,80000],  # Ajusta según tus datos
            ticktext=[-80000,70000, 60000,50000, 40000, 30000, 20000, 10000, 0, 10000, 20000, 30000, 40000, 50000,60000, 70000,80000]  # Etiquetas positivas
        ),
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
        margin=dict(l=10, r=10, t=10, b=10),  # Ajusta los márgenes (left, right, top, bottom)
        yaxis=dict(title='Rango de Edad'),
        legend=dict(
            font_size=10,
            orientation='h',
            x=1,  # Posición horizontal (1 es el extremo derecho)
            y=1,  # Posición vertical (1 es la parte superior)
            xanchor='right',  # Ancla la leyenda a la derecha
            yanchor='top'  # Ancla la leyenda en la parte superior
        )
    )

    return fig


def guardar_grafico_como_html(fig, nombre_archivo, carpeta='assets/graficas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

# Crear la figura de la pirámide de población
fig_piramide = crear_grafico_piramide(dfs)
fig_piramide.show()
# Guardar la figura como archivo HTML
guardar_grafico_como_html(fig_piramide, 'g_piramid_poblacion')