***Distribución de propiedades por segmento [2022 y 2023]***

In [14]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

In [15]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

In [16]:
dataframes = {} # Crear un diccionario para almacenar los DataFrames
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [17]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres para obtener solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Imprimir la lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_puebla', 'df_alfa_q_sep_2023_pachuca', 'df_alfa_q_tulancingo', 'df_enero_2024_querertaro', 'df_feb_2024_puebla', 'df_feb_2024_queretaro', 'df_financiamientos_2019_puebla', 'df_financiamientos_2019_queretaro', 'df_financiamientos_2019_tulancingo', 'df_financiamientos_2020_puebla', 'df_financiamientos_2020_queretaro', 'df_financiamientos_2020_tulancingo', 'df_financiamientos_2021_puebla', 'df_financiamientos_2021_queretaro', 'df_financiamientos_2021_tulancingo', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2022_puebla', 'df_financiamientos_2022_queretaro', 'df_financiamientos_2022_tulancingo', 'df_financiamientos_2023_pachuca', 'df_financiamientos_2023_puebla', 'df_financiamientos_2023_queretaro', 'df_financiamientos_2023_tulancingo', 'df_grupos_edad_pachuca', 

In [18]:
precio_df_jul_2023_tulancingo = df_jul_2023_puebla[['id_jul_23','Category']]
precio_df_sep_2023_tulancingo = df_sep_2023_puebla[['id_sep_23','Category']]

precio_df_feb_2024_tulancingo = df_feb_2024_puebla[['id','Category']]
precio_df_mar_2024_tulancingo = df_mar_2024_puebla[['id','Category']]
precio_df_may_2024_tulancingo = df_may_2024_puebla[['id','Category']]

****2022****


In [19]:
# Lista de DataFrames
dataframes_list = [
    precio_df_jul_2023_tulancingo,
    precio_df_sep_2023_tulancingo,
    
]

conteo_total = {}

# Iterar sobre la lista de DataFrames
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['Category'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['Category', 'conteo_total'])
conteo_total_df

Unnamed: 0,Category,conteo_total
0,S,1382
1,B1,255
2,C3,240
3,C2,330
4,A2,201
5,A3,208
6,A1,473
7,D1,221
8,B2,403
9,C1,185


In [20]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['Category'].str[0]
conteo_total_df['clase'] = conteo_total_df['Category'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['Category'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs

Unnamed: 0,conteo_total,segmento,clase
0,1382,S,1
1,255,B,1
2,240,C,3
3,330,C,2
4,201,A,2
5,208,A,3
6,473,A,1
7,221,D,1
8,403,B,2
9,185,C,1


In [21]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  4403


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,882,20.031797
1,B,849,19.282308
2,C,755,17.1474
3,D,479,10.878946
4,E,56,1.27186
5,S,1382,31.38769


In [22]:
segmentos = resultados['segmento']
porcentajes_totales = resultados['porcentaje_del_total']

# Definir los colores por clase
colores = ['#2962ff', '#9500ff', '#ff0059', '#ff8c00', '#b4e600', '#2EC2A2','#E50CB6','#4225CF','#2CBA4D']

fig = go.Figure(data=[go.Pie(labels=segmentos, values=porcentajes_totales, marker=dict(colors=colores))])
fig.update_traces(textinfo='percent+label', textposition='inside')
fig.update_layout(
    yaxis=dict(
            # title='Rango de Edad', 
            gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        ),
        legend=dict(
            font_size=10,
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
            ),
        
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    # pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png

guardar_grafico_como_html(fig, 'g_pie_dist_propiedades_segmento_puebla_2023', carpeta='graficas')

fig.show()

****2024****

In [23]:
# Lista de DataFrames
dataframes_list = [
    precio_df_feb_2024_tulancingo,
    precio_df_mar_2024_tulancingo,
    precio_df_may_2024_tulancingo
]

conteo_total = {}

# Iterar sobre la lista de DataFrames
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['Category'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['Category', 'conteo_total'])
conteo_total_df

Unnamed: 0,Category,conteo_total
0,S1,1568
1,E2,1335
2,E3,1009
3,D2,721
4,B2,645
5,S2,608
6,D3,616
7,C2,593
8,B1,534
9,C1,590


In [24]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['Category'].str[0]
conteo_total_df['clase'] = conteo_total_df['Category'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['Category'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs


Unnamed: 0,conteo_total,segmento,clase
0,1568,S,1
1,1335,E,2
2,1009,E,3
3,721,D,2
4,645,B,2
5,608,S,2
6,616,D,3
7,593,C,2
8,534,B,1
9,590,C,1


In [25]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  12836


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,1506,11.732627
1,B,1672,13.025865
2,C,1746,13.602368
3,D,1830,14.256778
4,E,2850,22.203179
5,L,557,4.339358
6,S,2675,20.839825


In [26]:
segmentos = resultados['segmento']
porcentajes_totales = resultados['porcentaje_del_total']

# Definir los colores por clase
colores = ['#2962ff', '#9500ff', '#ff0059', '#ff8c00', '#b4e600', '#2EC2A2','#E50CB6','#4225CF','#2CBA4D']

fig = go.Figure(data=[go.Pie(labels=segmentos, values=porcentajes_totales, marker=dict(colors=colores))])
fig.update_traces(textinfo='percent+label', textposition='inside')
fig.update_layout(
   yaxis=dict(
            # title='Rango de Edad', 
            gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        ),
        legend=dict(
            font_size=10,
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
            ),
        
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    # pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png')

guardar_grafico_como_html(fig, 'g_pie_dist_propiedades_segmento_puebla_2024', carpeta='graficas')

fig.show()