***Distribución de propiedades por segmento [2022 y 2023]***

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

In [2]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

In [3]:
dataframes = {} # Crear un diccionario para almacenar los DataFrames
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [4]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres para obtener solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Imprimir la lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_puebla', 'df_alfa_q_sep_2023_pachuca', 'df_alfa_q_tulancingo', 'df_enero_2024_querertaro', 'df_feb_2024_puebla', 'df_feb_2024_queretaro', 'df_financiamientos_2019_puebla', 'df_financiamientos_2019_queretaro', 'df_financiamientos_2019_tulancingo', 'df_financiamientos_2020_puebla', 'df_financiamientos_2020_queretaro', 'df_financiamientos_2020_tulancingo', 'df_financiamientos_2021_puebla', 'df_financiamientos_2021_queretaro', 'df_financiamientos_2021_tulancingo', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2022_puebla', 'df_financiamientos_2022_queretaro', 'df_financiamientos_2022_tulancingo', 'df_financiamientos_2023_pachuca', 'df_financiamientos_2023_puebla', 'df_financiamientos_2023_queretaro', 'df_financiamientos_2023_tulancingo', 'df_grupos_edad_pachuca', 

In [5]:
propiedades_df_alfa_q_tulancingo = df_alfa_q_tulancingo[['id_alfa_Q','Category']]
propiedades_df_may_2022_tulancingo = df_may_2022_tulancingo[['id_may_22','Category']]
propiedades_df_jul_2022_tulancingo = df_jul_2022_tulancingo[['id_jul_22','Category']]
propiedades_df_oct_2022_tulancingo = df_oct_2022_tulancingo[['id_oct_22','Category']]



propiedades_df_mar_2023_tulancingo = df_mar_2023_tulancingo[['id_mar_23','Category']]
propiedades_df_may_2023_tulancingo = df_may_2023_tulancingo[['id_may_23','Category']]
propiedades_df_jun_2023_tulancingo = df_jun_2023_tulancingo[['id_jun_23','Category']]
propiedades_df_jul_2023_tulancingo = df_jul_2023_tulancingo[['id_jul_23','Category']]
propiedades_df_sep_2023_tulancingo = df_sep_2023_tulancingo[['id_sep_23','Category']]
propiedades_df_oct_2023_tulancingo = df_oct_2023_tulancingo[['id_oct_23','Category']]


****2022****


In [6]:
# Lista de DataFrames
dataframes_list = [
    propiedades_df_alfa_q_tulancingo,
    propiedades_df_may_2022_tulancingo,
    propiedades_df_jul_2022_tulancingo,
    propiedades_df_oct_2022_tulancingo
]

conteo_total = {}

# Iterar sobre la lista de DataFrames
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['Category'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['Category', 'conteo_total'])
conteo_total_df

Unnamed: 0,Category,conteo_total
0,D3,216
1,E1,196
2,D2,164
3,S,122
4,D1,120
5,C2,122
6,C3,82
7,C1,41
8,B1,38
9,B3,38


In [7]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['Category'].str[0]
conteo_total_df['clase'] = conteo_total_df['Category'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['Category'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs

Unnamed: 0,conteo_total,segmento,clase
0,216,D,3
1,196,E,1
2,164,D,2
3,122,S,1
4,120,D,1
5,122,C,2
6,82,C,3
7,41,C,1
8,38,B,1
9,38,B,3


In [8]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  1272


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,82,6.446541
1,B,105,8.254717
2,C,245,19.261006
3,D,500,39.308176
4,E,218,17.138365
5,S,122,9.591195


In [9]:
segmentos = resultados['segmento']
porcentajes_totales = resultados['porcentaje_del_total']

# Definir los colores por clase
colores = ['#2962ff', '#9500ff', '#ff0059', '#ff8c00', '#b4e600', '#2EC2A2','#E50CB6','#4225CF','#2CBA4D']

fig = go.Figure(data=[go.Pie(labels=segmentos, values=porcentajes_totales, marker=dict(colors=colores))])
fig.update_traces(textinfo='percent+label', textposition='inside')
fig.update_layout(
    yaxis=dict(
            # title='Rango de Edad', 
            gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        ),
        legend=dict(
            font_size=10,
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
            ),
        
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    # pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png

guardar_grafico_como_html(fig, 'g_pie_dist_propiedades_segmento_tulancingo_2022', carpeta='graficas')

fig.show()

****2023****

In [10]:
# Lista de DataFrames
dataframes_list = [
    propiedades_df_mar_2023_tulancingo,
    propiedades_df_may_2023_tulancingo,
    propiedades_df_jun_2023_tulancingo,
    propiedades_df_jul_2023_tulancingo,
    propiedades_df_sep_2023_tulancingo,
    propiedades_df_oct_2023_tulancingo
]

conteo_total = {}

# Iterar sobre la lista de DataFrames
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['Category'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['Category', 'conteo_total'])
conteo_total_df

Unnamed: 0,Category,conteo_total
0,E1,90
1,D3,122
2,D2,86
3,S,70
4,C3,54
5,C2,28
6,D1,53
7,E2,15
8,C1,29
9,A1,11


In [11]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['Category'].str[0]
conteo_total_df['clase'] = conteo_total_df['Category'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['Category'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs


Unnamed: 0,conteo_total,segmento,clase
0,90,E,1
1,122,D,3
2,86,D,2
3,70,S,1
4,54,C,3
5,28,C,2
6,53,D,1
7,15,E,2
8,29,C,1
9,11,A,1


In [12]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  627


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,34,5.422648
1,B,46,7.336523
2,C,111,17.703349
3,D,261,41.626794
4,E,105,16.746411
5,S,70,11.164274


In [13]:
segmentos = resultados['segmento']
porcentajes_totales = resultados['porcentaje_del_total']

# Definir los colores por clase
colores = ['#2962ff', '#9500ff', '#ff0059', '#ff8c00', '#b4e600', '#2EC2A2','#E50CB6','#4225CF','#2CBA4D']

fig = go.Figure(data=[go.Pie(labels=segmentos, values=porcentajes_totales, marker=dict(colors=colores))])
fig.update_traces(textinfo='percent+label', textposition='inside')
fig.update_layout(
   yaxis=dict(
            # title='Rango de Edad', 
            gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        ),
        legend=dict(
            font_size=10,
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
            ),
        
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    # pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png')

guardar_grafico_como_html(fig, 'g_pie_dist_propiedades_segmento_tulancingo_2023', carpeta='graficas')

fig.show()