# **SEGMENTOS**

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

dataframes = {}
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres, solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Lista de nombres de los DataFrames creados
# print("Lista de DataFrames creados:")
#print(nombres_df)
nombres_df

['df_alfa_q_feb_2023_pachuca',
 'df_alfa_q_jul_2022_tulancingo',
 'df_alfa_q_jul_2023_pachuca',
 'df_alfa_q_jul_2023_tulancingo',
 'df_alfa_q_jun_2023_pachuca',
 'df_alfa_q_jun_2023_tulancingo',
 'df_alfa_q_mar_2023_pachuca',
 'df_alfa_q_mar_2023_tulancingo',
 'df_alfa_q_may_2022_tulancingo',
 'df_alfa_q_may_2023_tulancingo',
 'df_alfa_q_nov_2022_pachuca',
 'df_alfa_q_oct_2022_pachuca',
 'df_alfa_q_oct_2022_tulancingo',
 'df_alfa_q_oct_2023_tulancingo',
 'df_alfa_q_puebla',
 'df_alfa_q_sep_2023_pachuca',
 'df_alfa_q_sep_2023_tulancingo',
 'df_enero_2024_querertaro',
 'df_feb_2024_puebla',
 'df_financiamientos_2019_pachuca',
 'df_financiamientos_2019_puebla',
 'df_financiamientos_2019_tulancingo',
 'df_financiamientos_2020_pachuca',
 'df_financiamientos_2020_puebla',
 'df_financiamientos_2020_tulancingo',
 'df_financiamientos_2021_pachuca',
 'df_financiamientos_2021_puebla',
 'df_financiamientos_2021_tulancingo',
 'df_financiamientos_2022_pachuca',
 'df_financiamientos_2022_puebla',
 'd

# ***DISTRIBUCIÓN DE SEGMENTOS***

## **PACHUCA**

Hasta 2023

In [38]:
# Crea los DataFrames para cada archivo con las columnas necesarias
segment_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria']]
segment_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria']]
segment_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria']]
segment_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria']]
segment_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria']]
segment_df_alfa_q_jul_2023_pachuca = df_alfa_q_jul_2023_pachuca[['id','categoria']]
segment_df_alfa_q_sep_2023_pachuca = df_alfa_q_sep_2023_pachuca[['id','categoria']] 

In [39]:
# CONTEO ÚNICO DE CATEGORÍAS

dataframes_list = [
    segment_df_alfa_q_oct_2022_pachuca,
    segment_df_alfa_q_nov_2022_pachuca,
    segment_df_alfa_q_feb_2023_pachuca,
    segment_df_alfa_q_mar_2023_pachuca,
    segment_df_alfa_q_jun_2023_pachuca,
    segment_df_alfa_q_jul_2023_pachuca,
    segment_df_alfa_q_sep_2023_pachuca
]
conteo_total = {}
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['categoria'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['categoria', 'conteo_total'])
conteo_total_df

Unnamed: 0,categoria,conteo_total
0,S,2257
1,D1,917
2,C3,747
3,B1,826
4,B2,755
5,B3,670
6,D2,562
7,C2,613
8,D3,438
9,A3,479


In [40]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['categoria'].str[0]
conteo_total_df['clase'] = conteo_total_df['categoria'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['categoria'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs

Unnamed: 0,conteo_total,segmento,clase
0,2257,S,1
1,917,D,1
2,747,C,3
3,826,B,1
4,755,B,2
5,670,B,3
6,562,D,2
7,613,C,2
8,438,D,3
9,479,A,3


In [41]:
#segmentos_dist = conteo_total_df.groupby(['segmento', 'clase']) # Agrupar
segmentos_dist = conteo_total_dfs.groupby(['segmento', 'clase'])['conteo_total'].sum()
segmentos_dist

segmento  clase
A         1         435
          2         450
          3         479
B         1         826
          2         755
          3         670
C         1         425
          2         613
          3         747
D         1         917
          2         562
          3         438
E         1         287
          2          47
          3           0
S         1        2257
Name: conteo_total, dtype: int64

Totales de registros por segmento

In [42]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  9908


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,1364,13.766653
1,B,2251,22.719015
2,C,1785,18.015745
3,D,1917,19.348002
4,E,334,3.371013
5,S,2257,22.779572


Porcentajes de clase por segmento

In [43]:
#Obtener el total de registros por segmento y clase
total_segmento = conteo_total_df.groupby('segmento')['conteo_total'].sum()
#Calcular los porcentajes
segmentos_percent = conteo_total_df.merge(total_segmento, on='segmento', suffixes=('', '_total'))
segmentos_percent['porcentaje'] = segmentos_percent['conteo_total'] / segmentos_percent['conteo_total_total'] * 100
#Seleccionar las columnas necesarias y eliminar las columnas auxiliares
segmentos_percent = segmentos_percent[['segmento', 'clase', 'porcentaje']]
segmentos_percent

Unnamed: 0,segmento,clase,porcentaje
0,S,1,100.0
1,D,1,47.835159
2,D,2,29.316641
3,D,3,22.8482
4,C,3,41.848739
5,C,2,34.341737
6,C,1,23.809524
7,B,1,36.694802
8,B,2,33.540649
9,B,3,29.764549


Porcentaje de cada clase en relación al % que representa su segmento del total.

In [44]:
temp_dfs = [] # Almacenar los DataFrames temporales de cada segmento
# Realizamos un bucle sobre cada segmento
for segmento in resultados['segmento'].unique():
    # Filtramos las clases correspondientes al segmento actual
    clases_segmento = segmentos_percent[segmentos_percent['segmento'] == segmento]
    
    # Calculamos el total de porcentaje del segmento actual
    total_porcentaje_segmento = resultados[resultados['segmento'] == segmento]['porcentaje_del_total'].iloc[0]
    
    # Calculamos el porcentaje que representa cada clase en relación al porcentaje del segmento
    porcentaje_clase = (clases_segmento['porcentaje'] / 100) * total_porcentaje_segmento
    
    # DataFrame temporal para el segmento actual
    temp_df = pd.DataFrame({
        'segmento': [segmento] * len(clases_segmento),
        'clase': clases_segmento['clase'].values,
        'porcentaje_clase': porcentaje_clase#.round()
    })
    
    # Agrega DataFrame temporal a la lista
    temp_dfs.append(temp_df)

# Concatena todos los DataFrames temporales en un solo DataFrame
porcentajes_clase = pd.concat(temp_dfs, ignore_index=True)
porcentajes_clase

Unnamed: 0,segmento,clase,porcentaje_clase
0,A,3,4.834477
1,A,1,4.390392
2,A,2,4.541784
3,B,1,8.336698
4,B,2,7.620105
5,B,3,6.762212
6,C,3,7.539362
7,C,2,6.18692
8,C,1,4.289463
9,D,1,9.255147


In [45]:
porcentajes_clase_ordenado = porcentajes_clase.pivot(index='segmento', columns='clase', values='porcentaje_clase')
porcentajes_clase_ordenado.fillna(0, inplace=True)
porcentajes_clase_ordenado

clase,1,2,3
segmento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,4.390392,4.541784,4.834477
B,8.336698,7.620105,6.762212
C,4.289463,6.18692,7.539362
D,9.255147,5.672184,4.42067
E,2.896649,0.474364,0.0
S,22.779572,0.0,0.0


### *Gráfica* 

In [46]:
# Mantener orden en barras
segmentos = list(porcentajes_clase_ordenado.index)
segmentos_sorted = ['E','D','C','B','A','S']  # Orden deseado
segmentos_sorted.extend([segmento for segmento in segmentos if segmento not in segmentos_sorted])  # Agregar los segmentos restantes
clases = porcentajes_clase_ordenado.columns # Clases como etiquetas de las series de datos
clases = ['1', '2', '3']  # Clases en el orden deseado
# Definir los colores por clase
colores = {
    '1': '#2962ff',
    '2': '#9500ff',
    '3': '#ff0059'
}
# Almacenar las barras de cada clase
barras = []
for clase in clases:
    barras.append(go.Bar(
        y=segmentos_sorted,  # Eje y: Segmentos
        x=porcentajes_clase_ordenado.loc[segmentos_sorted, clase],  # Eje x: Porcentajes de clase
        name=f'{clase}',  # Nombre de la serie de datos
        orientation='h',  # Orientación horizontal
        text=porcentajes_clase_ordenado.loc[segmentos_sorted, clase].apply(lambda x: f'{x:.2f}%'),  # Texto con los porcentajes
        textposition='auto',  # Posición automática del texto
        marker_color=colores[clase]   # Color de las barras
    ))
fig = go.Figure(data=barras)
fig.update_layout(
    #title='Distribución de segmentos',
    yaxis=dict(
        title='Segmento', # Título del eje y
        #gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        #gridwidth=1,
    ),
    legend_title="Clase",
        barmode='stack',
        legend=dict(
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
        ),
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico      
    xaxis=dict(
        title='Porcentaje', # Título del eje x
        gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        gridwidth=1,
    ),  
        margin=dict(l=10, r=10, t=10, b=10)  # Ajusta los márgenes (left, right, top, bottom)

)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
guardar_grafico_como_html(fig, 'g_bar_distsegmentos_pachuca', carpeta='graficas')

fig.show()

## **TULANCINGO**

In [28]:
seg_jul_2022_tulgo = df_alfa_q_jul_2022_tulancingo[['categoria']]
seg_jul_2023_tulgo = df_alfa_q_jul_2023_tulancingo[['categoria']]
seg_jun_2023_tulgo = df_alfa_q_jun_2023_tulancingo[['categoria']]
seg_mar_2023_tulgo = df_alfa_q_mar_2023_tulancingo[['categoria']]
seg_may_2022_tulgo = df_alfa_q_may_2022_tulancingo[['categoria']]
seg_may_2023_tulgo = df_alfa_q_may_2023_tulancingo[['categoria']]
seg_oct_2022_tulgo = df_alfa_q_oct_2022_tulancingo[['categoria']]
seg_oct_2023_tulgo = df_alfa_q_oct_2023_tulancingo[['categoria']]
seg_sep_2023_tulgo = df_alfa_q_sep_2023_tulancingo[['categoria']]

In [29]:
dataframes_list = [
    seg_jul_2022_tulgo,
    seg_jul_2023_tulgo,
    seg_jun_2023_tulgo,
    seg_mar_2023_tulgo,
    seg_may_2022_tulgo,
    seg_may_2023_tulgo,
    seg_oct_2022_tulgo,
    seg_oct_2023_tulgo,
    seg_sep_2023_tulgo
]
conteo_total = {}

# Iterar sobre la lista de DataFrames
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['categoria'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['categoria', 'conteo_total'])
conteo_total_df

Unnamed: 0,categoria,conteo_total
0,C2,75
1,D2,125
2,D3,169
3,E1,144
4,D1,87
5,C3,68
6,B3,23
7,B1,30
8,A2,20
9,S,97


In [30]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['categoria'].str[0]
conteo_total_df['clase'] = conteo_total_df['categoria'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['categoria'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs

Unnamed: 0,conteo_total,segmento,clase
0,75,C,2
1,125,D,2
2,169,D,3
3,144,E,1
4,87,D,1
5,68,C,3
6,23,B,3
7,30,B,1
8,20,A,2
9,97,S,1


In [31]:
#segmentos_dist = conteo_total_df.groupby(['segmento', 'clase']) # Agrupar
segmentos_dist = conteo_total_dfs.groupby(['segmento', 'clase'])['conteo_total'].sum()
segmentos_dist

segmento  clase
A         1         17
          2         20
          3         21
B         1         30
          2         22
          3         23
C         1         35
          2         75
          3         68
D         1         87
          2        125
          3        169
E         1        144
          2         18
          3          0
S         1         97
Name: conteo_total, dtype: int64

Totales de registros por segmento

In [32]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  951


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,58,6.098843
1,B,75,7.886435
2,C,178,18.71714
3,D,381,40.063091
4,E,162,17.0347
5,S,97,10.19979


Porcentajes de clase por segmento

In [33]:
#Obtener el total de registros por segmento y clase
total_segmento = conteo_total_df.groupby('segmento')['conteo_total'].sum()
#Calcular los porcentajes
segmentos_percent = conteo_total_df.merge(total_segmento, on='segmento', suffixes=('', '_total'))
segmentos_percent['porcentaje'] = segmentos_percent['conteo_total'] / segmentos_percent['conteo_total_total'] * 100
#Seleccionar las columnas necesarias y eliminar las columnas auxiliares
segmentos_percent = segmentos_percent[['segmento', 'clase', 'porcentaje']]
segmentos_percent

Unnamed: 0,segmento,clase,porcentaje
0,C,2,42.134831
1,C,3,38.202247
2,C,1,19.662921
3,D,2,32.808399
4,D,3,44.356955
5,D,1,22.834646
6,E,1,88.888889
7,E,2,11.111111
8,B,3,30.666667
9,B,1,40.0


Porcentaje de cada clase en relación al % que representa su segmento del total.

In [34]:
temp_dfs = [] # Almacenar los DataFrames temporales de cada segmento
# Realizamos un bucle sobre cada segmento
for segmento in resultados['segmento'].unique():
    # Filtramos las clases correspondientes al segmento actual
    clases_segmento = segmentos_percent[segmentos_percent['segmento'] == segmento]
    
    # Calculamos el total de porcentaje del segmento actual
    total_porcentaje_segmento = resultados[resultados['segmento'] == segmento]['porcentaje_del_total'].iloc[0]
    
    # Calculamos el porcentaje que representa cada clase en relación al porcentaje del segmento
    porcentaje_clase = (clases_segmento['porcentaje'] / 100) * total_porcentaje_segmento
    
    # DataFrame temporal para el segmento actual
    temp_df = pd.DataFrame({
        'segmento': [segmento] * len(clases_segmento),
        'clase': clases_segmento['clase'].values,
        'porcentaje_clase': porcentaje_clase#.round()
    })
    
    # Agrega DataFrame temporal a la lista
    temp_dfs.append(temp_df)

# Concatena todos los DataFrames temporales en un solo DataFrame
porcentajes_clase = pd.concat(temp_dfs, ignore_index=True)
porcentajes_clase

Unnamed: 0,segmento,clase,porcentaje_clase
0,A,2,2.103049
1,A,3,2.208202
2,A,1,1.787592
3,B,3,2.418507
4,B,1,3.154574
5,B,2,2.313354
6,C,2,7.886435
7,C,3,7.150368
8,C,1,3.680336
9,D,2,13.144059


In [35]:
porcentajes_clase_ordenado = porcentajes_clase.pivot(index='segmento', columns='clase', values='porcentaje_clase')
porcentajes_clase_ordenado.fillna(0, inplace=True)
porcentajes_clase_ordenado

clase,1,2,3
segmento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.787592,2.103049,2.208202
B,3.154574,2.313354,2.418507
C,3.680336,7.886435,7.150368
D,9.148265,13.144059,17.770768
E,15.141956,1.892744,0.0
S,10.19979,0.0,0.0


### *Gráfica* 

In [36]:
# Mantener orden en barras
segmentos = list(porcentajes_clase_ordenado.index)
segmentos_sorted = ['E','D','C','B','A','S']  # Orden deseado
segmentos_sorted.extend([segmento for segmento in segmentos if segmento not in segmentos_sorted])  # Agregar los segmentos restantes
clases = porcentajes_clase_ordenado.columns # Clases como etiquetas de las series de datos
clases = ['1', '2', '3']  # Clases en el orden deseado
# Definir los colores por clase
colores = {
    '1': '#2962ff',
    '2': '#9500ff',
    '3': '#ff0059'
}
# Almacenar las barras de cada clase
barras = []
for clase in clases:
    barras.append(go.Bar(
        y=segmentos_sorted,  # Eje y: Segmentos
        x=porcentajes_clase_ordenado.loc[segmentos_sorted, clase],  # Eje x: Porcentajes de clase
        name=f'{clase}',  # Nombre de la serie de datos
        orientation='h',  # Orientación horizontal
        text=porcentajes_clase_ordenado.loc[segmentos_sorted, clase].apply(lambda x: f'{x:.2f}%'),  # Texto con los porcentajes
        textposition='auto',  # Posición automática del texto
        marker_color=colores[clase]   # Color de las barras
    ))
fig = go.Figure(data=barras)
fig.update_layout(
    #title='Distribución de segmentos',
    yaxis=dict(
        title='Segmento', # Título del eje y
        #gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        #gridwidth=1,
    ),
    legend_title="Clase",
        barmode='stack',
        legend=dict(
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
        ),
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico      
    xaxis=dict(
        title='Porcentaje', # Título del eje x
        gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        gridwidth=1,
    ),  
        margin=dict(l=10, r=10, t=10, b=10)  # Ajusta los márgenes (left, right, top, bottom)

)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
guardar_grafico_como_html(fig, 'g_bar_distriXsegmentos_tulgo', carpeta='graficas')

fig.show()

## **PUEBLA**

In [2]:
# CONTEO ÚNICO DE CATEGORÍAS

segment_df_feb_2024_puebla = df_feb_2024_puebla[['Category']]
segment_df_jul_2023_puebla = df_jul_2023_puebla[['Category']]
segment_df_mar_2024_puebla = df_mar_2024_puebla[['Category']]
segment_df_may_2024_puebla = df_may_2024_puebla[['Category']]
segment_df_sep_2023_puebla = df_sep_2023_puebla[['Category']]
#df_alfa_q_puebla

dataframes_list = [
    segment_df_jul_2023_puebla,
    segment_df_feb_2024_puebla,   
]
conteo_total = {}
for df in dataframes_list:
    # Calcular el conteo de valores únicos de 'categoria' en el DataFrame actual
    conteo_actual = df['Category'].value_counts().to_dict()
    # Agregar el conteo actual al conteo total
    for categoria, conteo in conteo_actual.items():
        conteo_total[categoria] = conteo_total.get(categoria, 0) + conteo

# Convertir el diccionario a un DataFrame
conteo_total_df = pd.DataFrame(list(conteo_total.items()), columns=['categoria', 'conteo_total'])
conteo_total_df

Unnamed: 0,categoria,conteo_total
0,S1,862
1,B2,373
2,D3,353
3,C1,348
4,S2,349
5,A1,321
6,A2,297
7,B3,307
8,D2,362
9,B1,321


In [3]:
# Añadir una nuevas columnas que extraigan el número y letra de la categoría
conteo_total_df['segmento'] = conteo_total_df['categoria'].str[0]
conteo_total_df['clase'] = conteo_total_df['categoria'].str.extract(r'(\d+)').fillna('1')
conteo_total_df.drop(columns=['categoria'], inplace=True)

# Añadir una nueva fila como un DataFrame
nueva_fila_df = pd.DataFrame({'conteo_total': [0], 'segmento': ['E'], 'clase': ['3']})
# Concatenar el DataFrame original con la nueva fila
conteo_total_dfs = pd.concat([conteo_total_df, nueva_fila_df], ignore_index=True)
conteo_total_dfs

Unnamed: 0,conteo_total,segmento,clase
0,862,S,1
1,373,B,2
2,353,D,3
3,348,C,1
4,349,S,2
5,321,A,1
6,297,A,2
7,307,B,3
8,362,D,2
9,321,B,1


In [4]:
#segmentos_dist = conteo_total_df.groupby(['segmento', 'clase']) # Agrupar
segmentos_dist = conteo_total_dfs.groupby(['segmento', 'clase'])['conteo_total'].sum()
segmentos_dist

segmento  clase
A         1        321
          2        297
          3        259
B         1        321
          2        373
          3        307
C         1        348
          2        313
          3        270
D         1        231
          2        362
          3        353
E         1        222
          2        466
          3        424
L         1        166
          2         59
          3         39
S         1        862
          2        349
          3        265
Name: conteo_total, dtype: int64

Totales de registros por segmento

In [5]:
# Calcular el total de registros por cada segmento, incluyendo todas sus categorías
total_por_segmento = conteo_total_dfs.groupby('segmento')['conteo_total'].sum() 
# Calcular el total de registros en todos los segmentos
total_registros_total = total_por_segmento.sum()
# Calcular el porcentaje que representa cada total de segmento con respecto al total de registros en todo el DataFrame
porcentaje_total_segmento = (total_por_segmento / total_registros_total) * 100
# DataFrame con los resultados
resultados = pd.DataFrame({
    'segmento': total_por_segmento.index,
    'total_por_segmento': total_por_segmento.values,
    'porcentaje_del_total': porcentaje_total_segmento.values
})

print("Total de registros: ",total_registros_total)
#porcentaje_del_total_porsegmentos
resultados

Total de registros:  6607


Unnamed: 0,segmento,total_por_segmento,porcentaje_del_total
0,A,877,13.273801
1,B,1001,15.150598
2,C,931,14.091115
3,D,946,14.318147
4,E,1112,16.830634
5,L,264,3.995762
6,S,1476,22.339942


Porcentajes de clase por segmento

In [6]:
#Obtener el total de registros por segmento y clase
total_segmento = conteo_total_df.groupby('segmento')['conteo_total'].sum()
#Calcular los porcentajes
segmentos_percent = conteo_total_df.merge(total_segmento, on='segmento', suffixes=('', '_total'))
segmentos_percent['porcentaje'] = segmentos_percent['conteo_total'] / segmentos_percent['conteo_total_total'] * 100
#Seleccionar las columnas necesarias y eliminar las columnas auxiliares
segmentos_percent = segmentos_percent[['segmento', 'clase', 'porcentaje']]
segmentos_percent

Unnamed: 0,segmento,clase,porcentaje
0,S,1,58.401084
1,S,2,23.644986
2,S,3,17.95393
3,B,2,37.262737
4,B,3,30.669331
5,B,1,32.067932
6,D,3,37.315011
7,D,2,38.266385
8,D,1,24.418605
9,C,1,37.379162


Porcentaje de cada clase en relación al % que representa su segmento del total.

In [7]:
temp_dfs = [] # Almacenar los DataFrames temporales de cada segmento
for segmento in resultados['segmento'].unique():
    # Filtramos las clases correspondientes al segmento actual
    clases_segmento = segmentos_percent[segmentos_percent['segmento'] == segmento]
    
    # Calculamos el total de porcentaje del segmento actual
    total_porcentaje_segmento = resultados[resultados['segmento'] == segmento]['porcentaje_del_total'].iloc[0]
    
    # Calculamos el porcentaje que representa cada clase en relación al porcentaje del segmento
    porcentaje_clase = (clases_segmento['porcentaje'] / 100) * total_porcentaje_segmento
    
    # DataFrame temporal para el segmento actual
    temp_df = pd.DataFrame({
        'segmento': [segmento] * len(clases_segmento),
        'clase': clases_segmento['clase'].values,
        'porcentaje_clase': porcentaje_clase#.round()
    })
    
    # Agrega DataFrame temporal a la lista
    temp_dfs.append(temp_df)

# Concatena todos los DataFrames temporales en un solo DataFrame
porcentajes_clase = pd.concat(temp_dfs, ignore_index=True)

# Agrupa por 'segmento' y 'clase' y suma los porcentajes en caso de duplicados
porcentajes_clase = porcentajes_clase.groupby(['segmento', 'clase'], as_index=False)['porcentaje_clase'].sum()

# Realiza el pivot
porcentajes_clase_ordenado = porcentajes_clase.pivot(index='segmento', columns='clase', values='porcentaje_clase')

# Rellena los valores faltantes con 0
porcentajes_clase_ordenado.fillna(0, inplace=True)

porcentajes_clase_ordenado

clase,1,2,3
segmento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,4.858483,4.495232,3.920085
B,4.858483,5.645527,4.646587
C,5.267141,4.7374,4.086575
D,3.496292,5.479037,5.342818
E,3.360073,7.053125,6.417436
L,2.512487,0.892992,0.590283
S,13.046769,5.282276,4.010898


### *Gráfica* 

In [8]:
# Mantener orden en barras
segmentos = list(porcentajes_clase_ordenado.index)
segmentos_sorted = ['E','D','C','B','A','S','L']  # Orden deseado
segmentos_sorted.extend([segmento for segmento in segmentos if segmento not in segmentos_sorted])  # Agregar los segmentos restantes
clases = porcentajes_clase_ordenado.columns # Clases como etiquetas de las series de datos
clases = ['1', '2', '3']  # Clases en el orden deseado
# Definir los colores por clase
colores = {
    '1': '#2962ff',
    '2': '#9500ff',
    '3': '#ff0059'
}
# Almacenar las barras de cada clase
barras = []
for clase in clases:
    barras.append(go.Bar(
        y=segmentos_sorted,  # Eje y: Segmentos
        x=porcentajes_clase_ordenado.loc[segmentos_sorted, clase],  # Eje x: Porcentajes de clase
        name=f'{clase}',  # Nombre de la serie de datos
        orientation='h',  # Orientación horizontal
        text=porcentajes_clase_ordenado.loc[segmentos_sorted, clase].apply(lambda x: f'{x:.2f}%'),  # Texto con los porcentajes
        textposition='auto',  # Posición automática del texto
        marker_color=colores[clase]   # Color de las barras
    ))
fig = go.Figure(data=barras)
fig.update_layout(
    #title='Distribución de segmentos',
    yaxis=dict(
        title='Segmento', # Título del eje y
    ),
    legend_title="Clase",
        barmode='stack',
        legend=dict(
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
        ),
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico      
    xaxis=dict(
        title='Porcentaje', # Título del eje x
        gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
        gridwidth=1,
    ),  
    margin=dict(l=10, r=10, t=10, b=10)  # Ajusta los márgenes (left, right, top, bottom)
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
guardar_grafico_como_html(fig, 'g_bar_distriXsegmentos_pueb', carpeta='graficas')

fig.show()

## QUERETARO