# **PLOTLY GRÁFICAS "BAÑOS"**

In [16]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# *Data import*

In [2]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

### *Creación de los df por cada archivo json*

In [3]:
dataframes = {} # Crear un diccionario para almacenar los DataFrames
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [4]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres para obtener solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Imprimir la lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_sep_2023_pachuca', 'df_enero_2024_querertaro', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2023_pachuca', 'df_grupos_edad_pachuca', 'df_grupos_edad_queretaro', 'df_junio_2023_queretaro', 'df_salarios_pachuca', 'df_usuarios']


________
# ***BAÑOS***
# CONSULTAS
### Creación de tablas a usar

- alfa_q_nov_2022_pachuca
- alfa_q_feb_2023_pachuca
- alfa_q_mar_2023_pachuca
- alfa_q_jun_2023_pachuca
- alfa_q_jul_2023_pachuca

In [5]:
# Crea los DataFrames para cada archivo con las columnas necesarias
baños_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_jul_2023_pachuca = df_alfa_q_jul_2023_pachuca[['id','categoria', 'baño_total']]

## **Segmentos**
### Tablas de frecuencia
 Recuento de filas para cada combinación de valores únicos de 'segmento' y 'baño_total' en todos los DataFrame 

In [6]:
def procesar_dataframes(dataframes_list):
    for i, df in enumerate(dataframes_list):
        #df = df.copy()  # Hacer una copia explícita del DataFrame
        # Crear una nueva columna con la primera letra de la categoría
        df['segmento'] = df['categoria'].str[0]
        df.drop(columns=['categoria'], inplace=True)        
        df['baño_total'] = df['baño_total'].clip(upper=8) # Limitar los valores de 'baño_total' a un máximo de 8
        
        # Agrupar y contar los datos
        tabla = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        # Imprimir el nombre del DataFrame y la tabla resultante
        print(f"Nombre del DataFrame: {dataframes_names[i]}")
        print(tabla)

# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    baños_df_alfa_q_oct_2022_pachuca,
    baños_df_alfa_q_nov_2022_pachuca,
    baños_df_alfa_q_feb_2023_pachuca,
    baños_df_alfa_q_mar_2023_pachuca,
    baños_df_alfa_q_jun_2023_pachuca,
    baños_df_alfa_q_jul_2023_pachuca
]

dataframes_names = [
    'baños_df_alfa_q_oct_2022_pachuca',
    'baños_df_alfa_q_nov_2022_pachuca',
    'baños_df_alfa_q_feb_2023_pachuca',
    'baños_df_alfa_q_mar_2023_pachuca',
    'baños_df_alfa_q_jun_2023_pachuca',
    'baños_df_alfa_q_jul_2023_pachuca'
]

# Procesar los DataFrames de la lista
procesar_dataframes(dataframes_list)


Nombre del DataFrame: baños_df_alfa_q_oct_2022_pachuca
baño_total  0    1    2    3    4   5   6   7   8
segmento                                         
A           0    2   27   55   61  33  18   6   2
B           0   11   77  147  106  28   5   2   1
C           0   16  123  126   31   7   1   1   0
D           1  124  151   64   10   1   0   0   0
E           0   52    9    6    1   0   0   0   0
S           0    2   39   79  117  80  40  10  10
Nombre del DataFrame: baños_df_alfa_q_nov_2022_pachuca
baño_total  0    1    2    3    4   5   6  7  8
segmento                                       
A           0    3   25   64   76  37  19  8  2
B           0   10   90  167  118  34   5  2  1
C           0   17  143  142   41   8   2  1  0
D           1  152  179   76   11   1   1  0  0
E           0   66   14    8    1   0   0  0  0
S           0    2   45   84  130  84  41  7  9
Nombre del DataFrame: baños_df_alfa_q_feb_2023_pachuca
baño_total  0   1   2    3   4   5  6  7
segmento  

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop(columns=['categoria'], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['baño_total'] = df['baño_total'].clip(upper=8) # Limitar los valores de 'baño_total' a un máximo de 8
A value is trying to be set on a copy of a slice from a DataFrame.
Try u

### Tabla general de frecuencia
 Recuento total de filas para cada combinación de valores únicos de 'segmento' y 'baño_total' con todos los DataFrame 

In [7]:
# Crear una nueva función para sumar las tablas de todos los DataFrames
def sumar_tablas(dataframes_list):
    # Inicializar una tabla vacía para almacenar la suma
    tabla_suma = None
    
    # Iterar sobre cada DataFrame en la lista
    for df in dataframes_list:
        # Agrupar y contar los datos en el DataFrame actual
        tabla_actual = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        # Sumar la tabla actual al acumulador (tabla_suma)
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    # Imprimir la tabla resultante de la suma
    print("Tabla general de frecuencia:")
    print(tabla_suma)

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
sumar_tablas(dataframes_list)

Tabla general de frecuencia:
baño_total    0    1    2    3    4    5    6     7     8
segmento                                                 
A           4.0   27  189  297  314  191   58  18.0   4.0
B           4.0   79  452  710  486  140   21   8.0   2.0
C           3.0  105  530  679  145   26    5   4.0   1.0
D           7.0  564  719  336   46    7    3   0.0   1.0
E           0.0  185   63   28   19    1    0   0.0   0.0
S           3.0   46  225  385  560  399  152  29.0  25.0


### **PLOTLY GRÁFICA *"Numero de baños por segmento"***

In [8]:
def sumar_tablas(dataframes_list):
    tabla_suma = None
    for df in dataframes_list:
        tabla_actual = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    fig = graficar_tabla(tabla_suma)
    guardar_grafico_como_html(fig, 'g_bar_baños_pachuca', carpeta='graficas') # Para guardar la gráfica como archivo HTML
    return fig

def graficar_tabla(tabla):
    segmentos = tabla.index
    banos = tabla.columns
    
    fig = go.Figure()
    
    for segmento in segmentos:
        fig.add_trace(go.Bar(
            x=banos,
            y=tabla.loc[segmento],
            name=segmento
        ))
    
    fig.update_layout(
        #title="Tabla general de frecuencia",
        xaxis_title="Número de baños",        
        yaxis=dict(
            title='Número de casas',
            gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
            gridwidth=1,
        ),
        legend_title="Segmento",
        barmode='group',
        legend=dict(
            orientation='h',  # Orientación horizontal de la leyenda
            yanchor='bottom',  # Anclar al borde inferior
            y=1.02,  # Colocar la leyenda justo debajo del gráfico
            xanchor='right',
            x=1
        ),
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
    )    
    
    fig.show()    
    return fig

# Guardar la gráfica como archivo HTML en la carpeta especificada
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
fig = sumar_tablas(dataframes_list)


Tabla general de frecuencia:
baño_total    0    1    2    3    4    5    6     7     8
segmento                                                 
A           4.0   27  189  297  314  191   58  18.0   4.0
B           4.0   79  452  710  486  140   21   8.0   2.0
C           3.0  105  530  679  145   26    5   4.0   1.0
D           7.0  564  719  336   46    7    3   0.0   1.0
E           0.0  185   63   28   19    1    0   0.0   0.0
S           3.0   46  225  385  560  399  152  29.0  25.0


_________
## **Porcentajes**

In [8]:
def sumar_tablas(dataframes_list):
    tabla_suma = None
    
    for df in dataframes_list:
        tabla_actual = df.groupby('baño_total').size()
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    return tabla_suma

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
tabla_suma = sumar_tablas(dataframes_list)
print("Tabla general total de registros:")
print(tabla_suma)


Tabla general total de registros:
baño_total
0      21.0
1    1006.0
2    2178.0
3    2435.0
4    1570.0
5     764.0
6     239.0
7      59.0
8      33.0
dtype: float64


In [9]:
# Calcular el total de registros
total_registros = tabla_suma.sum()
# Calcular el porcentaje que representa cada número de baños único del total
porcentajes = (tabla_suma / total_registros) * 100

# Imprimir los porcentajes
print("Porcentaje de cada número de baños único en relación con el total de registros:", total_registros)
print(porcentajes)


Porcentaje de cada número de baños único en relación con el total de registros: 8305.0
baño_total
0     0.252860
1    12.113185
2    26.225166
3    29.319687
4    18.904275
5     9.199278
6     2.877784
7     0.710415
8     0.397351
dtype: float64


In [10]:
# Obtener los números de baños únicos ordenados
numeros_banos_unicos = sorted(porcentajes.index)
# Obtener los porcentajes correspondientes en el mismo orden que los números de baños
porcentajes_ordenados = porcentajes.loc[numeros_banos_unicos]
# Crear el gráfico de pastel
fig = go.Figure(data=[go.Pie(labels=porcentajes_ordenados.index, values=porcentajes_ordenados, sort=False)])
fig.update_layout(title="Número de baños")
# Mostrar el gráfico
fig.show()


In [17]:
# Función para sumar tablas
def sumar_tablas(dataframes_list):
    tabla_suma = None
    
    for df in dataframes_list:
        tabla_actual = df.groupby('baño_total').size()
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    return tabla_suma

# Función para calcular porcentajes
def calcular_porcentajes(tabla):
    # Calcular los porcentajes
    tabla_porcentajes = tabla / tabla.sum() * 100
    return tabla_porcentajes

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
tabla_suma = sumar_tablas(dataframes_list)
porcentajes = calcular_porcentajes(tabla_suma) # Calcular porcentajes

# Crear el gráfico de pastel
figURE = go.Figure(data=[go.Pie(labels=porcentajes.index, values=porcentajes, sort=False)])
figURE.update_layout(title="Número de baños",title_x=0.5,title_font_size=20)
figURE.update_traces(rotation=45)# Ángulo de inicio de las porciones del gráfico

# Exportar gráfica como archivo HTML y mostrar la figura
def guardar_grafico_como_html(figURE, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(figURE, f'{carpeta}/{nombre_archivo}.html')

# Exportar
guardar_grafico_como_html(figURE, 'g_pie_baños_pachuca', carpeta='graficas')

# Mostrar la figura
figURE.show()

### DE CADA DF

In [13]:
# Crea los DataFrames para cada archivo con las columnas necesarias
baños_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_jul_2023_pachuca = df_alfa_q_jul_2023_pachuca[['id','categoria', 'baño_total']]

In [14]:
def procesar_dataframes(dataframes_list):
     for i, df in enumerate(dataframes_list):
        df = df.copy()  # Hacer una copia explícita del DataFrame
        # Ordenar los datos por el número de baños de menor a mayor
        #df.sort_values(by='baño_total', inplace=True)
        df['baño_total'] = df['baño_total'].clip(upper=8) # Limitar los valores de 'baño_total' a un máximo de 8        
        # Calcular el porcentaje de registros para cada cantidad de baños totales
        counts = df['baño_total'].value_counts(normalize=True) * 100  
        # Obtener los números de baños únicos ordenados
        numeros_banos_unicos = sorted(counts.index)
        # Obtener los porcentajes correspondientes en el mismo orden que los números de baños
        porcentajes_ordenados = counts.loc[numeros_banos_unicos]           
        # GRÁFICAS 
        fig = go.Figure(data=[go.Pie(labels=porcentajes_ordenados.index, values=porcentajes_ordenados.values)]) # Crear la figura de pastel
        fig.update_layout(title=f"Porcentaje de baños totales: {dataframes_names[i]}") # Agregar título
        fig.show() # Mostrar la figura
  
# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    baños_df_alfa_q_oct_2022_pachuca,
    baños_df_alfa_q_nov_2022_pachuca,
    baños_df_alfa_q_feb_2023_pachuca,
    baños_df_alfa_q_mar_2023_pachuca,
    baños_df_alfa_q_jun_2023_pachuca,
    baños_df_alfa_q_jul_2023_pachuca
]

dataframes_names = [
    'baños_df_alfa_q_oct_2022_pachuca',
    'baños_df_alfa_q_nov_2022_pachuca',
    'baños_df_alfa_q_feb_2023_pachuca',
    'baños_df_alfa_q_mar_2023_pachuca',
    'baños_df_alfa_q_jun_2023_pachuca',
    'baños_df_alfa_q_jul_2023_pachuca'
]
# Procesar los DataFrames de la lista
procesar_dataframes(dataframes_list)