# **PLOTLY GRÁFICAS**

In [2]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df

# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# *Data import*

In [3]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
# Imprimir la ruta relativa
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

### *Creación de los df por cada archivo json*

In [4]:
# Crear un diccionario para almacenar los DataFrames
dataframes = {}
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [5]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres para obtener solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Imprimir la lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)


Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_sep_2023_pachuca', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2023_pachuca', 'df_grupos_edad_pachuca', 'df_usuarios']


________
# ***BAÑOS***
# CONSULTAS
### Creación de tablas a usar

- alfa_q_nov_2022_pachuca
- alfa_q_feb_2023_pachuca
- alfa_q_mar_2023_pachuca
- alfa_q_jun_2023_pachuca
- alfa_q_jul_2023_pachuca

In [6]:
# Crea los DataFrames para cada archivo con las columnas necesarias
baños_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria', 'baño_total']]
baños_df_alfa_q_jul_2023_pachuca = df_alfa_q_jul_2023_pachuca[['id','categoria', 'baño_total']]

### Tablas de frecuencia
 Recuento de filas para cada combinación de valores únicos de 'segmento' y 'baño_total' en todos los DataFrame 

In [7]:
def procesar_dataframes(dataframes_list):
    for i, df in enumerate(dataframes_list):
        # Crear una nueva columna con la primera letra de la categoría
        df['segmento'] = df['categoria'].str[0]
        df.drop(columns=['categoria'], inplace=True)        
        df['baño_total'] = df['baño_total'].clip(upper=8) # Limitar los valores de 'baño_total' a un máximo de 8
        
        # Agrupar y contar los datos
        tabla = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        # Imprimir el nombre del DataFrame y la tabla resultante
        print(f"Nombre del DataFrame: {dataframes_names[i]}")
        print(tabla)

# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    baños_df_alfa_q_oct_2022_pachuca,
    baños_df_alfa_q_nov_2022_pachuca,
    baños_df_alfa_q_feb_2023_pachuca,
    baños_df_alfa_q_mar_2023_pachuca,
    baños_df_alfa_q_jun_2023_pachuca,
    baños_df_alfa_q_jul_2023_pachuca
]

dataframes_names = [
    'baños_df_alfa_q_oct_2022_pachuca',
    'baños_df_alfa_q_nov_2022_pachuca',
    'baños_df_alfa_q_feb_2023_pachuca',
    'baños_df_alfa_q_mar_2023_pachuca',
    'baños_df_alfa_q_jun_2023_pachuca',
    'baños_df_alfa_q_jul_2023_pachuca'
]

# Procesar los DataFrames de la lista
procesar_dataframes(dataframes_list)


Nombre del DataFrame: baños_df_alfa_q_oct_2022_pachuca
baño_total  0    1    2    3    4   5   6   7   8
segmento                                         
A           0    2   27   55   61  33  18   6   2
B           0   11   77  147  106  28   5   2   1
C           0   16  123  126   31   7   1   1   0
D           1  124  151   64   10   1   0   0   0
E           0   52    9    6    1   0   0   0   0
S           0    2   39   79  117  80  40  10  10
Nombre del DataFrame: baños_df_alfa_q_nov_2022_pachuca
baño_total  0    1    2    3    4   5   6  7  8
segmento                                       
A           0    3   25   64   76  37  19  8  2
B           0   10   90  167  118  34   5  2  1
C           0   17  143  142   41   8   2  1  0
D           1  152  179   76   11   1   1  0  0
E           0   66   14    8    1   0   0  0  0
S           0    2   45   84  130  84  41  7  9
Nombre del DataFrame: baños_df_alfa_q_feb_2023_pachuca
baño_total  0   1   2    3   4   5  6  7
segmento  

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop(columns=['categoria'], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['baño_total'] = df['baño_total'].clip(upper=8) # Limitar los valores de 'baño_total' a un máximo de 8
A value is trying to be set on a copy of a slice from a DataFrame.
Try u

### Tabla general de frecuencia
 Recuento total de filas para cada combinación de valores únicos de 'segmento' y 'baño_total' con todos los DataFrame 

In [8]:
# Crear una nueva función para sumar las tablas de todos los DataFrames
def sumar_tablas(dataframes_list):
    # Inicializar una tabla vacía para almacenar la suma
    tabla_suma = None
    
    # Iterar sobre cada DataFrame en la lista
    for df in dataframes_list:
        # Agrupar y contar los datos en el DataFrame actual
        tabla_actual = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        # Sumar la tabla actual al acumulador (tabla_suma)
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    # Imprimir la tabla resultante de la suma
    print("Tabla general de frecuencia:")
    print(tabla_suma)

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
sumar_tablas(dataframes_list)

Tabla general de frecuencia:
baño_total    0    1    2    3    4    5    6     7     8
segmento                                                 
A           4.0   27  189  297  314  191   58  18.0   4.0
B           4.0   79  452  710  486  140   21   8.0   2.0
C           3.0  105  530  679  145   26    5   4.0   1.0
D           7.0  564  719  336   46    7    3   0.0   1.0
E           0.0  185   63   28   19    1    0   0.0   0.0
S           3.0   46  225  385  560  399  152  29.0  25.0


### *PLOTLY GRÁFICA*

def sumar_tablas(dataframes_list):
    # Inicializar una tabla vacía para almacenar la suma
    tabla_suma = None
    
    # Iterar sobre cada DataFrame en la lista
    for df in dataframes_list:
        # Agrupar y contar los datos en el DataFrame actual
        tabla_actual = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        # Sumar la tabla actual al acumulador (tabla_suma)
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    # Imprimir la tabla resultante de la suma
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    # Llamar a la función para graficar la tabla resultante
    graficar_tabla(tabla_suma)

def graficar_tabla(tabla):
    # Obtener los nombres de los segmentos y los números de baños
    segmentos = tabla.index
    banos = tabla.columns
    
    # Crear la figura de la gráfica
    fig = go.Figure()
    
    # Iterar sobre cada segmento para agregar las barras correspondientes
    for segmento in segmentos:
        fig.add_trace(go.Bar(
            x=banos,
            y=tabla.loc[segmento],
            name=segmento
        ))
    
    # Actualizar el diseño de la gráfica
    fig.update_layout(
        title="Tabla general de frecuencia",
        xaxis_title="Número de baños",
        #yaxis_title="Número de casas",
        #barmode='stack'  # Apilar las barras una sobre otra
    )
    
    # Mostrar la gráfica
    fig.show()
    return fig

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
sumar_tablas(dataframes_list)

In [9]:
def sumar_tablas(dataframes_list):
    tabla_suma = None
    
    for df in dataframes_list:
        tabla_actual = df.groupby(['segmento', 'baño_total']).size().unstack(fill_value=0)
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    fig = graficar_tabla(tabla_suma)
    
    # Guardar la gráfica como archivo HTML
    guardar_grafico_como_html(fig, 'grafica_barras_baños_pachuca', carpeta='graficas')
    
    return fig

def graficar_tabla(tabla):
    segmentos = tabla.index
    banos = tabla.columns
    
    fig = go.Figure()
    
    for segmento in segmentos:
        fig.add_trace(go.Bar(
            x=banos,
            y=tabla.loc[segmento],
            name=segmento
        ))
    
    fig.update_layout(
        #title="Tabla general de frecuencia",
        xaxis_title="Número de baños",
        yaxis_title="Número de casas"
    )
    
    fig.show()    
    return fig

def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Guardar la gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png')

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
fig = sumar_tablas(dataframes_list)


Tabla general de frecuencia:
baño_total    0    1    2    3    4    5    6     7     8
segmento                                                 
A           4.0   27  189  297  314  191   58  18.0   4.0
B           4.0   79  452  710  486  140   21   8.0   2.0
C           3.0  105  530  679  145   26    5   4.0   1.0
D           7.0  564  719  336   46    7    3   0.0   1.0
E           0.0  185   63   28   19    1    0   0.0   0.0
S           3.0   46  225  385  560  399  152  29.0  25.0


#Función para guardar el gráfico como archivo HTML en la carpeta deseada
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='gráficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
#Generar el nombre completo del archivo HTML
    ruta_archivo = os.path.join(carpeta, nombre_archivo + '.html')
    
Guardar el gráfico como archivo HTML
    pio.write_html(fig, ruta_archivo)
    
print(f"Gráfico guardado como '{ruta_archivo}'")

#Llamar a la función para guardar el gráfico como archivo HTML
guardar_grafico_como_html(figura, 'grafico_barras_baños')
