# ***2. Tiempo estimado de venta***

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

## Importación de datos

In [2]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

### *Creación de los df por cada archivo json*

In [3]:
dataframes = {}
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [4]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres, solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_sep_2023_pachuca', 'df_enero_2024_querertaro', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2023_pachuca', 'df_grupos_edad_pachuca', 'df_grupos_edad_queretaro', 'df_junio_2023_queretaro', 'df_salarios_pachuca', 'df_usuarios']


_________
# *Tiempo estimado de venta: Meses de antigüedad*
### Selección de datos

In [5]:
# Crea los DataFrames para cada archivo con las columnas necesarias
time_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria','antiguedad']]

### Conteo único de coincidencias con la antigüedad

In [6]:
def procesar_dataframes(dataframes_list):
    for i, df in enumerate(dataframes_list):
        #df = df.copy()  # Hacer una copia explícita del DataFrame
        # Crear una nueva columna con la primera letra de la categoría
        df['segmento'] = df['categoria'].str[0]
        df.drop(columns=['categoria'], inplace=True)        
        df['antiguedad'] = df['antiguedad'].clip(upper=13) # Limitar los valores de 'antiguedad' a un máximo de 13
        
        # Agrupar y contar los datos
        tabla = df.groupby(['segmento', 'antiguedad']).size().unstack(fill_value=0)
        
        # Imprimir el nombre del DataFrame y la tabla resultante
        print(f"Nombre del DataFrame: {dataframes_names[i]}")
        print(tabla)

# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

dataframes_names = [
    'time_df_alfa_q_oct_2022_pachuca',
    'time_df_alfa_q_nov_2022_pachuca',
    'time_df_alfa_q_feb_2023_pachuca',
    'time_df_alfa_q_mar_2023_pachuca',
    'time_df_alfa_q_jun_2023_pachuca',
]

# Procesar los DataFrames de la lista
procesar_dataframes(dataframes_list)

Nombre del DataFrame: time_df_alfa_q_oct_2022_pachuca
antiguedad   0   1   2   3   4   5   6   7   8   9   10  11  12  13
segmento                                                           
A           159  10   5   3   6   1   1   1   0   1   2   2   3  10
B           293  34  25   3   3   4   2   4   0   0   2   0   2   5
C           214  14  17   6   3   7   1   6   1   1   6   0   7  22
D           233  21  23   9   4   4   3   6   1   2   8   1   3  33
E            51   6   2   0   0   0   0   0   0   0   0   0   2   7
S           250  20  12  12   8   6   6   6   2   4  11   0  10  30
Nombre del DataFrame: time_df_alfa_q_nov_2022_pachuca
antiguedad   0   1   2   3   4   5   6   7   8   9   10  11  12  13
segmento                                                           
A           186  10   5   3   6   1   1   1   0   1   2   4   3  11
B           327  35  33   3   5   5   2   7   0   0   2   0   3   5
C           241  16  19   7   3   9   2   8   1   1   7   0   7  33
D       

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop(columns=['categoria'], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad'] = df['antiguedad'].clip(upper=13) # Limitar los valores de 'antiguedad' a un máximo de 13
A value is trying to be set on a copy of a slice from a DataFrame.
Try

In [7]:
# Crear una nueva función para sumar las tablas de todos los DataFrames
def sumar_tablas(dataframes_list):
    # Inicializar una tabla vacía para almacenar la suma
    tabla_suma = None
    
    # Iterar sobre cada DataFrame en la lista
    for df in dataframes_list:
        # Agrupar y contar los datos en el DataFrame actual
        tabla_actual = df.groupby(['segmento', 'antiguedad']).size().unstack(fill_value=0)
        
        # Sumar la tabla actual al acumulador (tabla_suma)
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    # Imprimir la tabla resultante de la suma
    print("Tabla general de frecuencia:")
    print(tabla_suma)

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
sumar_tablas(dataframes_list)

Tabla general de frecuencia:
antiguedad    0    1   2   3   4   5   6   7   8   9   10  11  12   13
segmento                                                              
A            799   64  24  16  19  28   7  13  10   7  15  12   8   50
B           1438  128  75  33  18  41  10  19  19   1  25   3   8   53
C           1036   84  51  36  13  38  13  18   8   4  35   2  18  114
D           1109  107  70  39  23  28  15  27  14   9  39   8  17  156
E            197   19   5   1   0   3   1   1   4   0  12   1  10   32
S           1174   98  55  60  34  44  21  18  27  13  48   9  27  152


_____
### **Gráfica de segmentos**

In [8]:
def sumar_tablas(dataframes_list):
    tabla_suma = None
    
    for df in dataframes_list:
        tabla_actual = df.groupby(['segmento', 'antiguedad']).size().unstack(fill_value=0)
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    fig = graficar_tabla(tabla_suma)
    
    # Para guardar la gráfica como archivo HTML
    guardar_grafico_como_html(fig, 'g_bar_tiempoventa_seg_pachuca', carpeta='graficas')
    
    return fig

def graficar_tabla(tabla):
    segmentos = tabla.index
    tiempo = tabla.columns
    
    fig = go.Figure()
    
    for segmento in segmentos:
        fig.add_trace(go.Bar(
            x=tiempo,
            y=tabla.loc[segmento],
            name=segmento
        ))
    
    fig.update_layout(
        title="Meses de antigüedad",
        #xaxis_title="Número de baños",
        yaxis_title="Número de casas"
    )
    
    fig.show()    
    return fig

def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Guardar la gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    #pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png')

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
fig = sumar_tablas(dataframes_list)


Tabla general de frecuencia:
antiguedad    0    1   2   3   4   5   6   7   8   9   10  11  12   13
segmento                                                              
A            799   64  24  16  19  28   7  13  10   7  15  12   8   50
B           1438  128  75  33  18  41  10  19  19   1  25   3   8   53
C           1036   84  51  36  13  38  13  18   8   4  35   2  18  114
D           1109  107  70  39  23  28  15  27  14   9  39   8  17  156
E            197   19   5   1   0   3   1   1   4   0  12   1  10   32
S           1174   98  55  60  34  44  21  18  27  13  48   9  27  152
