# ***2. Tiempo estimado de venta***

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

## Importación de datos

In [2]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

### *Creación de los df por cada archivo json*

In [3]:
dataframes = {}
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [4]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres, solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_sep_2023_pachuca', 'df_enero_2024_querertaro', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2023_pachuca', 'df_grupos_edad_pachuca', 'df_grupos_edad_queretaro', 'df_junio_2023_queretaro', 'df_salarios_pachuca', 'df_usuarios']


_________
# *Tiempo estimado de venta: Meses de antigüedad*
### Selección de datos

In [5]:
# Crea los DataFrames para cada archivo con las columnas necesarias
time_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria','antiguedad']]

## Categorización de valores por rango.
### 0	1	2	3	4	5	6-15	16-30	>=31

In [10]:
def categorizar_antiguedad_oct_nov_2022(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 250:
        return '[16-30]'
    else:
        return '[>=31]'

def categorizar_antiguedad_feb_mar_jun_2023(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 30:
        return '[16-30]'
    else:
        return '[>=31]'

# Categorizar para OCT_2022 y NOV_2022
dataframes_list_oct_nov_2022 = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
]

for df in dataframes_list_oct_nov_2022:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_oct_nov_2022)
    print(df)

# Categorizar para FEB_2023, MAR_2023 y JUN_2023
dataframes_list_feb_mar_jun_2023 = [
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

for df in dataframes_list_feb_mar_jun_2023:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_feb_mar_jun_2023)
    print(df)

        id categoria  antiguedad antiguedad_categoria
0        1        E1           0                  [0]
1        2        E1           0                  [0]
2        3        E1           0                  [0]
3        4        D3           0                  [0]
4        5        E2           0                  [0]
...    ...       ...         ...                  ...
1677  1678         S           0                  [0]
1678  1679        C2           0                  [0]
1679  1680         S           0                  [0]
1680  1681         S           0                  [0]
1681  1682         S           0                  [0]

[1682 rows x 4 columns]
        id categoria  antiguedad antiguedad_categoria
0        1        E1           0                  [0]
1        2        E1           0                  [0]
2        3        E1           0                  [0]
3        4        E1           0                  [0]
4        5        D3           0                  [0]
...

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_oct_nov_2022)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_oct_nov_2022)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad_categoria'] 

dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
]

def categorizar_antiguedad(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 250:
        return '[16-30]'
    else:
        return '[>=31]'

for df in dataframes_list:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad)
    print(df)

dataframes_list = [
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

def categorizar_antiguedad(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 30:
        return '[16-30]'
    else:
        return '[>=31]'

for df in dataframes_list:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad)
    print(df)

def categorizar_antiguedad(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 30:
        return '[16-30]'
    else:
        return '[>=31]'

#Aplicar la función a la columna 'antiguedad' del DataFrame
df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad)

#Verificar el resultado
print(df)

In [15]:
oct_22 = time_df_alfa_q_oct_2022_pachuca['antiguedad'].unique()
nov_22 = time_df_alfa_q_nov_2022_pachuca['antiguedad'].unique()
feb_23 = time_df_alfa_q_feb_2023_pachuca['antiguedad'].unique()
mar_23 = time_df_alfa_q_mar_2023_pachuca['antiguedad'].unique()
jun_23 = time_df_alfa_q_jun_2023_pachuca['antiguedad'].unique()
print(oct_22)
print(nov_22)
print(feb_23)
print(mar_23)
print(jun_23)

[  0  22  19  15  12   1  10   2   9   5  32  25  17   6  20   8  18   7
   3  27   4  50  11  29  14  16  37  21  13  42  31  60  33 122  34  30
  28  45  72  24]
[  0  22  19  15  12   1  10   2   9   5  25  18  20  17  27   4   7   3
   6   8  32  50  29  11  16  14  37  21  13  42  31  60 122  33  34  30
  28  45  72  24]
[   0   10 2010   12   18    1    5    3    6   20  422    4   14   15
    7    8    9   13   16   30    2   25   17   19   21   29   11   33
   40   23   27   22   60]
[   0   10    5    6    1   25   50   42   12    8   14   20    2    9
    4   15    3 2003   16 2020    7   11   13   19   22   21   33   30
   18   17   23   60   28   40   27   45   24]
[       0       12       30       10       25       26        3       50
       11       42       23       13        5        1        8        4
        2       15        6       14        7       20       16        9
       18       27      423       38       17       19 20210401       28
       22       33    

In [13]:
time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'] = time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'].replace({
    '[0]':'11', 
    '[1]':'12', 
    '[2]':'13', 
    '[3]':'13', 
    '[4]':'13',
    '[5]':'13', 
    '[6-15]':'13', 
    '[16-30]':'13', 
    '[>=31]':'13'
})

time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'] = time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'].replace({
    '[0]':'10', 
    '[1]':'11', 
    '[2]':'12', 
    '[3]':'13', 
    '[4]':'13',
    '[5]':'13', 
    '[6-15]':'13',
    '[16-30]':'13',
    '[>=31]':'13',
})

time_df_alfa_q_mar_2023_pachuca['antiguedad_categoria'] = time_df_alfa_q_mar_2023_pachuca['antiguedad_categoria'].replace({
    '[0]':'8', 
    '[1]':'9', 
    '[2]':'10', 
    '[3]':'11', 
    '[4]':'12',
    '[5]':'13',
    '[6-15]':'13',
    '[16-30]':'13', 
    '[>=31]':'13',
})

time_df_alfa_q_feb_2023_pachuca['antiguedad_categoria'] = time_df_alfa_q_feb_2023_pachuca['antiguedad_categoria'].replace({
    '[0]':'9', 
    '[1]':'10',
    '[2]':'11',
    '[3]':'12',
    '[4]':'13',
    '[5]':'13',
    '[6-15]':'13',
    '[16-30]':'13',
    '[>=31]':'13',
})


time_df_alfa_q_jun_2023_pachuca['antiguedad_categoria'] = time_df_alfa_q_jun_2023_pachuca['antiguedad_categoria'].replace({
    '[0]':'7', 
    '[1]':'8', 
    '[2]':'9', 
    '[3]':'10', 
    '[4]':'11',
    '[5]':'12', 
    '[6-15]':'13',
    '[16-30]':'13',
    '[>=31]':'13',
})


Unnamed: 0,id,categoria,antiguedad,antiguedad_categoria
0,1,E1,0,[0]
1,2,E1,0,[0]
2,3,E1,0,[0]
3,4,D3,0,[0]
4,5,E2,0,[0]
...,...,...,...,...
1677,1678,S,0,[0]
1678,1679,C2,0,[0]
1679,1680,S,0,[0]
1680,1681,S,0,[0]


### Conteo único de coincidencias con la antigüedad

In [None]:
# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

tabla_suma = None
# Iterar sobre cada DataFrame en la lista
for df in dataframes_list:
    # Crear una nueva columna con la primera letra de la categoría
    df['segmento'] = df['categoria'].str[0]
    df.drop(columns=['categoria'], inplace=True)        
    # Agrupar y contar los datos
    tabla_actual = df.groupby(['segmento', 'antiguedad_categoria']).size().unstack(fill_value=0)
    
    # Sumar la tabla actual al acumulador (tabla_suma)
    if tabla_suma is None:
        tabla_suma = tabla_actual
    else:
        tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)

# Imprimir la tabla acumulativa
print(tabla_suma)

In [11]:
def procesar_dataframes(dataframes_list, dataframes_names):
    processed_dataframes = {}  # Usamos un diccionario en lugar de una lista
    for i, df in enumerate(dataframes_list):
        # Hacer una copia explícita del DataFrame
        df = df.copy()
        # Crear una nueva columna con la primera letra de la categoría
        df['segmento'] = df['categoria'].str[0]
        df.drop(columns=['categoria'], inplace=True)        
        # Agrupar y contar los datos
        tabla = df.groupby(['segmento', 'antiguedad_categoria']).size().unstack(fill_value=0)
        # Guardar el DataFrame procesado en el diccionario usando el nombre correspondiente
        if i < len(dataframes_names):
            processed_dataframes[dataframes_names[i]] = tabla
    return processed_dataframes

# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

dataframes_names = [
    'time_df_alfa_q_oct_2022_pachuca',
    'time_df_alfa_q_nov_2022_pachuca',
    'time_df_alfa_q_feb_2023_pachuca',
    'time_df_alfa_q_mar_2023_pachuca',
    'time_df_alfa_q_jun_2023_pachuca',
]

processed_dataframes = procesar_dataframes(dataframes_list, dataframes_names)

# Acceder a los DataFrames procesados por sus nombres
for name, dataframe in processed_dataframes.items():
    print(f"Nombre del DataFrame: {name}")
    print(dataframe)

Nombre del DataFrame: time_df_alfa_q_oct_2022_pachuca
antiguedad_categoria  [0]  [16-30]  [1]  [2]  [3]  [4]  [5]  [6-15]
segmento                                                           
A                     159        5   10    5    3    6    1      15
B                     293        2   34   25    3    3    4      13
C                     214       17   14   17    6    3    7      27
D                     233       26   21   23    9    4    4      31
E                      51        4    6    2    0    0    0       5
S                     250       24   20   12   12    8    6      45
Nombre del DataFrame: time_df_alfa_q_nov_2022_pachuca
antiguedad_categoria  [0]  [16-30]  [1]  [2]  [3]  [4]  [5]  [6-15]
segmento                                                           
A                     186        5   10    5    3    6    1      18
B                     327        2   35   33    3    5    5      17
C                     241       22   16   19    7    3    9      37
D       

In [12]:
# Crear una nueva función para sumar las tablas de todos los DataFrames
def sumar_tablas(dataframes_list):
    # Inicializar una tabla vacía para almacenar la suma
    tabla_suma = None
    
    # Iterar sobre cada DataFrame en la lista
    for df in dataframes_list:
        # Agrupar y contar los datos en el DataFrame actual
        tabla_actual = df.groupby(['segmento', 'antiguedad_categoria']).size().unstack(fill_value=0)
        
        # Sumar la tabla actual al acumulador (tabla_suma)
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    # Imprimir la tabla resultante de la suma
    print("Tabla general de frecuencia:")
    print(tabla_suma)

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
sumar_tablas(dataframes_list)

KeyError: 'segmento'

_____
### **Gráfica de segmentos**

In [8]:
def sumar_tablas(dataframes_list):
    tabla_suma = None
    
    for df in dataframes_list:
        tabla_actual = df.groupby(['segmento', 'antiguedad']).size().unstack(fill_value=0)
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    fig = graficar_tabla(tabla_suma)
    
    # Para guardar la gráfica como archivo HTML
    guardar_grafico_como_html(fig, 'g_bar_tiempoventa_seg_pachuca', carpeta='graficas')
    
    return fig

def graficar_tabla(tabla):
    segmentos = tabla.index
    tiempo = tabla.columns
    
    fig = go.Figure()
    
    for segmento in segmentos:
        fig.add_trace(go.Bar(
            x=tiempo,
            y=tabla.loc[segmento],
            name=segmento
        ))
    
    fig.update_layout(
        title="Meses de antigüedad",
        #xaxis_title="Número de baños",
        yaxis_title="Número de casas"
    )
    
    fig.show()    
    return fig

def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Guardar la gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')
    #pio.write_html(fig, f'{carpeta}/{nombre_archivo}.png')

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
fig = sumar_tablas(dataframes_list)


Tabla general de frecuencia:
antiguedad    0    1   2   3   4   5   6   7   8   9   10  11  12   13
segmento                                                              
A            799   64  24  16  19  28   7  13  10   7  15  12   8   50
B           1438  128  75  33  18  41  10  19  19   1  25   3   8   53
C           1036   84  51  36  13  38  13  18   8   4  35   2  18  114
D           1109  107  70  39  23  28  15  27  14   9  39   8  17  156
E            197   19   5   1   0   3   1   1   4   0  12   1  10   32
S           1174   98  55  60  34  44  21  18  27  13  48   9  27  152
