# ***2. Tiempo estimado de venta***

In [1]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

## Importación de datos

In [2]:
# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()
# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, 'datos_json')
#print("Directorio JSON relativo:", directorio_json)
# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

### *Creación de los df por cada archivo json*

In [3]:
dataframes = {}
# Iterar sobre cada archivo JSON y crear un DataFrame
for archivo in archivos_json:
    # Obtener el nombre de la tabla del nombre del archivo
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')    
    # Cargar el archivo JSON en un DataFrame y asignarlo a una variable con un nombre dinámico
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

In [4]:
# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())
# Filtrar los nombres, solo aquellos que comienzan con "df_"
nombres_df = [nombre for nombre in nombres_variables_globales if nombre.startswith("df_")]

# Lista de nombres de los DataFrames creados
print("Lista de DataFrames creados:")
print(nombres_df)

Lista de DataFrames creados:
['df_alfa_q_feb_2023_pachuca', 'df_alfa_q_jul_2023_pachuca', 'df_alfa_q_jun_2023_pachuca', 'df_alfa_q_mar_2023_pachuca', 'df_alfa_q_nov_2022_pachuca', 'df_alfa_q_oct_2022_pachuca', 'df_alfa_q_sep_2023_pachuca', 'df_enero_2024_querertaro', 'df_financiamientos_2022_pachuca', 'df_financiamientos_2023_pachuca', 'df_grupos_edad_pachuca', 'df_grupos_edad_queretaro', 'df_junio_2023_queretaro', 'df_salarios_pachuca', 'df_usuarios']


_________
# *Tiempo estimado de venta: Meses de antigüedad*
### Selección de datos

In [5]:
# Crea los DataFrames para cada archivo con las columnas necesarias
time_df_alfa_q_oct_2022_pachuca = df_alfa_q_oct_2022_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_nov_2022_pachuca = df_alfa_q_nov_2022_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_feb_2023_pachuca = df_alfa_q_feb_2023_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_mar_2023_pachuca = df_alfa_q_mar_2023_pachuca[['id','categoria','antiguedad']]
time_df_alfa_q_jun_2023_pachuca = df_alfa_q_jun_2023_pachuca[['id','categoria','antiguedad']]

## Categorización de valores por rango.
### 0	1	2	3	4	5	6-15	16-30	>=31

In [6]:
def categorizar_antiguedad_oct_nov_2022(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 250:
        return '[16-30]'
    else:
        return '[>=31]'

def categorizar_antiguedad_feb_mar_jun_2023(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 30:
        return '[16-30]'
    else:
        return '[>=31]'

# Categorizar para OCT_2022 y NOV_2022
dataframes_list_oct_nov_2022 = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
]

for df in dataframes_list_oct_nov_2022:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_oct_nov_2022)
    print(df)

# Categorizar para FEB_2023, MAR_2023 y JUN_2023
dataframes_list_feb_mar_jun_2023 = [
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

for df in dataframes_list_feb_mar_jun_2023:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_feb_mar_jun_2023)
    print(df)

        id categoria  antiguedad antiguedad_categoria
0        1        E1           0                  [0]
1        2        E1           0                  [0]
2        3        E1           0                  [0]
3        4        D3           0                  [0]
4        5        E2           0                  [0]
...    ...       ...         ...                  ...
1677  1678         S           0                  [0]
1678  1679        C2           0                  [0]
1679  1680         S           0                  [0]
1680  1681         S           0                  [0]
1681  1682         S           0                  [0]

[1682 rows x 4 columns]
        id categoria  antiguedad antiguedad_categoria
0        1        E1           0                  [0]
1        2        E1           0                  [0]
2        3        E1           0                  [0]
3        4        E1           0                  [0]
4        5        D3           0                  [0]
...

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_oct_nov_2022)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_oct_nov_2022)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['antiguedad_categoria'] 

dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
]

def categorizar_antiguedad(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 250:
        return '[16-30]'
    else:
        return '[>=31]'

for df in dataframes_list:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad)
    print(df)

dataframes_list = [
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]

def categorizar_antiguedad(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 30:
        return '[16-30]'
    else:
        return '[>=31]'

for df in dataframes_list:
    df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad)
    print(df)

def categorizar_antiguedad(valor):
    if valor == 0:
        return '[0]'
    elif valor == 1:
        return '[1]'
    elif valor == 2:
        return '[2]'
    elif valor == 3:
        return '[3]'
    elif valor == 4:
        return '[4]'
    elif valor == 5:
        return '[5]'
    elif 6 <= valor <= 15:
        return '[6-15]'
    elif 16 <= valor <= 30:
        return '[16-30]'
    else:
        return '[>=31]'

#Aplicar la función a la columna 'antiguedad' del DataFrame
df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad)

#Verificar el resultado
print(df)

In [7]:
oct_22 = time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'].unique()
nov_22 = time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'].unique()
feb_23 = time_df_alfa_q_feb_2023_pachuca['antiguedad_categoria'].unique()
mar_23 = time_df_alfa_q_mar_2023_pachuca['antiguedad_categoria'].unique()
jun_23 = time_df_alfa_q_jun_2023_pachuca['antiguedad_categoria'].unique()
print(oct_22)
print(nov_22)
print(feb_23)
print(mar_23)
print(jun_23)

['[0]' '[16-30]' '[6-15]' '[1]' '[2]' '[5]' '[3]' '[4]']
['[0]' '[16-30]' '[6-15]' '[1]' '[2]' '[5]' '[4]' '[3]']
['[0]' '[6-15]' '[>=31]' '[16-30]' '[1]' '[5]' '[3]' '[4]' '[2]']
['[0]' '[6-15]' '[5]' '[1]' '[16-30]' '[>=31]' '[2]' '[4]' '[3]']
['[0]' '[6-15]' '[16-30]' '[3]' '[>=31]' '[5]' '[1]' '[4]' '[2]']


In [8]:
time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'] = time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'].replace({
    '[0]':'11', 
    '[1]':'12', 
    '[2]':'13', 
    '[3]':'13', 
    '[4]':'13',
    '[5]':'13', 
    '[6-15]':'13', 
    '[16-30]':'13', 
    '[>=31]':'13'
})
oct_22 = time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'].unique()
print(oct_22)

time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'] = time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'].replace({
    '[0]':'10', 
    '[1]':'11', 
    '[2]':'12', 
    '[3]':'13', 
    '[4]':'13',
    '[5]':'13', 
    '[6-15]':'13',
    '[16-30]':'13',
    '[>=31]':'13',
})
nov_22 = time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'].unique()
print(nov_22)

time_df_alfa_q_mar_2023_pachuca['antiguedad_categoria'] = time_df_alfa_q_mar_2023_pachuca['antiguedad_categoria'].replace({
    '[0]':'8', 
    '[1]':'9', 
    '[2]':'10', 
    '[3]':'11', 
    '[4]':'12',
    '[5]':'13',
    '[6-15]':'13',
    '[16-30]':'13', 
    '[>=31]':'13',
})
mar_23 = time_df_alfa_q_mar_2023_pachuca['antiguedad_categoria'].unique()
print(mar_23)

time_df_alfa_q_feb_2023_pachuca['antiguedad_categoria'] = time_df_alfa_q_feb_2023_pachuca['antiguedad_categoria'].replace({
    '[0]':'9', 
    '[1]':'10',
    '[2]':'11',
    '[3]':'12',
    '[4]':'13',
    '[5]':'13',
    '[6-15]':'13',
    '[16-30]':'13',
    '[>=31]':'13',
})
feb_23 = time_df_alfa_q_feb_2023_pachuca['antiguedad_categoria'].unique()
print(feb_23)


time_df_alfa_q_jun_2023_pachuca['antiguedad_categoria'] = time_df_alfa_q_jun_2023_pachuca['antiguedad_categoria'].replace({
    '[0]':'7', 
    '[1]':'8', 
    '[2]':'9', 
    '[3]':'10', 
    '[4]':'11',
    '[5]':'12', 
    '[6-15]':'13',
    '[16-30]':'13',
    '[>=31]':'13',
})
jun_23 = time_df_alfa_q_jun_2023_pachuca['antiguedad_categoria'].unique()
print(jun_23)

['11' '13' '12']
['10' '13' '11' '12']
['8' '13' '9' '10' '12' '11']
['9' '13' '10' '12' '11']
['7' '13' '10' '12' '8' '11' '9']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'] = time_df_alfa_q_oct_2022_pachuca['antiguedad_categoria'].replace({
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'] = time_df_alfa_q_nov_2022_pachuca['antiguedad_categoria'].replace({
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/inde

### Conteo único de coincidencias con la antigüedad

In [9]:
# Lista de DataFrames y sus nombres correspondientes
dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]
# Orden personalizado
orden_personalizado = ['7', '8', '9', '10', '11', '12', '13']

tabla_suma = None
# Iterar sobre cada DataFrame en la lista
for df in dataframes_list:
    # Crear una nueva columna con la primera letra de la categoría
    df['segmento'] = df['categoria'].str[0]
    #df.drop(columns=['categoria'], inplace=True)        
    # Agrupar y contar los datos
    tabla_actual = df.groupby(['segmento', 'antiguedad_categoria']).size().unstack(fill_value=0)
    
    # Sumar la tabla actual al acumulador (tabla_suma)
    if tabla_suma is None:
        tabla_suma = tabla_actual
    else:
        tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)

# Reordenar las columnas según el orden personalizado
tabla_suma = tabla_suma[orden_personalizado]

# Imprimir la tabla acumulativa
print(tabla_suma)

antiguedad_categoria      7      8      9     10   11  12   13
segmento                                                      
A                     158.0  230.0  110.0  203.0  176  30  165
B                     291.0  408.0  174.0  360.0  343  81  214
C                     247.0  250.0  140.0  265.0  237  43  288
D                     236.0  307.0  124.0  292.0  275  65  362
E                      23.0   38.0   19.0   72.0   58  10   66
S                     277.0  310.0  134.0  307.0  290  53  409


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row

In [13]:
orden_personalizado = ['7', '8', '9', '10', '11', '12', '13']
def sumar_tablas(dataframes_list):
    tabla_suma = None        
    for df in dataframes_list:
        # Crear una nueva columna con la primera letra de la categoría
        df['segmento'] = df['categoria'].str[0]
        tabla_actual = df.groupby(['segmento', 'antiguedad_categoria']).size().unstack(fill_value=0)
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    tabla_suma = tabla_suma[orden_personalizado]

    
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    fig = graficar_tabla(tabla_suma)
    
    # Para guardar la gráfica como archivo HTML
    guardar_grafico_como_html(fig, 'g_bar_tiempoventa_seg_pachuca', carpeta='graficas')
    
    return fig

def graficar_tabla(tabla):
    segmentos = tabla.index  
    tiempo = tabla.columns
    
    fig = go.Figure()
    
    for tiempo_categoria in tiempo:
        fig.add_trace(go.Bar(
            x=segmentos,  # Lo que las barras representen
            y=tabla[tiempo_categoria],  # Valores de recuento para cada segmento
            name=tiempo_categoria
        ))
    
    fig.update_layout(
        title="Meses de antigüedad",
        #xaxis_title="Segmentos",  
        yaxis=dict(
            title="Número de casas",
            gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
            #gridwidth=1,
        ),
        plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico      
    )
    
    fig.show()    
    return fig


def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Guardar la gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

# Llamar a la función sumar_tablas con la lista de DataFrames como argumento
fig = sumar_tablas(dataframes_list)

Tabla general de frecuencia:
antiguedad_categoria      7      8      9     10   11  12   13
segmento                                                      
A                     158.0  230.0  110.0  203.0  176  30  165
B                     291.0  408.0  174.0  360.0  343  81  214
C                     247.0  250.0  140.0  265.0  237  43  288
D                     236.0  307.0  124.0  292.0  275  65  362
E                      23.0   38.0   19.0   72.0   58  10   66
S                     277.0  310.0  134.0  307.0  290  53  409




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/

______________
# **Tiempo estimado de venta**
### TOTALES

In [18]:
dataframes_list = [
    time_df_alfa_q_oct_2022_pachuca,
    time_df_alfa_q_nov_2022_pachuca,
    time_df_alfa_q_feb_2023_pachuca,
    time_df_alfa_q_mar_2023_pachuca,
    time_df_alfa_q_jun_2023_pachuca,
]
orden_personalizado = ['7', '8', '9', '10', '11', '12', '13']

tabla_suma = None
# Iterar sobre cada DataFrame en la lista
for df in dataframes_list:
    # Contar los registros por cada categoría de antigüedad
    tabla_actual = df['antiguedad_categoria'].value_counts().sort_index()    
    
    # Sumar la tabla actual al acumulador (tabla_suma)
    if tabla_suma is None:
        tabla_suma = tabla_actual
    else:
        tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)

# Reordenar las columnas según el orden personalizado
tabla_suma = tabla_suma[orden_personalizado]

# Crear un DataFrame a partir de la tabla acumulativa
df_acumulado = pd.DataFrame(tabla_suma)
df_acumulado.columns = ['count']
df_acumulado['antiguedad_categoria'] = df_acumulado.index

# Reiniciar el índice del DataFrame
df_acumulado.reset_index(drop=True, inplace=True)
df_acumulado

Unnamed: 0,count,antiguedad_categoria
0,1232.0,7
1,1543.0,8
2,701.0,9
3,1499.0,10
4,1379.0,11
5,282.0,12
6,1504.0,13


In [20]:
fig = go.Figure()
colores = ['#3d45c0', '#ff4853', '#ffb038', '#7cc668', '#67c2df', '#6773df', '#939fad']
count = df_acumulado['count']

fig.add_trace(go.Bar(
    x=df_acumulado['antiguedad_categoria'], 
    y=df_acumulado['count'], 
    marker_color=colores,  # Especifica los colores de las barras
    text=count,  # Texto que se mostrará en las barras 
    textposition='inside',  # Posición del texto (puede ser 'inside' o 'outside')
    #texttemplate='%{text:.1f}%',  # Formato del texto (porcentaje con un decimal)
))
# Personalizar el diseño de la gráfica
fig.update_layout(
    title='Meses de antigüedad',  # Título de la gráfica
   # xaxis=dict(title='antiguedad_categoria'),  # Título del eje x
    yaxis=dict(
        title='Número de casas', # Título del eje y
        gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
         gridwidth=1,
    ),  
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

# Exportar
guardar_grafico_como_html(fig, 'g_bar_tiempoventa_total_pachuca', carpeta='graficas')

fig.show()