# **Tiempo estimado de venta**

In [11]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

# Obtener el directorio actual de trabajo
directorio_actual = os.getcwd()

# Directorio donde se encuentran los archivos JSON (ruta relativa)
directorio_json = os.path.join(directorio_actual, '../../db/datos_json')

# Obtener la lista de archivos JSON en el directorio
archivos_json = os.listdir(directorio_json)

# Cargar los archivos JSON y crear DataFrames
for archivo in archivos_json:
    nombre_tabla = archivo.replace('datos_', '').replace('.json', '')
    ruta_json = os.path.join(directorio_json, archivo)
    globals()[f"df_{nombre_tabla}"] = pd.read_json(ruta_json)

# Obtener todos los nombres de las variables globales
nombres_variables_globales = list(globals().keys())

# Filtrar los nombres que comienzan con "df_", contienen "alfa_q" y "pachuca"
nombres_df_filtrados = [
    nombre for nombre in nombres_variables_globales 
    # Caso de cuando no son las alfa q
    if nombre.startswith("df_") and "alfa" in nombre and "puebla" in nombre and 'q' not in nombre
]

# Imprimir la lista de DataFrames filtrados
print("Lista de DataFrames filtrados:")
nombres_df_filtrados

Lista de DataFrames filtrados:


['df_alfa_agosto_2024_puebla',
 'df_alfa_julio_2024_puebla',
 'df_alfa_junio_2024_puebla',
 'df_alfa_septiembre_2024_puebla']

In [12]:
# Iterar sobre cada DataFrame en la lista filtrada
for nombre_df in nombres_df_filtrados:
    # Obtener el DataFrame usando globals()
    df = globals()[nombre_df]
    
    df.rename(columns={'tiempo_de_publicacion':'antiguedad','Categoria':'categoria','id_jul_23':'id','m2_contruido': 'm2_construido','m_construido': 'm2_construido','Metros_construido':'m2_construido','segmento':'categoria','Category':'categoria','m_total':'m2_total','m_construido':'m2_construido','Antiguedad':'antiguedad'}, inplace=True)
        # Asignar el DataFrame modificado de nuevo a la variable global
    globals()[nombre_df] = df 

# Imprimir confirmación
print("Columnas renombradas en los DataFrames filtrados.")

Columnas renombradas en los DataFrames filtrados.


In [13]:
if 'df_alfa_q_jul_2023_pachuca' in nombres_df_filtrados:
    nombres_df_filtrados.remove('df_alfa_q_jul_2023_pachuca')

In [14]:
# Crear una lista de DataFrames seleccionados con las columnas específicas
dataframes_list = []
for nombre_df in nombres_df_filtrados:
    # Seleccionar las columnas 'id' y 'categoria'
    segment_df = globals()[nombre_df][['id','categoria','antiguedad']]
    # Añadir el DataFrame a la lista
    dataframes_list.append(segment_df)

In [15]:
nombres_df_filtrados

['df_alfa_agosto_2024_puebla',
 'df_alfa_julio_2024_puebla',
 'df_alfa_junio_2024_puebla',
 'df_alfa_septiembre_2024_puebla']

## Meses de antigüedad

In [16]:
for df in dataframes_list:
    print(df['antiguedad'].value_counts())


 0     446
 2     438
-4     360
 1     359
 15    319
 3     306
 4     231
 8     194
 5     193
 9     111
 6     106
 7      87
 13     57
 12     52
 14     49
 11     48
 10     46
 17     32
 21     23
 16     12
 20      6
 19      1
Name: antiguedad, dtype: int64
 0     1024
 1      629
 14     462
 2      385
-5      360
 3      305
 7      240
 4      239
 8      168
 5      141
 6      129
-2       98
 12      82
 13      81
 11      75
 10      69
 9       65
 16      58
 20      38
 19      26
 15      21
 17       4
 18       1
Name: antiguedad, dtype: int64
0     1312
13     510
1      464
2      349
3      248
6      220
7      165
4      144
5      131
11      84
12      83
10      81
9       70
8       69
15      62
19      33
14      26
18      25
16       5
17       1
Name: antiguedad, dtype: int64
 3     472
 16    403
 1     352
 2     328
 4     279
 5     220
 6     204
-3     192
 9     161
 10    152
 0     138
 7     112
 8     103
 14     75
 15     74
 13 

In [17]:
def categorizar_antiguedad_2023(valor):
    if valor == 7:
        return '7'
    elif valor == 8:
        return '8'
    elif valor == 9:
        return '9'
    elif valor == 10:
        return '10'
    elif valor == 11:
        return '11'
    elif valor == 12:
        return '12'
    elif valor == 13:
        return '13'
    elif valor == 14:
        return '14'
    elif valor == 15:
        return '15'
    elif  16<= valor <= 18:
        return '16-18'
    elif 19 <= valor <= 24:
        return '19-24'
    elif valor >= 24:
        return '>24'
    else:
        return '11111'

for df in dataframes_list:
    df.loc[:, 'antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_2023)
    #df['antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_2023)
    print(df)

        id categoria  antiguedad antiguedad_categoria
0        1        E1          15                   15
1        2        E1           0                11111
2        3        E1           1                11111
3        4        E1          -4                11111
4        5        E1          13                   13
...    ...       ...         ...                  ...
3471  3472        EL           6                11111
3472  3473        EL           1                11111
3473  3474        EL           4                11111
3474  3475        EL           2                11111
3475  3476        EL          17                16-18

[3476 rows x 4 columns]
        id categoria  antiguedad antiguedad_categoria
0        1        E1          14                   14
1        2        E1           0                11111
2        3        E1           0                11111
3        4        E1           3                11111
4        5        E1           0                11111
...

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_2023)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'antiguedad_categoria'] = df['antiguedad'].apply(categorizar_antiguedad_2023)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'antiguedad_categor

Conteo único de coincidencias con la antigüedad

In [21]:
# Orden personalizado
orden_personalizado = ['7', '8', '9', '10', '11', '12', '13','14','15','16-18','19-24',]#'>24']

tabla_suma = None
# Iterar sobre cada DataFrame en la lista
for df in dataframes_list:
    # Crear una nueva columna con la primera letra de la categoría
    #df['segmento'] = df['categoria'].str[0]
    df.loc[:, 'segmento'] = df['categoria'].str[0]
    #df.drop(columns=['categoria'], inplace=True)        
    # Agrupar y contar los datos
    tabla_actual = df.groupby(['segmento', 'antiguedad_categoria'],observed=False).size().unstack(fill_value=0)
    
    # Sumar la tabla actual al acumulador (tabla_suma)
    if tabla_suma is None:
        tabla_suma = tabla_actual
    else:
        tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)

# Reordenar las columnas según el orden personalizado
tabla_suma = tabla_suma[orden_personalizado]

# Imprimir la tabla acumulativa
print(tabla_suma)

antiguedad_categoria    7    8    9   10  11  12   13   14   15  16-18  19-24
segmento                                                                     
A                      55   47   42   27  27  29   87   79   54     79     28
B                      66   53   35   35  27  25   80   62   48     73     12
C                      83   82   65   63  36  30   76   64   45     64     24
D                      59   45   24   29  27  30  100   77   46     64     15
E                     131  132   64   45  28  26   73   77   62     51      5
L                      25   25   27   23  26  28   42   37   31     34     17
S                     128  109  117  102  70  82  167  145  131    182     76


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFram

In [22]:
import os
import pandas as pd
import plotly.graph_objects as go
import plotly.io as pio

colores = ['#2962ff', '#9500ff', '#ff0059', '#ff8c00', '#b4e600', '#2EC2A2','#E50CB6','#4225CF','#2CBA4D']
orden_personalizado = ['7', '8', '9', '10', '11', '12', '13','14','15','16-18','19-24',]#'>24']
orden_segmentos=["E", "D", "C", "B","A", "S", "L", ]

def sumar_tablas(dataframes_list):
    tabla_suma = None
    for df in dataframes_list:
        #df['segmento'] = df['categoria'].str[0]
        df['segmento'] = pd.Categorical(df['segmento'], categories=orden_segmentos, ordered=True)
        df.loc[:, 'segmento'] = df['categoria'].str[0]
        tabla_actual = df.groupby(['segmento', 'antiguedad_categoria'],observed=False).size().unstack(fill_value=0)
        
        if tabla_suma is None:
            tabla_suma = tabla_actual
        else:
            tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)
    
    tabla_suma = tabla_suma[orden_personalizado]
    
    print("Tabla general de frecuencia:")
    print(tabla_suma)
    
    fig = graficar_tabla(tabla_suma)
    
    # Para guardar la gráfica como archivo HTML
    guardar_grafico_como_html(fig, 'g_bar_tiempoventa', carpeta='assets/graficas')
    
    return fig

def graficar_tabla(tabla):
    segmentos = tabla.index  
    tiempo = tabla.columns
    
    fig = go.Figure()
        
    for i, tiempo_categoria in enumerate(tiempo):
        color = colores[i % len(colores)]
        fig.add_trace(go.Bar(
            x=segmentos,
            y=tabla[tiempo_categoria],
            name=tiempo_categoria,
            marker_color=color
        ))
    
    fig.update_layout(
        #title="Meses de antigüedad",
        yaxis=dict(
            title="Número de casas",
            gridcolor='#dddcda',
        ),
        legend_title="Antigüedad",
        margin=dict(l=10, r=10, t=10, b=10),  # Ajusta los márgenes (left, right, top, bottom)
        barmode='group',
        legend=dict(
            orientation='h',
            yanchor='bottom',
            y=1.02,
            xanchor='right',
            x=1
        ),
        plot_bgcolor='rgba(0,0,0,0)',
    )
    
    fig.show()
    return fig

def guardar_grafico_como_html(fig, nombre_archivo, carpeta='assets/graficas'):
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

# Supongamos que tienes una lista de DataFrames llamada dataframes_list
fig = sumar_tablas(dataframes_list)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = pd.Categorical(df['segmento'], categories=orden_segmentos, ordered=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[:, 'segmento'] = df['categoria'].str[0]
  df.loc[:, 'segmento'] = df['categoria'].str[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['segmento'] = pd

Tabla general de frecuencia:
antiguedad_categoria    7    8    9   10  11  12   13   14   15  16-18  19-24
segmento                                                                     
A                      55   47   42   27  27  29   87   79   54     79     28
B                      66   53   35   35  27  25   80   62   48     73     12
C                      83   82   65   63  36  30   76   64   45     64     24
D                      59   45   24   29  27  30  100   77   46     64     15
E                     131  132   64   45  28  26   73   77   62     51      5
L                      25   25   27   23  26  28   42   37   31     34     17
S                     128  109  117  102  70  82  167  145  131    182     76


## Totales

In [23]:
# Orden personalizado
orden_personalizado = ['7', '8', '9', '10', '11', '12', '13','14','15','16-18','19-24',]#'>24']

tabla_suma = None
# Iterar sobre cada DataFrame en la lista
for df in dataframes_list:
    # Contar los registros por cada categoría de antigüedad
    tabla_actual = df['antiguedad_categoria'].value_counts().sort_index()    
    
    # Sumar la tabla actual al acumulador (tabla_suma)
    if tabla_suma is None:
        tabla_suma = tabla_actual
    else:
        tabla_suma = tabla_suma.add(tabla_actual, fill_value=0)

# Reordenar las columnas según el orden personalizado
tabla_suma = tabla_suma[orden_personalizado]

# Crear un DataFrame a partir de la tabla acumulativa
df_acumulado = pd.DataFrame(tabla_suma)
df_acumulado.columns = ['count']
df_acumulado['antiguedad_categoria'] = df_acumulado.index

# Reiniciar el índice del DataFrame
df_acumulado.reset_index(drop=True, inplace=True)
df_acumulado

Unnamed: 0,count,antiguedad_categoria
0,604,7
1,534,8
2,407,9
3,348,10
4,264,11
5,275,12
6,718,13
7,612,14
8,476,15
9,610,16-18


In [24]:
fig = go.Figure()
colores = ['#2962ff', '#9500ff', '#ff0059', '#ff8c00', '#b4e600', '#2EC2A2','#E50CB6','#4225CF','#2CBA4D','#2962ff', '#9500ff','#ff0059',]
count = df_acumulado['count']

fig.add_trace(go.Bar(
    x=df_acumulado['antiguedad_categoria'], 
    y=df_acumulado['count'], 
    marker_color=colores,  # Especifica los colores de las barras
    text=count,  # Texto que se mostrará en las barras 
    textposition='outside',  # Posición del texto (puede ser 'inside' o 'outside')
    #texttemplate='%{text:.1f}%',  # Formato del texto (porcentaje con un decimal)
))
# Personalizar el diseño de la gráfica
fig.update_layout(
    #title='Meses de antigüedad',  # Título de la gráfica
   xaxis=dict(title='Meses de antigüedad'),  # Título del eje x
    yaxis=dict(
        title='Número de casas', # Título del eje y
        gridcolor='#dddcda', # Color de las líneas que dividen los rangos del eje Y
         gridwidth=1,
    ),  
    margin=dict(l=10, r=10, t=10, b=10),  # Ajusta los márgenes (left, right, top, bottom)        
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='assets/graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
    
    # Gráfica como archivo HTML en la carpeta especificada
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html')

# Exportar
guardar_grafico_como_html(fig, 'g_bar_tiempoventa_total', carpeta='assets/graficas')
fig.show()