In [1]:
import pandas as pd

# Definir las rutas de los archivos CSV
archivos_csv = [
    r"C:\Users\constanza.perez\OneDrive - Colgram\Escritorio\2022 COLLOKY 2.csv"
]

# Leer cada archivo CSV y almacenar en una lista
dfs = []
for archivo in archivos_csv:
    df_temp = pd.read_csv(archivo, low_memory=False)  # Cargar el CSV con low_memory=False
    
    # Convertir todos los nombres de columnas a minúsculas
    df_temp.columns = df_temp.columns.str.lower()
    
    dfs.append(df_temp)
    
    # Imprimir el conteo de filas de cada archivo CSV
    print(f'Archivo: {archivo} - Cantidad de filas: {df_temp.shape[0]}')

# Unir todos los DataFrames en uno solo
df_unificado = pd.concat(dfs, ignore_index=True)

# Imprimir la cantidad total de filas y columnas del DataFrame unificado
print(f'\nCantidad total de filas en el DataFrame unificado: {df_unificado.shape[0]} - Cantidad total de columnas: {df_unificado.shape[1]}')

# Verificar los nombres de las columnas en minúsculas
print(f'Nombres de las columnas en minúsculas: {list(df_unificado.columns)}')


Archivo: C:\Users\constanza.perez\OneDrive - Colgram\Escritorio\2022 COLLOKY 2.csv - Cantidad de filas: 3885629

Cantidad total de filas en el DataFrame unificado: 3885629 - Cantidad total de columnas: 17
Nombres de las columnas en minúsculas: ['fecha', 'boleta', 'montoneto', 'marca', 'sku', 'cantidad', 'area', 'temporada', 'correo', 'genero', 'canal', 'edad', 'preciolleno', 'edad_meses_talla_hoy', 'edad_ano_talla_hoy', 'rut', 'cod_tienda']


In [2]:
import pandas as pd
import dask.dataframe as dd

# Supongamos que ya tienes el DataFrame df_unificado
# df_unificado = ... (tu DataFrame existente)

# Asegurarse de que la columna 'fecha' esté en formato datetime
df_unificado['fecha'] = pd.to_datetime(df_unificado['fecha'])
print("Fecha convertida a datetime:")
print(df_unificado['fecha'].head())

# Convertir la columna 'rut' a minúsculas
df_unificado['rut'] = df_unificado['rut'].str.lower()
print("RUTs convertidos a minúsculas:")
print(df_unificado['rut'].head())

# Filtrar RUTs presentes en el mes base
mes_base_inicio = '2022-01-01'
mes_base_fin = '2022-12-31'
mes_base_ruts = df_unificado[(df_unificado['fecha'] >= mes_base_inicio) & (df_unificado['fecha'] <= mes_base_fin)]['rut'].unique()
print("RUTs en el mes base:")
print(mes_base_ruts[:10])  # Mostrar los primeros 10 RUTs

# Filtrar las transacciones dentro del período base
df_periodo_base = df_unificado[(df_unificado['fecha'] >= mes_base_inicio) & (df_unificado['fecha'] <= mes_base_fin)]

# Obtener la primera fecha de compra dentro del período base para cada RUT
min_fecha_por_rut = df_periodo_base.groupby('rut')['fecha'].min().reset_index()
min_fecha_por_rut['mes_fecha_min'] = min_fecha_por_rut['fecha']
print("Primera fecha de compra por RUT en el período base:")
print(min_fecha_por_rut.head())

# Filtrar fechas anteriores a la primera fecha de compra para cada RUT de manera eficiente
df_temp = df_unificado.merge(min_fecha_por_rut[['rut', 'mes_fecha_min']], on='rut')
print("Datos después del merge con fechas mínimas:")
print(df_temp.head())

# Filtrar filas donde la fecha es anterior a la primera fecha de compra
df_temp = df_temp[df_temp['fecha'] < df_temp['mes_fecha_min']]
print("Datos filtrados con fechas anteriores a la primera compra:")
print(df_temp.head())

# Obtener la máxima fecha anterior a la primera fecha de compra por RUT
df_temp = df_temp.groupby('rut').agg(seg_fecha=('fecha', 'max')).reset_index()
print("Máxima fecha anterior a la primera compra por RUT:")
print(df_temp.head())

# Clasificar los clientes usando la fecha máxima de cada rut
def clasificar_cliente(row):
    if pd.isna(row['seg_fecha']):
        return None  # No clasificar aquí, lo haremos después
    row['mes_fecha_min'] = pd.to_datetime(row['mes_fecha_min'])  # Asegurarse de que mes_fecha_min esté en formato datetime
    if row['seg_fecha'] >= row['mes_fecha_min'] - pd.DateOffset(months=6):
        return 'Cliente Antiguo Activo'
    elif row['seg_fecha'] >= row['mes_fecha_min'] - pd.DateOffset(months=12):
        return 'Cliente Antiguo Pasivo'
    elif row['seg_fecha'] >= row['mes_fecha_min'] - pd.DateOffset(months=24):
        return 'Cliente Antiguo Recuperado'
    else:
        return 'Cliente Antiguo Perdido'

# Aplicar la clasificación a cada RUT
df_temp = df_temp.merge(min_fecha_por_rut[['rut', 'mes_fecha_min']], on='rut')
print("Datos después del segundo merge:")
print(df_temp.head())

df_temp['clasificacion_cliente'] = df_temp.apply(clasificar_cliente, axis=1)
print("Datos con clasificación de clientes:")
print(df_temp.head())

# Combinar df_temp con df_unificado para agregar clasificaciones
df_resultado = pd.merge(df_unificado, df_temp[['rut', 'clasificacion_cliente']], on='rut', how='left')
print("Resultado después de combinar con clasificaciones:")
print(df_resultado.head())

# Asignar 'Cliente Nuevo' a los RUTs que no tienen clasificación previa
df_resultado['clasificacion_cliente'] = df_resultado['clasificacion_cliente'].fillna('Cliente Nuevo')

# Contar clientes por clasificación y calcular el porcentaje
conteo_clientes = df_resultado.groupby('clasificacion_cliente').agg(total_clientes=('rut', 'nunique')).reset_index()
print("Conteo de clientes por clasificación:")
print(conteo_clientes)

# Calcular el total de RUT únicos en el mes base
total_ruts_octubre = len(mes_base_ruts)
print(f"Total de RUT únicos en el mes de octubre 2024: {total_ruts_octubre}")

# Recalcular clientes nuevos
clientes_antiguos_total = conteo_clientes[conteo_clientes['clasificacion_cliente'] != 'Cliente Nuevo']['total_clientes'].sum()
clientes_nuevos = total_ruts_octubre - clientes_antiguos_total

# Actualizar el DataFrame de conteo
conteo_clientes.loc[conteo_clientes['clasificacion_cliente'] == 'Cliente Nuevo', 'total_clientes'] = clientes_nuevos

# Calcular el porcentaje
conteo_clientes['porcentaje'] = (conteo_clientes['total_clientes'] / total_ruts_octubre) * 100
conteo_clientes = conteo_clientes.sort_values(by='total_clientes', ascending=False)

# Mostrar resultados
print("Conteo de clientes por clasificación:")
print(conteo_clientes)
print(f"Total de RUT únicos en el mes de octubre 2024: {total_ruts_octubre}")

# Verificación adicional
print(df_temp[['rut', 'seg_fecha', 'mes_fecha_min', 'clasificacion_cliente']])


Fecha convertida a datetime:
0   2022-01-08
1   2022-10-08
2   2022-10-03
3   2022-08-20
4   2022-03-12
Name: fecha, dtype: datetime64[ns]
RUTs convertidos a minúsculas:
0    17282722-5
1    15632292-k
2    15256380-9
3    15682569-7
4    13626707-8
Name: rut, dtype: object
RUTs en el mes base:
['17282722-5' '15632292-k' '15256380-9' '15682569-7' '13626707-8'
 '15442813-5' '13241663-k' '17026495-9' '18118533-3' '16445401-0']
Primera fecha de compra por RUT en el período base:
          rut      fecha mes_fecha_min
0       1000- 2022-10-02    2022-10-02
1  10000017-2 2022-05-06    2022-05-06
2  10000026-1 2022-05-22    2022-05-22
3  10000039-3 2022-04-06    2022-04-06
4  10000040-7 2022-03-05    2022-03-05
Datos después del merge con fechas mínimas:
       fecha            boleta  montoneto    marca            sku  cantidad  \
0 2022-01-08  1201953447952-01   13861.34  COLLOKY  4753025027V22         1   
1 2022-10-08  1267373319484-01    2685.71  COLLOKY  BAGA1410TUV21         1   
2 20

In [3]:
# Filtrar solo los RUT de los clientes nuevos que están en el mes base de noviembre
df_new_nov24 = df_resultado[(df_resultado['rut'].isin(mes_base_ruts))][['rut']].drop_duplicates().reset_index(drop=True)

# Mostrar el conteo de RUT únicos de clientes nuevos
total_clientes_nuevos = df_new_nov24['rut'].nunique()
print(f"Total de RUT únicos de clientes nuevos en noviembre 2024: {total_clientes_nuevos}")

Total de RUT únicos de clientes nuevos en noviembre 2024: 841967


In [4]:
# Define el rango de fechas
mes_base_inicio = '2022-01-01'
mes_base_fin = '2022-12-31'

# Filtrar df_unificado por el rango de fechas
df_unificado_filtrado = df_unificado[(df_unificado['fecha'] >= mes_base_inicio) & (df_unificado['fecha'] <= mes_base_fin)]

# Realizar el merge
df_new_nov24_merged = df_unificado_filtrado.merge(df_new_nov24, left_on='rut', right_on='rut')

# Mostrar el total de filas en el DataFrame resultante del merge
total_filas = df_new_nov24_merged.shape[0]

print("Total de filas en el DataFrame resultante del merge de df_ruts_solo_octubre con df_unificado:")
print(total_filas)


Total de filas en el DataFrame resultante del merge de df_ruts_solo_octubre con df_unificado:
3885629


In [5]:
import pandas as pd

# Leer un archivo Excel en un DataFrame
ruta_excel = "C:/Users/constanza.perez/Downloads/Lista_Precio_Colloky (2).xlsx"
df_precios = pd.read_excel(ruta_excel, sheet_name='Lista_Precio_Colloky')

# Convertir la columna 'fecha' a formato datetime
df_new_nov24_merged['fecha'] = pd.to_datetime(df_new_nov24_merged['fecha'])

# Calcular 'monto neto final'
df_new_nov24_merged['monto neto final'] = df_new_nov24_merged['montoneto'] * 1.19

# Realizar un merge de DataFrames y renombrar columnas
df_new_nov24_merged = df_new_nov24_merged.merge(df_precios[['Código Producto', 'Precio Un.']], how='left', left_on='sku', right_on='Código Producto')

# Calcular 'Precio Lleno'
df_new_nov24_merged['Precio Lleno'] = df_new_nov24_merged['cantidad'] * df_new_nov24_merged['Precio Un.']

# Calcular 'Precio Lleno' total por boleta
df_new_nov24_merged['Precio Lleno Boleta'] = df_new_nov24_merged.groupby('boleta')['Precio Lleno'].transform('sum')

# Calcular 'monto neto final' total por boleta
df_new_nov24_merged['Monto Neto Final Boleta'] = df_new_nov24_merged.groupby('boleta')['monto neto final'].transform('sum')

# Calcular 'descuento'
df_new_nov24_merged['descuento'] = 1 - (df_new_nov24_merged['Monto Neto Final Boleta'] / df_new_nov24_merged['Precio Lleno Boleta'])

# Calcular el descuento promedio por rut
descuento_promedio_por_rut = df_new_nov24_merged.groupby('rut')['descuento'].mean().reset_index()
descuento_promedio_por_rut.columns = ['rut', 'Descuento Promedio']

# Unir el descuento promedio al DataFrame original
df_new_nov24_merged = df_new_nov24_merged.merge(descuento_promedio_por_rut, on='rut', how='left')

# Agregar las columnas 'fecha_min' y 'fecha_max' para cada 'rut'
df_new_nov24_merged['fecha_min'] = df_new_nov24_merged.groupby('rut')['fecha'].transform('min')
df_new_nov24_merged['fecha_max'] = df_new_nov24_merged.groupby('rut')['fecha'].transform('max')

# Asegurarse de que las fechas min y max están en formato datetime
df_new_nov24_merged['fecha_min'] = pd.to_datetime(df_new_nov24_merged['fecha_min'])
df_new_nov24_merged['fecha_max'] = pd.to_datetime(df_new_nov24_merged['fecha_max'])

# Calcular el número de años transcurridos
df_new_nov24_merged['years_diff'] = ((df_new_nov24_merged['fecha_max'] - df_new_nov24_merged['fecha_min']).dt.days / 365).apply(lambda x: int(x) + 1)

# Agrupar por 'rut' y sumar todas las boletas únicas
df_yearly = df_new_nov24_merged.groupby('rut')['boleta'].nunique().reset_index()
df_yearly.columns = ['rut', 'total_boletas']

# Convertir 'years_diff' a meses
df_yearly['years_diff_months'] = df_new_nov24_merged.groupby('rut')['years_diff'].transform('max') * 12

# Calcular la frecuencia mensual de compras únicas
df_yearly['frecuencia_mensual'] = (df_yearly['total_boletas'] / df_yearly['years_diff_months'])*12

# Unir la frecuencia mensual con el DataFrame original
df_final = df_new_nov24_merged.merge(df_yearly[['rut', 'frecuencia_mensual']], on='rut', how='left')

# Calcular el tiempo entre compras
df_final = df_final.sort_values(by=['rut', 'fecha'])
df_final['days_since_last_purchase'] = df_final.groupby('rut')['fecha'].diff().dt.days

# Calcular TPC (Tiempo Promedio entre Compras)
df_tpc = df_final[df_final['days_since_last_purchase'] > 1].groupby('rut')['days_since_last_purchase'].mean().reset_index()
df_tpc.columns = ['rut', 'TPC']

# Unir el TPC con el DataFrame original
df_final = df_final.merge(df_tpc, on='rut', how='left')

# Calcular el ticket promedio (monto neto final total por boleta agrupado por rut)
ticket_promedio_por_rut = df_new_nov24_merged.groupby('rut')['Monto Neto Final Boleta'].mean().reset_index()
ticket_promedio_por_rut.columns = ['rut', 'ticket prom']

# Unir el ticket promedio al DataFrame final
df_final = df_final.merge(ticket_promedio_por_rut, on='rut', how='left')


In [6]:
import pandas as pd

# Establecer 'descuento' como 0 si es menor que 0
df_final.loc[df_final['descuento'] < 0, 'descuento'] = 0

# Imprimir el DataFrame final
(df_final.head())

Unnamed: 0,fecha,boleta,montoneto,marca,sku,cantidad,area,temporada,correo,genero,...,Monto Neto Final Boleta,descuento,Descuento Promedio,fecha_min,fecha_max,years_diff,frecuencia_mensual,days_since_last_purchase,TPC,ticket prom
0,2022-10-02,21451699,24471.0,COLLOKY,5811021132I22,1,CALZADO,INVIERNO2022,,BOY,...,74979.52,0.271831,0.271831,2022-10-02,2022-10-02,1,1.0,,,74979.52
1,2022-10-02,21451699,17126.0,COLLOKY,5891025028I20,1,CALZADO,INVIERNO2020,,BOY,...,74979.52,0.271831,0.271831,2022-10-02,2022-10-02,1,1.0,0.0,,74979.52
2,2022-10-02,21451699,21411.0,COLLOKY,5403022031I20,1,CALZADO,INVIERNO2020,,BOY,...,74979.52,0.271831,0.271831,2022-10-02,2022-10-02,1,1.0,0.0,,74979.52
3,2022-05-06,20810681,25202.0,COLLOKY,4100028225I22,1,CALZADO,INVIERNO2022,fernandav@gmail.com,GIRL,...,29990.38,0.0,-1.3e-05,2022-05-06,2022-05-06,1,1.0,,,29990.38
4,2022-05-22,20896750,4109.0,COLLOKY,C2PE307103I22,1,ACCESORIOS,INVIERNO2022,,GIRL,...,11879.77,0.150231,0.150231,2022-05-22,2022-05-22,1,1.0,,,11879.77


In [8]:
import pandas as pd

# Función de categorización para la columna 'area'
def categorize_area(column_values):
    unique_values = column_values.unique()
    if len(unique_values) == 1:
        if 'CALZADO' in unique_values:
            return 'SOLO CALZADO'
        if 'ACCESORIOS' in unique_values:
            return 'SOLO ACCESORIO'
        if 'ROPA' in unique_values:
            return 'SOLO ROPA'
    if all(item in unique_values for item in ['CALZADO', 'ACCESORIOS', 'ROPA']):
        return 'MIXTO'
    elif 'CALZADO' in unique_values and 'ACCESORIOS' in unique_values:
        return 'MIXTO'
    elif 'CALZADO' in unique_values and 'ROPA' in unique_values:
        return 'MIXTO'
    elif 'ACCESORIOS' in unique_values and 'ROPA' in unique_values:
        return 'MIXTO'
    else:
        return 'MIXTO'

# Función de categorización para las columnas 'genero' y 'canal'
def categorize_other(column_values):
    unique_values = column_values.unique()
    if 'ACCESORIOS' in unique_values:
        return 'ROPA'
    if len(unique_values) == 1:
        return unique_values[0]
    else:
        return 'MIXTO'

# Aplicar las transformaciones sin perder columnas
df_final['area_categorizada'] = df_final.groupby('rut')['area'].transform(categorize_area)
df_final['genero_categorizado'] = df_final.groupby('rut')['genero'].transform(categorize_other)
df_final['canal_categorizado'] = df_final.groupby('rut')['canal'].transform(categorize_other)

# Eliminar duplicados para obtener 'rut' único
df_result = df_final.drop_duplicates(subset='rut').reset_index(drop=True)

# Imprimir el DataFrame final agrupado y categorizado
print(df_result.head())


       fecha    boleta  montoneto    marca            sku  cantidad  \
0 2022-10-02  21451699    24471.0  COLLOKY  5811021132I22         1   
1 2022-05-06  20810681    25202.0  COLLOKY  4100028225I22         1   
2 2022-05-22  20896750     4109.0  COLLOKY  C2PE307103I22         1   
3 2022-04-06  20630756    23521.0  COLLOKY  5736023031I22         1   
4 2022-03-05  20481943     5874.0  COLLOKY  C2CSU31078I21         1   

         area     temporada               correo      genero  ...  fecha_min  \
0     CALZADO  INVIERNO2022                  NaN         BOY  ... 2022-10-02   
1     CALZADO  INVIERNO2022  fernandav@gmail.com        GIRL  ... 2022-05-06   
2  ACCESORIOS  INVIERNO2022                  NaN        GIRL  ... 2022-05-22   
3     CALZADO  INVIERNO2022     arodri@gmail.com        GIRL  ... 2022-04-06   
4  ACCESORIOS  INVIERNO2021                  NaN  Sin Genero  ... 2022-03-05   

   fecha_max  years_diff  frecuencia_mensual  days_since_last_purchase  \
0 2022-10-02      

In [9]:
import pandas as pd
from IPython.display import display, HTML

# Redondear los valores de frecuencia_mensual
df_result['frecuencia_mensual_redondeada'] = df_result['frecuencia_mensual'].apply(lambda x: round(x))

# Asignar rangos directamente según los valores redondeados de frecuencia_mensual
df_result['frecuencia_mensual_rango'] = df_result['frecuencia_mensual_redondeada'].apply(lambda x: str(x) if x <= 10 else 'Mayor a 10')


# Crear rangos para la variable TICKET PROMEDIO
df_result['ticket_promedio_rango'] = pd.cut(df_result['ticket prom'], bins=[0, 15000, 30000, 45000, 60000, float('inf')],
                                            labels=['0-15000', '15001-30000', '30001-45000', '45001-60000', 'Mayor a 60000'])

# Crear rangos para la variable edad, excluyendo valores nulos
df_result['edad_rango'] = pd.cut(df_result['edad'].dropna(), bins=[0, 18, 30, 40, 50, 60, float('inf')],
                                 labels=['0-18', '19-30', '31-40', '41-50', '51-60', 'Mayor a 60'])

# Ajustar rangos para la variable descuento según tu requerimiento
df_result['descuento_rango'] = pd.cut(df_result['descuento'], bins=[-0.01, 0.20, 0.40, 0.60, float('inf')],
                                      labels=['0%-20%', 'Mayor a 20% - 40%', 'Mayor a 40% - 60%', 'Mayor a 60%'])

# Crear rangos para la variable TPC
df_result['tpc_rango'] = pd.cut(df_result['TPC'], bins=[0, 1, float('inf')],
                                labels=['0-1', 'Mayor a 1'])

# Crear rangos para la variable edad_ano_talla_hoy, excluyendo valores nulos
max_edad_ano_talla_hoy = int(df_result['edad_ano_talla_hoy'].max())  # Convertir a entero
df_result['edad_ano_talla_hoy_rango'] = pd.cut(df_result['edad_ano_talla_hoy'].dropna(), 
                                               bins=range(0, max_edad_ano_talla_hoy + 2),
                                               labels=[str(i) for i in range(0, max_edad_ano_talla_hoy + 1)])

# Función para formatear los porcentajes sin decimales ni puntos
def format_percentage_without_decimals(column_values):
    counts = column_values.value_counts()
    return ', '.join([f"{index}: {int(round((count / len(column_values)) * 100))}%" for index, count in counts.items()])

# Calcular los porcentajes de las variables categóricas, excluyendo valores nulos, NaN o vacíos
porcentajes_area = format_percentage_without_decimals(df_result['area_categorizada'].dropna())
porcentajes_genero = format_percentage_without_decimals(df_result['genero_categorizado'].dropna())
porcentajes_canal = format_percentage_without_decimals(df_result['canal_categorizado'].dropna())
porcentajes_frecuencia_mensual = format_percentage_without_decimals(df_result['frecuencia_mensual_rango'].dropna())
porcentajes_ticket_promedio = format_percentage_without_decimals(df_result['ticket_promedio_rango'].dropna())
porcentajes_edad = format_percentage_without_decimals(df_result['edad_rango'])
porcentajes_descuento = format_percentage_without_decimals(df_result['descuento_rango'].dropna())
porcentajes_tpc = format_percentage_without_decimals(df_result['tpc_rango'].dropna())
porcentajes_edad_ano_talla_hoy = format_percentage_without_decimals(df_result['edad_ano_talla_hoy_rango'])

# Calcular las estadísticas descriptivas de las variables numéricas seleccionadas
estadisticas_numericas = df_result[['cantidad', 'edad', 'edad_ano_talla_hoy', 'ticket prom', 'frecuencia_mensual', 'TPC', 'descuento']].describe().transpose()

# Crear un DataFrame con las distribuciones y estadísticas
distribuciones = pd.DataFrame({
    'area_categorizada': [porcentajes_area],
    'genero_categorizado': [porcentajes_genero],
    'canal_categorizado': [porcentajes_canal],
    'frecuencia_mensual_rango': [porcentajes_frecuencia_mensual],
    'ticket_promedio_rango': [porcentajes_ticket_promedio],
    'edad_rango': [porcentajes_edad],
    'descuento_rango': [porcentajes_descuento],
    'tpc_rango': [porcentajes_tpc],
    'edad_ano_talla_hoy_rango': [porcentajes_edad_ano_talla_hoy]
})

# Unir los DataFrames de distribuciones y estadísticas
resultados_generales = pd.concat([estadisticas_numericas, distribuciones], axis=1).fillna('')

# Convertir el DataFrame a HTML para mejor visualización
display(HTML(resultados_generales.to_html(escape=False)))


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,area_categorizada,genero_categorizado,canal_categorizado,frecuencia_mensual_rango,ticket_promedio_rango,edad_rango,descuento_rango,tpc_rango,edad_ano_talla_hoy_rango
cantidad,841967.0,1.016112,0.158999,-1.0,1.0,1.0,1.0,24.0,,,,,,,,,
edad,829517.0,36.696361,13.848445,0.0,28.0,35.0,44.0,89.0,,,,,,,,,
edad_ano_talla_hoy,819597.0,7.285432,3.473068,2.0,4.0,7.0,10.0,19.0,,,,,,,,,
ticket prom,841967.0,34547.093583,22871.41115,0.0,19989.62,29989.19,41187.08333,504099.47,,,,,,,,,
frecuencia_mensual,841967.0,1.927543,2.248967,1.0,1.0,1.0,2.0,556.0,,,,,,,,,
TPC,298767.0,88.859562,71.864812,2.0,36.5,70.0,122.0,363.0,,,,,,,,,
descuento,841967.0,0.209971,0.209967,0.0,1e-06,0.2,0.400113,1.0,,,,,,,,,
0,,,,,,,,,"MIXTO: 43%, SOLO CALZADO: 38%, SOLO ROPA: 13%, SOLO ACCESORIO: 7%","GIRL: 39%, BOY: 34%, MIXTO: 26%, Sin Genero: 1%, WOMAN: 0%, MEN: 0%, Sin Información: 0%","OFFLINE: 86%, MIXTO: 8%, ONLINE: 7%","1: 61%, 2: 19%, 3: 8%, 4: 4%, 5: 2%, 6: 1%, 7: 1%, Mayor a 10: 1%, 8: 1%, 9: 0%, 10: 0%","15001-30000: 40%, 30001-45000: 27%, 0-15000: 13%, 45001-60000: 11%, Mayor a 60000: 10%","31-40: 32%, 19-30: 27%, 41-50: 19%, 51-60: 9%, Mayor a 60: 6%, 0-18: 5%","0%-20%: 50%, Mayor a 20% - 40%: 24%, Mayor a 40% - 60%: 24%, Mayor a 60%: 3%","Mayor a 1: 100%, 0-1: 0%","2: 14%, 3: 11%, 5: 11%, 4: 9%, 6: 8%, 8: 8%, 7: 7%, 11: 7%, 9: 5%, 10: 5%, 12: 4%, 13: 4%, 1: 2%, 14: 1%, 18: 0%, 15: 0%, 16: 0%, 17: 0%, 0: 0%, 19: 0%"


In [10]:
import pandas as pd
from IPython.display import display, HTML

# Redondear los valores de frecuencia_mensual
df_result['frecuencia_mensual_redondeada'] = df_result['frecuencia_mensual'].apply(lambda x: round(x))

# Asignar rangos directamente según los valores redondeados de frecuencia_mensual
df_result['frecuencia_mensual_rango'] = df_result['frecuencia_mensual_redondeada'].apply(lambda x: str(x) if x <= 10 else 'Mayor a 10')

# Crear rangos para la variable TICKET PROMEDIO
df_result['ticket_promedio_rango'] = pd.cut(df_result['ticket prom'], bins=[0, 15000, 30000, 45000, 60000, float('inf')],
                                            labels=['0-15000', '15001-30000', '30001-45000', '45001-60000', 'Mayor a 60000'])

# Crear rangos para la variable edad, excluyendo valores nulos
df_result['edad_rango'] = pd.cut(df_result['edad'].dropna(), bins=[0, 18, 30, 40, 50, 60, float('inf')],
                                 labels=['0-18', '19-30', '31-40', '41-50', '51-60', 'Mayor a 60'])

# Ajustar rangos para la variable descuento según tu requerimiento
df_result['descuento_rango'] = pd.cut(df_result['descuento'], bins=[-0.01, 0.20, 0.40, 0.60, float('inf')],
                                      labels=['0%-20%', 'Mayor a 20% - 40%', 'Mayor a 40% - 60%', 'Mayor a 60%'])

# Crear rangos para la variable TPC
df_result['tpc_rango'] = pd.cut(df_result['TPC'], bins=[0, 1, float('inf')],
                                labels=['0-1', 'Mayor a 1'])

# Crear rangos para la variable edad_ano_talla_hoy, excluyendo valores nulos
max_edad_ano_talla_hoy = int(df_result['edad_ano_talla_hoy'].max())  # Convertir a entero
df_result['edad_ano_talla_hoy_rango'] = pd.cut(df_result['edad_ano_talla_hoy'].dropna(), 
                                               bins=range(0, max_edad_ano_talla_hoy + 2),
                                               labels=[str(i) for i in range(0, max_edad_ano_talla_hoy + 1)])

# Función para formatear los conteos
def format_count_without_decimals(column_values):
    counts = column_values.value_counts()
    return ', '.join([f"{index}: {count}" for index, count in counts.items()])

# Calcular los conteos de las variables categóricas, excluyendo valores nulos, NaN o vacíos
conteos_area = format_count_without_decimals(df_result['area_categorizada'].dropna())
conteos_genero = format_count_without_decimals(df_result['genero_categorizado'].dropna())
conteos_canal = format_count_without_decimals(df_result['canal_categorizado'].dropna())
conteos_frecuencia_mensual = format_count_without_decimals(df_result['frecuencia_mensual_rango'].dropna())
conteos_ticket_promedio = format_count_without_decimals(df_result['ticket_promedio_rango'].dropna())
conteos_edad = format_count_without_decimals(df_result['edad_rango'])
conteos_descuento = format_count_without_decimals(df_result['descuento_rango'].dropna())
conteos_tpc = format_count_without_decimals(df_result['tpc_rango'].dropna())
conteos_edad_ano_talla_hoy = format_count_without_decimals(df_result['edad_ano_talla_hoy_rango'])

# Calcular las estadísticas descriptivas de las variables numéricas seleccionadas
estadisticas_numericas = df_result[['cantidad', 'edad', 'edad_ano_talla_hoy', 'ticket prom', 'frecuencia_mensual', 'TPC', 'descuento']].describe().transpose()

# Crear un DataFrame con las distribuciones y estadísticas
distribuciones = pd.DataFrame({
    'area_categorizada': [conteos_area],
    'genero_categorizado': [conteos_genero],
    'canal_categorizado': [conteos_canal],
    'frecuencia_mensual_rango': [conteos_frecuencia_mensual],
    'ticket_promedio_rango': [conteos_ticket_promedio],
    'edad_rango': [conteos_edad],
    'descuento_rango': [conteos_descuento],
    'tpc_rango': [conteos_tpc],
    'edad_ano_talla_hoy_rango': [conteos_edad_ano_talla_hoy]
})

# Unir los DataFrames de distribuciones y estadísticas
resultados_generales = pd.concat([estadisticas_numericas, distribuciones], axis=1).fillna('')

# Convertir el DataFrame a HTML para mejor visualización
display(HTML(resultados_generales.to_html(escape=False)))


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,area_categorizada,genero_categorizado,canal_categorizado,frecuencia_mensual_rango,ticket_promedio_rango,edad_rango,descuento_rango,tpc_rango,edad_ano_talla_hoy_rango
cantidad,841967.0,1.016112,0.158999,-1.0,1.0,1.0,1.0,24.0,,,,,,,,,
edad,829517.0,36.696361,13.848445,0.0,28.0,35.0,44.0,89.0,,,,,,,,,
edad_ano_talla_hoy,819597.0,7.285432,3.473068,2.0,4.0,7.0,10.0,19.0,,,,,,,,,
ticket prom,841967.0,34547.093583,22871.41115,0.0,19989.62,29989.19,41187.08333,504099.47,,,,,,,,,
frecuencia_mensual,841967.0,1.927543,2.248967,1.0,1.0,1.0,2.0,556.0,,,,,,,,,
TPC,298767.0,88.859562,71.864812,2.0,36.5,70.0,122.0,363.0,,,,,,,,,
descuento,841967.0,0.209971,0.209967,0.0,1e-06,0.2,0.400113,1.0,,,,,,,,,
0,,,,,,,,,"MIXTO: 360195, SOLO CALZADO: 318278, SOLO ROPA: 106498, SOLO ACCESORIO: 56996","GIRL: 328514, BOY: 283588, MIXTO: 216913, Sin Genero: 12400, WOMAN: 30, MEN: 4, Sin Información: 1","OFFLINE: 720644, MIXTO: 66419, ONLINE: 54904","1: 514990, 2: 162403, 3: 70741, 4: 36458, 5: 20569, 6: 12202, 7: 7696, Mayor a 10: 6395, 8: 5051, 9: 3253, 10: 2209","15001-30000: 334765, 30001-45000: 224209, 0-15000: 107477, 45001-60000: 91924, Mayor a 60000: 83591","31-40: 269861, 19-30: 223236, 41-50: 161149, 51-60: 75049, Mayor a 60: 53543, 0-18: 41605","0%-20%: 421667, Mayor a 20% - 40%: 199703, Mayor a 40% - 60%: 198382, Mayor a 60%: 22215","Mayor a 1: 298767, 0-1: 0","2: 117302, 3: 96762, 5: 93998, 4: 73849, 6: 70495, 8: 68004, 7: 61069, 11: 56343, 9: 46183, 10: 40222, 12: 37157, 13: 36119, 1: 15424, 14: 4813, 18: 975, 15: 802, 16: 57, 17: 23, 0: 0, 19: 0"


In [15]:
import pandas as pd
from IPython.display import display, HTML

# Filtrar ruts del rango 15001-30000
ruts_rango_15001_30000 = df_result[df_result['ticket_promedio_rango'] == 'Mayor a 60000']['rut']

# Realizar el merge con df_unificado
df_merged = pd.merge(df_unificado, ruts_rango_15001_30000, on='rut', how='inner')

# Sumar todos los valores de montoneto encontrados para los ruts
suma_montoneto = df_merged['montoneto'].sum()

# Mostrar la suma total
print(f"Suma total de montoneto para ruts en el rango 15001-30000: {suma_montoneto}")


Suma total de montoneto para ruts en el rango 15001-30000: 12296544225.689997
