<a href="https://colab.research.google.com/github/lomerrod/proyectofinalDS2/blob/main/ProyectoParteIII%2BRodriguezLorena.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**🪵🔥 PROYECTO EMPRESA DE VENTA DE LEÑA A HOGARES Y COMERCIOS**

##**📌 0- Introducción**

El presente proyecto tiene como objetivo predecir la fuga de clientes en una empresa de distribución de leña, utilizando técnicas de Machine Learning. Se entiende por "fuga" a los clientes que no han realizado compras en los últimos seis meses.

La empresa cuenta con información histórica de sus operaciones, que incluye:

*   Datos de ventas y facturación
*   Detalles de los productos vendidos
*   Datos generales de clientes
*   Resultados de encuestas de satisfacción
*   Reclamos realizados
*   Información sobre deudas

A partir de este conjunto de datos, se busca construir un modelo que pueda identificar patrones comunes entre los clientes que dejaron de comprar y anticipar futuras fugas. Esto permitirá a la empresa tomar decisiones proactivas para retener clientes, mejorar su servicio y optimizar sus estrategias comerciales.

##**🗂️ 1- Preparación de la información**

###*1.1 Librerías*

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns

###*1.2 Carga de los datasets*

In [2]:
# URL del archivo Excel en formato raw
file_url = "https://raw.githubusercontent.com/lomerrod/proyectofinalDS2/main/data.xlsx"

# Cargar el archivo
xls = pd.ExcelFile(file_url)

# Verificar los nombres de las hojas
print(xls.sheet_names)

['ventas', 'ventas_detalle', 'productos', 'cliente', 'encuesta2024', 'nc', 'deuda']


In [3]:
# Cargar las hojas
df_ventas = xls.parse('ventas')
df_ventas_detalle = xls.parse('ventas_detalle')
df_productos = xls.parse('productos')
df_cliente = xls.parse('cliente')
df_encuesta2024 = xls.parse('encuesta2024')
df_reclamos2024 = xls.parse('nc')
df_deuda = xls.parse('deuda')

##**🔍 2- Primera aproximación a los datasets**

###*2.1 Ver las primeras filas*

In [4]:
df_ventas.head()

Unnamed: 0,FECHA DE FACTURACION,DOCUMENTO,COMPROBANTE,CLIENTE,TOTAL,FECHA DE ENTREGA,DISTRIBUIDOR,CHOFER
0,2022-01-01,RFACEF,32595,12585,7950.0,2022-09-29,STP5810,
1,2022-01-01,RNCREDEF,6584,10141,-9528.0,2021-12-17,FAW5,SANDOVAL
2,2022-01-01,RNCREDTK,11348,12585,-7950.0,2022-07-23,STP5810,
3,2022-01-03,RFACEF,25413,9049,4950.0,2022-01-03,FAW5,NICOLASM
4,2022-01-04,RFACEF,25457,12253,3795.0,2022-01-04,FAW5,NICOLASM


In [5]:
df_ventas_detalle.head()

Unnamed: 0,COMPROBANTE,CODIGO_PRODUCTO,CANTIDAD
0,32595,AS0004,1.0
1,6584,CO0027,-0.7
2,6584,AS0004,-0.3
3,11348,AS0004,-1.0
4,25413,AS0004,0.9


In [6]:
df_productos.head()

Unnamed: 0,CODIGO_PRODUCTO,PRODUCTO,UNIDAD,FAMILIA
0,AS0002,ASTILLA CALEFACCION CHICA,TON,AST
1,AS0003,ASTILLA CALEFACTOR,TON,AST
2,AS0004,ASTILLA ESTUFA,TON,AST
3,AS0005,ASTILLA GRANDE,TON,AST
4,AS0006,ASTILLON CHICO,TON,AST


In [7]:
df_cliente.head()

Unnamed: 0,CLIENTE,CLIENTE_NOMBRE,INGRESO,ZONA,TIPO DE VENTA,MEDIO,SEGMENTADOR
0,0,REPARTO,00:00:00,,REPARTO,,
1,1,MOSTRADOR,00:00:00,,MOSTRADOR,,
2,2,ARANCIBIA GONZALO,00:00:00,CARRASCO NORTE,REPARTO,,CLIENTE DE REPARTO COMUN
3,3,ARANCIBIA BERNARDO (TATO),00:00:00,POCITOS,REPARTO,,CLIENTE DE REPARTO COMUN
4,12,JORAJURIA GABRIELA,00:00:00,CARRASCO,REPARTO,,CLIENTE DE REPARTO COMUN


In [8]:
df_encuesta2024.head()

Unnamed: 0,CLIENTE,ATENCION,CALIDAD,PLAZO_ACORDADO,CONTACTO,FACTOR_IMPORTANTE,VAL_PRECIO,VAL_CALIDAD,VAL_CANTIDAD,VAL_PUNTUALIDAD,VAL_ORDEN,VAL_PERSONAL,F_ENTREGA
0,11420,3,3,Si,Publicidad en redes/televisión,Calidad de la leña,,,,,,,2024-01-01
1,6365,3,3,Si,Búsqueda en internet,Precio,,,,,,,2024-01-01
2,11707,3,3,Si,Visita a nuestras instalaciones (oficina o dep...,Precio,,,,,,,2024-01-01
3,10287,3,3,Si,Búsqueda en internet,Servicio telefónico y del personal,,,,,,,2024-01-01
4,12712,3,3,Si,Publicidad en redes/televisión,Calidad de la leña,,,,,,,2024-01-01


In [9]:
df_reclamos2024.head()

Unnamed: 0,Fecha de entrega,Fecha de reclamo,CLIENTE,CHOFER,Reclamo,Tipo de error,Nivel de disconformidad,Área afectada,Categoría,Visita Realizada,Medidas a tomar,Responsable,Fecha de cierre,Satisfaccion
0,2024-01-04,2024-01-08,11040,Tapia,NC,Error del proceso,Medio,Logística,Condiciones de entrega,No,Pedido adecuado en próxima entrega,LB,2024-01-08 00:00:00,Satisfecho
1,2024-01-08,2024-01-11,12141,Tapia,Reclamo que N/A,Error del proceso,Leve,Producción,Tipo de leña,No,No aplica,LB,2024-01-11 00:00:00,Satisfecho
2,2024-01-08,2024-01-15,13060,Nicolas,Sugerencia,Error del proceso,Medio,Producción,Tamaño de la leña,No,Leña adecuada en próximo pedido,IP,2024-01-18 00:00:00,Muy satisfecho
3,2024-01-08,2024-01-15,12526,Nicolas,NC,Error del proceso,Medio,Producción,Calidad de la leña,No,Regalo de leña Serrana,FP,2024-02-20 00:00:00,Satisfecho
4,2024-01-19,2024-01-19,12141,Tapia,NC,Error del proceso,Medio,Comercial,Tamaño de la leña,No,Nota de crédito,FP,2024-01-22 00:00:00,Muy satisfecho


In [10]:
df_deuda.head()

Unnamed: 0,CLIENTE,monto_deuda,dias_vencido
0,3831,8459,15
1,4966,14565,15
2,5342,12524,15
3,5582,21698,15
4,5752,7109,15


###*2.2 Información general de columnas y tipos de datos*

In [11]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17595 entries, 0 to 17594
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   FECHA DE FACTURACION  17595 non-null  datetime64[ns]
 1   DOCUMENTO             17595 non-null  object        
 2   COMPROBANTE           17595 non-null  int64         
 3   CLIENTE               17595 non-null  object        
 4   TOTAL                 17595 non-null  float64       
 5   FECHA DE ENTREGA      17595 non-null  datetime64[ns]
 6   DISTRIBUIDOR          17050 non-null  object        
 7   CHOFER                9387 non-null   object        
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 1.1+ MB


In [12]:
df_ventas.shape

(17595, 8)

Tenemos 17595 filas y 8 columnas para el *dataframe de ventas*

In [13]:
df_ventas_detalle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31428 entries, 0 to 31427
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   COMPROBANTE      31428 non-null  int64  
 1   CODIGO_PRODUCTO  31428 non-null  object 
 2   CANTIDAD         31428 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 736.7+ KB


In [14]:
df_ventas_detalle.shape

(31428, 3)

Tenemos 31428 filas y 3 columnas para el *dataframe de ventas_detalle*

In [15]:
df_productos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO_PRODUCTO  41 non-null     object
 1   PRODUCTO         41 non-null     object
 2   UNIDAD           41 non-null     object
 3   FAMILIA          41 non-null     object
dtypes: object(4)
memory usage: 1.4+ KB


In [16]:
df_productos.shape

(41, 4)

Tenemos 41 filas y 4 columnas para el *dataframe de productos*

In [17]:
df_cliente.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9786 entries, 0 to 9785
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   CLIENTE         9785 non-null   object
 1   CLIENTE_NOMBRE  9786 non-null   object
 2   INGRESO         9786 non-null   object
 3   ZONA            8783 non-null   object
 4   TIPO DE VENTA   9308 non-null   object
 5   MEDIO           2372 non-null   object
 6   SEGMENTADOR     9043 non-null   object
dtypes: object(7)
memory usage: 535.3+ KB


In [18]:
df_cliente.shape

(9786, 7)

Tenemos 9786 filas y 7 columnas para el *dataframe de clientes*

In [19]:
df_encuesta2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 285 entries, 0 to 284
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   CLIENTE            279 non-null    object        
 1   ATENCION           285 non-null    int64         
 2   CALIDAD            285 non-null    int64         
 3   PLAZO_ACORDADO     285 non-null    object        
 4   CONTACTO           285 non-null    object        
 5   FACTOR_IMPORTANTE  285 non-null    object        
 6   VAL_PRECIO         86 non-null     float64       
 7   VAL_CALIDAD        86 non-null     float64       
 8   VAL_CANTIDAD       86 non-null     float64       
 9   VAL_PUNTUALIDAD    86 non-null     float64       
 10  VAL_ORDEN          86 non-null     float64       
 11  VAL_PERSONAL       86 non-null     float64       
 12  F_ENTREGA          285 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(6), int64(2), object(4)
memory usag

In [20]:
df_encuesta2024.shape

(285, 13)

Tenemos 285 filas y 13 columnas para el *dataframe de encuesta*

In [21]:
df_reclamos2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Fecha de entrega         149 non-null    datetime64[ns]
 1   Fecha de reclamo         149 non-null    datetime64[ns]
 2   CLIENTE                  149 non-null    int64         
 3   CHOFER                   149 non-null    object        
 4   Reclamo                  149 non-null    object        
 5   Tipo de error            149 non-null    object        
 6   Nivel de disconformidad  149 non-null    object        
 7   Área afectada            149 non-null    object        
 8   Categoría                149 non-null    object        
 9   Visita Realizada         138 non-null    object        
 10  Medidas a tomar          149 non-null    object        
 11  Responsable              149 non-null    object        
 12  Fecha de cierre          149 non-nul

In [22]:
df_reclamos2024.shape

(149, 14)

Tenemos 149 filas y 14 columnas para el dataframe de ventas

In [23]:
df_deuda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   CLIENTE       41 non-null     int64
 1   monto_deuda   41 non-null     int64
 2   dias_vencido  41 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB


In [24]:
df_deuda.shape

(41, 3)

Tenemos 41 filas y 3 columnas para el dataframe de ventas

###*2.3 Estadísticas numéricas básicas*


In [25]:
df_ventas.describe()

Unnamed: 0,FECHA DE FACTURACION,COMPROBANTE,TOTAL,FECHA DE ENTREGA
count,17595,17595.0,17595.0,17595
mean,2023-08-25 01:52:36.828644608,42940.270247,8060.7736,2023-08-25 08:24:13.503836160
min,2022-01-01 00:00:00,6538.0,-362200.0,2021-03-29 00:00:00
25%,2022-09-01 00:00:00,37001.5,4500.0,2022-09-02 00:00:00
50%,2023-08-18 00:00:00,43346.0,7895.0,2023-08-18 00:00:00
75%,2024-06-22 00:00:00,55014.5,10225.0,2024-06-22 00:00:00
max,2025-04-30 00:00:00,60596.0,362200.0,2025-05-02 00:00:00
std,,11949.514767,9976.423831,


In [26]:
df_ventas_detalle.describe()

Unnamed: 0,COMPROBANTE,CANTIDAD
count,31428.0,31428.0
mean,43499.945654,1.300381
std,12057.404122,6.134941
min,6538.0,-200.0
25%,37993.75,0.5
50%,44120.0,0.5
75%,55390.0,1.0
max,60596.0,270.0


In [27]:
df_encuesta2024.describe()

Unnamed: 0,ATENCION,CALIDAD,VAL_PRECIO,VAL_CALIDAD,VAL_CANTIDAD,VAL_PUNTUALIDAD,VAL_ORDEN,VAL_PERSONAL,F_ENTREGA
count,285.0,285.0,86.0,86.0,86.0,86.0,86.0,86.0,285
mean,2.824561,2.754386,3.709302,4.569767,4.593023,4.790698,4.802326,4.72093,2024-05-16 22:24:00
min,1.0,1.0,1.0,1.0,1.0,3.0,1.0,1.0,2024-01-01 00:00:00
25%,3.0,3.0,3.0,4.0,4.25,5.0,5.0,5.0,2024-04-01 00:00:00
50%,3.0,3.0,4.0,5.0,5.0,5.0,5.0,5.0,2024-05-01 00:00:00
75%,3.0,3.0,4.0,5.0,5.0,5.0,5.0,5.0,2024-07-01 00:00:00
max,3.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,2024-12-01 00:00:00
std,0.456672,0.477696,0.956295,0.775215,0.872831,0.511429,0.647525,0.745988,


In [28]:
df_deuda.describe()

Unnamed: 0,CLIENTE,monto_deuda,dias_vencido
count,41.0,41.0,41.0
mean,9784.609756,15304.682927,43.170732
std,3173.803309,13330.477562,34.726721
min,296.0,1000.0,15.0
25%,6984.0,8459.0,15.0
50%,10544.0,10375.0,15.0
75%,12451.0,18916.0,90.0
max,13451.0,59400.0,90.0


###*2.4 Verificar valores nulos*


In [29]:
df_ventas.isnull().sum()

Unnamed: 0,0
FECHA DE FACTURACION,0
DOCUMENTO,0
COMPROBANTE,0
CLIENTE,0
TOTAL,0
FECHA DE ENTREGA,0
DISTRIBUIDOR,545
CHOFER,8208


In [30]:
df_cliente.isnull().sum()

Unnamed: 0,0
CLIENTE,1
CLIENTE_NOMBRE,0
INGRESO,0
ZONA,1003
TIPO DE VENTA,478
MEDIO,7414
SEGMENTADOR,743


In [31]:
df_encuesta2024.isnull().sum()

Unnamed: 0,0
CLIENTE,6
ATENCION,0
CALIDAD,0
PLAZO_ACORDADO,0
CONTACTO,0
FACTOR_IMPORTANTE,0
VAL_PRECIO,199
VAL_CALIDAD,199
VAL_CANTIDAD,199
VAL_PUNTUALIDAD,199


In [32]:
df_reclamos2024.isnull().sum()

Unnamed: 0,0
Fecha de entrega,0
Fecha de reclamo,0
CLIENTE,0
CHOFER,0
Reclamo,0
Tipo de error,0
Nivel de disconformidad,0
Área afectada,0
Categoría,0
Visita Realizada,11


###*2.5 Nombre de las columnas*

In [33]:
df_ventas.columns

Index(['FECHA DE FACTURACION', 'DOCUMENTO', 'COMPROBANTE', 'CLIENTE', 'TOTAL',
       'FECHA DE ENTREGA', 'DISTRIBUIDOR', 'CHOFER'],
      dtype='object')

In [34]:
df_ventas_detalle.columns

Index(['COMPROBANTE', 'CODIGO_PRODUCTO', 'CANTIDAD'], dtype='object')

In [35]:
df_productos.columns

Index(['CODIGO_PRODUCTO', 'PRODUCTO', 'UNIDAD', 'FAMILIA'], dtype='object')

In [36]:
df_cliente.columns

Index(['CLIENTE', 'CLIENTE_NOMBRE', 'INGRESO', 'ZONA', 'TIPO DE VENTA',
       'MEDIO', 'SEGMENTADOR'],
      dtype='object')

In [37]:
df_encuesta2024.columns

Index(['CLIENTE', 'ATENCION', 'CALIDAD', 'PLAZO_ACORDADO', 'CONTACTO',
       'FACTOR_IMPORTANTE', 'VAL_PRECIO', 'VAL_CALIDAD', 'VAL_CANTIDAD',
       'VAL_PUNTUALIDAD', 'VAL_ORDEN', 'VAL_PERSONAL', 'F_ENTREGA'],
      dtype='object')

In [38]:
df_reclamos2024.columns

Index(['Fecha de entrega', 'Fecha de reclamo', 'CLIENTE', 'CHOFER', 'Reclamo',
       'Tipo de error', 'Nivel de disconformidad', 'Área afectada',
       'Categoría', 'Visita Realizada', 'Medidas a tomar', 'Responsable',
       'Fecha de cierre', 'Satisfaccion'],
      dtype='object')

In [39]:
df_deuda.columns

Index(['CLIENTE', 'monto_deuda', 'dias_vencido'], dtype='object')

##**🧹 3- Data Wrangling**

###*3.1 Trasformación de headers y valores*

In [40]:
import unicodedata

# Funcion para convertir texto a mayusculas y quitar tildes
def limpiar_columna(col):
    col = col.upper()  # convertir a mayusculas
    col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')  # eliminar tildes
    return col

# Lista con todos los df
dfs = [df_ventas, df_ventas_detalle, df_productos, df_cliente, df_encuesta2024, df_reclamos2024, df_deuda]

# Aplicar funcion a cada df
for df in dfs:
    df.columns = [limpiar_columna(col) for col in df.columns]

In [41]:
# Funcion para limpiar un valor de texto
def limpiar_valor(valor):
    if isinstance(valor, str):
        valor = valor.upper() # convertir a mayusculas
        valor = unicodedata.normalize('NFKD', valor).encode('ascii', 'ignore').decode('utf-8') # eliminar tildes
        return valor.strip()
    else:
        return valor

# Funcion que limpia todos los valores de un DataFrame
def limpiar_dataframe(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            df[col] = df[col].map(limpiar_valor)
    return df

df_ventas = limpiar_dataframe(df_ventas)
df_cliente = limpiar_dataframe(df_cliente)
df_encuesta2024 = limpiar_dataframe(df_encuesta2024)
df_ventas_detalle = limpiar_dataframe(df_ventas_detalle)
df_productos = limpiar_dataframe(df_productos)
df_reclamos2024 = limpiar_dataframe(df_reclamos2024)
df_deuda = limpiar_dataframe(df_deuda)

In [42]:
# Ejemplo de un df con el cambio realizado

df_reclamos2024.head(2)

Unnamed: 0,FECHA DE ENTREGA,FECHA DE RECLAMO,CLIENTE,CHOFER,RECLAMO,TIPO DE ERROR,NIVEL DE DISCONFORMIDAD,AREA AFECTADA,CATEGORIA,VISITA REALIZADA,MEDIDAS A TOMAR,RESPONSABLE,FECHA DE CIERRE,SATISFACCION
0,2024-01-04,2024-01-08,11040,TAPIA,NC,ERROR DEL PROCESO,MEDIO,LOGISTICA,CONDICIONES DE ENTREGA,NO,PEDIDO ADECUADO EN PROXIMA ENTREGA,LB,2024-01-08 00:00:00,SATISFECHO
1,2024-01-08,2024-01-11,12141,TAPIA,RECLAMO QUE N/A,ERROR DEL PROCESO,LEVE,PRODUCCION,TIPO DE LENA,NO,NO APLICA,LB,2024-01-11 00:00:00,SATISFECHO


###*3.2 Trasformación de los tipos de datos*

In [43]:
df_ventas.dtypes

Unnamed: 0,0
FECHA DE FACTURACION,datetime64[ns]
DOCUMENTO,object
COMPROBANTE,int64
CLIENTE,object
TOTAL,float64
FECHA DE ENTREGA,datetime64[ns]
DISTRIBUIDOR,object
CHOFER,object


In [44]:
df_ventas['COMPROBANTE'] = df_ventas['COMPROBANTE'].astype(str)

In [45]:
df_ventas.dtypes

Unnamed: 0,0
FECHA DE FACTURACION,datetime64[ns]
DOCUMENTO,object
COMPROBANTE,object
CLIENTE,object
TOTAL,float64
FECHA DE ENTREGA,datetime64[ns]
DISTRIBUIDOR,object
CHOFER,object


In [46]:
df_ventas_detalle.dtypes

Unnamed: 0,0
COMPROBANTE,int64
CODIGO_PRODUCTO,object
CANTIDAD,float64


In [47]:
df_ventas_detalle['COMPROBANTE'] = df_ventas_detalle['COMPROBANTE'].astype(str)

In [48]:
df_ventas_detalle.dtypes

Unnamed: 0,0
COMPROBANTE,object
CODIGO_PRODUCTO,object
CANTIDAD,float64


In [49]:
df_productos.dtypes

Unnamed: 0,0
CODIGO_PRODUCTO,object
PRODUCTO,object
UNIDAD,object
FAMILIA,object


In [50]:
df_cliente.dtypes

Unnamed: 0,0
CLIENTE,object
CLIENTE_NOMBRE,object
INGRESO,object
ZONA,object
TIPO DE VENTA,object
MEDIO,object
SEGMENTADOR,object


In [51]:
df_encuesta2024.dtypes

Unnamed: 0,0
CLIENTE,object
ATENCION,int64
CALIDAD,int64
PLAZO_ACORDADO,object
CONTACTO,object
FACTOR_IMPORTANTE,object
VAL_PRECIO,float64
VAL_CALIDAD,float64
VAL_CANTIDAD,float64
VAL_PUNTUALIDAD,float64


In [52]:
df_reclamos2024.dtypes

Unnamed: 0,0
FECHA DE ENTREGA,datetime64[ns]
FECHA DE RECLAMO,datetime64[ns]
CLIENTE,int64
CHOFER,object
RECLAMO,object
TIPO DE ERROR,object
NIVEL DE DISCONFORMIDAD,object
AREA AFECTADA,object
CATEGORIA,object
VISITA REALIZADA,object


In [53]:
df_reclamos2024['CLIENTE'] = df_reclamos2024['CLIENTE'].astype(str)

In [54]:
df_reclamos2024.dtypes

Unnamed: 0,0
FECHA DE ENTREGA,datetime64[ns]
FECHA DE RECLAMO,datetime64[ns]
CLIENTE,object
CHOFER,object
RECLAMO,object
TIPO DE ERROR,object
NIVEL DE DISCONFORMIDAD,object
AREA AFECTADA,object
CATEGORIA,object
VISITA REALIZADA,object


In [55]:
df_deuda.dtypes

Unnamed: 0,0
CLIENTE,int64
MONTO_DEUDA,int64
DIAS_VENCIDO,int64


In [56]:
df_deuda['CLIENTE'] = df_deuda['CLIENTE'].astype(str)

In [57]:
df_deuda.dtypes

Unnamed: 0,0
CLIENTE,object
MONTO_DEUDA,int64
DIAS_VENCIDO,int64


###*3.3 Normalización de datos*

In [58]:
df_encuesta2024['PLAZO_ACORDADO'] = df_encuesta2024['PLAZO_ACORDADO'].map({
    'SI': 1,
    'NO': 0,
    'NO APLICA': 1
})

In [59]:
df_encuesta2024

Unnamed: 0,CLIENTE,ATENCION,CALIDAD,PLAZO_ACORDADO,CONTACTO,FACTOR_IMPORTANTE,VAL_PRECIO,VAL_CALIDAD,VAL_CANTIDAD,VAL_PUNTUALIDAD,VAL_ORDEN,VAL_PERSONAL,F_ENTREGA
0,0011420,3,3,1,PUBLICIDAD EN REDES/TELEVISION,CALIDAD DE LA LENA,,,,,,,2024-01-01
1,0006365,3,3,1,BUSQUEDA EN INTERNET,PRECIO,,,,,,,2024-01-01
2,0011707,3,3,1,VISITA A NUESTRAS INSTALACIONES (OFICINA O DEP...,PRECIO,,,,,,,2024-01-01
3,0010287,3,3,1,BUSQUEDA EN INTERNET,SERVICIO TELEFONICO Y DEL PERSONAL,,,,,,,2024-01-01
4,0012712,3,3,1,PUBLICIDAD EN REDES/TELEVISION,CALIDAD DE LA LENA,,,,,,,2024-01-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...
280,0011334,2,2,1,CLIENTE FRECUENTE,CALIDAD DE LA LENA,4.0,4.0,5.0,5.0,5.0,4.0,2024-12-01
281,0008491,3,3,1,CLIENTE FRECUENTE,EXPERIENCIA PREVIA POSITIVA,5.0,5.0,5.0,5.0,5.0,5.0,2024-12-01
282,0013509,3,3,1,CLIENTE FRECUENTE,EXPERIENCIA PREVIA POSITIVA,5.0,5.0,5.0,5.0,5.0,5.0,2024-12-01
283,0004413,3,3,1,CLIENTE FRECUENTE,CALIDAD DE LA LENA,5.0,5.0,5.0,5.0,5.0,5.0,2024-12-01


In [60]:
df_cliente['ZONA'].unique()

array([nan, 'CARRASCO NORTE', 'POCITOS', 'CARRASCO', 'PUNTA CARRETAS',
       'PRADO - NUEVO SAVONA', 'MALVIN', 'PARQUE MIRAMAR',
       'PARQUE CARRASCO', 'BUCEO', 'LOMAS DE CARRASCO', 'PUNTA GORDA',
       'LA TAHONA', 'CAPURRO - BELLA VISTA - ARROYO SECO', 'EL PINAR',
       'CERRITO DE LA VICTORIA', 'SOLYMAR',
       'PARQUE BATLLE - VILLA DOLORES', 'LAGOMAR', 'CENTRO',
       'PARQUE RODO', 'ABAYUBA', 'MALVIN NORTE', 'SHANGRILA',
       'BARRA DE CARRASCO', 'CORDON', 'LA BLANQUEADA', 'AEROPARQUE',
       'LA ASUNCION', 'REDUCTO', 'ATLANTIDA', 'PASO CARRASCO',
       'ATAHUALPA', 'UNION', 'AGUADA', 'LOMAS DE SOLYMAR', 'MALDONADO',
       'SAN JOSE DE CARRASCO', 'SAN NICOLAS', 'BANADOS DE CARRASCO',
       'CARMEL', 'COLINAS DE CARRASCO', 'MARONAS - PARQUE GUARANI',
       'BARROS BLANCOS', 'COSTA DESPUES MARQUEZ CASTRO', 'LA COMERCIAL',
       'PARQUE DE SOLYMAR', 'COLONIA NICOLICH', 'MONTEVIDEO NORTE',
       'COSTA HASTA MARQUEZ CASTRO', 'PALERMO', 'COLINAS DE SOLYMAR',
       'M

In [61]:
df_cliente['ZONA'].value_counts()

Unnamed: 0_level_0,count
ZONA,Unnamed: 1_level_1
CARRASCO,2102
POCITOS,570
LA TAHONA,561
CARRASCO NORTE,506
SOLYMAR,393
...,...
SAN JOSE,1
CASAVALLE,1
ZONA AMERICA,1
LA BARRA,1


In [62]:
df_cliente['ZONA'] = df_cliente['ZONA'].replace({
    'PRADO - NUEVO SAVONA': 'PRADO',
    'COSTA DESPUES MARQUEZ CASTRO': 'EL PINAR',
    'MONTEVIDEO NORTE': 'MONTEVIDEO',
    'COSTA HASTA MARQUEZ CASTRO': 'SOLYMAR',
    'LAS CANTERAS': 'MALVIN NORTE',
    'CARRASCO SUR': 'CARRASCO',
    'PEÑARON - LAVALLEJA': 'PEÑAROL',
    'PARQUE BATLLE': 'PARQUE BATLLE - VILLA DOLORES',
    'PINAR': 'EL PINAR',
    'MALVIN SUR': 'MALVIN',
    'peñarol': 'PEÑAROL',
    'PARQUE RODO Y CORDON': 'PARQUE RODO',
    'OTROS': 'MONTEVIDEO',
    'CILINDRO': 'MERCADO MODELO - BOLIVAR',
    'LOMAS DE CARRASCO': 'LA TAHONA'
    })

In [63]:
df_cliente['ZONA'].value_counts()

Unnamed: 0_level_0,count
ZONA,Unnamed: 1_level_1
CARRASCO,2111
LA TAHONA,660
POCITOS,570
CARRASCO NORTE,506
SOLYMAR,422
...,...
SAN JOSE,1
CASAVALLE,1
ZONA AMERICA,1
LA BARRA,1


In [64]:
df_reclamos2024['SATISFACCION'].unique()

array(['SATISFECHO', 'MUY SATISFECHO', 'MUY INSATISFECHO', nan, 'S/D',
       'INSATISFECHO'], dtype=object)

In [68]:
df_reclamos2024['SATISFACCION'] = df_reclamos2024['SATISFACCION'].replace({
    'MUY SATISFECHO': 5,
    'SATISFECHO': 4,
    'S/D': 3,
    'INSATISFECHO': 2,
    'MUY INSATISFECHO': 1
}).astype('Int64')

In [69]:
df_reclamos2024['SATISFACCION'].unique()

<IntegerArray>
[4, 5, 1, <NA>, 3, 2]
Length: 6, dtype: Int64

###*3.4 Trasformación de los datos nulos*

##**📊 4- EDA (Análisis Exploratorio de Datos)**

###*4.1 Análisis univariado*