### **Procesamiento de datos**

El procesamiento de datos es una parte fundamental para asegurarnos de que el dataset esté limpio y listo para su uso en modelos predictivos. Vamos a aplicar técnicas de preprocesamiento de datos para limpiar y transformar el dataset.

Nos enfocaremos en las siguientes tareas:
- **Limpieza de datos**: Manejar valores faltantes y duplicados.
- **Codificación de variables categóricas**: Convertir variables categóricas en numéricas.
- **Escalado de características**: Normalizar las características para que tengan una escala similar, si es necesario.
- **Manejo de valores nulos**: Manejar valores nulos en el dataset, mediante eliminación o imputación.
- **Eliminación de datos duplicados**: Eliminar datos duplicados en el dataset.

### **Importación de librerías**

In [2]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

### **Importación de datos del Dataset**

In [3]:
df = pd.read_csv('../data/raw/IA_PROPENSITY_TRAIN.csv', index_col=0)
df.head()

Unnamed: 0_level_0,PRODUCTO,TIPO_CARROCERIA,COMBUSTIBLE,Potencia,TRANS,FORMA_PAGO,ESTADO_CIVIL,GENERO,OcupaciOn,PROVINCIA,Campanna1,Campanna2,Campanna3,Zona_Renta,REV_Garantia,Averia_grave,QUEJA_CAC,COSTE_VENTA,km_anno,Mas_1_coche,Revisiones,Edad_Cliente,Tiempo
CODE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
CLI1,A,TIPO1,FUEL 1,Baja,M,Contado,CASADO,M,Empresa,Asturias,SI,NO,NO,Medio-Bajo,NO DATA,Averia muy grave,SI,2892,0,False,2,18,0
CLI2,A,TIPO1,FUEL 1,Baja,M,Contado,CASADO,F,Empresa,Toledo,NO,NO,NO,Medio-Bajo,SI,No,NO,1376,7187,False,2,53,0
CLI3,A,TIPO1,FUEL 1,Baja,M,Otros,CASADO,M,Empresa,Lerida,NO,NO,NO,Medio,NO DATA,No,NO,1376,0,True,4,21,3
CLI4,A,TIPO1,FUEL 1,Baja,M,Financiera Marca,CASADO,F,Empresa,Madrid,SI,NO,NO,Medio,SI,Averia muy grave,SI,2015,7256,True,4,48,5
CLI5,A,TIPO1,FUEL 1,Baja,M,Financiera Marca,CASADO,F,Funcionario,Santa Cruz de Tenerife,SI,NO,SI,Alto,NO DATA,No,NO,1818,0,True,3,21,3


In [4]:
df.shape

(58049, 23)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 58049 entries, CLI1 to CLI58048
Data columns (total 23 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   PRODUCTO         58049 non-null  object
 1   TIPO_CARROCERIA  58049 non-null  object
 2   COMBUSTIBLE      58049 non-null  object
 3   Potencia         58049 non-null  object
 4   TRANS            58049 non-null  object
 5   FORMA_PAGO       58049 non-null  object
 6   ESTADO_CIVIL     57159 non-null  object
 7   GENERO           57189 non-null  object
 8   OcupaciOn        58049 non-null  object
 9   PROVINCIA        58049 non-null  object
 10  Campanna1        58049 non-null  object
 11  Campanna2        58049 non-null  object
 12  Campanna3        58049 non-null  object
 13  Zona_Renta       44871 non-null  object
 14  REV_Garantia     58049 non-null  object
 15  Averia_grave     58048 non-null  object
 16  QUEJA_CAC        58049 non-null  object
 17  COSTE_VENTA      58049 non-nul

In [6]:
df.dtypes

PRODUCTO           object
TIPO_CARROCERIA    object
COMBUSTIBLE        object
Potencia           object
TRANS              object
FORMA_PAGO         object
ESTADO_CIVIL       object
GENERO             object
OcupaciOn          object
PROVINCIA          object
Campanna1          object
Campanna2          object
Campanna3          object
Zona_Renta         object
REV_Garantia       object
Averia_grave       object
QUEJA_CAC          object
COSTE_VENTA         int64
km_anno             int64
Mas_1_coche          bool
Revisiones          int64
Edad_Cliente        int64
Tiempo              int64
dtype: object

In [7]:
df.columns

Index(['PRODUCTO', 'TIPO_CARROCERIA', 'COMBUSTIBLE', 'Potencia', 'TRANS', 'FORMA_PAGO', 'ESTADO_CIVIL', 'GENERO', 'OcupaciOn', 'PROVINCIA', 'Campanna1', 'Campanna2', 'Campanna3', 'Zona_Renta', 'REV_Garantia', 'Averia_grave', 'QUEJA_CAC', 'COSTE_VENTA', 'km_anno', 'Mas_1_coche', 'Revisiones', 'Edad_Cliente', 'Tiempo'], dtype='object')

Nos disponemos a describir las variables incluidas en el dataset, utilizadas para el análisis de propensión de un cliente a comprar automóviles:


- **`CODE`** _(object)_ → Código único del cliente.
- **`PRODUCTO`** _(object)_ → Tipo de producto asociado al cliente.
- **`TIPO_CARROCERIA`** _(object)_ → Tipo de carrocería del vehículo.
- **`COMBUSTIBLE`** _(object)_ → Tipo de combustible utilizado.
- **`Potencia`** _(object)_ → Categoría de potencia del vehículo (Ej.: "Baja").
- **`TRANS`** _(object)_ → Tipo de transmisión (Ej.: manual, automática).
- **`FORMA_PAGO`** _(object)_ → Método de pago (Ej.: contado, financiera).
- **`ESTADO_CIVIL`** _(object, con valores nulos)_ → Estado civil del cliente.
- **`GENERO`** _(object, con valores nulos)_ → Género del cliente.
- **`OcupaciOn`** _(object)_ → Profesión del cliente (Ej.: "Funcionario", "Empresa").
- **`PROVINCIA`** _(object)_ → Ubicación geográfica del cliente.
- **`Campanna1`, `Campanna2`, `Campanna3`** _(object)_ → Posibles campañas de marketing asociadas al cliente.
- **`Zona_Renta`** _(object, con valores nulos)_ → Nivel socioeconómico del cliente.
- **`REV_Garantia`** _(object)_ → Indica si el cliente ha realizado revisiones en garantía.
- **`Averia_grave`** _(object, un valor nulo)_ → Historial de averías graves del vehículo.
- **`QUEJA_CAC`** _(object)_ → Indica si el cliente ha registrado una queja en atención al cliente.
- **`COSTE_VENTA`** _(int64)_ → Monto total de la venta (valor numérico).
- **`km_anno`** _(int64)_ → Kilómetros recorridos por año.
- **`Mas_1_coche`** _(bool)_ → Indica si el cliente tiene más de un coche.
- **`Revisiones`** _(int64)_ → Número de revisiones realizadas.
- **`Edad_Cliente`** _(int64)_ → Edad del cliente.
- **`Tiempo`** _(int64)_ → Tiempo en años desde que es cliente.

In [8]:
df.head(3)

Unnamed: 0_level_0,PRODUCTO,TIPO_CARROCERIA,COMBUSTIBLE,Potencia,TRANS,FORMA_PAGO,ESTADO_CIVIL,GENERO,OcupaciOn,PROVINCIA,Campanna1,Campanna2,Campanna3,Zona_Renta,REV_Garantia,Averia_grave,QUEJA_CAC,COSTE_VENTA,km_anno,Mas_1_coche,Revisiones,Edad_Cliente,Tiempo
CODE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
CLI1,A,TIPO1,FUEL 1,Baja,M,Contado,CASADO,M,Empresa,Asturias,SI,NO,NO,Medio-Bajo,NO DATA,Averia muy grave,SI,2892,0,False,2,18,0
CLI2,A,TIPO1,FUEL 1,Baja,M,Contado,CASADO,F,Empresa,Toledo,NO,NO,NO,Medio-Bajo,SI,No,NO,1376,7187,False,2,53,0
CLI3,A,TIPO1,FUEL 1,Baja,M,Otros,CASADO,M,Empresa,Lerida,NO,NO,NO,Medio,NO DATA,No,NO,1376,0,True,4,21,3


### **Limpieza de datos**

Comenzamos abordando los **valores duplicados** en el dataset.

In [9]:
df.duplicated().sum()

np.int64(144)

In [10]:
df.drop_duplicates(inplace=True)

In [11]:
df.shape[0] # Filas tras eliminar duplicados

57905

Ahora vamos con las **filas nulas**, ya que los valores nulos pueden afectar el rendimiento de los modelos predictivos.

In [12]:
df.isnull().sum() # Valores nulos

PRODUCTO               0
TIPO_CARROCERIA        0
COMBUSTIBLE            0
Potencia               0
TRANS                  0
FORMA_PAGO             0
ESTADO_CIVIL         890
GENERO               860
OcupaciOn              0
PROVINCIA              0
Campanna1              0
Campanna2              0
Campanna3              0
Zona_Renta         13064
REV_Garantia           0
Averia_grave           1
QUEJA_CAC              0
COSTE_VENTA            0
km_anno                0
Mas_1_coche            0
Revisiones             0
Edad_Cliente           0
Tiempo                 0
dtype: int64

In [13]:
null_percentage = (df.isnull().sum() / len(df)) * 100 # Porcentaje de valores nulos
null_percentage[null_percentage > 0]

ESTADO_CIVIL     1.537000
GENERO           1.485191
Zona_Renta      22.561091
Averia_grave     0.001727
dtype: float64

Viendo sus porcentajes, rellenamos con la moda `ESTADO_CIVIL`, `GENERO` y `Zona_Renta`. Y eliminamos las filas con valores nulos en `Averia_grave`.

In [15]:
df.dropna(subset=['Averia_grave'], inplace=True) # Eliminamos las filas con valores nulos 

In [23]:
for col in ["ESTADO_CIVIL", "GENERO", "Zona_Renta"]:
    df[col] = df[col].fillna(df[col].mode()[0])

### **Vemos de variables categóricas y continuas.**

In [26]:
v_continuas = []
v_categoricas = []
for col in df.columns:
    if df[col].nunique() > 10 and df[col].dtypes in ['float64', 'int64']:
        v_continuas.append(col)
    else:
        v_categoricas.append(col)

print('Variables continuas: {}'.format(', '.join(v_continuas)))
print('Variables categóricas: {}'.format(', '.join(v_categoricas)))

Variables continuas: COSTE_VENTA, km_anno, Revisiones, Edad_Cliente, Tiempo
Variables categóricas: PRODUCTO, TIPO_CARROCERIA, COMBUSTIBLE, Potencia, TRANS, FORMA_PAGO, ESTADO_CIVIL, GENERO, OcupaciOn, PROVINCIA, Campanna1, Campanna2, Campanna3, Zona_Renta, REV_Garantia, Averia_grave, QUEJA_CAC, Mas_1_coche


### **Tratamiento de variables categóricas**

In [28]:
df[v_categoricas].describe()

Unnamed: 0,PRODUCTO,TIPO_CARROCERIA,COMBUSTIBLE,Potencia,TRANS,FORMA_PAGO,ESTADO_CIVIL,GENERO,OcupaciOn,PROVINCIA,Campanna1,Campanna2,Campanna3,Zona_Renta,REV_Garantia,Averia_grave,QUEJA_CAC,Mas_1_coche
count,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904,57904
unique,11,8,2,3,2,4,4,2,3,53,2,2,2,4,2,4,2,2
top,B,TIPO1,FUEL 2,Media,M,Contado,CASADO,M,Empresa,Madrid,NO,NO,NO,Alto,NO DATA,No,NO,False
freq,15982,23359,33012,39807,52830,30147,44284,40913,53118,10809,37348,50968,51019,30204,31867,29796,36128,40977


### **Label Encoder**
A continuación, vamos a codificar las variables categóricas en numéricas. Para ello, utilizaremos la técnica de `Label Encoding`. Asegurándonos de que las variables categóricas se conviertan en numéricas.

In [31]:
# Variables categóricas a codificar (solo restan las nominales)
label_cols = [col for col in v_categoricas if df[col].dtype != "float64"]

for col in label_cols: # Codificación de las variables categóricas nominales
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])

df.head()

Unnamed: 0_level_0,PRODUCTO,TIPO_CARROCERIA,COMBUSTIBLE,Potencia,TRANS,FORMA_PAGO,ESTADO_CIVIL,GENERO,OcupaciOn,PROVINCIA,Campanna1,Campanna2,Campanna3,Zona_Renta,REV_Garantia,Averia_grave,QUEJA_CAC,COSTE_VENTA,km_anno,Mas_1_coche,Revisiones,Edad_Cliente,Tiempo
CODE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
CLI1,0,0,0,1,1,0,0,1,1,4,1,0,0,2,0,2,1,2892,0,0,2,18,0
CLI2,0,0,0,1,1,0,0,0,1,47,0,0,0,2,1,3,0,1376,7187,0,2,53,0
CLI3,0,0,0,1,1,3,0,1,1,30,0,0,0,1,0,3,0,1376,0,1,4,21,3
CLI4,0,0,0,1,1,2,0,0,1,32,1,0,0,1,1,2,1,2015,7256,1,4,48,5
CLI5,0,0,0,1,1,2,0,0,2,41,1,0,1,0,0,3,0,1818,0,1,3,21,3


### **Tratamiento de variables continuas**

In [32]:
df[v_continuas].describe()

Unnamed: 0,COSTE_VENTA,km_anno,Revisiones,Edad_Cliente,Tiempo
count,57904.0,57904.0,57904.0,57904.0,57904.0
mean,2540.657416,11832.042847,3.535559,47.362255,1.862497
std,1605.129977,10201.406504,2.52784,11.225932,3.093356
min,0.0,0.0,0.0,18.0,0.0
25%,1595.0,0.0,1.0,40.0,0.0
50%,2353.0,11505.0,3.0,48.0,0.0
75%,3309.0,17938.0,5.0,56.0,4.0
max,18455.0,182331.0,13.0,71.0,14.0


Vamos a analizar los valores atípicos con el rango intercuartílico y a normalizar las variables continuas.

In [33]:
def outliers_IQR(df, cols):
    outliers = {}
    for col in cols:
        Q1 = df[col].quantile(0.10)
        Q3 = df[col].quantile(0.90)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        # Contar valores atípicos
        outliers[col] = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col].count()
        # Eliminar outliers
        df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]
    return df, outliers

In [34]:
df, outliers_detectados = outliers_IQR(df, v_continuas)
print("Valores atípicos detectados:")
for col, count in outliers_detectados.items():
    print(f"- {col}: {count}")

Valores atípicos detectados:
- COSTE_VENTA: 37
- km_anno: 66
- Revisiones: 0
- Edad_Cliente: 0
- Tiempo: 0


### **Exportación del dataset procesado**

Tras completar el preprocesamiento de los datos, es necesario guardar el dataset limpio y transformado para su uso en el modelo de clasificación. En esta etapa, aseguramos que todas las variables estén correctamente codificadas, sin valores nulos ni atípicos, y listas para ser utilizadas en el entrenamiento del modelo.

In [35]:
df.to_csv('../data/stg/IA_PROPENSITY_TRAIN_1.csv', index=False)