In [61]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.preprocessing import LabelEncoder

import numpy as np

In [62]:
# Reemplaza 'cars.csv' con la ruta de tu archivo de datos
data = pd.read_csv('cars.csv', delimiter=';')
data.drop(['Tiempo', 'EDAD_COCHE'], axis=1, inplace=True)
data.head()

Unnamed: 0,CODE,PRODUCTO,TIPO_CARROCERIA,COMBUSTIBLE,Potencia_,TRANS,FORMA_PAGO,ESTADO_CIVIL,GENERO,OcupaciOn,...,Campanna3,Zona _Renta,REV_Garantia,Averia_grave,QUEJA_CAC,COSTE_VENTA,km_anno,Mas_1_coche,Revisiones,Edad Cliente
0,CLI1,A,TIPO1,FUEL 1,Baja,M,Contado,CASADO,M,Empresa,...,NO,Medio-Bajo,NO DATA,Averia muy grave,SI,2892,0,0,2,18
1,CLI2,A,TIPO1,FUEL 1,Baja,M,Contado,CASADO,F,Empresa,...,NO,Medio-Bajo,SI,No,NO,1376,7187,0,2,53
2,CLI3,A,TIPO1,FUEL 1,Baja,M,Otros,CASADO,M,Empresa,...,NO,Medio,NO DATA,No,NO,1376,0,1,4,21
3,CLI4,A,TIPO1,FUEL 1,Baja,M,Financiera Marca,CASADO,F,Empresa,...,NO,Medio,SI,Averia muy grave,SI,2015,7256,1,4,48
4,CLI5,A,TIPO1,FUEL 1,Baja,M,Financiera Marca,CASADO,F,Funcionario,...,SI,Alto,NO DATA,No,NO,1818,0,1,3,21


In [63]:
data.isnull().sum()

CODE                   0
PRODUCTO               0
TIPO_CARROCERIA        0
COMBUSTIBLE            0
Potencia_              0
TRANS                  0
FORMA_PAGO             0
ESTADO_CIVIL         890
GENERO               860
OcupaciOn              0
PROVINCIA              0
Campanna1              0
Campanna2              0
Campanna3              0
Zona _Renta        13178
REV_Garantia           0
Averia_grave           1
QUEJA_CAC              0
COSTE_VENTA            0
km_anno                0
Mas_1_coche            0
Revisiones             0
Edad Cliente           0
dtype: int64

## Columnas categóricas a numéricas

In [64]:
# Identificar las columnas categóricas
categorical_columns = data.select_dtypes(include=['object']).columns

# Usar LabelEncoder para convertir las columnas categóricas en numéricas
label_encoders = {}
for column in categorical_columns:
    label_encoders[column] = LabelEncoder()
    data[column] = label_encoders[column].fit_transform(data[column].astype(str))


## Separar los datos en X e Y

In [65]:
# Separar las características (X) de la variable objetivo (y)
X = data.drop('Mas_1_coche', axis=1)  # Asegúrate de que 'Mas_1_coche' sea el nombre de la columna objetivo
y = data['Mas_1_coche']

Dividimos los datos de entrenamiento y prueba

In [66]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Creamos modelo RandomForest

In [67]:
# Crear el modelo de Random Forest
model = RandomForestClassifier(n_estimators=250, max_depth=5, min_samples_split=5, random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)

## Realizamos predicciones y evaluamos modelo

In [68]:
# Realizar predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print("Classification Report:\n", report)

Accuracy: 0.805770887166236
Classification Report:
               precision    recall  f1-score   support

           0       0.80      0.98      0.88      8338
           1       0.86      0.37      0.52      3272

    accuracy                           0.81     11610
   macro avg       0.83      0.67      0.70     11610
weighted avg       0.81      0.81      0.78     11610



In [69]:
ndf = pd.read_csv('cars_input.csv', delimiter=';')

In [70]:
# Preprocesar el nuevo conjunto de datos
for column in categorical_columns:
    if column in ndf.columns:
        # Detectar nuevas categorías
        categorias_vistas = set(label_encoders[column].classes_)
        categorias_nuevas = set(ndf[column].astype(str).unique()) - categorias_vistas
        
        if categorias_nuevas:
            print(f"Column '{column}' contains new categories: {categorias_nuevas}")

            # Asignar una categoría especial "Desconocido" para las nuevas categorías
            ndf[column] = ndf[column].apply(lambda x: x if x in categorias_vistas else 'Desconocido')
            
            # Añadir la categoría "Desconocido" a las clases del LabelEncoder
            label_encoders[column].classes_ = np.append(label_encoders[column].classes_, 'Desconocido')

        # Transformar la columna categórica usando el LabelEncoder entrenado
        ndf[column] = label_encoders[column].transform(ndf[column].astype(str))


Column 'CODE' contains new categories: {'CLIN20403', 'CLIN12579', 'CLIN9992', 'CLIN4348', 'CLIN13058', 'CLIN14483', 'CLIN10519', 'CLIN10834', 'CLIN11628', 'CLIN3660', 'CLIN11890', 'CLIN7275', 'CLIN617', 'CLIN18379', 'CLIN20399', 'CLIN12845', 'CLIN7395', 'CLIN21415', 'CLIN9705', 'CLIN10124', 'CLIN15583', 'CLIN14689', 'CLIN14229', 'CLIN21688', 'CLIN5387', 'CLIN1313', 'CLIN3190', 'CLIN16575', 'CLIN7647', 'CLIN10551', 'CLIN16223', 'CLIN10847', 'CLIN7798', 'CLIN4365', 'CLIN1911', 'CLIN13997', 'CLIN6283', 'CLIN16599', 'CLIN10901', 'CLIN7489', 'CLIN12624', 'CLIN22610', 'CLIN101', 'CLIN16972', 'CLIN13952', 'CLIN11585', 'CLIN20909', 'CLIN5298', 'CLIN3934', 'CLIN841', 'CLIN11269', 'CLIN13976', 'CLIN22231', 'CLIN17290', 'CLIN16698', 'CLIN8721', 'CLIN7688', 'CLIN5594', 'CLIN13803', 'CLIN4327', 'CLIN13081', 'CLIN1813', 'CLIN7266', 'CLIN19703', 'CLIN18371', 'CLIN13406', 'CLIN14575', 'CLIN17724', 'CLIN5976', 'CLIN12102', 'CLIN16794', 'CLIN11023', 'CLIN1276', 'CLIN9089', 'CLIN9560', 'CLIN17301', 'CLIN

In [71]:
# Encontrar las columnas faltantes en el nuevo conjunto de datos
columnas_faltantes = set(X_train.columns) - set(ndf.columns)
print(f"Columnas faltantes en el nuevo conjunto de datos: {columnas_faltantes}")


Columnas faltantes en el nuevo conjunto de datos: set()


In [72]:
# Asegúrate de que el nuevo conjunto de datos tenga las mismas columnas que X_train
X_nuevo = ndf[X_train.columns]  # Utiliza las mismas características que en el entrenamiento
X_train.columns

Index(['CODE', 'PRODUCTO', 'TIPO_CARROCERIA', 'COMBUSTIBLE', 'Potencia_',
       'TRANS', 'FORMA_PAGO', 'ESTADO_CIVIL', 'GENERO', 'OcupaciOn',
       'PROVINCIA', 'Campanna1', 'Campanna2', 'Campanna3', 'Zona _Renta',
       'REV_Garantia', 'Averia_grave', 'QUEJA_CAC', 'COSTE_VENTA', 'km_anno',
       'Revisiones', 'Edad Cliente'],
      dtype='object')

In [73]:
# Realizar predicciones con el modelo entrenado
y_nuevo_pred = model.predict(X_nuevo)

In [75]:
# Realizar predicciones con el modelo entrenado
y_nuevo_pred = model.predict(X_nuevo)

# Mostrar las primeras predicciones
print("Predicciones en el nuevo conjunto de datos:", y_nuevo_pred[:10])


Predicciones en el nuevo conjunto de datos: [0 0 0 1 0 0 0 0 0 0]


In [76]:
from sklearn.model_selection import cross_val_score

# Realizar validación cruzada en el conjunto de datos original
cv_scores = cross_val_score(model, X, y, cv=5)  # cv=5 para 5-fold cross-validation

print(f"Validation accuracy scores: {cv_scores}")
print(f"Mean cross-validation accuracy: {cv_scores.mean()}")

Validation accuracy scores: [0.77777778 0.80637382 0.79793282 0.80387597 0.79662331]
Mean cross-validation accuracy: 0.7965167376969768
