### **3. Modelamiento y Evaluación**
**Clasificación Barato vs Caro**: Clasificaré los vehículos en "baratos" o "caros" usando la mediana del precio como umbral, y luego entrenaré un modelo de Random Forest para predecir esta clasificación.

In [45]:
# Verifico que la columna 'price' esté presente
if 'price' in cars_encoded.columns:
    # Calculo la mediana del precio
    mediana_precio = cars_encoded['price'].median()

    # Clasifico en "baratos" (0) y "caros" (1)
    cars_encoded['categoria_precio'] = (cars_encoded['price'] >= mediana_precio).astype(int)

    # Verifico las primeras filas con la nueva columna
    print(cars_encoded[['price', 'categoria_precio']].head())
else:
    print("La columna 'price' no está presente en el dataset.")


   price  categoria_precio
0  13495                 1
1  16500                 1
2  16500                 1
3  13950                 1
4  17450                 1


**Entrenamiento del Modelo de Random Forest**

Importar las librerías necesarias.
Preparar tus datos separando las características y la variable objetivo.
Dividir tus datos en conjuntos de entrenamiento y prueba.
Entrenar un modelo de Random Forest.
Realizar predicciones y evaluar el rendimiento del modelo.

In [46]:
# Importo las librerías necesarias
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Defino las variables predictoras (X) y la variable objetivo (y)
X = cars_encoded.drop(columns=['price', 'categoria_precio'])  # Eliminar 'price' y 'categoria_precio' de las features
y = cars_encoded['categoria_precio']  # Variable objetivo

# Divido los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Justificación del Proceso de Codificación y Entrenamiento del Modelo**

En esta etapa de modelamiento y entrenamiento, tuve que realizar varios ajustes debido a errores al intentar entrenar el modelo. 
- Utilicé One-Hot Encoding para transformar las columnas categóricas restantes ('aspiration' y 'car_body'), lo que permitió convertirlas en variables 
numéricas adecuadas para el modelo. 
- Verifiqué que todos los datos estuvieran en el formato correcto. Aseguré que no hubiera valores no numéricos en las columnas que se utilizarían para el entrenamiento.
- Implementé un clasificador Random Forest y evalué su rendimiento mediante una matriz de confusión y un reporte de clasificación, lo que mostró un alto desempeño del modelo.

In [47]:
# Verifico los tipos de datos en X
print(X.dtypes)


car_id          int64
symboling       int64
aspiration     object
door_number     int64
car_body       object
                ...  
modelo_x5        bool
modelo_xf        bool
modelo_xj        bool
modelo_xk        bool
modelo_z4        bool
Length: 156, dtype: object


In [48]:
# Aplico One-Hot Encoding a las columnas categóricas restantes
X_encoded = pd.get_dummies(X, columns=['aspiration', 'car_body', 'drive_wheel', 'engine_location'], drop_first=True)

# Verifico los tipos de datos después de la codificación
print(X_encoded.dtypes)

# Reasigno X a la versión codificada
X = X_encoded


car_id                    int64
symboling                 int64
door_number               int64
wheel_base              float64
car_length              float64
                         ...   
car_body_sedan             bool
car_body_wagon             bool
drive_wheel_fwd            bool
drive_wheel_rwd            bool
engine_location_rear       bool
Length: 160, dtype: object


In [49]:
# Verifico los tipos de datos en X después de la codificación
print(X.dtypes)


car_id                    int64
symboling                 int64
door_number               int64
wheel_base              float64
car_length              float64
                         ...   
car_body_sedan             bool
car_body_wagon             bool
drive_wheel_fwd            bool
drive_wheel_rwd            bool
engine_location_rear       bool
Length: 160, dtype: object


In [50]:
# Verifico las columnas categóricas restantes
print(X.select_dtypes(include=['object']).columns)


Index(['engine_type', 'fuel_system'], dtype='object')


In [51]:
# Aplico One-Hot Encoding a las columnas categóricas restantes
X_encoded = pd.get_dummies(X, drop_first=True)

# Reasigno X a la versión codificada
X = X_encoded


In [54]:
# Eliminar columnas problemáticas, por ejemplo, si 'std' es una columna no deseada
X_train_cleaned = X_train.drop(columns=['nombre_columna_problematica'], errors='ignore')


In [55]:
modelo_rf.fit(X_train_cleaned, y_train)


ValueError: could not convert string to float: 'std'

In [53]:
# Creo el modelo de Random Forest
modelo_rf = RandomForestClassifier(random_state=42)

# Entreno el modelo
modelo_rf.fit(X_train, y_train)


ValueError: could not convert string to float: 'std'

In [None]:
# Realizo predicciones sobre el conjunto de prueba
y_pred = modelo_rf.predict(X_test)

# Evalúo el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))


In [33]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report

# Divido los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creo el modelo de Random Forest
modelo_rf = RandomForestClassifier(random_state=42)

# Entreno el modelo
modelo_rf.fit(X_train, y_train)

# Realizo predicciones sobre el conjunto de prueba
y_pred = modelo_rf.predict(X_test)

# Evalúo el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

Matriz de confusión:
[[22  1]
 [ 0 18]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       1.00      0.96      0.98        23
           1       0.95      1.00      0.97        18

    accuracy                           0.98        41
   macro avg       0.97      0.98      0.98        41
weighted avg       0.98      0.98      0.98        41



- Verdaderos Positivos (TP): 18 (Clase 1, correctamente clasificados)
- Falsos Positivos (FP): 1 (Clase 0 clasificada erróneamente como Clase 1)
- Verdaderos Negativos (TN): 22 (Clase 0 correctamente clasificados)
- Falsos Negativos (FN): 0 (Clase 1 clasificada erróneamente como Clase 0)

Reporte de Clasificación

Precisión:
- Clase 0: 1.00 (100% de los ejemplos clasificados como 0 son realmente 0)
- Clase 1: 0.95 (95% de los ejemplos clasificados como 1 son realmente 1)
R
ecall:
- Clase 0: 0.96 (96% de los verdaderos 0 fueron identificados)
- Clase 1: 1.00 (100% de los verdaderos 1 fueron identificados)

F1-Score:
- Clase 0: 0.98
- Clase 1: 0.97

Exactitud General: 0.98 (98% de las predicciones fueron correctas)

Promedio Macro: 0.97 (promedio de la precisión, recall y f1-score entre ambas clases)

Promedio Ponderado: 0.98 (promedio considerando el soporte de cada clase)

Conclusión:
El modelo muestra un rendimiento excelente, con una alta precisión y recall, indicando que es muy efectivo para clasificar correctamente ambos grupos de vehículos en el dataset.

In [26]:
# Divido los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creo el modelo de Random Forest
modelo_rf = RandomForestClassifier(random_state=42)

# Entreno el modelo
modelo_rf.fit(X_train, y_train)

# Realizo predicciones sobre el conjunto de prueba
y_pred = modelo_rf.predict(X_test)

# Evalúo el rendimiento del modelo
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))


ValueError: could not convert string to float: 'ohc'

In [14]:
# Creo el modelo de Random Forest
modelo_rf = RandomForestClassifier(random_state=42)

# Entreno el modelo
modelo_rf.fit(X_train, y_train)

ValueError: could not convert string to float: 'std'

**Verificación de la columna 'price'**: Antes de empezar, me aseguro de que la columna price esté presente en el dataset, ya que la necesito para la clasificación.

**Cálculo de la mediana**: Calculo la mediana de la columna price para tener un punto de referencia. Esto me ayudará a clasificar los vehículos en "baratos" o "caros".

**Clasificación**: Creo una nueva columna categoria_precio en la que asigno un valor de 0 a los vehículos cuyo precio está por debajo de la mediana (baratos) y 1 a los que están por encima (caros).

**Cargar el dataset**

In [4]:
# Importo las bibliotecas necesarias
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Cargo el dataset preparado
cars_encoded = pd.read_csv('cars_encoded.csv')  # Asegúrate de usar el archivo correcto

# Verifico las columnas disponibles para confirmar
print(cars_encoded.columns)

Index(['car_id', 'symboling', 'aspiration', 'door_number', 'car_body',
       'drive_wheel', 'engine_location', 'wheel_base', 'car_length',
       'car_width',
       ...
       'modelo_vega 2300', 'modelo_versa', 'modelo_x1', 'modelo_x3',
       'modelo_x4', 'modelo_x5', 'modelo_xf', 'modelo_xj', 'modelo_xk',
       'modelo_z4'],
      dtype='object', length=157)


**Verifico si está la variable 'price'**

In [11]:
# Importo las bibliotecas necesarias
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Cargo el dataset preparado
cars_encoded = pd.read_csv('cars_encoded.csv')  # Asegúrate de usar el archivo correcto

# Verifico las columnas disponibles para confirmar
print(cars_encoded.columns)

# Busco la variable 'price'
if 'price' in cars_encoded.columns:
    print("La variable 'price' está presente en el dataset.")
else:
    print("La variable 'price' NO está presente en el dataset.")


Index(['car_id', 'symboling', 'aspiration', 'door_number', 'car_body',
       'drive_wheel', 'engine_location', 'wheel_base', 'car_length',
       'car_width',
       ...
       'modelo_vega 2300', 'modelo_versa', 'modelo_x1', 'modelo_x3',
       'modelo_x4', 'modelo_x5', 'modelo_xf', 'modelo_xj', 'modelo_xk',
       'modelo_z4'],
      dtype='object', length=157)
La variable 'price' está presente en el dataset.


**Escalar las columnas numéricas**

In [6]:
from sklearn.preprocessing import StandardScaler

# Cargo el dataset
cars_encoded = pd.read_csv('cars_encoded.csv')

# Defino las columnas numéricas que quiero escalar (reemplaza por las que corresponden)
numeric_columns = ['symboling', 'wheel_base', 'car_length', 'car_width']  # Reemplaza con las columnas numéricas reales

# Aplico el escalado a las columnas numéricas
scaler = StandardScaler()
cars_encoded[numeric_columns] = scaler.fit_transform(cars_encoded[numeric_columns])

# Verifico las primeras filas del DataFrame escalado
print("* Primeras filas del DataFrame escalado:")
print(cars_encoded.head())


* Primeras filas del DataFrame escalado:
   car_id  symboling aspiration  door_number     car_body drive_wheel  \
0       1   1.743470        std            2  convertible         rwd   
1       2   1.743470        std            2  convertible         rwd   
2       3   0.133509        std            2    hatchback         rwd   
3       4   0.938490        std            4        sedan         fwd   
4       5   0.938490        std            4        sedan         4wd   

  engine_location  wheel_base  car_length  car_width  ...  modelo_vega 2300  \
0           front   -1.774038   -0.447163  -0.844782  ...             False   
1           front   -1.774038   -0.447163  -0.844782  ...             False   
2           front   -0.712336   -0.248639  -0.190566  ...             False   
3           front    0.241396    0.198040   0.136542  ...             False   
4           front    0.169416    0.198040   0.230001  ...             False   

   modelo_versa modelo_x1  modelo_x3  modelo_

**Clasificación Barato/Costoso**:
Utilizaremos la mediana del precio para clasificar los vehículos en "baratos" (0) y "caros" (1).

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Asegúrate de que la columna 'price' exista en el dataset
if 'price' in cars_encoded.columns:
    # Calculo la mediana del precio
    mediana_precio = cars_encoded['price'].median()

    # Creo la columna 'categoria_precio' donde 0 = barato y 1 = caro
    cars_encoded['categoria_precio'] = (cars_encoded['price'] >= mediana_precio).astype(int)

    # Divido los datos en características (X) y la variable objetivo (y)
    X = cars_encoded.drop(['price', 'categoria_precio'], axis=1)  # Elimino la columna objetivo y 'price'
    y = cars_encoded['categoria_precio']

    # Divido los datos en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # Entreno el modelo de RandomForest
    clf = RandomForestClassifier(random_state=42)
    clf.fit(X_train, y_train)

    # Realizo predicciones
    y_pred = clf.predict(X_test)

    # Evaluo el rendimiento del modelo
    accuracy = accuracy_score(y_test, y_pred)
    reporte = classification_report(y_test, y_pred)

    # Imprimo los resultados
    print(f"Precisión del modelo: {accuracy:.2f}")
    print("Reporte de clasificación:\n", reporte)
else:
    print("La columna 'price' no está presente en el dataset.")


ValueError: could not convert string to float: 'std'

In [8]:
# Verificamos todas las columnas disponibles en el DataFrame
print(cars_encoded.columns)

Index(['car_id', 'symboling', 'aspiration', 'door_number', 'car_body',
       'drive_wheel', 'engine_location', 'wheel_base', 'car_length',
       'car_width',
       ...
       'modelo_vega 2300', 'modelo_versa', 'modelo_x1', 'modelo_x3',
       'modelo_x4', 'modelo_x5', 'modelo_xf', 'modelo_xj', 'modelo_xk',
       'modelo_z4'],
      dtype='object', length=157)
