# Evaluación de calidad de carros

# Cindy Johanna Zapata Romero

In [1]:
pip install ucimlrepo

Collecting ucimlrepo
  Obtaining dependency information for ucimlrepo from https://files.pythonhosted.org/packages/22/47/9350b2eeeaef8c0fd3ec3505c8a0481b576845b3df0d71c76f989c23d3c6/ucimlrepo-0.0.6-py3-none-any.whl.metadata
  Downloading ucimlrepo-0.0.6-py3-none-any.whl.metadata (5.3 kB)
Downloading ucimlrepo-0.0.6-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.6
Note: you may need to restart the kernel to use updated packages.


In [2]:
from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
car_evaluation = fetch_ucirepo(id=19) 
  
# data (as pandas dataframes) 
X = car_evaluation.data.features 
y = car_evaluation.data.targets 
  
# metadata 
print(car_evaluation.metadata) 
  
# variable information 
print(car_evaluation.variables) 

{'uci_id': 19, 'name': 'Car Evaluation', 'repository_url': 'https://archive.ics.uci.edu/dataset/19/car+evaluation', 'data_url': 'https://archive.ics.uci.edu/static/public/19/data.csv', 'abstract': 'Derived from simple hierarchical decision model, this database may be useful for testing constructive induction and structure discovery methods.', 'area': 'Other', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 1728, 'num_features': 6, 'feature_types': ['Categorical'], 'demographics': [], 'target_col': ['class'], 'index_col': None, 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_of_dataset_creation': 1988, 'last_updated': 'Thu Aug 10 2023', 'dataset_doi': '10.24432/C5JP48', 'creators': ['Marko Bohanec'], 'intro_paper': {'title': 'Knowledge acquisition and explanation for multi-attribute decision making', 'authors': 'M. Bohanec, V. Rajkovič', 'published_in': '8th Intl Workshop on Expert Systems and their Applications, Avignon, France', 'yea

# Descripción del Problema

El conjunto de datos "Car Evaluation" está relacionado con un modelo de decisión jerárquico en el que se evalúa la aceptabilidad de un automóvil. Se desarrolló originalmente para demostrar el sistema DEX (Decision EXpert), e incluye seis atributos directamente relacionados con la aceptabilidad general de un automóvil.

### Atributos

1. **buying**: Representa el precio de compra (`vhigh`, `high`, `med`, `low`).
2. **maint**: Costo de mantenimiento (`vhigh`, `high`, `med`, `low`).
3. **doors**: Número de puertas (`2`, `3`, `4`, `5more`).
4. **persons**: Número de personas que el automóvil puede llevar (`2`, `4`, `more`).
5. **lug_boot**: Tamaño del maletero (`small`, `med`, `big`).
6. **safety**: Nivel de seguridad estimado (`low`, `med`, `high`).

### Variable objetivo

- **class**: Evalúa la aceptabilidad del automóvil (`unacceptable`, `acceptable`, `good`, `very good`).

# Exploración y preparación de datos

In [8]:
import pandas as pd

# Obtenemos el conjunto de datos Car Evaluation usando ucimlrepo
car_evaluation = fetch_ucirepo(id=19)

X = car_evaluation.data.features
y = car_evaluation.data.targets

# Procedo a combinar ambos df en un solo para realizar una mejor exploración de los datos
car_data = pd.concat([X, y], axis=1)

# Mostramos las primeras filas de los datos
print("Primeras filas de los datos:")
print(car_data.head())

Primeras filas de los datos:
  buying  maint doors persons lug_boot safety  class
0  vhigh  vhigh     2       2    small    low  unacc
1  vhigh  vhigh     2       2    small    med  unacc
2  vhigh  vhigh     2       2    small   high  unacc
3  vhigh  vhigh     2       2      med    low  unacc
4  vhigh  vhigh     2       2      med    med  unacc


In [7]:
# Mostramos la información básica sobre las columnas y los tipos de datos
print("\nInformación general del DataFrame:")
print(car_data.info())


Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   buying    1728 non-null   object
 1   maint     1728 non-null   object
 2   doors     1728 non-null   object
 3   persons   1728 non-null   object
 4   lug_boot  1728 non-null   object
 5   safety    1728 non-null   object
 6   class     1728 non-null   object
dtypes: object(7)
memory usage: 94.6+ KB
None


In [6]:
# Generamos un resumen estadístico de las características categóricas
print("\nResumen estadístico de las características categóricas:")
print(car_data.describe(include='all'))


Resumen estadístico de las características categóricas:
       buying  maint doors persons lug_boot safety  class
count    1728   1728  1728    1728     1728   1728   1728
unique      4      4     4       3        3      3      4
top     vhigh  vhigh     2       2    small    low  unacc
freq      432    432   432     576      576    576   1210


In [9]:
# Procedo a verificar los valores nulos
print("\n¿Hay valores nulos en el conjunto de datos?")
print(car_data.isnull().sum())


¿Hay valores nulos en el conjunto de datos?
buying      0
maint       0
doors       0
persons     0
lug_boot    0
safety      0
class       0
dtype: int64


In [10]:
# Verifico las distribuciones de las clases objetivo
print("\nDistribución de las clases objetivo:")
print(car_data['class'].value_counts())


Distribución de las clases objetivo:
class
unacc    1210
acc       384
good       69
vgood      65
Name: count, dtype: int64


In [11]:
# Utilizo get_dummies para convertir a variables dummy (preparación para el modelado)
car_data_encoded = pd.get_dummies(car_data, drop_first=True)

In [12]:
# Mostramos una muestra de los datos codificados
print("\nDatos codificados (variables dummy):")
print(car_data_encoded.head())


Datos codificados (variables dummy):
   buying_low  buying_med  buying_vhigh  maint_low  maint_med  maint_vhigh  \
0       False       False          True      False      False         True   
1       False       False          True      False      False         True   
2       False       False          True      False      False         True   
3       False       False          True      False      False         True   
4       False       False          True      False      False         True   

   doors_3  doors_4  doors_5more  persons_4  persons_more  lug_boot_med  \
0    False    False        False      False         False         False   
1    False    False        False      False         False         False   
2    False    False        False      False         False         False   
3    False    False        False      False         False          True   
4    False    False        False      False         False          True   

   lug_boot_small  safety_low  safety_med 

# Generación de conjuntos de entrenamiento y testeo

In [18]:
# Importamos el módulo necesario para la separación de los datos
from sklearn.model_selection import train_test_split

# Obtenemos el conjunto de datos Car Evaluation usando ucimlrepo
from ucimlrepo import fetch_ucirepo
car_evaluation = fetch_ucirepo(id=19)

# Separamos las características (X) y el objetivo (y) en DataFrames
X = car_evaluation.data.features
y = car_evaluation.data.targets

# Dividimos el conjunto de datos en entrenamiento y testeo
# Separamos el 80% para entrenamiento y el 20% para testeo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [19]:
# Procedmos a mostrar el tamaño de los conjuntos generados
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Tamaño del conjunto de testeo: {X_test.shape[0]} muestras")

Tamaño del conjunto de entrenamiento: 1382 muestras
Tamaño del conjunto de testeo: 346 muestras


# Informe de rendimiento de modelos tras la implementación

Para evaluar el rendimiento de los modelos tras la implementación, elegí el módelo de Árbol de Desición, entrenarlo con el conjunto de entrenamiento, y evaluar su rendimiento en el conjunto de testeo.

In [25]:
# Importamos el modelo de Árbol de Decisión y las métricas para evaluación
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix
from ucimlrepo import fetch_ucirepo

In [28]:
# Obtenemos el conjunto de datos
car_evaluation = fetch_ucirepo(id=19)

# Separamos las características (X) y el objetivo (y) en DataFrames
X = car_evaluation.data.features
y = car_evaluation.data.targets['class']  # Procedo a Convertir el objetivo a Serie

# Convertimos características categóricas a variables dummy
X_encoded = pd.get_dummies(X)

# Dividimos el conjunto de datos en entrenamiento y testeo
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Entrenamos un modelo con el conjunto de entrenamiento
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

# Predecimos el conjunto de testeo
y_pred = model.predict(X_test)

# Generamos el informe de rendimiento
report = classification_report(y_test, y_pred, target_names=y.unique())
confusion = confusion_matrix(y_test, y_pred)

In [29]:
# Mostramos el informe de rendimiento
print("\nInforme de clasificación:")
print(report)


Informe de clasificación:
              precision    recall  f1-score   support

       unacc       0.99      0.87      0.92        83
         acc       0.62      0.91      0.74        11
       vgood       0.98      1.00      0.99       235
        good       0.82      0.82      0.82        17

    accuracy                           0.96       346
   macro avg       0.85      0.90      0.87       346
weighted avg       0.96      0.96      0.96       346



In [30]:
# Mostramos la matriz de confusión
print("\nMatriz de confusión:")
print(confusion)


Matriz de confusión:
[[ 72   4   5   2]
 [  0  10   0   1]
 [  0   0 235   0]
 [  1   2   0  14]]


# Implementación y evaluación de varios modelos de aprendizaje utilizando Scikit-Learn

Para implementar y evaluar varios modelos de aprendizaje utilizando scikit-learn, elegí crear un pipeline que entrene y pruebe múltiples modelos, generando informes de clasificación para cada uno. para esto procedo con la importación de Scikit-Learn:

In [33]:
# Importamos clasificadores de Scikit-Learn
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

In [37]:
# Lista de clasificadores a probar
models = {
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Logistic Regression': LogisticRegression(max_iter=200, random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42),
    'Support Vector Machine': SVC(random_state=42),
    'K-Nearest Neighbors': KNeighborsClassifier()
}

# Primero nos aseguramos de que las carácteristicas están formato NumPy
X_train_np = X_train.values
X_test_np = X_test.values

# Usamos los datos convertidos a NumPy para el modelo KNN 
knn_model = KNeighborsClassifier()
knn_model.fit(X_train_np, y_train)

# Predecimos el modelo KNN utilizando el conjunto de testeo convertido
y_pred = knn_model.predict(X_test_np)

# Generamos el informe de clasificación y la matriz de confusión
report_knn = classification_report(y_test, y_pred, target_names=y.unique())
confusion_knn = confusion_matrix(y_test, y_pred)

In [38]:
print("\nInforme de clasificación para K-Nearest Neighbors:")
print(report_knn)


Informe de clasificación para K-Nearest Neighbors:
              precision    recall  f1-score   support

       unacc       0.78      0.75      0.77        83
         acc       0.30      0.27      0.29        11
       vgood       0.92      0.99      0.96       235
        good       1.00      0.29      0.45        17

    accuracy                           0.88       346
   macro avg       0.75      0.58      0.62       346
weighted avg       0.87      0.88      0.86       346



In [39]:
print("\nMatriz de confusión para K-Nearest Neighbors:")
print(confusion_knn)


Matriz de confusión para K-Nearest Neighbors:
[[ 62   4  17   0]
 [  6   3   2   0]
 [  2   0 233   0]
 [  9   3   0   5]]


# Análisis de resultados.

## Tamaño del Dataset
- **Conjunto de entrenamiento:** 1382 muestras.
- **Conjunto de testeo:** 346 muestras.

## Modelos Implementados

### Árbol de Decisión
- **Precisión general en testeo:** 96%

#### Detalles por Clase
- **Precisión:**
  - unacc: 99%
  - acc: 62%
  - good: 82%
  - vgood: 98%
- **Recall:**
  - unacc: 87%
  - acc: 91%
  - good: 82%
  - vgood: 100%
- **F1-score:**
  - unacc: 92%
  - acc: 74%
  - good: 82%
  - vgood: 99%

### K-Nearest Neighbors (KNN)
- **Precisión general en testeo:** 88%

#### Detalles por Clase
- **Precisión:**
  - unacc: 78%
  - acc: 30%
  - good: 100%
  - vgood: 92%
- **Recall:**
  - unacc: 75%
  - acc: 27%
  - good: 29%
  - vgood: 99%
- **F1-score:**
  - unacc: 77%
  - acc: 29%
  - good: 45%
  - vgood: 96%

## Conclusión
El modelo de Árbol de Decisión demostró ser más efectivo en general, con mejores resultados en precisión, recall y F1-score para la mayoría de las clases en comparación con el modelo KNN.

# Gracias