# Dataset de Automóviles (Automobile)

El dataset **“Automobile”** reúne información técnica y de seguros de **205 vehículos** de distintas marcas y modelos, extraída del _Ward's Automotive Yearbook_ de 1985 y donada al repositorio de **UCI Machine Learning** en 1987.

El objetivo principal es predecir el **precio de venta** de los automóviles y evaluar su **riesgo de seguro**, lo que lo convierte en un recurso útil tanto para tareas de **regresión** como de **clasificación**. Además, debido a la presencia de valores faltantes en varios atributos clave, es un conjunto ideal para **ejercicios de limpieza y preprocesamiento de datos**.

El dataset contiene **26 atributos** que abarcan información del fabricante, características técnicas, dimensiones, especificaciones del motor, consumo de combustible y variables de riesgo.

|     **Atributo**      | **Descripción**                                                                      |
| :-------------------: | :----------------------------------------------------------------------------------- |
|     **symboling**     | Clasificación de riesgo de seguro (-3 = muy seguro, 0 = promedio, +3 = muy riesgoso) |
| **normalized-losses** | Pérdidas normalizadas por categoría de tamaño (65 – 256, con valores faltantes)      |
|       **make**        | Marca del vehículo (ej: alfa-romero, audi, bmw, honda, toyota, volkswagen, etc.)     |
|     **fuel-type**     | Tipo de combustible: `gas` (gasolina) o `diesel`                                     |
|    **aspiration**     | Sistema de admisión: `std` (natural) o `turbo` (turboalimentado)                     |
|   **num-of-doors**    | Número de puertas: `two` o `four` (con valores faltantes)                            |
|    **body-style**     | Estilo de carrocería: sedan, hatchback, wagon, hardtop, convertible                  |
|   **drive-wheels**    | Tipo de tracción: `fwd` (delantera), `rwd` (trasera), `4wd` (4x4)                    |
|  **engine-location**  | Ubicación del motor: delantero o trasero                                             |
|    **wheel-base**     | Distancia entre ejes (86.6 – 120.9 pulgadas)                                         |
|      **length**       | Longitud total del vehículo (141.1 – 208.1 pulgadas)                                 |
|       **width**       | Anchura del vehículo (60.3 – 72.3 pulgadas)                                          |
|      **height**       | Altura del vehículo (47.8 – 59.8 pulgadas)                                           |
|    **curb-weight**    | Peso en vacío del vehículo (1,488 – 4,066 lbs)                                       |
|    **engine-type**    | Tipo de motor (`ohc`, `ohcf`, `dohc`, `rotor`, etc.)                                 |
| **num-of-cylinders**  | Número de cilindros (three, four, five, six, eight, twelve, etc.)                    |
|    **engine-size**    | Tamaño del motor en cc (61 – 326)                                                    |
|    **fuel-system**    | Sistema de inyección/combustible (`mpfi`, `2bbl`, `mfi`, `idi`, etc.)                |
|       **bore**        | Diámetro del cilindro (2.54 – 3.94 pulgadas, con valores faltantes)                  |
|      **stroke**       | Carrera del pistón (2.07 – 4.17 pulgadas, con valores faltantes)                     |
| **compression-ratio** | Relación de compresión (7 – 23)                                                      |
|    **horsepower**     | Potencia en caballos de fuerza (48 – 288, con valores faltantes)                     |
|     **peak-rpm**      | Revoluciones máximas por minuto (4,150 – 6,600, con valores faltantes)               |
|     **city-mpg**      | Consumo de combustible en ciudad (13 – 49 mpg)                                       |
|    **highway-mpg**    | Consumo de combustible en carretera (16 – 54 mpg)                                    |
| **price** _(Target)_  | Precio de venta del vehículo en dólares (5,118 – 45,400 USD, con valores faltantes)  |


In [72]:
ColabNotebook = 'google.colab' in str(get_ipython())

if ColabNotebook:
    # monta G-drive en entorno COLAB
    from google.colab import drive
    drive.mount('/content/drive/')

    DATOS_DIR = '/content/drive/MyDrive/Colab Notebooks/DATOS/'  # carpeta donde se encuentran los datasets
else:
    DATOS_DIR   = '../../Datos/p1/' # carpeta LOCAL donde se encuentran los datasets


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv(DATOS_DIR + 'automobile.csv')

## Ejercicio 9

Realice un análisis sobre los valores de los atributos del dataset automobile.csv. Para cada atributo que no pueda ser procesado directamente, indique que problema tiene (valores nulos o vacíos, valores categóricos, valores atípicos o outliers, etc.) y como solucionarlo.

In [91]:
# Analizo los posibles problemas en los datos

data.head()

# Valores nulos o faltantes
# print(data.isnull().sum()) # No hay valores nulos
# print((data == '?').sum())

# Reducción de valores atípicos
#print(data["make"].value_counts())
#print(data["engine-type"].value_counts())
print(data["fuel-system"].value_counts())

fuel-system
mpfi    94
2bbl    66
idi     20
1bbl    11
spdi     9
4bbl     3
mfi      1
spfi     1
Name: count, dtype: int64


#### Problemas Detectados

##### Valores nulos o vacios

Si bien no hay valores nulos. Hay campos que tiene '?' (valores faltantes/vacios). Dependiendo el caso se procede distinto:
- normalized-losses: Al ser 41 los valores faltantes, el valor que más se repite en la columna, no podemos eliminar las filas con valores faltantes. Cómo los datos están normalizados podemos utilizar la media para los valores faltantes.
- Para el resto: al ser muy pocos valores faltantes podemos eliminar las filas que tienen tales valores faltantes.


##### Valores categóricos

- fuel-type: dos categorias sin orden -> codificación binaria
- aspiration: dos categorias sin orden -> codificación binaria
- num-of-doors: al tener dos categorías (2 y 4 puertas) pero ser estas la cantidad de puertas del auto, para no tener una incorrecta interpretación y tener un resultado cómo "2 puertas" -> one-hot-encoding
- drive-wheels: 3 categorias sin orden -> one-hot-encoding
- engine-location: dos categorias sin orden -> codificacion binaria


##### Valores atípicos (outliers)

- make: la marca tiene muchas opciones. Quizas se pueda reducir los valores más atípicos en una categoría común.
- engine-type: rotor y dohcv quizas pueden reducirse a una categoría común.
- fuel-system: mismo caso que el anterior. Incluso más marcada la diferencia.

