<a href="https://colab.research.google.com/github/hectorpilo/bootcamp-ds-sonda/blob/main/CORE_Analisis_Ventas_Autos1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis y Predicción de Precios de Autos
El objetivo es predecir el precio de los autos basándose en sus características.

* **symboling**: índice de riesgo de seguro; mide el riesgo percibido del auto (por lo general entre -3 y +3).
* **normalized-losses**: pérdidas normalizadas por aseguradora; valores más altos indican mayor costo esperado en reparaciones o siniestros.
* **make**: marca del vehículo (por ejemplo: BMW, Toyota, Ford).
* **fuel-type:** tipo de combustible (gasolina, diésel, etc.).
* **aspiration:** tipo de admisión del motor (normal o turbo).
* **num-of-doors:** número de puertas (2, 4, etc.).
* **body-style:** estilo de carrocería (sedán, hatchback, wagon, convertible, hardtop…).
* **drive-wheels:** tipo de tracción (fwd = delantera, rwd = trasera, 4wd = 4x4).
* **engine-location**: ubicación del motor (frontal o trasero).
* wheel-base: distancia entre ejes (en pulgadas o milímetros); más larga suele mejorar estabilidad.
* **length:** longitud total del vehículo.
* **width:** ancho del vehículo.
* **height**: altura del vehículo.
* **curb-weight**: peso en vacío (sin ocupantes ni carga).
* **engine-type**: diseño del motor (por ejemplo: dohc, ohc, rotor).
* **num-of-cylinders:** número de cilindros del motor (3, 4, 6, 8…).
* **engine-size:** desplazamiento o cilindrada del motor, en cc (centímetros cúbicos).
* **fuel-system:** sistema de alimentación (mpfi, 2bbl, 4bbl, spdi, etc.).
* **bore:** diámetro de los cilindros (en pulgadas o mm).
* **stroke:** carrera del pistón (en pulgadas o mm).
* **compression-ratio**: relación de compresión del motor.
* horsepower: potencia máxima que entrega el motor.
* **peak-rpm**: régimen máximo de potencia, es decir, a cuántas revoluciones por minuto se logra el horsepower máximo.
* **city-mpg**: consumo de combustible en ciudad (millas por galón).
* **highway-mpg**: consumo en carretera.
* **price:** precio del automóvil.

In [1]:
from google.colab import drive
drive.mount('/content/drive')
path = "/content/drive/MyDrive/BBDD/Automobile_data.csv"
import pandas as pd
df = pd.read_csv(path)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score

Mounted at /content/drive


Limpieza de los Datos.

In [None]:
df.columns = df.columns.str.lower().str.replace(' ', '', regex=False) #eliminar mayusculas, espacios vacios y busca los espacios ' ' y los reemplaza por ''

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [2]:
df.isnull().sum()

Unnamed: 0,0
symboling,0
normalized-losses,0
make,0
fuel-type,0
aspiration,0
num-of-doors,0
body-style,0
drive-wheels,0
engine-location,0
wheel-base,0


Dice que no hay valores nulos...revisaremos...

In [3]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Y no es que sean nulos, son "?"

In [4]:
df.tail()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470
204,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,19,25,22625


In [5]:
df.columns

Index(['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration',
       'num-of-doors', 'body-style', 'drive-wheels', 'engine-location',
       'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
       'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke',
       'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg',
       'highway-mpg', 'price'],
      dtype='object')

In [6]:
for col in df.columns:
    print(f"Columna: {col}")
    print(f" - Tipo de dato: {df[col].dtype}")
    print(f" - Nº de valores únicos: {df[col].nunique()}")
    print(f" - Valores únicos (primeros 10): {df[col].unique()[:10]}")
    print("-"*50)

Columna: symboling
 - Tipo de dato: int64
 - Nº de valores únicos: 6
 - Valores únicos (primeros 10): [ 3  1  2  0 -1 -2]
--------------------------------------------------
Columna: normalized-losses
 - Tipo de dato: object
 - Nº de valores únicos: 52
 - Valores únicos (primeros 10): ['?' '164' '158' '192' '188' '121' '98' '81' '118' '148']
--------------------------------------------------
Columna: make
 - Tipo de dato: object
 - Nº de valores únicos: 22
 - Valores únicos (primeros 10): ['alfa-romero' 'audi' 'bmw' 'chevrolet' 'dodge' 'honda' 'isuzu' 'jaguar'
 'mazda' 'mercedes-benz']
--------------------------------------------------
Columna: fuel-type
 - Tipo de dato: object
 - Nº de valores únicos: 2
 - Valores únicos (primeros 10): ['gas' 'diesel']
--------------------------------------------------
Columna: aspiration
 - Tipo de dato: object
 - Nº de valores únicos: 2
 - Valores únicos (primeros 10): ['std' 'turbo']
--------------------------------------------------
Columna: num-of

Analizaré cada uno de los valores "?"

In [7]:
num_preguntas = (df['normalized-losses'] == '?').sum()
print(f'Cantidad de "?" en normalized-losses: {num_preguntas}')

Cantidad de "?" en normalized-losses: 41


se hará muy largo escribir uno por uno, así que haremos una función.

In [8]:
def contar_preguntas(df):
    for col in df.columns:
        num_preguntas = (df[col] == '?').sum()
        if num_preguntas > 0:
            print(f'Columna: {col} --> Cantidad de "?": {num_preguntas}')

In [9]:
contar_preguntas(df)

Columna: normalized-losses --> Cantidad de "?": 41
Columna: num-of-doors --> Cantidad de "?": 2
Columna: bore --> Cantidad de "?": 4
Columna: stroke --> Cantidad de "?": 4
Columna: horsepower --> Cantidad de "?": 2
Columna: peak-rpm --> Cantidad de "?": 2
Columna: price --> Cantidad de "?": 4


# **Concluciones de la visualuzación de los datos**
* Columna: normalized-losses --> Cantidad de "?": 41
* Columna: num-of-doors --> Cantidad de "?": 2
* Columna: bore --> Cantidad de "?": 4
* Columna: stroke --> Cantidad de "?": 4
* Columna: horsepower --> Cantidad de "?": 2
* Columna: peak-rpm --> Cantidad de "?": 2
* Columna: price --> Cantidad de "?": 4



# **Determinación Final**

Como la mayoria de los datos de "?" corresponden a "normalized-losses" utlizaremos la moda para imputar estos valores.

In [10]:
df_limpio = df.copy()

In [11]:
# Reemplazar '?' por pd.NA
df_limpio['normalized-losses'] = df_limpio['normalized-losses'].replace('?', pd.NA)

# Convertir a numérico
df_limpio['normalized-losses'] = pd.to_numeric(df_limpio['normalized-losses'], errors='coerce')

# Calcular la moda
moda = df_limpio['normalized-losses'].mode()[0]
print(f'Moda de normalized-losses: {moda}')

# Rellenar NaN con la moda
df_limpio['normalized-losses'] = df_limpio['normalized-losses'].fillna(moda)


# Verificar valores nulos
valores_nulos = df_limpio['normalized-losses'].isnull().sum()
print(f'Valores nulos restantes en normalized-losses: {valores_nulos}')

Moda de normalized-losses: 161.0
Valores nulos restantes en normalized-losses: 0


In [12]:
def contar_preguntas(df_limpio):
    for col in df_limpio.columns:
        num_preguntas = (df_limpio[col] == '?').sum()
        if num_preguntas > 0:
            print(f'Columna: {col} --> Cantidad de "?": {num_preguntas}')

In [13]:
contar_preguntas(df_limpio)

Columna: num-of-doors --> Cantidad de "?": 2
Columna: bore --> Cantidad de "?": 4
Columna: stroke --> Cantidad de "?": 4
Columna: horsepower --> Cantidad de "?": 2
Columna: peak-rpm --> Cantidad de "?": 2
Columna: price --> Cantidad de "?": 4


In [14]:
df_limpio2 = df_limpio.copy()

In [15]:
columnas_con_pregunta = ['bore', 'stroke', 'horsepower', 'peak-rpm', 'price']

for col in columnas_con_pregunta:
    print(f'Procesando columna: {col}')

    df_limpio2[col] = df_limpio2[col].replace('?', pd.NA)
    df_limpio2[col] = pd.to_numeric(df_limpio2[col], errors='coerce')

    n_nulos = df_limpio2[col].isna().sum()

    if n_nulos > 0:
        modas = df_limpio2[col].mode(dropna=True)
        if len(modas) > 0:
            moda = modas.iloc[0]
            df_limpio2[col] = df_limpio2[col].fillna(moda)
            print(f'✅ Moda usada para {col}: {moda}')
        else:
            print(f'⚠️  No se encontró moda para {col}: todos los valores son nulos.')


Procesando columna: bore
✅ Moda usada para bore: 3.62
Procesando columna: stroke
✅ Moda usada para stroke: 3.4
Procesando columna: horsepower
✅ Moda usada para horsepower: 68.0
Procesando columna: peak-rpm
✅ Moda usada para peak-rpm: 5500.0
Procesando columna: price
✅ Moda usada para price: 5572.0


In [16]:
df_limpio3 = df_limpio2.copy()

In [17]:
df_limpio3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    float64
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [18]:
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].replace('?', 'four')

In [19]:
print(df_limpio3['num-of-doors'].unique())

['two' 'four']


In [20]:
puertas_map = {
    'two': 2,
    'four': 4,
  }

df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].str.strip().str.lower().map(puertas_map)


In [21]:
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].astype(float)

In [22]:
df_limpio3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    float64
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    float64
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [37]:
df_limpio3 = df_limpio2.copy()

# Asegurarse de que la columna es string
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].astype(str)

# Reemplazar '?' y NA por 'four'
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].replace('?', 'four')
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].fillna('four')

# Mapear texto a número
puertas_map = {'two': 2, 'four': 4}
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].str.strip().str.lower().map(puertas_map)

# Convertir a float
df_limpio3['num-of-doors'] = df_limpio3['num-of-doors'].astype(float)


In [38]:
columnas_categoricas = [
    'make', 'fuel-type', 'aspiration', 'body-style',
    'drive-wheels', 'engine-location', 'engine-type',
    'num-of-cylinders', 'fuel-system'
]

# Aplicar codificación one-hot
df_codificado = pd.get_dummies(df_limpio3, columns=columnas_categoricas, drop_first=True)


In [39]:
X = df_codificado.drop(columns='price')
y = df_codificado['price']


In [40]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)


In [53]:
from sklearn.linear_model import LinearRegression

modelo = LinearRegression()
modelo.fit(X_train, y_train)


In [54]:
from sklearn.metrics import mean_squared_error, r2_score

y_pred = modelo.predict(X_test)

print("Error cuadrático medio (MSE):", mean_squared_error(y_test, y_pred))
print("Coeficiente de determinación (R²):", r2_score(y_test, y_pred))


Error cuadrático medio (MSE): 13287046.916921195
Coeficiente de determinación (R²): 0.8357212211841487


In [55]:
import joblib

joblib.dump(modelo, 'modelo_regresion_precio.pkl')


['modelo_regresion_precio.pkl']

# **KNN**

In [56]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Crear y entrenar el modelo
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train, y_train)

# Predecir sobre el set de prueba
y_pred_knn = knn.predict(X_test)

# Evaluar el modelo
mse_knn = mean_squared_error(y_test, y_pred_knn)
r2_knn = r2_score(y_test, y_pred_knn)

print("KNN - Error cuadrático medio (MSE):", mse_knn)
print("KNN - Coeficiente de determinación (R²):", r2_knn)


KNN - Error cuadrático medio (MSE): 21799283.2097561
KNN - Coeficiente de determinación (R²): 0.7304773854452957


# **Arbol de decision**

In [58]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Crear y entrenar el modelo
arbol = DecisionTreeRegressor(random_state=42)
arbol.fit(X_train, y_train)

# Predecir sobre el set de prueba
y_pred_arbol = arbol.predict(X_test)

# Evaluar el rendimiento
mse_arbol = mean_squared_error(y_test, y_pred_arbol)
r2_arbol = r2_score(y_test, y_pred_arbol)

print("Árbol de Decisión - Error cuadrático medio (MSE):", mse_arbol)
print("Árbol de Decisión - Coeficiente de determinación (R²):", r2_arbol)


Árbol de Decisión - Error cuadrático medio (MSE): 9792277.43902439
Árbol de Decisión - Coeficiente de determinación (R²): 0.8789299541450186


# **GRAFICANDO LOS 3**

In [62]:
modelo_lr = LinearRegression().fit(X_train, y_train)
modelo_knn = KNeighborsRegressor(n_neighbors=5).fit(X_train, y_train)
modelo_dt = DecisionTreeRegressor().fit(X_train, y_train)


In [63]:
pred_lr = modelo_lr.predict(X_test)
pred_knn = modelo_knn.predict(X_test)
pred_dt = modelo_dt.predict(X_test)

In [64]:
import pandas as pd
from sklearn.metrics import mean_squared_error, r2_score

# Evaluar modelos
mse_lr = mean_squared_error(y_test, pred_lr)
r2_lr = r2_score(y_test, pred_lr)

mse_knn = mean_squared_error(y_test, pred_knn)
r2_knn = r2_score(y_test, pred_knn)

mse_dt = mean_squared_error(y_test, pred_dt)
r2_dt = r2_score(y_test, pred_dt)

# Crear DataFrame con los resultados
comparacion = pd.DataFrame({
    "Modelo": ["Regresión Lineal", "KNN (k=5)", "Árbol de Decisión"],
    "MSE": [mse_lr, mse_knn, mse_dt],
    "R²": [r2_lr, r2_knn, r2_dt]
})

print(comparacion)


              Modelo           MSE        R²
0   Regresión Lineal  1.328705e+07  0.835721
1          KNN (k=5)  2.179928e+07  0.730477
2  Árbol de Decisión  1.004851e+07  0.875762


📊 Interpretación de Resultados y Recomendaciones

➡️ Tras entrenar y evaluar tres modelos (Regresión Lineal, KNN y Árbol de Decisión), estos fueron los resultados:
- Regresión Lineal:
   MSE  = 13.287.050
   R²   = 0.8357
- KNN (k=5):
   MSE  = 21.799.280
   R²   = 0.7304
- Árbol de Decisión:
   MSE  = 10.048.510
   R²   = 0.8757

✅ Modelo más adecuado:
- El Árbol de Decisión logró el mejor rendimiento general, con el menor error cuadrático medio y mayor capacidad de explicación del precio.
- La Regresión Lineal tuvo un buen desempeño, pero no captura relaciones no lineales.
- KNN fue el menos efectivo, posiblemente afectado por la dimensionalidad y distribución del dataset.
