##  Práctica: Predicción del precio de automóviles con Regresión Lineal Múltiple

###  Contexto

Una empresa automovilística china, **Geely Auto**, desea establecerse en el mercado estadounidense. Para ello, necesita **comprender qué factores influyen en el precio de los coches**. Tu tarea será construir un modelo predictivo con **Python y scikit-learn** que estime el precio de un automóvil a partir de sus características técnicas.

El conjunto de datos `CarPrice_Assignment.csv` contiene información de 205 modelos de coches vendidos en EE. UU., con variables como el tipo de combustible, tamaño del motor, peso, potencia, número de puertas, entre otros.

---

###  Objetivos de aprendizaje

* Aplicar el flujo completo de un **proyecto de Machine Learning supervisado**.
* Limpiar, analizar y preparar datos para su uso en un modelo predictivo.
* Entrenar y evaluar un modelo de **regresión lineal múltiple**.
* Interpretar los coeficientes y evaluar el rendimiento del modelo.
* Representar gráficamente los resultados y comunicar conclusiones.

---

###  Conocimientos previos

* Python y bibliotecas: `pandas`, `numpy`, `matplotlib`, `seaborn`, `sklearn`.
* Conceptos básicos de regresión lineal y normalización de variables.




---

###  Desarrollo paso a paso

#### **Paso 1: Cargar y explorar los datos**

* Comprueba número de filas y columnas.
* Identifica valores nulos o erróneos.
* Observa qué columnas podrían ser **variables categóricas** y cuáles **numéricas**.


#### **Paso 2: Limpieza de datos**

1. Extrae el nombre de la compañía de `CarName`.
2. Corrige errores ortográficos comunes (`vokswagen`, `toyouta`, etc.).
3. Elimina duplicados, si los hubiera.
4. Convierte todas las cadenas de texto a minúsculas.

#### **Paso 3: Análisis exploratorio**

* Visualiza la distribución de los precios.
* Muestra histogramas y diagramas de caja de las variables principales:

  * `fueltype`, `carbody`, `drivewheel`, `enginetype`
  * `horsepower`, `enginesize`, `curbweight`, `carwidth`
* Calcula la **matriz de correlación** y representa el **heatmap**.

#### **Paso 4: Generar nuevas variables**

* Crea una variable `fueleconomy = 0.55 * citympg + 0.45 * highwaympg`
* Agrupa las compañías por precio medio y clasifícalas como:

  * `Budget` (menos de 10 000 $)
  * `Medium` (10 000 – 20 000 $)
  * `Highend` (más de 20 000 $)


#### **Paso 5: Preparar datos para el modelo**

1. Selecciona las variables más significativas (numéricas + categóricas).
2. Genera **variables dummy** con `pd.get_dummies()` (drop_first=True).
3. Divide en **X** (predictoras) e **y** (precio).
4. Realiza un **train-test split** (70 % – 30 %).
5. Aplica **normalización Min-Max o Z-score** sobre las variables numéricas.


#### **Paso 6: Entrenamiento del modelo**

#### **Paso 7: Evaluación**

Calcula las métricas:

Representa la relación entre los valores reales y predichos:


#### **Paso 8: Interpretación**

* Analiza los coeficientes (`lr.coef_`) para identificar qué variables influyen más.
* Comenta qué implicaciones tendría para el negocio (por ejemplo, “aumentar la potencia incrementa el precio, pero reducir el consumo mejora la eficiencia”).

#### Extra

- Investigar como exportar el modelo entrenado (`joblib` o `pickle`) para reutilizarlo.

- Investigar como utilizar otros modelos: **Ridge**, **Lasso**, **RandomForestRegressor**.


### Rúbrica

| Criterio                      | Básico (5)                               | Esperado (7–8)                                      | Avanzado (9–10)                                               |
| ----------------------------- | ---------------------------------------- | --------------------------------------------------- | ------------------------------------------------------------- |
| Limpieza de datos             | Se corrigen nombres y nulos parcialmente | Dataset correctamente limpio                        | Incluye validaciones y comprobaciones automáticas             |
| Análisis exploratorio         | Usa pocas variables y gráficos simples   | Utiliza varios tipos de gráficos con interpretación | Detecta patrones relevantes y correlaciones significativas    |
| Modelo de regresión           | Modelo básico entrenado                  | Ajusta parámetros, evalúa R² y errores              | Compara varios modelos y justifica selección                  |
| Interpretación y conclusiones | Breves o genéricas                       | Conclusiones razonadas con datos                    | Analiza implicaciones de negocio y mejora                     |
| Presentación del notebook     | Desordenado o sin comentarios            | Bien estructurado y comentado                       | Incluye Markdown, secciones claras y resultados reproducibles |