# Un problema de manipulación de datos y regresión lineal

En este laboratorio pondrás a prueba tus conocimientos sobre manipulación de datos, visualización de variables y entrenamiento de modelos de regresión lineal. Particularmente, realizarás los siguientes procedimientos:

1. Cargar un conjunto de datos en formato .csv.
2. Describir, analizar y preparar los datos para el modelado.
3. Entrenar un modelo de regresión lineal.
4. Evaluar los modelos resultantes.

Nuestro conjunto de datos corresponde a las características y precios de automóviles usados. En ese sentido, queremos predecir el precio de un automóvil dadas sus características técnicas. A lo largo del laboratorio encontrarás múltiples celdas con la siguiente estructura:
```python
#---------- Celda de pruebas - Ejercicio X.X. ----------
# Prueba 1
# Prueba 2
# ...
#-------------------------------------------------------
```
Estas celdas son utilizadas para calificar tus respuestas después de que realices tu envío, por lo que en ellas encontrarás los puntos específicos que serán evaluados. Asegúrate de no incluir código en estas celdas, ya que cualquier modificación será eliminada automáticamente al momento de realizar la evaluación.

Antes de iniciar, es necesario importar las siguientes librerías:

In [4]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import root_mean_squared_error, mean_squared_error, mean_absolute_error, r2_score

from importlib.metadata import version

In [5]:
print(f"Versión de Pandas: {version('pandas')}")
print(f"Versión de Scikit-learn: {version('scikit-learn')}")
print(f"Versión de Numpy: {version('numpy')}")

Versión de Pandas: 2.2.3
Versión de Scikit-learn: 1.6.1
Versión de Numpy: 1.25.2


## 1. Carga de datos

Iniciaremos con la importación de nuestro conjunto de datos.

### Ejercicio 1.1.

Utiliza Pandas para importar el archivo que contiene el conjunto de datos.

* La ruta del archivo .csv es: `./data/carprice_data.csv`, y ya se encuentra en el entorno de Coursera, solo debes importarlo.
* La variable resultante debe tener el nombre `data_raw`.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea un `DataFrame` de Pandas con dimensiones `(7632,16)`.

In [9]:
ruta = './data/carprice_data.csv'
# your code here
data_raw = pd.read_csv(ruta)



In [10]:
#---------- Celda de pruebas - Ejercicio 1.1. ----------
# La variable "data_raw" existe
# El resultado es un DataFrame
# El resultado tiene las dimensiones correctas
#-------------------------------------------------------

## 2. Descripción, análisis y preparación de los datos

### Ejercicio 2.1.

En la siguiente celda, obtén una descripción de los datos utilizando Pandas. Utiliza el resultado para responder a la pregunta 2.1.1.

* Define una variable con el nombre `p21` y asígnale el valor correspondiente.
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea un `DataFrame` de Pandas con dimensiones `(8,16)`.

In [14]:
# your code here
p21 = data_raw.describe()
p21

Unnamed: 0,carID,year,mileage,tax,mpg,engineSize,price,transmission_Automatic,transmission_Manual,transmission_Other,transmission_Semi-Auto,fuelType_Diesel,fuelType_Electric,fuelType_Hybrid,fuelType_Other,fuelType_Petrol
count,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0,7632.0
mean,15815.5,2016.731787,24837.685928,152.657888,50.166483,2.128132,23579.922825,0.339099,0.384827,0.000262,0.275812,0.609408,0.000393,0.037605,0.004717,0.347877
std,2203.31296,2.889072,23994.79438,81.82195,35.579174,0.782125,16474.496951,0.473434,0.486586,0.016187,0.446952,0.487915,0.019824,0.190251,0.068523,0.476328
min,12000.0,1970.0,1.0,0.0,2.8,0.0,450.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,13907.75,2016.0,5800.0,145.0,38.2,1.6,12215.25,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,15815.5,2017.0,18891.0,145.0,47.1,2.0,19200.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
75%,17723.25,2019.0,36500.25,150.0,54.3,2.8,30490.0,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0
max,19631.0,2020.0,259000.0,580.0,470.8,6.6,159999.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [15]:
data_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7632 entries, 0 to 7631
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   carID                   7632 non-null   int64  
 1   year                    7632 non-null   int64  
 2   mileage                 7632 non-null   int64  
 3   tax                     7632 non-null   float64
 4   mpg                     7632 non-null   float64
 5   engineSize              7632 non-null   float64
 6   price                   7632 non-null   int64  
 7   transmission_Automatic  7632 non-null   int64  
 8   transmission_Manual     7632 non-null   int64  
 9   transmission_Other      7632 non-null   int64  
 10  transmission_Semi-Auto  7632 non-null   int64  
 11  fuelType_Diesel         7632 non-null   int64  
 12  fuelType_Electric       7632 non-null   int64  
 13  fuelType_Hybrid         7632 non-null   int64  
 14  fuelType_Other          7632 non-null   

In [None]:
#---------- Celda de pruebas - Ejercicio 2.1. ----------
# La variable "p21" existe
# El resultado es un DataFrame
# El resultado tiene las dimensiones correctas
#-------------------------------------------------------

#### Pregunta 2.1.1.

¿Qué precio promedio tienen los vehículos?

* El precio corresponde a la variable `price`.
* Para responder a la pregunta, define una variable con el nombre `p211` y asígnale el valor correspondiente. (**Ejemplo: `p211 = 10000`**)
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea de tipo `float` de Python o `np.float64` de Numpy. Tu respuesta será comparada con un número de seis decimales. 

In [20]:
# your code here
p211 = data_raw["price"].mean()
p211

23579.92282494759

In [None]:
#---------- Celda de pruebas - Pregunta 2.1.1. ----------
# La variable "p211" existe
# El resultado es un número de tipo "float"
# El resultado se encuentra en el rango [450,159999]
#--------------------------------------------------------

### Ejercicio 2.2.

Utiliza Pandas para obtener la cantidad de datos faltantes por variable.

* Define una variable con el nombre `p22` y asígnale las operaciones correspondientes para obtener la **lista** de datos faltantes. (`p22 = <<Operaciones>>`)
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea de tipo `pd.Series` con dimensiones `(16,)`.

In [24]:
# your code here
p22 = data_raw.isna().sum()
p22

carID                     0
year                      0
mileage                   0
tax                       0
mpg                       0
engineSize                0
price                     0
transmission_Automatic    0
transmission_Manual       0
transmission_Other        0
transmission_Semi-Auto    0
fuelType_Diesel           0
fuelType_Electric         0
fuelType_Hybrid           0
fuelType_Other            0
fuelType_Petrol           0
dtype: int64

In [None]:
#---------- Celda de pruebas - Ejercicio 2.2. ----------
# La variable "p22" existe
# El resultado es una Serie de Pandas
# El resultado tiene las dimensiones correctas
#-------------------------------------------------------

### Ejercicio 2.3.

Similar al ejercicio anterior, utiliza Pandas para obtener la cantidad de filas duplicadas.

* Define una variable con el nombre `p23` y asígnale las operaciones correspondientes para obtener el **número** de filas duplicadas (`p23 = <<Operaciones>>`).
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea de tipo `int` de Python o `np.int64` de Numpy. Tu respuesta será comparada con un valor entero de tipo `int`. Los dos valores deben ser **exactamente iguales** (operador `==`) para que tu respuesta sea correcta.

In [25]:
# your code here
p23 = data_raw.duplicated().sum()
p23

0

In [26]:
#---------- Celda de pruebas - Ejercicio 2.3. ----------
# La variable "p23" existe
# El resultado es un número entero
# El resultado está en el rango [0,7632]
#-------------------------------------------------------

### Ejercicio 2.4.

Teniendo en cuenta que queremos predecir el precio de un vehículo dadas sus características técnicas, vamos a eliminar una variable que no es muy relevante: la identificación. A continuación, utiliza Pandas para eliminar la columna `carID`.

* Define una variable con el nombre `data`, y asígnale tu respuesta. (**Ejemplo: `data = data_raw.<<Función>>`**)
* Encontrarás una línea con `data.head()`. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea de tipo `pd.DataFrame` con dimensiones `(7632,15)`.

In [29]:
# your code here
data = data_raw.drop(["carID"], axis = "columns")

data.head()


Unnamed: 0,year,mileage,tax,mpg,engineSize,price,transmission_Automatic,transmission_Manual,transmission_Other,transmission_Semi-Auto,fuelType_Diesel,fuelType_Electric,fuelType_Hybrid,fuelType_Other,fuelType_Petrol
0,2019,4223,145.0,39.8,2.2,31995,0,0,0,1,1,0,0,0,0
1,2015,47870,125.0,60.1,2.0,7700,0,1,0,0,1,0,0,0,0
2,2019,5151,145.0,29.1,2.9,58990,1,0,0,0,0,0,0,0,1
3,2016,20423,30.0,57.6,2.0,12999,1,0,0,0,1,0,0,0,0
4,2020,3569,145.0,47.1,1.0,16990,0,0,0,1,0,0,0,0,1


In [30]:
#---------- Celda de pruebas - Ejercicio 2.4. ----------
# La variable "data" existe
# El resultado es un DataFrame
# El resultado tiene las dimensiones correctas
# El resultado no contiene la variable "carID"
#-------------------------------------------------------

## 3. Entrenamiento de un modelo de regresión lineal

### Ejercicio 3.1.

Inicialmente, divide el conjunto de datos en entrenamiento y pruebas. Usando el 80% de los datos para entrenar el modelo y el 20% restante para probarlo, utiliza `scikit-learn` para separar el conjunto de datos en dos.

* Guarda tu respuesta en dos variables: `train` y `test`. (**Ejemplo: `train, test = <<Función>>`**)
* Utiliza el parámetro `random_state=0`. Esto hará que la partición sea siempre la misma.
* Encontrarás la línea `train.head()`. Esta línea se usa para que puedas visualizar el resultado del conjunto de entrenamiento. Déjala al final de la celda y no la modifiques.
* **Formato esperado de respuesta:** se verificará que tu respuesta sean dos variables de tipo `pd.DataFrame`.
    * `train` debe tener dimensiones `(6105,15)`.
    * `test` debe tener dimensiones `(1527,15)`.

In [31]:
# your code here
train, test = train_test_split(data, test_size= 0.2, random_state= 0)

train.head()

Unnamed: 0,year,mileage,tax,mpg,engineSize,price,transmission_Automatic,transmission_Manual,transmission_Other,transmission_Semi-Auto,fuelType_Diesel,fuelType_Electric,fuelType_Hybrid,fuelType_Other,fuelType_Petrol
6131,2018,30727,145.0,31.7,2.5,15489,0,1,0,0,1,0,0,0,0
861,2015,53101,10.0,64.2,1.8,17498,1,0,0,0,0,0,1,0,0
7114,2016,28684,160.0,51.4,3.0,21975,0,0,0,1,1,0,0,0,0
6783,2019,9500,145.0,32.8,2.0,27450,0,0,0,1,0,0,0,0,1
3225,2004,86000,325.0,28.0,3.5,5000,1,0,0,0,0,0,0,0,1


In [32]:
train.shape

(6105, 15)

In [33]:
test.shape

(1527, 15)

In [None]:
#---------- Celda de pruebas - Ejercicio 3.1. ----------
# Las variables "train" y "test" existen
# Las variables "train" y "test" son un DataFrame
# Las variables tienen las dimensiones correctas
#-------------------------------------------------------

### Ejercicio 3.2.

Ahora debes aislar la variable objetivo, `price`, de las variables descriptoras.

* Crea una variable con nombre `x_train` y asígnale la operación necesaria para almacenar solo las variables descriptoras del conjunto de entrenamiento.
* Crea una variable con nombre `y_train` y asígnale la operación necesaria para almacenar la variable objetivo del conjunto de entrenamiento.
* **Formato esperado de respuesta:** se verificará que tu respuesta sean dos variables. 
    * `x_train` debe ser de tipo `pd.DataFrame` y tener dimensiones `(6105,14)`.
    * `y_train` debe ser de tipo `pd.Series` y tener dimensiones `(6105,)`.

In [35]:
# your code here
x_train = train.drop(["price"], axis = "columns")
y_train = train["price"]

In [None]:
#---------- Celda de pruebas - Ejercicio 3.2. ----------
# Las variables "x_train" y "y_train" existen
# La variable "x_train" es un DataFrame
# La variable "y_train" es una Serie de Pandas
# Las variables tienen las dimensiones correctas
#-------------------------------------------------------

In [36]:
x_train.shape

(6105, 14)

In [37]:
print(type(x_train))

<class 'pandas.core.frame.DataFrame'>


### Ejercicio 3.3.

Inicialmente crearemos un objeto de tipo `LinearRegression()`:

In [38]:
y_train.shape

(6105,)

In [39]:
lineal = LinearRegression()

A continuación, utiliza el objeto `lineal` y entrena el modelo de regresión lineal con los datos modificados.

* Para este ejercicio no debes asignar tu resultado a ninguna variable. Es decir, solo debes ejecutar una función utilizando las variables `x_train` y `y_train` como parámetros.
* **Formato esperado de respuesta:** se verificará que el objeto `lineal` tenga definidos los atributos `coef_` e `intercept_`.
    * `lineal.coef_` debe tener dimensiones `(14,)`.

In [40]:
# your code here
lineal.fit(x_train,y_train)


In [None]:
#---------- Celda de pruebas - Ejercicio 3.3. ----------
# El atributo "coef_" y el atributo "intercept_" existen para el objeto "lineal"
# El objeto "lineal" tiene 14 coeficientes
# El objeto "lineal" tiene un intercepto
#-------------------------------------------------------

In [42]:
pd.DataFrame(zip(x_train.columns, lineal.coef_),columns=["Variable","Coeficiente"])

Unnamed: 0,Variable,Coeficiente
0,year,1431.712176
1,mileage,-0.165718
2,tax,-14.138612
3,mpg,17.699737
4,engineSize,12345.065212
5,transmission_Automatic,1938.3608
6,transmission_Manual,-2734.470468
7,transmission_Other,-2601.408557
8,transmission_Semi-Auto,3397.518226
9,fuelType_Diesel,-2797.103181


In [43]:
print (f'Intercepto: {lineal.intercept_}')

Intercepto: -2883278.383947302


## 4. Evaluación del modelo

Por último, evalúa los modelos entrenados utilizando el conjunto de pruebas.

### Ejercicio 4.1.

Separa las variables descriptoras y la variable objetivo en el conjunto de pruebas.

* Crea una variable con nombre `x_test` y asígnale la operación necesaria para almacenar solo las variables descriptoras del conjunto de pruebas.
* Crea una variable con nombre `y_test` y asígnale la operación necesaria para almacenar la variable objetivo del conjunto de pruebas.
* **Formato esperado de respuesta:** se verificará que tu respuesta sean dos variables. 
    * `x_test` debe ser de tipo `pd.DataFrame` y tener dimensiones `(1527,14)`.
    * `y_test` debe ser de tipo `pd.Series` y tener dimensiones `(1527,)`.

In [44]:
# your code here
x_test  = test.drop(["price"], axis = "columns")
y_test = test["price"]


In [46]:
y_test.shape

(1527,)

In [None]:
#---------- Celda de pruebas - Ejercicio 4.1. ----------
# Las variables "x_test" y "y_test" existen
# La variable "x_test" es un DataFrame
# La variable "y_test" es una Serie de Pandas
# Las variables tienen las dimensiones correctas
#-------------------------------------------------------

In [45]:
x_test.shape

(1527, 14)

### Ejercicio 4.2.

#### Ejercicio 4.2.1.
Realiza predicciones sobre el modelo de regresión lineal.

* Utiliza el objeto `lineal` para realizar las predicciones. Asigna el resultado a una variable con nombre `y_pred`.
* **Formato esperado de respuesta:** se verificará que tu respuesta sea de tipo `np.ndarray` y tenga dimensiones `(1527,)`.

In [48]:
# your code here

y_pred = lineal.predict(x_test)

In [None]:
#---------- Celda de pruebas - Ejercicio 4.2.1. ----------
# La variable "y_pred" existe
# La variable "y_pred" es un arreglo
# La variable "y_pred" tiene las dimensiones correctas
#---------------------------------------------------------

In [49]:
y_pred.shape

(1527,)

#### Ejercicio 4.2.2.

Utiliza `scikit-learn` para obtener la Raíz del Error Cuadrático Medio (RMSE), el Error Absoluto Medio (MAE) y el Coeficiente de determinación (R<sup>2</sup>).

* Define una variable con el nombre `rmse` y asígnale la función necesaria para obtener el RMSE.
* Define una variable con el nombre `mae` y asígnale la función necesaria para obtener el MAE.
* Define una variable con el nombre `r2` y asígnale la función necesaria para obtener el R<sup>2</sup>.
* **Formato esperado de respuesta:** se verificará que tu respuesta sean tres variables. 
    * `rmse` debe ser de tipo `np.float64` o `float`. Su valor debe estar entre 7000 y 10000.
    * `mae` debe ser de tipo `np.float64` o `float`. Su valor debe estar entre 5000 y 7000.
    * `r2` debe ser de tipo `np.float64` o `float`. Su valor debe estar entre 0.4 y 0.7.

In [50]:
# your code here

print("----------Regresión lineal----------")
rmse = root_mean_squared_error(y_test, y_pred)
mae= mean_absolute_error(y_test,y_pred)
r2 = r2_score(y_test,y_pred)

print("RMSE: ", rmse)
print("MAE: ", mae)
print('R²: ', r2)

----------Regresión lineal----------
RMSE:  9770.592313256086
MAE:  6387.650184873004
R²:  0.6733027614992739


In [51]:
#---------- Celda de pruebas - Ejercicio 4.2.2. ----------
# Las variables "rmse", "mae" y "r2" existen
# Las variables son números
# Las variables tienen valores válidos
#---------------------------------------------------------

## Cierre

Al desarrollar este laboratorio, has practicado tus capacidades para analizar un conjunto de datos y entrenar un modelo de regresión lineal mediante scikit-learn. Adicionalmente, realizaste predicciones con el modelo resultante y calculaste tres métricas de rendimiento sobre los resultados.

---
*Creado por: Nicolás Díaz*

*Última edición: Camilo Rozo*

*Revisado por: Haydemar Nuñez*

*Versión: Enero 2025*  

*Universidad de los Andes* 