# Un problema de regresión lineal

En este taller estudiarás conceptos mostrados en el tutorial de "Solución de un problema de regresión lineal", utilizando el conjunto de datos de popularidad de canciones. Particularmente, realizarás los siguientes procesos:

1. Cargar un conjunto de datos en formato .csv.
3. Preparar los datos para el modelado.
4. Entrenar un modelo de regresión lineal.
5. Evaluar el modelo resultante.

El problema a resolver es el siguiente: dadas las propiedades acústicas de una canción, predecir su popularidad. Antes de iniciar, es necesario importar algunas librerías: 

In [15]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

## 1. Carga de datos

Con las librerías importadas, seguiremos con la carga del conjunto de datos.

### Ejercicio 1.1.

Utiliza Pandas para importar el archivo que contiene el conjunto de datos de canciones.

* La ruta del archivo .csv es: `./data/song_data.csv`, y ya se encuentra en el entorno de Coursera, solo debes importarlo.
* La variable resultante debe tener el nombre `data_raw`, que representa el conjunto de datos sin modificar.

In [16]:
ruta = './data/song_data.csv'
data_raw = pd.read_csv(ruta)


In [17]:
#---------- Celda de Pruebas ----------
# La variable "data_raw" existe
# El resultado es un DataFrame
# El resultado tiene las dimensiones correctas
#--------------------------------------

# Se verifica que la variable está definida
assert data_raw is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que sea un DataFrame
assert isinstance(data_raw, pd.DataFrame), "El resultado debe ser un DataFrame."

# Se evalúan las dimensiones de la variable data
assert data_raw.shape == (18835,15), "¿Verificaste que la ruta del archivo CSV y el nombre de la variable son correctos?"
print("¡Los datos tienen las dimensiones correctas!")

¡Los datos tienen las dimensiones correctas!


En este punto puedes agregar una celda y verificar el tamaño de los datos y su estructura, como último paso antes de la preparación del conjunto.

## 2. Preparación de los datos

Utilizaremos una nueva variable `data` para verificar que el conjunto no contiene errores, además de realizar las modificaciones necesarias al conjunto de datos. Recuerda que usarás esta variable para definir los conjuntos de entrenamiento y de pruebas.

In [18]:
data = data_raw.copy()

### Ejercicio 2.1.

Utiliza Pandas para obtener la cantidad de datos faltantes por variable.

* Define una variable con el nombre `p21` y asígnale las operaciones correspondientes para obtener la lista de datos faltantes. (`p21 = <<Operaciones>>`)
* La respuesta debe ser un arreglo con los datos faltantes por variable. Este arreglo es resultado de aplicar dos funciones a la variable `data`. (**Ejemplo: `p21 = data.<<Función1>>.<<Función2>>`**)
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.

In [19]:
# your code here

p21 = data.isna().sum()

In [20]:
#---------- Celda de Pruebas ----------
# La variable "p21" existe
# El resultado es una Serie de Pandas
# El resultado tiene las dimensiones correctas
#--------------------------------------

# Se verifica que la variable está definida
assert p21 is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que sea una Serie de Pandas
assert isinstance(p21, pd.Series), "El resultado debe ser una Serie de Pandas."

# Se verifican las dimensiones de la respuesta
assert p21.shape == (15,), "Utiliza una función de Pandas para obtener los datos faltantes, y luego usa otra función para sumarlos."
print("¡Las dimensiones son correctas!")

¡Las dimensiones son correctas!


### Ejercicio 2.2.

Similar al ejercicio anterior, utiliza Pandas para obtener la cantidad de filas duplicadas.

* Define una variable con el nombre `p22` y asígnale las operaciones correspondientes para obtener el número de filas duplicadas (`p22 = <<Operaciones>>`).
* La respuesta debe ser un número entero con la cantidad de datos (filas) duplicados. Este número es resultado de aplicar dos funciones consecutivas a la variable `data`. (**Ejemplo: `p22 = data.<<Función1>>.<<Función2>>`**)
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.

In [21]:
# your code here

p22 = data.duplicated().sum()

In [22]:
#---------- Celda de Pruebas ----------
# La variable "p22" existe
# El resultado es un número entero
# El resultado está en el rango [0,18835]
#--------------------------------------

# Se verifica que la variable está definida
assert p22 is not None, "Asegúrate de definir la variable correctamente."

# Se evalúa el tipo de dato
assert type(p22) == np.int64 or type(p22) == int, "Recuerda que tu respuesta debe ser un número entero."

# Se evalúa el rango de respuesta
assert (p22 >= 0 and p22 <= 18835), "El número de filas duplicadas debe ser positivo y menor al total de filas"
print("¡El tipo y rango de la respuesta son correctos!")

¡El tipo y rango de la respuesta son correctos!


Es conveniente eliminar los datos duplicados, por lo que utilizaremos la función `drop_duplicates()`:

In [23]:
data = data.drop_duplicates()

Después de la limpieza de datos, puedes crear una celda para verificar el tamaño del conjunto resultante.

### Ejercicio 2.3.

Teniendo en cuenta que queremos predecir la popularidad de una canción dadas sus características acústicas, vamos a eliminar una variable que no es muy relevante: el nombre. A continuación, utiliza Pandas para eliminar la columna `song_name` de la variable `data`.

* Para este punto no debes definir una nueva variable, sino asignar tu respuesta a la variable `data`. (**Ejemplo: `data = data.<<Función>>`**)

In [24]:
data = data.drop('song_name', axis=1)

In [25]:
#---------- Celda de Pruebas ----------
# La variable "data" existe
# El resultado es un DataFrame
# El resultado tiene las dimensiones correctas
# El resultado no contiene la variable "song_name"
#--------------------------------------

# Se verifica que la variable está definida
assert data is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que sea un DataFrame
assert isinstance(data, pd.DataFrame), "El resultado debe ser un DataFrame."

# Se evalúan las dimensiones de la variable data
assert data.shape == (14926,14), "¿Verificaste que el nombre de la variable es correcto y que la función utilizada es correcta?"

# Se verifica que la variable eliminada es correcta
assert "song_name" not in data.columns, "Recuerda que debes eliminar la columna \'song_name\'."
print("¡La variable tiene las dimensiones correctas!")

¡La variable tiene las dimensiones correctas!


## 3. Entrenamiento del modelo

Con los datos preparados, ahora entrenarás el modelo de regresión lineal.

### Ejercicio 3.1.

Inicialmente, tenemos que dividir el conjunto de datos en entrenamiento y pruebas. Usando el 80% de los datos para entrenar el modelo y el 20% restante para probarlo, utiliza `scikit-learn` para separar el conjunto de datos en dos.

* Guarda tu respuesta en dos variables: `train` y `test`. (**Ejemplo: `train, test = <<Función>>`**)
* Utiliza el parámetro `random_state=0`. Esto hará que la partición sea siempre la misma.
* Encontrarás la línea `train.head()`. Esta línea se usa para que puedas visualizar el resultado del conjunto de entrenamiento. Déjala al final de la celda y no la modifiques.

In [26]:
# your code here
train, test = train_test_split(data, test_size=0.2, random_state=0)

train.head()

Unnamed: 0,song_popularity,song_duration_ms,acousticness,danceability,energy,instrumentalness,key,liveness,loudness,audio_mode,speechiness,tempo,time_signature,audio_valence
1154,68,214880,0.00818,0.527,0.941,2e-06,6,0.397,-3.376,1,0.0551,94.056,4,0.44
13027,59,237080,0.0775,0.658,0.862,0.0,6,0.123,-5.992,0,0.0445,149.98,4,0.825
13150,33,213211,0.0663,0.813,0.777,0.0421,5,0.0785,-4.355,0,0.0828,125.065,4,0.579
11215,46,269096,0.972,0.492,0.24,0.141,11,0.0736,-13.386,1,0.0397,85.49,3,0.279
13523,56,189500,0.458,0.773,0.725,0.0,8,0.0935,-5.614,1,0.0344,99.018,4,0.769


In [27]:
#---------- Celda de Pruebas ----------
# Las variables "train" y "test" existen
# Las variables "train" y "test" son un DataFrame
# Las variables tienen las dimensiones correctas
#--------------------------------------

# Se verifica que las variables están definidas
assert train is not None, "Asegúrate de definir la variable correctamente."
assert test is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que "train" y "test" sean un DataFrame
assert isinstance(train, pd.DataFrame), "La variable \'train\' debe ser un DataFrame."
assert isinstance(test, pd.DataFrame), "La variable \'test\' debe ser un DataFrame."

# Se evalúan las dimensiones de las variables
assert train.shape == (11940,14), "Verifica que estés utilizando el 80% de los datos para el conjunto de entrenamiento."
assert test.shape == (2986,14), "Verifica que estés utilizando el 20% de los datos para el conjunto de pruebas."
print("¡Los conjuntos de entrenamiento y pruebas tienen las dimensiones correctas!")

¡Los conjuntos de entrenamiento y pruebas tienen las dimensiones correctas!


### Ejercicio 3.2.

Ahora trabajaremos sobre el conjunto de entrenamiento. Primero debes aislar la variable objetivo, `song_popularity`, de las variables independientes. Utiliza Pandas para crear dos variables, `x_train` y `y_train`, que almacenarán las variables independientes y la variable objetivo, respectivamente.

* Crea una variable con nombre `x_train` y asígnale la operación necesaria para almacenar solo las variables independientes del conjunto de entrenamiento. (**Ejemplo: `x_train = train.<<Función>>`**)
* Crea una variable con nombre `y_train` y asígnale la operación necesaria para almacenar la variable objetivo del conjunto de entrenamiento. (**Ejemplo: `y_train = <<Consulta>>`**)

In [28]:
x_train = train.drop('song_popularity', axis=1)

y_train = train['song_popularity']


In [29]:
#---------- Celda de Pruebas ----------
# Las variables "x_train" y "y_train" existen
# La variable "x_train" es un DataFrame
# La variable "y_train" es una Serie de Pandas
# Las variables tienen las dimensiones correctas
#--------------------------------------

# Se verifica que las variables están definidas
assert x_train is not None, "Asegúrate de definir la variable correctamente."
assert y_train is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que "x_train" sea un DataFrame
assert isinstance(x_train, pd.DataFrame), "El resultado debe ser un DataFrame."

# Se verifica que "y_train" sea una Serie
assert isinstance(y_train, pd.Series), "El resultado debe ser una Serie de Pandas."

# Se evalúan las dimensiones de las variables
assert x_train.shape == (11940,13), "\'x_train\' debe tener el mismo número de filas pero una columna menos que \'train\'."
assert y_train.shape == (11940,), "\'y_train\' solamente contiene una columna."
print("¡Los conjuntos \'x_train\' y \'y_train\' tienen las dimensiones correctas!")

¡Los conjuntos 'x_train' y 'y_train' tienen las dimensiones correctas!


En este punto, es útil verificar que `x_train` no contiene la variable objetivo, y que `y_train` solamente contiene la popularidad de las canciones.

### Ejercicio 3.3.

Ahora podemos entrenar el modelo con los datos modificados. Inicialmente crearemos un objeto de tipo `LinearRegression()`:

In [30]:
regresion = LinearRegression()

A continuación, entrena el modelo utilizando el conjunto de entrenamiento, compuesto por las variables `x_train` y `y_train`.

* Para este ejercicio no debes asignar tu resultado a ninguna variable. Es decir, solo debes ejecutar una función utilizando las variables `x_train` y `y_train` como parámetros. (**Ejemplo: `regresion.<<Función>>`**)

In [31]:
# your code here
regresion.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [32]:
#---------- Celda de Pruebas ----------
# El atributo "coef_" y el atributo "intercept_" existen
# El objeto "regresion" tiene 13 coeficientes
# El objeto "regresion" tiene un intercepto diferente de cero
#--------------------------------------

# Se verifica que los atributos están definidos
assert regresion.coef_ is not None, "Asegúrate de definir la variable correctamente."
assert regresion.intercept_ is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que "regresion" haya generado coeficientes
assert regresion.coef_.shape == (13,), "Al ejecutar una función usando el objeto \'regresion\', se deben generar 13 coeficientes. Verifica que ejecutaste la función para entrenar el modelo."

# Se verifica que "regresion" haya generado un intercepto
assert regresion.intercept_ > 0, "Al ejecutar una función usando el objeto \'regresion\', se debe generar un intercepto. Verifica que ejecutaste la función para entrenar el modelo."
print("¡Se ha entrenado el modelo correctamente!")

¡Se ha entrenado el modelo correctamente!


El resultado del entrenamiento son los coeficientes y el intercepto que definen una recta. Puedes observarlos a continuación:

In [33]:
print ('Coeficientes: \n', list(zip(x_train.columns, regresion.coef_)))
print ('Intercepto: ',regresion.intercept_)

Coeficientes: 
 [('song_duration_ms', -1.6869775350492154e-06), ('acousticness', -2.6308708938701044), ('danceability', 6.0675429630952165), ('energy', -10.377233088647925), ('instrumentalness', -6.61136617435602), ('key', 0.01154336206739229), ('liveness', -3.955941353868845), ('loudness', 0.5009366759133854), ('audio_mode', 0.5555952003401423), ('speechiness', -3.428583025456109), ('tempo', -0.00926441261890481), ('time_signature', 0.7126169087517966), ('audio_valence', -5.452651161131315)]
Intercepto:  58.937345871586885


## 4. Evaluación del modelo

Por último, evaluarás el modelo entrenado utilizando el conjunto de pruebas.

### Ejercicio 4.1.

Inicialmente, separa las variables independientes y la variable objetivo en el conjunto de pruebas. Para ello, utiliza Pandas para crear dos variables, `x_test` y `y_test`, que almacenarán las variables independientes y la variable objetivo, respectivamente.

* Crea una variable con nombre `x_test` y asígnale la operación necesaria para almacenar solo las variables independientes del conjunto de pruebas. (**Ejemplo: `x_test = test.<<Función>>`**)
* Crea una variable con nombre `y_test` y asígnale la operación necesaria para almacenar la variable objetivo del conjunto de pruebas. (**Ejemplo: `y_test = <<Consulta>>`**)

In [34]:
# Tu respuesta deben ser dos líneas consecutivas:
#    x_test = test.<<Función>>
#    y_test = <<Consulta>>
# your code here
x_test = test.drop('song_popularity', axis=1)

# y_test almacenará solo la variable objetivo
y_test = test['song_popularity']


In [35]:
#---------- Celda de Pruebas ----------
# Las variables "x_test" y "y_test" existen
# La variable "x_test" es un DataFrame
# La variable "y_test" es una Serie de Pandas
# Las variables tienen las dimensiones correctas
#--------------------------------------

# Se verifica que las variables están definidas
assert x_test is not None, "Asegúrate de definir la variable correctamente."
assert y_test is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que "x_test" sea un DataFrame
assert isinstance(x_test, pd.DataFrame), "El resultado debe ser un DataFrame."

# Se verifica que "y_test" sea una Serie
assert isinstance(y_test, pd.Series), "El resultado debe ser una Serie de Pandas."

# Se evalúan las dimensiones de las variables
assert x_test.shape == (2986,13), "\'x_test\' debe tener el mismo número de filas pero una columna menos que \'test\'."
assert y_test.shape == (2986,), "\'y_test\' solamente contiene una columna."
print("¡Los conjuntos \'x_test\' y \'y_test\' tienen las dimensiones correctas!")

¡Los conjuntos 'x_test' y 'y_test' tienen las dimensiones correctas!


### Ejercicio 4.2.

Con el conjunto de pruebas preparado, realiza predicciones con el fin de compararlas con los valores reales almacenados en `y_test`.

* Utiliza el objeto `regresion` para realizar las predicciones. Asigna el resultado a una variable con nombre `y_pred` (**Ejemplo: `y_pred = regresion.<<Función>>`**).
* Encontrarás una línea solo con el nombre de la variable. Esta línea se usa para que puedas visualizar tu respuesta, por lo que siempre debe ir al final y no la debes modificar.

In [36]:
y_pred = regresion.predict(x_test)

y_pred

array([48.628855  , 43.25413623, 49.27517053, ..., 51.85949766,
       50.20594692, 46.88693145])

In [37]:
#---------- Celda de Pruebas ----------
# La variable "y_pred" existe
# La variable "y_pred" es un arreglo
# La variable "y_pred" tiene las dimensiones correctas
#--------------------------------------

# Se verifica que la variable está definida
assert y_pred is not None, "Asegúrate de definir la variable correctamente."

# Se verifica que "y_pred" sea un arreglo
assert isinstance(y_pred, np.ndarray), "El resultado debe ser un Arreglo de Numpy."

# Se evalúan las dimensiones de "y_pred"
assert y_pred.shape == (2986,), "\'y_pred\' debe tener el mismo número de filas (predicciones) que \'x_test\' y \'y_test\'."
print("¡\'y_pred\' es un arreglo con las dimensiones correctas!")

¡'y_pred' es un arreglo con las dimensiones correctas!


### Ejercicio 4.3.

Finalmente, obtén tres métricas de rendimiento utilizando las predicciones del modelo.

#### Ejercicio 4.3.1.

Utiliza `scikit-learn` para obtener la Raíz del Error Cuadrático Medio (RMSE).

* Define una variable con el nombre `rmse` y asígnale la función necesaria para obtener el RMSE (`rmse = <<Función>>`).
* Encontrarás una línea que mostrará tu resultado. Esta línea debe ir al final y no la debes modificar.

In [41]:
# your code here
from sklearn.metrics import mean_squared_error
from math import sqrt

rmse = sqrt(mean_squared_error(y_test, y_pred))
print("RMSE: ", rmse)

RMSE:  20.28462756391579


In [42]:
#---------- Celda de Pruebas ----------
# La variable "rmse" existe
# La variable "rmse" es un número
# La variable "rmse" tiene un valor válido
#--------------------------------------

# Se verifica que "rmse" está definida
assert rmse is not None, "Asegúrate de definir la variable con el nombre correcto."

# Se verifica que "rmse" sea un número
assert isinstance(rmse, np.float64) or isinstance(rmse, float), "El resultado debe ser un número decimal."

# Se verifica que "rmse" tiene un valor válido
assert rmse >= 0 and rmse <= 100, "\'rmse\' debe tener un valor entre 0 y 100 (los valores posibles de la popularidad)."
print("¡\'rmse\' es un número válido!")

¡'rmse' es un número válido!


#### Ejercicio 4.3.2.

Utiliza `scikit-learn` para obtener el Error Absoluto Medio (MAE).

* Define una variable con el nombre `mae` y asígnale la función necesaria para obtener el MAE (`mae = <<Función>>`).
* Encontrarás una línea que mostrará tu resultado. Esta línea debe ir al final y no la debes modificar.

In [43]:
# your code here
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_test, y_pred)

print("MAE: ", mae)

MAE:  16.281255362592358


In [44]:
#---------- Celda de Pruebas ----------
# La variable "mae" existe
# La variable "mae" es un número
# La variable "mae" tiene un valor válido
#--------------------------------------

# Se verifica que "mae" está definida
assert mae is not None, "Asegúrate de definir la variable con el nombre correcto."

# Se verifica que "mae" sea un número
assert isinstance(mae, np.float64) or isinstance(mae, float), "El resultado debe ser un número decimal."

# Se verifica que "mae" tiene un valor válido
assert mae >= 0 and mae <= 100, "\'mae\' debe tener un valor entre 0 y 100 (los valores posibles de la popularidad)."
print("¡\'mae\' es un número válido!")

¡'mae' es un número válido!


#### Ejercicio 4.3.3.

Utiliza `scikit-learn` para obtener el Coeficiente de determinación (R<sup>2</sup>).

* Define una variable con el nombre `r2` y asígnale la función necesaria para obtener el R<sup>2</sup> (`r2 = <<Función>>`).
* Encontrarás una línea que mostrará tu resultado. Esta línea debe ir al final y no la debes modificar.

In [45]:
# your code here
from sklearn.metrics import r2_score

# Calculando el R2
r2 = r2_score(y_test, y_pred)

print('R²: ', r2)

R²:  0.025595824929419142


In [46]:
#---------- Celda de Pruebas ----------
# La variable "r2" existe
# La variable "r2" es un número
# La variable "r2" tiene un valor válido
#--------------------------------------

# Se verifica que "r2" está definida
assert r2 is not None, "Asegúrate de definir la variable con el nombre correcto."

# Se verifica que "r2" sea un número
assert isinstance(r2, np.float64) or isinstance(r2, float), "El resultado debe ser un número decimal."

# Se verifica que "r2" tiene un valor válido
assert r2 >= 0 and r2 <= 1, "\'r2\' debe tener un valor entre 0 y 1."
print("¡\'r2\' es un número válido!")

¡'r2' es un número válido!
