# Modelo de Regresión para una Empresa de Alquiler de DVD

¡Una empresa de alquiler de DVD necesita tu ayuda! Quieren calcular durante cuántos días un cliente alquilará un DVD en función de algunas características y se han acercado a usted para pedirle ayuda. Quieren que pruebes algunos modelos de regresión que te ayudarán a predecir el número de días que un cliente alquilará un DVD. La empresa quiere un modelo que produzca un MSE de 3 o menos en un equipo de prueba. El modelo que cree ayudará a la empresa a ser más eficiente en la planificación del inventario.

Los datos que proporcionaron están en el archivo csv `rental_info.csv`. Tiene las siguientes características:
- `"rental_date"`: La fecha (y hora) en la que el cliente alquila el DVD.
- `"return_date"`: La fecha (y hora) en la que el cliente devuelve el DVD.
- `"amount"`: El importe pagado por el cliente por el alquiler del DVD.
- `"amount_2"`: El cuadrado de `"amount"`.
- `"rental_rate"`: La tarifa a la que se alquila el DVD.
- `"rental_rate_2"`: El cuadrado de `"rental_rate"`.
- `"release_year"`: El año en que se estrenó la película que se alquila.
- `"length"`: Duración de la película que se alquila, en minutos.
- `"length_2"`: El cuadrado de `"length"`.
- `"replacement_cost"`: El importe que le costará a la empresa reemplazar el DVD.
- `"special_features"`: Cualquier característica especial, por ejemplo trailers/escenas eliminadas que también tenga el DVD.
- `"NC-17"`, `"PG"`, `"PG-13"`, `"R"`: Estas columnas son variables ficticias de la calificación de la película. Toma el valor 1 si el movimiento se clasifica como el nombre de la columna y 0 en caso contrario. Para su comodidad, el dummy de referencia ya se ha eliminado.

## Importando Librerias

In [55]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Import any additional modules and start coding below
df = pd.read_csv("rental_info.csv")

* Crear una columna llamada "rental_length_days"
* Usa "return_date" & "rental_date"
* ¿Cuántos Días el Cliente Alquiló el DVD?

In [56]:
df["rental_date"] = pd.to_datetime(df["rental_date"])
df["return_date"] = pd.to_datetime(df["return_date"])
df["rental_length_days"] = (df["return_date"] - df["rental_date"]).dt.days

* Usando Special Features para crear las Columnas: 
* The value is "Behind the Scenes", storing as a column called "behind_the_scenes".

In [57]:
df["deleted_scenes"] = [1 if "Deleted Scenes" in elemento else 0 for elemento in df["special_features"]]
df["behind_the_scenes"] = [1 if "Behind the Scenes" in elemento else 0 for elemento in df["special_features"]]

* Separar en datos de Entrada y de Salida (X & Y)

In [58]:
X = df[["amount", "release_year", "rental_rate", "length", "replacement_cost", "NC-17", "PG", "PG-13", "R", "amount_2", "length_2", "rental_rate_2","deleted_scenes", "behind_the_scenes"]].values
y = df["rental_length_days"].values

* Divida los datos conjuntos de prueba X_train, y_train, X_test e y_test, evitando cualquier característica que filtre datos sobre la variable de destino e incluya el 20% de los datos totales en el conjunto de prueba.
* Establezca random_state en 9 siempre que utilice una función/método que implique aleatoriedad, por ejemplo, al realizar una división de un tren de prueba.

In [59]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=9)

* Recomendar un modelo que produzca un error cuadrático medio (MSE) inferior a 3 en el conjunto de prueba

In [60]:
from sklearn.ensemble import RandomForestRegressor

# Save best model
rf = RandomForestRegressor(n_estimators=50, min_samples_split=5, random_state=9)
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)
mse = mean_squared_error(y_pred, y_test)

best_model = rf
best_mse = mse

print(f"Best Model : {best_model}\nBest MSE: {best_mse}")

Best Model : RandomForestRegressor(min_samples_split=5, n_estimators=50, random_state=9)
Best MSE: 2.0481139633013763


* Guarde el modelo que recomendaría como una variable denominada best_model y guarde su MSE en el conjunto de prueba como best_mse.