# **Modelo de clasificación**

In [None]:
# Importamos las librerías que estaremos utilizando

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df_train_relevantes = pd.read_csv('datasets/train_relevantes.csv')

### `Pairplot`

Este paso  nos permite elegir las mejores variables predictoras para nuestro modelo. Si queremos predecir la recomendacion de una pelicula, lo mejor será seleccionar aquellos atributos que tengan una mayor incidencia en que una pelicula pertenezca a una u otra clasificacion.



In [None]:
sns.pairplot(df_train_relevantes, hue="review_score", palette = ['r', 'b', 'g'])
plt.show()

In [None]:
X = df_train_relevantes[['type', 'rating2', 'listed_in2','id2','userId','score']]  # Denotamos X con mayúscula ya que 
                                                     # incluye más de un atributo
y = df_train_relevantes.review_score # Etiqueta a predecir

In [None]:
X.head()

In [None]:
y.tail()

In [None]:
df_train_relevantes.to_csv('DataSets/train_relevantes.csv')

## **1. Árbol de decisión**

Ahora que tenemos nuestras variables predictoras `X`, por un lado, y nuestra varible a predecir `y`, por el otro, vamos a crear un modelo de árbol de decisión.

Recordemos el flujo de trabajo de ML en Scikit-Learn: creamos el modelo / entrenamos / predecimos.

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Instanciamos un objeto de la clase DecisionTreeClassifier

clf = DecisionTreeClassifier(max_depth = 3, random_state = 42) 

In [None]:
# Entrenamos el modelo

clf.fit(X.values,y.values)

In [None]:
# Predecimos

y_pred = clf.predict(X.values)

In [None]:
from sklearn.metrics import accuracy_score

print(accuracy_score(y,y_pred))

Observemos, en esta etapa, las fronteras de clasificación que estableció nuestro modelo.

In [None]:
plt.figure(figsize= (10,6))


ax = sns.scatterplot(x = X.iloc[:,0], y = X.iloc[:,1], hue= y, palette='Set2')
plt.legend().remove()


xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx, yy = np.meshgrid(np.linspace(*xlim, num=200),
                      np.linspace(*ylim, num=200))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)

contours = ax.contourf(xx, yy, Z, alpha=0.3, cmap = 'Set2')
plt.tight_layout()
plt.title('Fronteras de decisión', fontsize= 15)
plt.show()

### Visualizamos el árbol de decisión

In [None]:
from sklearn import tree

In [None]:
plt.figure(figsize = (10,7))
tree.plot_tree(clf, filled = True)
plt.show()

In [None]:
plt.figure(figsize = (8,5))

importances = clf.feature_importances_
columns = X.columns
sns.barplot(x = columns, y = importances)
plt.title('Importancia de cada feature', fontsize = 15)
plt.show()