# Algoritmo de consumo en Netflix por regresión lineal multivariada

In [2]:
import pandas as pd   
import numpy as np

En 2006 Netflix ofreció un premio de 1.000.000 (un millón) de dólares a quién lograra diseñar un buen sistema de recomendaciones de películas (mejorando un 10% el mejor algoritmo existente al momento).

https://netflixprize.com/index.html

El premio ya fue entregado en 2009.

En el archivo netflix.csv se encuentran los puntajes (simulados) que 100 usuarios dieron a 6 películas.

Ajustaré por una regresión lineal  $y = c_0 + c_1 x_1 + \dots + c_n x_n$  el puntaje que estos 100 usuarios asignaron a la película 1917 en base a los puntajes que asignaron a las otras 5 películas.

Luego evaluaré la bondad del ajuste y en base al resultado obtenido, veré si el algoritmo es lo suficientemente bueno para recomendar películas.

In [3]:
datos = pd.read_csv("netflix.csv")   # dataFrame
print(datos)

    Cliente  Avengers  Erase una vez en Hollywood  Parasite  La Despedida  \
0         1         5                           4         4             1   
1         2         1                           2         5             5   
2         3         3                           4         4             3   
3         4         3                           3         4             3   
4         5         4                           4         4             2   
..      ...       ...                         ...       ...           ...   
95       96         4                           4         4             2   
96       97         4                           4         4             2   
97       98         2                           3         4             4   
98       99         2                           3         5             4   
99      100         4                           4         4             2   

    The Joker  1917  
0           4     3  
1           1     5  
2        

In [4]:
# Convertimos los datos a np.array
datosNP = datos.to_numpy()
print(datosNP)

[[  1   5   4   4   1   4   3]
 [  2   1   2   5   5   1   5]
 [  3   3   4   4   3   5   1]
 [  4   3   3   4   3   4   3]
 [  5   4   4   4   2   4   2]
 [  6   2   2   5   4   2   4]
 [  7   3   4   4   3   4   2]
 [  8   4   4   4   2   4   3]
 [  9   3   3   4   3   3   3]
 [ 10   2   3   4   4   3   3]
 [ 11   3   3   4   3   4   3]
 [ 12   2   3   5   4   2   4]
 [ 13   4   3   4   2   3   3]
 [ 14   2   3   4   4   3   3]
 [ 15   5   4   4   1   4   3]
 [ 16   4   4   4   2   5   2]
 [ 17   2   3   5   4   3   3]
 [ 18   3   3   4   3   3   3]
 [ 19   3   3   4   3   3   4]
 [ 20   2   3   5   4   3   4]
 [ 21   3   3   4   3   3   4]
 [ 22   3   4   4   3   4   3]
 [ 23   4   4   4   2   4   3]
 [ 24   3   3   4   3   3   3]
 [ 25   2   3   5   4   2   4]
 [ 26   2   3   4   4   3   3]
 [ 27   4   4   4   2   4   3]
 [ 28   3   3   4   3   3   4]
 [ 29   3   3   4   3   3   3]
 [ 30   2   3   5   4   2   4]
 [ 31   3   3   5   3   3   4]
 [ 32   3   3   4   3   3   3]
 [ 33   

In [5]:
# Construimos la matriz A
# A es la matriz del sistema lineal  A * c = y con ecuaciones:
# c0 * 1 + c1 * x1,1 + c2 * x1,2 + c3 * x1,3 + ... + cn*x1,n = y1
# c0 * 1 + c1 * x2,1 + c2 * x2,2 + c3 * x2,3 + ... + cn*x2,n = y2
# ...
# c0 * 1 + c1 * xm,1 + c2 * xm,2 + c3 * xm,3 + ... + cn*xm,n = ym
# m = 100
x = datosNP[:, 1:6]
y = datosNP[:, 6]
A = np.c_[np.ones(100), x]
print(A)

[[1. 5. 4. 4. 1. 4.]
 [1. 1. 2. 5. 5. 1.]
 [1. 3. 4. 4. 3. 5.]
 [1. 3. 3. 4. 3. 4.]
 [1. 4. 4. 4. 2. 4.]
 [1. 2. 2. 5. 4. 2.]
 [1. 3. 4. 4. 3. 4.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 4. 4. 3.]
 [1. 3. 3. 4. 3. 4.]
 [1. 2. 3. 5. 4. 2.]
 [1. 4. 3. 4. 2. 3.]
 [1. 2. 3. 4. 4. 3.]
 [1. 5. 4. 4. 1. 4.]
 [1. 4. 4. 4. 2. 5.]
 [1. 2. 3. 5. 4. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 4. 4. 3. 4.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 2.]
 [1. 2. 3. 4. 4. 3.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 2.]
 [1. 3. 3. 5. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 3.]
 [1. 3. 3. 4. 3. 4.]
 [1. 2. 3. 4. 4. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 4. 4. 3. 4.]
 [1. 3. 4. 4. 3. 4.]
 [1. 3. 4. 4. 3. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 4. 4. 3.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 4.

In [6]:
# Calculo los coeficientes de la regresión
# resolviendo el sistema At * A * c = At * y
At = np.transpose(A)
c = np.linalg.solve(At @ A, At @ y)
print(c)

[-0.41052036  0.95669538 -0.38436893  0.40347155  0.6970516  -0.59374781]


In [8]:
# Calculo los valores obtenidos por la regresión para la variable respuesta
print(A@c)
f = np.round(A @ c)
print(f)

[2.77142738 4.68630511 1.65839202 2.63650876 2.5117836  4.35220108
 2.25213983 2.5117836  3.23025657 2.97061279 2.63650876 3.96783215
 3.48990034 2.97061279 2.77142738 1.9180358  3.37408434 3.23025657
 3.23025657 3.37408434 3.23025657 2.25213983 2.5117836  3.23025657
 3.96783215 2.97061279 2.5117836  3.23025657 3.23025657 3.96783215
 3.63372812 3.23025657 3.23025657 3.37408434 2.63650876 2.37686498
 3.23025657 3.23025657 2.25213983 2.25213983 2.25213983 3.23025657
 3.23025657 2.97061279 2.5117836  3.23025657 3.23025657 2.97061279
 4.94594889 3.23025657 2.5117836  3.23025657 2.63650876 2.97061279
 2.25213983 2.5117836  3.23025657 2.5117836  3.23025657 2.5117836
 3.23025657 3.23025657 3.23025657 2.5117836  2.5117836  2.5117836
 2.25213983 2.25213983 3.23025657 3.23025657 2.25213983 2.5117836
 3.23025657 3.37408434 4.68630511 3.23025657 3.96783215 2.25213983
 3.23025657 2.25213983 3.23025657 3.23025657 4.22747593 3.23025657
 2.5117836  3.23025657 3.37408434 4.35220108 2.5117836  2.9706127

In [9]:
# Comparamos con la variable respuesta original
print(y)

[3 5 1 3 2 4 2 3 3 3 3 4 3 3 3 2 3 3 4 4 4 3 3 3 4 3 3 4 3 4 4 3 3 3 3 2 3
 4 3 2 2 3 3 3 3 3 3 3 5 3 3 3 3 3 2 2 3 3 3 3 3 3 3 2 2 2 2 2 4 3 3 3 4 3
 5 4 4 2 3 2 3 3 4 3 2 3 4 4 2 3 3 3 2 3 3 3 2 3 3 2]


In [10]:
# Contamos la cantidad de aciertos
e = (y==f)
print(y==f)
print(sum(e))

[ True  True False  True False  True  True  True  True  True  True  True
  True  True  True  True  True  True False False False False  True  True
  True  True  True False  True  True  True  True  True  True  True  True
  True False False  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True False  True  True  True  True
  True  True  True False False False  True  True False  True False  True
 False  True  True False  True  True  True  True  True  True  True  True
 False  True False  True False  True  True  True False  True  True  True
  True  True  True False]
78


El algoritmo predice con éxito el puntaje en un 78% por lo que tiene un margen de error grande pero aceptable. Sin embargo, para saber si tenemos un buen modelo, tenemos que probarlo en otro conjunto de clientes que no haya sido usado para "entrenar el modelo". Una posibildiad es separar el conjunto de datos en un conjunto de entrenamiento, un conjunto de testeo y uno de validación.