### Mínimos cuadrados para sumas de funciones

Para datos $(t_j, y_j)$, $1 \le j \le m$ queremos ajustar una función del tipo 
$$
y = c_1 f_1(t) + \dots + c_s f_s(t)
$$

Ejemplo: $y = a + b t + c t^2$.

RECORDAR: reemplazando los valores de $t$ e $y$ por los datos en la tabla obtenemos un sistema **lineal** de ecuaciones, donde las incógnitas son los $c_i$:

$$
\begin{align}
y_1 &= c_1 f_1(t_1) + \dots + c_s f_s(t_1) \\
&\vdots\\
y_m &= c_1 f_1(t_m) + \dots + c_s f_s(t_m)
\end{align}
$$

Cuando tenemos más datos (ecuaciones) que incógnitas, usamos mínimos cuadrados para obtener una solución aproximada.



#### Ejemplo
Ajustar por mínimos cuadrados una función del tipo
$$
y = c_1 t^2 + c_2 e^t + c_3 t
$$
a los datos

|t|1|2|4|6|8|
| --- | --- | --- | --- | --- | --- |
|y|6|10|10|8|10|

In [None]:
import numpy as np
import matplotlib.pyplot as plt
# Vectores de datos
ti = np.array([1, 2, 4, 6, 8])
yi = np.array([6, 10, 10, 8, 10])

# a) Definimos las funciones
def f1(t):
    return(t**2)

def f2(t):
    return(np.e**t)

def f3(t):
    return(t)


In [None]:
# b) Construimos la matriz
A = np.c_[f1(ti), f2(ti), f3(ti)]
print(A)

In [None]:
# Usamos un programa para resolver el problema de mínimos cuadrados
# Resolvemos At * A * c = At * y
def solveMinCuad(A, y):
    At = np.transpose(A)
    AtA = np.dot(At, A)
    Aty = np.dot(At, y)
    c = np.linalg.solve(AtA, Aty)
    return(c)

c = solveMinCuad(A, yi)
print(c)


In [None]:
# Verificamos gráficamente
t = np.linspace(0, 9, 100)
y = c[0]*f1(t) + c[1]*f2(t) + c[2]*f3(t)
plt.plot(t, y)
plt.scatter(ti, yi, c = "r")

## Linealización

**Ejemplo 1:**

Vamos a medir la complejidad de la función `solve` de Python.

Resolvemos un sistema de $n \times n$ para distintos valores de $n$ y ajustamos una función de la forma
$$f(x) = c_0 x^{c_1}$$
a los tiempos obtenidos.

In [None]:
import time

def tiempoSolve(m, iter):
    tTotal = 0.0
    for i in range(iter):
        M = np.random.rand(m,m)
        b = np.random.rand(m)
        start_time = time.time()
#        x = np.linalg.solve(M, b)
        x = np.linalg.inv(M) @ b
        t = time.time() - start_time
        tTotal = tTotal + t
    return(tTotal / iter)

In [None]:
N = 20
m0 = 200
deltaM = 20
tamano = np.zeros(N)
tiempos = np.zeros(N)
for j in range(N):
    m = m0 + deltaM * j
    tamano[j] = m
    tiempos[j] = tiempoSolve(m, 50)
    
plt.scatter(tamano, tiempos)


In [None]:
A = np.c_[np.ones(N), np.log(tamano)]
c = np.linalg.solve(A.T @ A, A.T @ np.log(tiempos))
print(c)

In [None]:
x_plot = np.linspace(m0, m0 + deltaM*N, 1000)
plt.scatter(tamano, tiempos)
plt.plot(x_plot, np.e**c[0] * x_plot**c[1])

print(" a = ", np.e**c[0])
print(" b = ", c[1])

#### Ejemplo:
Estimar por mínimos cuadrados la amplitud $A$ y la fase $\phi$ de la oscilación
$$
b(t) = A \sin(2t + \phi)
$$
a partir de los datos en el archivo oscilacion.csv.

Sugerencia: linealizar la función $b(t)$ usando la identidad trigonométrica
$$
\sin(A + B) = \sin(A) \cos(B) + \cos(A) \sin(B)
$$
y los reemplazos:
$$
\alpha = A \cos(\phi), \quad \beta = A \sin(\phi)
$$

**Resolución.** Linealizamos la función:
$$
b(t) = A (\sin(2t)\cos(\phi) + \cos(2t)\sin(\phi)) = A \cos(\phi) (\sin(2t))  + A \sin(\phi) \cos(2t)
$$
y llamando $\alpha = A \cos(\phi)$ y $\beta = A \sin(\phi)$ obtenemos el problema:
$$
b(t) = \alpha \sin(2t) + \beta \cos(2t)
$$
que está en la forma buscada tomando $f_1(t) = \sin(2t)$ y $f_2(t) = \cos(2t)$.


In [None]:
import pandas as pd   
datos = pd.read_csv("oscilaciones.csv")   # dataFrame

In [None]:
print(datos)

In [None]:
# Convertimos los datos a np.array
datosNP = datos.to_numpy()
print(datosNP)

ti = datosNP[:,0]
yi = datosNP[:,1]
plt.plot(ti, yi)


In [None]:
# Definimos las funciones y construimos la matriz A

def f1(t):
    return(np.sin(2*t))

def f2(t):
    return(np.cos(2*t))

F = [f1, f2]

A = matrizAF(ti, F)
print(A)

In [None]:
# Hallamos los coeficientes
c = solveMinCuad(A, yi)
print(c)

In [None]:
# Graficamos
t = np.linspace(0, 7, 100)
y = c[0]*f1(t) + c[1]*f2(t)
plt.plot(t, y)
plt.plot(ti, yi, '.')

**Ejercicio:** calcular los valores de $A$ Y $\phi$.

### Regresión lineal multivariada

#### Netflix prize

En 2006 Netflix ofreció un premio de 1.000.000 (un millón) de dólares a quién lograra diseñar un buen sistema de recomendaciones de películas (mejorando un 10% el mejor algoritmo existente al momento).

https://netflixprize.com/index.html

El premio ya fue entregado en 2009... pero vamos a intentarlo!

En el archivo netflix.csv se encuentran los puntajes (simulados) que 100 usuarios dieron a 6 películas. 

Ajustar por una regresión lineal $y = c_0 + c_1 x_1 + \dots + c_n x_n$ el puntaje que estos 100 usuarios asignaron a la película 1917 en base a los puntajes que asignaron a las otras 5 películas.

¿Cómo puede evaluar la bondad del ajuste? En base al resultado obtenido, ¿utilizaría este algoritmo para recomendar películas?

In [4]:
import pandas as pd   
import numpy as np
datos = pd.read_csv("netflix.csv")   # dataFrame
print(datos)

    Cliente  Avengers  Erase una vez en Hollywood  Parasite  La Despedida  \
0         1         5                           4         4             1   
1         2         1                           2         5             5   
2         3         3                           4         4             3   
3         4         3                           3         4             3   
4         5         4                           4         4             2   
..      ...       ...                         ...       ...           ...   
95       96         4                           4         4             2   
96       97         4                           4         4             2   
97       98         2                           3         4             4   
98       99         2                           3         5             4   
99      100         4                           4         4             2   

    The Joker  1917  
0           4     3  
1           1     5  
2        

In [5]:
# Convertimos los datos a np.array
datosNP = datos.to_numpy()
print(datosNP)

[[  1   5   4   4   1   4   3]
 [  2   1   2   5   5   1   5]
 [  3   3   4   4   3   5   1]
 [  4   3   3   4   3   4   3]
 [  5   4   4   4   2   4   2]
 [  6   2   2   5   4   2   4]
 [  7   3   4   4   3   4   2]
 [  8   4   4   4   2   4   3]
 [  9   3   3   4   3   3   3]
 [ 10   2   3   4   4   3   3]
 [ 11   3   3   4   3   4   3]
 [ 12   2   3   5   4   2   4]
 [ 13   4   3   4   2   3   3]
 [ 14   2   3   4   4   3   3]
 [ 15   5   4   4   1   4   3]
 [ 16   4   4   4   2   5   2]
 [ 17   2   3   5   4   3   3]
 [ 18   3   3   4   3   3   3]
 [ 19   3   3   4   3   3   4]
 [ 20   2   3   5   4   3   4]
 [ 21   3   3   4   3   3   4]
 [ 22   3   4   4   3   4   3]
 [ 23   4   4   4   2   4   3]
 [ 24   3   3   4   3   3   3]
 [ 25   2   3   5   4   2   4]
 [ 26   2   3   4   4   3   3]
 [ 27   4   4   4   2   4   3]
 [ 28   3   3   4   3   3   4]
 [ 29   3   3   4   3   3   3]
 [ 30   2   3   5   4   2   4]
 [ 31   3   3   5   3   3   4]
 [ 32   3   3   4   3   3   3]
 [ 33   

In [6]:
# Construimos la matriz A
# A es la matriz del sistema lineal  A * c = y con ecuaciones:
# c0 * 1 + c1 * x1,1 + c2 * x1,2 + c3 * x1,3 + ... + cn*x1,n = y1
# c0 * 1 + c1 * x2,1 + c2 * x2,2 + c3 * x2,3 + ... + cn*x2,n = y2
# ...
# c0 * 1 + c1 * xm,1 + c2 * xm,2 + c3 * xm,3 + ... + cn*xm,n = ym
# m = 100
x = datosNP[:, 1:6]
y = datosNP[:, 6]
A = np.c_[np.ones(100), x]
print(A)

[[1. 5. 4. 4. 1. 4.]
 [1. 1. 2. 5. 5. 1.]
 [1. 3. 4. 4. 3. 5.]
 [1. 3. 3. 4. 3. 4.]
 [1. 4. 4. 4. 2. 4.]
 [1. 2. 2. 5. 4. 2.]
 [1. 3. 4. 4. 3. 4.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 4. 4. 3.]
 [1. 3. 3. 4. 3. 4.]
 [1. 2. 3. 5. 4. 2.]
 [1. 4. 3. 4. 2. 3.]
 [1. 2. 3. 4. 4. 3.]
 [1. 5. 4. 4. 1. 4.]
 [1. 4. 4. 4. 2. 5.]
 [1. 2. 3. 5. 4. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 4. 4. 3. 4.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 2.]
 [1. 2. 3. 4. 4. 3.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 2.]
 [1. 3. 3. 5. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 5. 4. 3.]
 [1. 3. 3. 4. 3. 4.]
 [1. 2. 3. 4. 4. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 4. 4. 3. 4.]
 [1. 3. 4. 4. 3. 4.]
 [1. 3. 4. 4. 3. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 4. 4. 3.]
 [1. 4. 4. 4. 2. 4.]
 [1. 3. 3. 4. 3. 3.]
 [1. 3. 3. 4. 3. 3.]
 [1. 2. 3. 4.

In [7]:
# Calculamos los coeficientes de la regresión
# resolviendo el sistema At * A * c = At * y
At = np.transpose(A)
c = np.linalg.solve(At @ A, At @ y)
print(c)

[-0.41052036  0.95669538 -0.38436893  0.40347155  0.6970516  -0.59374781]


In [8]:
# Calculamos los valores obtenidos por la regresión para la variable respuesta
f = np.round(A @ c)
print(f)

[3. 5. 2. 3. 3. 4. 2. 3. 3. 3. 3. 4. 3. 3. 3. 2. 3. 3. 3. 3. 3. 2. 3. 3.
 4. 3. 3. 3. 3. 4. 4. 3. 3. 3. 3. 2. 3. 3. 2. 2. 2. 3. 3. 3. 3. 3. 3. 3.
 5. 3. 3. 3. 3. 3. 2. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 2. 2. 3. 3. 2. 3.
 3. 3. 5. 3. 4. 2. 3. 2. 3. 3. 4. 3. 3. 3. 3. 4. 3. 3. 3. 3. 3. 3. 3. 3.
 2. 3. 3. 3.]


In [9]:
# Comparamos con la variable respuesta original
print(y)

[3 5 1 3 2 4 2 3 3 3 3 4 3 3 3 2 3 3 4 4 4 3 3 3 4 3 3 4 3 4 4 3 3 3 3 2 3
 4 3 2 2 3 3 3 3 3 3 3 5 3 3 3 3 3 2 2 3 3 3 3 3 3 3 2 2 2 2 2 4 3 3 3 4 3
 5 4 4 2 3 2 3 3 4 3 2 3 4 4 2 3 3 3 2 3 3 3 2 3 3 2]


In [10]:
# Contamos la cantidad de aciertos
e = (y==f)
print(y==f)
print(sum(e))


[ True  True False  True False  True  True  True  True  True  True  True
  True  True  True  True  True  True False False False False  True  True
  True  True  True False  True  True  True  True  True  True  True  True
  True False False  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True False  True  True  True  True
  True  True  True False False False  True  True False  True False  True
 False  True  True False  True  True  True  True  True  True  True  True
 False  True False  True False  True  True  True False  True  True  True
  True  True  True False]
78


**Importante:** Para saber si tenemos un buen modelo, tenemos que probarlo en otro conjunto de clientes que no haya sido usado para "entrenar el modelo". Una posibildiad es separar el conjunto de datos en un conjunto de entrenamiento, un conjunto de testeo y uno de validación.

#### Ejercicios

1. Repetir el experimento prediciendo los puntajes de Avengers en función de los puntajes a las otras películas. ¿Mejoran las predicciones?
2. Repetir el experimento usando como variables explicativas solo los puntajes a las películas Avengers y La Despedida. ¿Empeoran las predicciones?

**Ejercicios**
1. Implementar una función que reciba una matriz de variables explicativas y una variables respuesta y devuelva los coeficientes de la regresión lineal $y = c_0 + c_1 x_1 + \dots + c_n x_n$.
2. Opcional: agregar un tercer parámetro "intercept", que pueda valer 1 o 0. Si intercept == 1, se hace el modelo como en el punto 1. Si intercept == 0, se hace una regresión lineal $y = c_1 x_1 + \dots + c_n x_n$.
2. Resolver el ejercicio visto en la clase práctica usando la función implementada.
