# Regresión lineal

Uno de los modelos más simples de aprendizaje supervizado.

Es un algoritmo de **regresión** (ORLY).

# Por qué? Cuándo?

* Sirve para hacer regresión.
* Cuando sospechamos que las salidas dependen de las entradas de manera **lineal**.
* Si no, va a funcionar muy mal.
* Es muy rápida! Y simple!
* Permite explicar resultados

![](files/images/linear_regression_1.svg)

![](files/images/linear_regression_2.svg)

# Cómo funciona?

Sospechamos que existe esta función, y que es una recta:

![](files/images/supervised_learning_1.svg)

**Entrenamos**. Es decir, probamos muchas rectas, para ver cuál se ajusta bien:

![](files/images/train.svg)

Y listo! Ya tenemos nuestra recta predictora, la usamos para nuevos casos:

![](files/images/predict.svg)

**Solo** con esa función, **sin** los datos que usamos, podemos ir a predecir salidas en nuevos casos.

La salida de nuestro modelo es **la función que permite predecir**.

![](files/images/line_function.svg)

Y el **conocimiento de cómo predecir** quedó almacenado en los **parámetros**.

El **2** y **3** de la función encontrada.

# Pero cómo funciona???? Entrenamiento 

Dijimos que probamos rectas con distintos parámetros, hasta que alguna ande bien.

Probamos al azar?? Es una locura.

Claramente tiene que haber una forma **inteligente** de probar valores para los **parámetros**.

# Función de error

Asumamos que queremos probar funciones con esta estructura:

![](files/images/simple_function.svg)

**P1** es un **parámetro**. Es lo que queremos encontrar, para que nuestra función funcione :)

La función **anda bien** si decidimos que **p1=0**?

(con nuestros datos y la métrica que elegimos!)

In [1]:
def calcular_error(p1):
    # nuestros datos conocidos, una columna de entrada y otra de salida
    dataset = (
        (1.00, 0.52),
        (5.00, 2.43),
        (6.00, 3.01),
        (3.00, 1.70),
        (2.00, 1.05),
        (8.00, 3.99),
    )

    # la función que vamos a probar
    def f(x):
        return p1 * x

    # medimos qué tan bien anda la función
    error = 0
    for entrada, salida in dataset:
        error_ejemplo = abs(f(entrada) - salida)
        error += error_ejemplo
    
    # devolvemos esa medida
    return error

In [2]:
print("error con p1=0:   ", calcular_error(0))
print("error con p1=100: ", calcular_error(100))
print("error con p1=2:   ", calcular_error(2))
print("error con p1=0.5: ", calcular_error(0.5))

error con p1=0:    12.700000000000001
error con p1=100:  2487.3
error con p1=2:    37.3
error con p1=0.5:  0.35999999999999943


![](files/images/error_function.svg)

# Descenso por el gradiente

La función **calcular_error** es una función matemática. Se le pueden calcular derivadas!

No será simple, pero poderse, se puede!

Y eso nos permite "descender" usando la derivada como indicador de en qué dirección ir hacia abajo (o sea, hacia menos error).

In [3]:
def descenso_gradiente():
    # iniciamos con un valor de p1 al azar
    p1 = random.random()
    
    # y vamos probando valores inteligentemente
    while seguir_probando:
        # cuánto le erramos con el valor actual?
        error = calcular_error(p1)
        
        if error < nivel_muy_bueno or demasiadas_iteraciones:
            # si ya tenemos un valor de p1 muy bueno, cortamos
            # si se nos acabó el tiempo, cortamos
            return p1
        else:
            # si no, derivamos y nos fijamos la inclinación en p1
            cambio = derivada_de_calcular_error_evaluada_en(p1)
            # variamos p1 de acuerdo a lo que diga esa inclinación!
            p1 += cambio

![](files/images/gradient_descent.svg)

Al terminar, esto nos encuentra un valor para **p1** que es lo **suficientemente bueno**.

Qué tan bueno? Nosotros decidimos, podemos regular qué **tantas iteraciones** hacer, y qué **tanto error** podemos soportar.

# MAGIA!

Esta misma técnica se puede, en teoría, usar para aproximar **cualquier función** que queramos. 

Solo tenemos que:

* Armar el "molde" de la función
* Elegir los parámetros
* Hacer descenso por el gradiente de esos parámetros

Preguntas frecuentes:

* Si no se qué estructura tiene mi función?  ->  hasta que no lo sepas, no podés aplicar esto. Podés probar, etc.
* Y si tengo **muchos parmámetros**?  ->  derivadas parciales, yay!
* Y no es muy lento?  ->  sí, yay! (se puede vectorizar, gpu, etc)
* Hasta cuándo sigo?  ->  depende del problema
* Qué tanto error permito?  ->  depende del problema
* Y si mi función no se puede derivar??  ->  Hay soluciones complejas que no vamos a ver

Es bueno saber que descenso por el gradiente tiene **variantes**:

* Batch
* Nesterov momentum
* Adam

...

# Learning rate

En esta parte dijimos "según lo que diga la derivada, movemos p1 para la derecha o la izquierda":

```python
# ...
# derivamos y nos fijamos la inclinación en p1
cambio = derivada_de_calcular_error_evaluada_en(p1)
# variamos p1 de acuerdo a lo que diga esa inclinación!
p1 += cambio
```

**Qué tanto** movemos p1??? 0.1? 0.001? 100?

En el descenso por el gradiente, se hace algo extra que antes no contamos:

```python
# ...
# derivamos y nos fijamos la inclinación en p1
valor_derivada = derivada_de_calcular_error_evaluada_en(p1)
# decidimos cuánto mover p1
cambio = valor_derivada * learning_rate
# variamos p1 de acuerdo a lo que diga ese cambio!
p1 += cambio
```

Entonces, el **learning rate** decide qué tan grandes son los saltos que vamos haciendo de p1.

Y entonces... cuánto le ponemos de valor al learning rate??? 0.1? 0.001? 100?

Depende del problema! Se **prueba y evalúa**.

Las libs suelen tener defaults razonables, pero no es raro tener que cambiarlo.

Es importante saber **cómo darse cuenta** si es muy chico o muy grande.

Learning rate muy **chico**:

![](files/images/learning_rate_too_small.svg)

Demorar muchísimo tiempo, en cada iteración **va mejorando pero muy poco**.

Learning rate muy **grande**:

![](files/images/learning_rate_too_big.svg)

No converge, **va empeorando** con el tiempo.

# Qué es regresión lineal entonces?

Es hacer una **regresión**, de una **función con forma de recta**.

Para ello necesitamos **encontrar valores** para los **parámetros** de nuestra recta.

**Descenso por el gradiente** nos encuentra los valores para esos parámetros (no es la única forma! hay otras que no vemos).