# Proyecto: Regresión Lineal

Reggie es un científico loco que ha sido contratado por el restaurante de comida rápida local para construir su piscina de pelotas más nueva en el área de juegos. Como tal, está trabajando en la investigación del rebote de diferentes pelotas para optimizar el foso. Está realizando un experimento para hacer rebotar diferentes tamaños de pelotas que rebotan y luego ajusta líneas a los puntos de datos que registra. Ha oído hablar de la regresión lineal, pero necesita su ayuda para implementar una versión de la regresión lineal en Python.

_Regresión lineal_ es cuando tienes un grupo de puntos en un gráfico y encuentras una línea que se asemeja aproximadamente a ese grupo de puntos. Un buen algoritmo de regresión lineal minimiza el _error_, o la distancia de cada punto a la línea. Una línea con el menor error es la línea que mejor se ajusta a los datos. Llamamos a esto una línea de _mejor ajuste_.

Usaremos bucles, listas y aritmética para crear una función que encuentre una línea de mejor ajuste cuando se le dé un conjunto de datos.


## Parte 1: Cálculo del error


La línea con la que terminaremos tendrá una fórmula que se parece a:
```
y = m*x + b
```
`m` es la pendiente de la línea y `b` es la intersección, donde la línea cruza el eje y.

Complete la función llamada `get_y()` que acepta `m`, `b` y `x`. ¡Debería devolver cuál sería el valor `y` para esa `x` en esa línea!


In [62]:
def get_y(m, b, x):
  y = m * x + b
  return y 

print(get_y(1, 0, 7) == 7)
print(get_y(5, 10, 3) == 25)


True
True



Reggie quiere probar varios valores `m` y valores `b` diferentes y ver qué línea produce el menor error. Para calcular el error entre un punto y una línea, quiere una función llamada `calculate_error()`, que tomará `m`, `b` y un punto [x, y] llamado `point` y devolverá la distancia entre la línea y el punto.

Para encontrar la distancia:
1. Obtenga el valor x del punto y guárdelo en una variable llamada `x_point`
2. Obtenga el valor y del punto y guárdelo en una variable llamada `y_point`
3. Use `get_y()` para obtener el valor y que `x_point` estaría en la línea
4. Encuentra la diferencia entre la y de `get_y` y `y_point`
5. Devuelva el valor absoluto de la distancia (puede usar la función integrada `abs()` para hacer esto)

La distancia representa el error entre la línea `y = m*x + b` y el `punto` dado.

In [63]:
# Desarrolo la función calculate_error()
def calculate_error(m,b,point):
    x_point, y_point = point
    # uso la funcion get_y()
    y = m * x_point + b
    distance = abs(y - y_point)
    return distance 



¡Probemos esta función!

In [64]:
#this is a line that looks like y = x, so (3, 3) should lie on it. thus, error should be 0:
print(calculate_error(1, 0, (3, 3)))
#the point (3, 4) should be 1 unit away from the line y = x:
print(calculate_error(1, 0, (3, 4)))
#the point (3, 3) should be 1 unit away from the line y = x - 1:
print(calculate_error(1, -1, (3, 3)))
#the point (3, 3) should be 5 units away from the line y = -x + 1:
print(calculate_error(-1, 1, (3, 3)))

0
1
1
5


¡Estupendo! Los conjuntos de datos de Reggie serán conjuntos de puntos. Por ejemplo, realizó un experimento comparando el ancho de las pelotas que rebotan con la altura a la que rebotan:


In [65]:
datapoints = [(1, 2), (2, 0), (3, 4), (4, 4), (5, 3)]

El primer punto de datos, `(1, 2)`, significa que su pelota saltarina de 1 cm rebotó 2 metros. La pelota saltarina de 4 cm rebotó 4 metros.

Mientras tratamos de ajustar una línea a estos datos, necesitaremos una función llamada `calculate_all_error`, que toma `m` y `b` que describen una línea, y `points`, un conjunto de datos como el ejemplo anterior.

`calculate_all_error` debe iterar a través de cada `punto` en `puntos` y calcular el error desde ese punto hasta la línea (usando `calculate_error`). Debería mantener un total acumulado del error y luego devolver ese total después del bucle.


In [66]:
#Write your calculate_all_error function here
def calculate_all_error(m,b,datapoints):
    total_error = 0 
    for point in datapoints: 
        point_error = calculate_error(m, b, point)
        total_error += point_error
    return total_error



¡Probemos esta función!

In [67]:
#every point in this dataset lies upon y=x, so the total error should be zero:
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(1, 0, datapoints))

#every point in this dataset is 1 unit away from y = x + 1, so the total error should be 4:
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(1, 1, datapoints))

#every point in this dataset is 1 unit away from y = x - 1, so the total error should be 4:
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(1, -1, datapoints))


#the points in this dataset are 1, 5, 9, and 3 units away from y = -x + 1, respectively, so total error should be
# 1 + 5 + 9 + 3 = 18
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(-1, 1, datapoints))

0
4
4
18


¡Estupendo! Parece que ahora tenemos una función que puede tomar una línea y los datos de Reggie y devolver cuánto error produce esa línea cuando tratamos de ajustarla a los datos.

¡Nuestro siguiente paso es encontrar la `m` y la `b` que minimicen este error y, por lo tanto, se ajusten mejor a los datos!


## Parte 2: ¡Prueba un montón de pendientes e intersecciones!

La forma en que Reggie quiere encontrar la línea que mejor se ajuste es mediante prueba y error. Quiere probar un montón de pendientes diferentes (valores `m`) y un montón de intersecciones diferentes (valores `b`) y ver cuál produce el valor de error más pequeño para su conjunto de datos.

Usando una lista de comprensión, vamos a crear una lista de posibles valores `m` para probar. Haz la lista `possible_ms` que va de -10 a 10 inclusive, en incrementos de 0.1.

Sugerencia (para ver esta sugerencia, haga doble clic en esta celda o resalte el siguiente espacio en blanco): <font color="white">puede revisar los valores en el rango (-100, 100) y multiplicar cada uno por 0.1< /fuente>



In [68]:
possible_ms = [m * 0.1 for m in range(-100, 101)]

Ahora, hagamos una lista de `possible_bs` para verificar que serían los valores de -20 a 20 inclusive, en pasos de 0.1:

In [69]:
possible_bs = [b * 0.1 for b in range(-200, 201)]

Vamos a encontrar el error más pequeño. Primero, haremos cada posible línea `y = m*x + b` emparejando todas las `m`s posibles con todas las `b`s posibles. Luego, veremos qué línea `y = m*x + b` produce el menor error total con el conjunto de datos almacenados en `datapoint`.

Primero, crea las variables que estaremos optimizando:
* `pequeño_error` &mdash; esto debería comenzar en infinito (`float("inf")`) para que cualquier error que obtengamos al principio sea menor que nuestro valor de `smallest_error`
* `mejor_m` &mdash; podemos empezar esto en `0`
* `mejor_b` &mdash; podemos empezar esto en `0`

Queremos:
* Iterar a través de cada elemento `m` en `possible_ms`
* Por cada valor `m`, tome cada valor `b` en `possible_bs`
* Si el valor devuelto de `calculate_all_error` en este valor `m`, este valor `b` y `puntos de datos` es menor que nuestro `smallest_error` actual,
* Configure `best_m` y `best_b` para que sean estos valores, y configure `smallest_error` para este error.

Al final de estos bucles anidados, `smallest_error` debería contener el error más pequeño que hayamos encontrado, y `best_m` y `best_b` deberían ser los valores que produjeron ese valor de error más pequeño.

Imprime `best_m`, `best_b` y `smallest_error` después de los bucles.


In [70]:
datapoints = [(1, 2), (2, 0), (3, 4), (4, 4), (5, 3)]
smallest_error = float("inf")
best_m = 0
best_b = 0

for m in possible_ms:
    for b in possible_bs:
   	 error = calculate_all_error(m, b, datapoints)
   	 if error < smallest_error:
   		 best_m = m
   		 best_b = b
   		 smallest_error = error
       	 
print(best_m, best_b, smallest_error)


0.30000000000000004 1.7000000000000002 4.999999999999999


## Parte 3: ¿Qué predice nuestro modelo?

Ahora hemos visto que para este conjunto de observaciones sobre las pelotas que rebotan, la recta que mejor se ajusta a los datos tiene una `m` de 0,3 y una `b` de 1,7:

```
y = 0.3x + 1.7
```

Esta línea produjo un error total de 5.

Usando esta `m` y esta `b`, ¿cuál predice tu línea que será la altura de rebote de una pelota con un ancho de 6?
En otras palabras, ¿cuál es la salida de `get_y()` cuando lo llamamos con:
* metro = 0,3
* b = 1,7
* x = 6

In [71]:
get_y(0.3, 1.7, 6)

3.5

Nuestro modelo predice que la pelota de 6 cm rebotará 3,5 m.

¡Ahora, Reggie puede usar este modelo para predecir el rebote de todo tipo de tamaños de pelotas que puede elegir incluir en la piscina de pelotas!