# <font style="color:rgb(50,120,229);"> ¿Cómo resolver problemas de Machine Learning? </font>

En este cuaderno, abordaremos un problema simple para entender cómo se aborda la resolución de un problema de aprendizaje automático.

Imaginemos una startup de entrega de alimentos. Este servicio de entrega de alimentos ofrece servicios en seis áreas o códigos postales.

Han estado recopilando datos sobre las seis áreas, como el número de pedidos realizados, el número de restaurantes en el área, el número de descargas de su aplicación en esa área, etc. 

Ahora, han decidido comenzar a operar en un área nueva. Necesitan decidir cuántos repartidores necesitan asignar a esta nueva área.


## <font style="color:rgb(50,120,229);"> Simplificación del problema </font>

Simplifiquemos el problema y digamos que el número de pedidos realizados depende solo del número de descargas de aplicaciones. Además, asumimos que el número de pedidos es directamente proporcional al número de descargas de aplicaciones para esa área, por lo que podemos construir un modelo lineal $y = mx$.

Donde: 
- $y$ es el número de pedidos
- $x$ es el número de descargas de aplicaciones

<center> <img src="./images/linear_model.png" width="300px"> </center>

$m$ es llamado el parámetro del modelo.

Aquí tenemos solo un parámetro. En el mundo real, un modelo de aprendizaje profundo para una tarea de visión por computadora puede tener decenas de millones de parámetros.


**Entrenar un modelo simplemente significa encontrar el mejor valor de m.**

### <font style="color:rgb(50,120,229);"> Datos </font>

A continuación se muestra una tabla con los datos recopilados por la startup y una gráfica que muestra la relación entre el número de descargas y el número de pedidos.


<center style="display:flex; gap:32px; text-align: center; align-items:center;">
<table>
  <tr>
    <th></th>
    <th>Región 1</th>
    <th>Región 2</th>
    <th>Región 3</th>
    <th>Región 4</th>
    <th>Región 5</th>
    <th>Región 6</th>
  </tr>
  <tr>
    <td>Descargas</td>
    <td>250</td>
    <td>290</td>
    <td>310</td>
    <td>220</td>
    <td>270</td>
    <td>300</td>
  </tr>
  <tr>
    <td>Pedidos</td>
    <td>26</td>
    <td>30</td>
    <td>33</td>
    <td>21</td>
    <td>26</td>
    <td>31</td>
  </tr>
</table>

<img src="./images/plot.png" width="500px"> 
</center>

### <font style="color:rgb(50,120,229);"> Encontrando una solución </font>

Nuestro modelo y = mx es lineal. Es una línea que pasa por el origen, cuya pendiente está controlada por m. 

Ahora, dado que todos los puntos no se encuentran en la misma línea, sabemos que no podemos tener un valor único de m que satisfaga $y_i = m x_i$.


Para todos los valores de $x_i$, $y_i$ en el conjunto de datos, necesitamos encontrar el mejor $m$ que se ajuste a todos los puntos de datos. 

### <font style="color:rgb(50,120,229);"> Función de pérdida </font>

En otras palabras, podemos encontrar el error $E = y_i - m x_i$.

$y_i$ es el punto de datos real y $m \cdot x_i$ es el valor predicho. 

Por lo tanto, el error es la diferencia entre los dos y **queremos minimizar este término de error**. 

Dado que no nos importa si el error es positivo o negativo (ambos son igualmente malos para nosotros), elevamos al cuadrado el término y estamos interesados en minimizar el error cuadrático en su lugar.

$E = (y_i - m x_i)^2$

Queremos hacer esta minimización sobre todos los puntos de datos, así que lo sumamos sobre todos los puntos de datos.

$E = \sum_{i=1}^{n} (y_i - m x_i)^2$


### <font style="color:rgb(50,120,229);"> Optimización </font>

Entrenar este modelo se reduce a un **problema de optimización**. 

Un problema de optimización es aquel en el que ya sea maximizamos o minimizamos una función al cambiar algunos parámetros.


Cuando minimizamos una función, la función se llama **función de pérdida** o **función de costo**. 

En nuestro problema, la suma de errores al cuadrado mostrada aquí es la función de pérdida, y el parámetro que estamos tratando de optimizar es m.