## ¿Qué es _Machine Learning (ML)_?


![alt](imgs/models.png)



### modelos analíticos de siempre

![alt](imgs/analytical-models.png)

### modelos derivados de los datos

![alt](imgs/model-creation.png)


### modelos derivados de los datos (en realidad)

![alt](imgs/model-template.png)

### Pero la metodología no cambia

**Primero** realizamos experimentos (ciencia), **después** desarrollamos productos (ingeniería)

![alt](imgs/science_engineering.png)

Dos roles $\rightarrow$ dos flujos de trabajo:

- **diseñador** de algoritmos de ML $\rightarrow$ se enfoca en cómo se **genera un modelo**.
- **usuario** de algoritmos de ML $\rightarrow$ se enfoca que **calibrar modelos** respecto a unos datos concretos.

# El origen de los datos. Fronteras de clasificación

**Caso ideal**: Sabemos las distribuciones de las que vienen los datos. $\Rightarrow$ podemos calcular analíticamente nuestro modelo.

- ¿Podemos encontrar un modelo con 100% de acierto? ¿Por qué sí, o por qué no?


**Caso en 2D**

- en 2D, un modelo de clasificación **es una frontera** en el plano

### observa las siguientes poblaciones de ejemplo

- supongamos tenemos acceso a las **distribuciones de las que vienen los datos** (en realidad, nunca es así!!!)

- observa que podemos calcular la **FRONTERA NATURAL (bayesiana)** y el **error NATURAL (bayesiano)** que produce esa frontera  

- $\rightarrow$ esto es analítico, **NO NECESITAMOS LOS DATOS**

### Procedimiento experimental

1. Define las distribuciones de trilobytes africanos y americanos con los cuatro parámetros de cada uno
1. Los trilobytes A, B, C, D y E **no están clasificados**. Es decir, no sabemos si son Americanos o Africanos
1. A la vista de las distribuciones, hazte las siguientes preguntas:
   - ¿Como clasificarías a cada trilobyte A, B, etc.?
   - ¿Qué confianza puedes tener en tu clasificación? ¿qué error podrías estar cometiendo?
1. Habilita mostrar las fronteras NATURALES
1. Interpreta el error bayesiano indicado en función de la posición relativa de la frontera y las distribuciones
1. Repite el experimento con poblaciones más mezcladas y más separadas, remuestreando los puntos, etc



In [1]:
import mlutils
%matplotlib inline
params = mlutils.interact_distributions()

VBox(children=(GridBox(children=(FloatSlider(value=1.0, continuous_update=False, description=' ', layout=Layou…

# Usando los datos para estimar la frontera de clasificación 

en general **SOLO TENEMOS UNA MUESTRA** de los datos, porque no tenemos conocimiento de las distribuciones que los generan. Los métodos de **estadística** y de **machine learning** están diseñados para esta situación.

Ejecuta la siguiente celda y pregúntate cada vez, **¿qué frontera establecerías con los datos que ves?**.

Fíjate que tenemos distintas muestras de una misma disitribución de base. Es decir, **la realidad detrás de estos datos siempre es la misma**.


### Experimento 1:
**Aumenta** el número de muestras y hazte cada vez la misma pregunta.

$\rightarrow$ ¿Cómo determinamos donde poner la frontera?

$\rightarrow$ ¿Qué frontera qusiéramos obtener?

ten en cuenta que **la frontera de clasificación**:
    
1. se estima **con los datos de TRAIN** $\rightarrow$ desempeño en calibración
2. se coloca **sobre los datos de TEST** $\rightarrow$ desempeño en **generalización**

### Experimento 2:

1. Elije distintos clasificadores y observa cómo:
    1. se calibra la frontera con los datos de train y se mide el desempeño en calibración (TRAIN)
    2. se coloca la frontera sobre los datos de test y se mide el **desempeño en generalización** (TEST)

2. Aumenta el número de muestras y cambia el porcentaje de datos de test. Observa:
    1. ¿En qué condiciones el desempeño en train y test es parecido?
    2. ¿Cuánto cambia la frontera con distintas muestras? ¿Qué estable es cada frontera con cada clasificador?
    3. ¿Qué clasificadores generan fronteras **más complejas**?
    
### Experimento 3:

Repite el experimento anterior, con **datos muy mezclados** (modifica la distribuciones en la aplicación anterior), mostrando las fronteras naturales

1. ¿Qué clasificadores generan fronteras más cercanas a la frontera NATURAL?
2. Si sólo miramos el desempeño en TRAIN y TEST ¿Qué condicionees nos indicaría que estamos cerca de la frontera NATURAL?
   1. TRAIN y TEST tienen desempeños parecidos
   2. TRAIN tiene un buen desempeño, independientemente de lo que suceda con TEST
   3. TEST tiene un buen desempeño, independientemente de lo que suceda con TRAIN
   
3. ¿Qué clasificador escogerías y con cuantos datos lo entrenarías **si no supieras donde está la frontera NATURAL**?

In [145]:
mlutils.interact_traintest(params)

VBox(children=(HBox(children=(IntSlider(value=100, continuous_update=False, description='# samples', max=2000,…

### Los algoritmos de machine learning:

- Los algoritmos de clasificación **calculan fronteras** entre los datos.
- Parten de una muestra de los datos, **no de las distribuciones**.
- Por tanto, **no conocemos** la forma de la frontera bayesiana.

O sea, **partimos ciegos**!!!!!!!

Para abordar esta situación, **cualquier algoritmo** tiene necesariamente que plantear una alguna suposición de base:

- los datos vienen de distribuciones normales.
- las columnas son estadísticamente independientes.
- la frontera es lineal, o cuadrática.
- la frontera se representa con una red neuronal.

Teniendo esto en cuenta, y **partiendo de una muestra de los datos**:

- el objetivo de un usuario de ML es acercarse lo más posible a la **frontera bayesiana** (que no sabemos cómo es).
- distintos algoritmos ML tienen **distintas capacidades** para modelar fronteras (un clasificador lineal no puede captuarar una frontera cuadrática).
- necesitamos dos tipos de herramientas:
   - una buena colección de algoritmos ML.
   - métodos para saber qué tan cerca estamos de la frontera bayesiana.

## application examples (for static NOTEBOOK rendering)

![xx](imgs/01_app_distributions.png)

![xx](imgs/01_app_classifiers.png)