# Resumen General
**Datos:** Conjunto de registros, cada instancia posee una etiqueta, pudiendo ser una clase o un valor numérico.    
**Objetivo:** Aprender un modelo (o función) a partir de los datos, buscando predecir sus etiquetas a partir de los atributos. Este modelo puede ser utilizado para predecir las etiquetas de nuevos registros sin anotar

* La variable x puede ser multidimensional.
* Cada dimensión corresponde a un atributo (Edad del paciente, Tamaño del tumor, Uniformidad en la forma de la célula, Etcétera)
* La **regresión** busca “acercar” los datos a una función (lineal, polinomial, etc.)
* La **clasificación** busca separar los datos mediante ciertos “bordes”.

**Metodología:** Dividir el conjunto total de ejemplos en tres subconjuntos
* **Entrenamiento:** aprendizaje de variables del modelo
* **Validación:** ajuste/elección de hiperparámetros. Los hiperparametros los deifinimos nosotros, el modelo no los puede aprender.
* **Evaluación:** estimación final del desempeño del modelo entrenado (y con hiperparámetros elegidos adecuadamente)

# Algoritmos de Regresión
## Regresión Lineal
* Busca ajustar los datos de entrenamiento mediante una función que sea un hiperplano.
* Los valores 𝜃 son los pesos de los atributos (o features en inglés).
* Se entrena minimizando la suma del error cuadrático.

![Imagen1.jpg](attachment:38010d90-15a9-4fce-871e-74104accabcf.jpg)

## Regresión Polinomial
* Busca ajustar los datos de entrenamiento mediante una función polinomial:
* Mientras más alto el grado del polinomio, más se ajusta a los datos (pero se vuelve más complejo y tiende a sobreajustar).

![Imagen2.jpg](attachment:0ce4a8b6-d126-482b-ae86-fc6f767896e0.jpg)

![Imagen3.jpg](attachment:5feac51a-0627-4313-89eb-82c085a24418.jpg)

# Algoritmos de Clasificación
## Naive Bayes
* Es un clasificador basado en el teorema de Bayes, con una asunción “naive” sobre los datos.
* Es muy sencillo de programar y entender.
* Sirve mucho como baseline y, aunque simplista, puede tener resultados que sobrepasan a algoritmos mucho más complejos.
* Es rápido de entrenar y funciona con datos de mucha dimensionalidad (e.g. es muy útil a la hora de clasificar documentos).
* El algoritmo de “Naive Bayes”  está fuertemente ligado al teorema de Bayes.
* El teorema de Bayes establece que se puede encontrar la probabilidad de A (e.g. una clase objetivo) dada la ocurrencia de B (e.g. un conjunto de features). 
* Es decir, B es la evidencia (features) y A es la hipótesis (clases).   
#### El Teorema de Bayes establece:

![Imagen4.jpg](attachment:107ef4f5-2335-439a-abe0-bbf8bb673d88.jpg)

* Bajo el teorema de Bayes, la principal asunción es que los atributos son independientes entre sí. 
* La presencia de un feature no afecta a los otros. Esta asunción es “naive”, por eso el nombre del algoritmo.
* Una segunda asunción, es que todos los atributos tienen el mismo efecto en la salida del algoritmo.

![Imagen5.jpg](attachment:29c138d8-235f-4f5a-a3d0-f0ac49a53b30.jpg)

## El algoritmo del "perceptrón"
* Propuesto por Frank Rosenblatt en 1958
* El objetivo es encontrar un hiperplano de separación
* Sólo encuentra la solución si los datos son linealmente separables
* Es un algoritmo online (procesa un ejemplo a la vez)
* Actualiza solo cuando comete un error

# Introducción a Support Vector Machines
**Fronteras de decisión en clasificación**
* Un clasificador busca separar los datos de una y otra clase de la mejor manera.
* Esta separación se da mediante una frontera de decisión.
* ¿Qué determina que tan “buena” es una frontera de decisión?

![Imagen6.jpg](attachment:2f5a1b57-0ac8-4283-a3a8-343c816c1cc0.jpg)

### Margen de la frontera
* En el gráfico anterior, cualquiera de las líneas separan los datos correctamente.
* Buscamos una línea que capture el patrón general entre los datos.
* En el gráfico de la izquierda, la línea de separación está algo sesgada. Tiene menos margen entre ella y ambos clústeres de datos.
* La línea en el gráfico de la derecha, en cambio, se encuentra bien a la mitad de ambos clústeres.

# Aprendizaje supervisado 
* Busca aprender un modelo matemático a partir de datos anotados con ciertas etiquetas.
* Si la etiqueta es un número real, entonces estamos ante un problema de regresión.
* Si la etiqueta está en una categoría, entonces es un problema de clasificación.


### Support Vector Machines
* Es un algoritmo que busca separar los datos mediante la mejor frontera de decisión. Esta frontera de decisión es conocida como hiperplano.
* En este caso, “mejor” se refiere a aquella que esté lo más separada posible de los puntos más cercanos a ella. Estos puntos son conocidos como vectores de soporte, y el espacio entre ellos y el hiperplano se conoce como margen.
* En términos más técnicos, un algoritmo de SVM encuentra el hiperplano que devuelva el mayor margen entre sí mismo y los vectores de soporte.
* Este tipo de clasificador a veces es conocido como “clasificador por márgenes” (margin classifier).

* Función de costo = el objetivo es penalizar las cosas que estan mal clasificadas
* Los SVM utilizan una función de costo conocida como hinge loss. A diferencia de regresión logística, los datos se anotan con {-1, 1} de acuerdo al valor de la etiqueta.
* busco el valor de w que hace minima a la función. es el que mas se ajusta a mis datos
* f(x) distancia del punto a la frontera de decicion. si mas me alejo de la frontera y clasifico mal mas costo le otorgo a la función. Penalizamos mas lo que este mas lejos.

Funcion de costo de la Regresión lineal
(Hipotesis - valor real)  al cuadrado

Funcion de costo de la Regresión logistica = es convexa
es mas compleja. busco ver si tengo valores mal clasificados

Funcion de costo de  SMV
me interesa modificar si algo no esta bien clasificado

![Imagen10.jpg](attachment:56ba3b97-ea95-4ecc-87d6-e3402d571df9.jpg)

![Imagen7.jpg](attachment:777dec28-5307-4737-99ab-d05d268607e9.jpg)

![Imagen8.jpg](attachment:d140b2bc-2c64-4c89-bf5c-682fe4051a24.jpg)

![Imagen9.jpg](attachment:464db427-8a1a-4a8b-9178-d5fea40fc98e.jpg)

alfa= tasa de aorendizaje = learning rate

### SVM: Outliers
* La mayoría de los casos, los datos no son linealmente separables. Tiene el mismo problema del perceptron, por eso añaden un parámetro C.
* En algunos casos, existen outliers.
* Hay un parámetro que define qué tan tolerante puede ser SVM sobre la clasificación incorrecta de datos.
* El “parámetro C”, (es un hiperparámetro que debemos fijar) define un tradeoff entre clasificar mejor los datos de entrenamiento y tener una mejor “separación” (un margen más amplio).


![Imagen11.jpg](attachment:36157aa3-d32a-488b-bc81-ea8939b40bd7.jpg)

## Datos no linealmente separables
* SVM es una técnica para separar los datos mediante un hiperplano.
* Si los datos no son linealmente separables, dicho hiperplano no existe.
* **Solución:** Proyectar los datos a una dimensión donde sí sean linealmente separables. Agrego una nueva dimensión con las siguientes ecuaciones para cada dimensión. Ahora si puedo separar los datos con un hiperplano.

![Imagen13.jpg](attachment:3b0a5200-9a4a-45a7-9556-da43178250d1.jpg)

![Imagen12.jpg](attachment:56072202-d579-4f91-a2ea-f6e840c40795.jpg)

* Kernel de este ejemplo: **K (xi, xj)= (xi, xj)2**

## Kernel
* Un Kernel es una función que proyecta los datos de una dimension a otras dimensiones, para poder encontrar planos de separación.
* El kernel es un hiperparámetro a definir.
* El kernel lineal no hace cambio de dimensiones, seria lo mismo que una recta en un plano.
* La manera en que el algoritmo de SVM realiza la proyección es mediante el uso de kernels.
* Las funciones de kernel toma dos puntos del espacio original, y devuelve el producto punto en el espacio proyectado. Este producto punto es lo que la función de SVM necesita para calcular el costo.

![Imagen14.jpg](attachment:129015ff-d12e-413d-acb5-a1fe9410e2bc.jpg)

# Árboles de decisión
* Aprende a diferenciar los datos en base a reglas de decisión.
* Los nodos del árbol representan las reglas. Las hojas asignan la clase o el valor.
* El árbol se particiona recursivamente. Para obtener el resultado, simplemente se siguen los nodos de decisión de acuerdo a los datos y se asigna la clase final.
* Es un algoritmo de “caja blanca”, ya que puede visualizarse fácilmente e interpretarse por los humanos (a diferencia de un algoritmo de “caja negra” como son las redes neuronales).
* Son buenos con datos de mucha dimensionalidad (high dimensional data)

**El algoritmo:**
* Selecciona el mejor atributo de acuerdo a alguna métrica (e.g. ganancia de información).
* Hacer un nodo de decisión con ese atributo, que particione los datos en subconjuntos de menor tamaño.
* Repetir recursivamente el procedimiento para cada nodo hijo.
* El algoritmo se detiene si:
* * Todos los ejemplos del subconjunto son de la misma clase.
* * Todos los elementos del subconjunto son constantes con respecto al atributo/s de interés del nodo actual.

**Métodos de decisión:**
* Definen la forma de particionar el conjunto de datos (es una heurística).
* Buscan rankear cada atributo de acuerdo a ciertos parámetros.
* Los criterios más populares son:
* * **Information Gain:** calcula la diferencia entre la entropía del conjunto antes de dividirse y la entropía media luego de dividir el conjunto de datos, para cada atributo.
* * **Gini Index:** Es una métrica que mide cuánto un elemento del subconjunto elegido al azar sería identificado incorrectamente. Busca los atributos que tienen menor índice de Gini.
* * **Mean Squared Error:** Este método sirve para casos de regresión (en lugar de clasificación). Busca minimizar el error cuadrático medio en los nodos hijos a la hora de particionar los datos.

![Imagen15.jpg](attachment:e7705f31-fb06-411e-a963-586217d08555.jpg)

# Ensemble Learning
* Se basan en la idea de que el trabajo en conjunto debería dar mejores resultados.
* De tal forma, un conjunto de modelos, al combinarse, deberían tener mejor performance.
* Consideremos el caso de tres modelos: M1, M2 y M3:
* Cuando las predicciones son iguales, es sencillo definir cómo predecir; qué hacemos en el caso en que difieran?
* * Le creemos al mejor de los modelos?
* * Votamos por mayoría?
* Un modelo "ensemble" se constituye como un conjunto de diferentes modelos.
* Habitualmente, un modelo "ensemble" es más preciso que los modelos que lo constituyen. Intuitivamente, esto se debe a que "dos aprenden mejor que uno".     
**Aproximación de justificación**
* Asumimos que tenemos un modelo M, formado por n modelos: M1, M2,... Mn.
* Cuando un modelo recibe un dato x, el modelo predice M(x) a partir de las predicciones Mi(x), a partir de votación (clase más votada).
Cómo determinamos cuán bien funciona el modelo?
* Para responder, consideramos:
* * Todos los clasificadores M1, M2,... Mn son igualmente precisos (precisión p)
* * Los errores en la clasificación hecha por cada clasificador son independientes: P(Mj erróneo | Mk erróneo) = P(Mj erróneo)
* Para hacer el ejemplo más concreto, consideremos:      
p = 0.8    
n = 5    
Entonces, P(la predicción de M es correcta) = P(al menos 3 de los 5 Mi predicen correctamente)

# Modelos de Ensemble Learning
## 1) Bagging 
* Es un método para hacer aprendizaje por "ensemble".
* Si usamos el mismo modelo sobre los mismos datos, obtendremos los mismos resultados (salvo inicializaciones aleatorias). Entonces, de cierta forma, debemos introducir variaciones en los datos:
* Si D es el dataset inicial; repetimos k veces lo siguiente:
* * Generar Di a partir de las entradas de D, seleccionando aleatoriamente y con reposición |D| instancias de D.
* * Entrenamos el modelo Mi a partir de Di.
* * Nuestro modelo M selecciona las predicciones más frecuentes de {Mi}i.

![Imagen16.jpg](attachment:53b605c7-04ab-44f6-a183-220bda761717.jpg)

* Cada re arreglo de datos, genera un arbol diferente... luego por un sistema de votación se selecciona el arbol que más veces se logró construir.

* **Bagging para árboles de decisión** (es un modelo que utiliza otros modelos, no siepre tienen que ser arboles de decisión)
* Bagging generalmente funciona bien para algoritmos "inestables":
* Un algoritmo es inestables si pequeñas variaciones en el dataset pueden generar modelos muy diferentes.
* Resulta que los árboles de decisión son inestables.
* Si bien lo anterior incentiva al uso de bagging para árboles de decisión, tenemos una desventaja importante: entrenar k árboles es k veces más caro que entrenar uno solo.

## 2) Random Forests
* Las Random Forests son una modificación a Bagging para Árboles de Decisión. Para evitar la sobrecarga, se simplifican los modelos:
* Como vimos antes, cuando se crean los árboles (cuando se entrenan), todas las features son consideradas o evaluadas al crear cada nodo.
* Para los Random Forests, en cada nodo se consideran sólo M atributos elegidos aleatoriamente (parámetro max_features en sklearn).
* Usualmente, se toma: M= raiz cuadrada del número de atributos

* El modelo se puede resumir en los siguientes pasos:
* Repetir k veces:
* * Construir un dataset a partir del original, como se hace con bagging.
* * Construir un árbol de decisión:
* * * Para cada nodo del árbol, seleccionar M variables y construir el nodo "óptimo" entre esas features.
* * * Repetir hasta que el árbol esté completamente construido (no se hace pruning).


# Boosting
* Método para hacer aprendizaje por "ensemble".
* Utilizamos distintos modelos para generar votos. la diferencia con lo anterior es la importancia que le damos a cada voto.
* Para el ejemplo de los árboles de decisión, vimos que con bagging, entrenamos grandes árboles sobre versiones del material de entrenamiento generados con reposición; y luego votamos por mayoría.
* Boosting pretende darle mayor importancia a los modelos que mejor performance tienen sobre los datos. Así, podemos decir que, con boosting, se entrenan árboles sobre versiones "pesadas" de los datos de entrenamiento. Y luego se clasifica por mayoría pero pesando los modelos.
* Cada modelo, de cierta forma, define qué features considerará el siguiente modelo.
* Se seleccionan datos como en bagging (bootstrapping), pero en este caso, los datos son pesados con cierto criterio. De hecho, algunos registros serán usados más frecuentemente.
* El proceso es el siguiente:
* * Dado un modelo, determinar qué registros son más "erróneos" y darles mayor pesos para los modelos siguientes).
* * Dado un modelo, determinar su performance para darle mayor peso a los "mejores" modelos.

# Voting
* Clasificador compuesto de varios clasificadores.
* Cada clasificador que lo compone se entrena sobre el conjunto de datos.
* El clasificador de “voting” final simplemente elige la clase que tuvo “más votos” de parte de los clasificadores que lo componen.
* La votación puede ser “hard” (simplemente se cuenta la cantidad de votos para una clase) o “soft” (se usa la probabilidad).