# Clasificación de datos

![Imagen2.jpg](attachment:9d2e9204-c034-4b29-90d0-d1da56a88c36.jpg)

# Clasificación Binaria
* Cuando tenemos dos categorías para clasificar
* Por conveniencia se suelen usar las categorías -1 y 1
* El objetivo es aprender una funcion de predicción para predecir a que clase pertenece cada dato

## Conceptos importantes   

**Separabilidad Lineal**
* La separabilidad lineal es una propiedad del conjunto de datos con el que estamos trabajando y no del modelo que vamos a entrenar.
* Un conjunto es linealmente separable si puedo encontrar al menos una recta que me separe los dos grupos.

![Imagen1.jpg](attachment:304054ea-8738-4df5-9946-992209183bcc.jpg)

**Clasificadores lineales**    

* Las entradas son vectores de n componenetes (x,y)
* Los clasificadores pueden ser divididos en 2 etapas:    
 **1) Función de predicción** -> arroja un valor numérico sobre el cual luego tomo una decisión dependiendo del umbral de decisión que haya fijado.   
 **f(x) = W(t) X +W0**    

 **W(t)=** Producto punto de un vector de peso   
 **X=** Vector de datos    
 **W(t) X=** Representa la suma de W1*X1 + W2*X2 + W3*X3......+Wn*Xn      
 **W0=** Parámetro de sesgo (Bias)   
 
 **2) Función de decisión** -> Según el signo del valor numérico obtenido en la función de predicción, tomo una decisión. La decisión la fijo arbitrariamente a priori.

# Algoritmos de clasificación Binaria
### 1) Error cuadrático (funcion de los mínimos cuadrados MSE) en clasificación
* No es utilizado el error cuadrático como función de costo para problemas de clasificcación.
* No se utiliza ya que no es robusto frente a outliers y penaliza predicciones que son muy buenas.

### 2) Clasificación con el Algoritmo de Naive Bayes
* Es un clasificador basado en el teorema de Bayes. Es muy utilizado para clasificar textos.
* El teorema de Bayes establece que:
 * * se puede encontrar la probabilidad de A (e.g. una clase objetivo) 
 * * dada la ocurrencia de B (e.g. un conjunto de features).
* Utiliza el teorema de máxima verosimilitud
* Parámetros a aprender:
 * * **P(A):** Función Prior de cada clase: Seteo a priori la probabilidad de ocurrencia de cada clase. Se hace contando para cada clase, la proporción de datos que uno tiene con esa clase.
 * * **P(B|A):** Funciones condicionales de cada feature(B) condicionado a cada clase (A). Se hace calculando cuantas veces un feature pertenece a una cierta clase, sobre el conteo de todo el resto de los valores de ese feature para esa clase.

![Imagen4.jpg](attachment:9a33cc32-4921-4ec9-8f16-2d3603bdd315.jpg)

![naive.jpg](attachment:bf587e5d-5012-4248-91f8-98ccbe220d41.jpg)

In [None]:
# EJEMPLO DE CÓDIGO EN PYTHON

# 1) Abro el documento y defino mi X e y
X_train = 
y_train =

# 2) Utilizo el contador de collection
from collections import Counter
class_count = Counter(y_train)
class_count

# 3) Seteo un diccionario
prior_prob = {}

# 4) Calculo la Prior de las clases P(A)
for i in classes:
    prior_prob[i] = class_count[i] / len(y_train)
    
    print(f'P({i}) = {prior_prob[i]:0.2f}')
    
# 5) Calculemos las distribuciones condicionales P(B|A)
# 5.A) Primero calculamos los conteos:
from collections import defaultdict #pone cero por defecto a todos los valores que no están en el diccionario

feature_count = {}
feature_count = defaultdict(int)

for doc, cls in training:
    tokens = doc.split()  # lista de palabras
    for feature in tokens:
        feature_count[feature, cls] += 1
        
dict(feature_count)   

# 5.B) Calculamos las distribuciones sobre los conteos totales
V = len(features)

cond_prob = {} # diccionario de diccionarios
for i in classes:
    cond_prob[i] = {}
    
    count_sum = sum(feature_count[f, i] for f in features)
    denom = count_sum + V

    for f in features:
        num = feature_count[f, i] + 1
        cond_prob[i][f] = num / denom

        print(f'P({f}|{i}) = {num} / {denom} ~ {cond_prob[i][f]:0.2f}')

# 6) Predicción
# calculo la probabilidad de la clase: A
doc = 'DOCUEMNTO'.split()

A_prob = prior_prob['A']
for i in doc:
    A_prob = A_prob * cond_prob['A'][w]

print(f'P(A|doc) = {A_prob:0.4f}')

# calculo la probabilidad de la clase: B

B_prob = prior_prob['B']
for w in doc:
    B_prob = B_prob * cond_prob['B'][w]

print(f'P(B|doc) = {B_prob:0.4f}')

# 7 ) Clasificación
# Valores probabilísticos:
A_prob / (A_prob + B_prob), B_prob / (A_prob + B_prob)

In [None]:
# Podemos clasificar documentos en scikit-learn usando Naive Bayes
from sklearn.feature_extraction.text import CountVectorizer

# Hacemos la bolsa de palabras (Bag of Words)
vect = CountVectorizer() 

# Entrenamos (sin etiquetas) para que el vectorizador asigne una columna a cada feature posible:
vect.fit(X_train)

vect.get_feature_names()

# Vectorizacmos los datos de entrenamiento:
X2 = vect.transform(X_train)
X2.shape
X2
X2.todense()

# Internamente, el vectorizador guarda el mapeo de features a columnas:
vect.vocabulary_

# Para vectorizar un texto
doc = 'chinese chinese chinese tokyo japan'
X_test = vect.transform([doc])
X_test.todense()

In [None]:
# Multinomial Naive Bayes

# Instanciamos y entrenamos Naive Bayes:
from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(X2, y_train)

# Predecimos:
mnb.predict(X_test)

# Obtenemos las probabilidades:
mnb.predict_proba(X_test)

### 3) Clasificación con el Algoritmo del Perceptrón
* Modelo lineal.
* Es un algoritmo desarrollado para clasificar datos en dos categorías (1 ó -1), si es que estos son linealmente separables.
* El objetivo es encontrar un hiperplano de separación. Un hiper plano es una generalización de una recta a un espacio de n dimensiones. (1 dimension -> recta; 2 dimensiones -> plano; 3 o más dimensiones -> hiperplanos)  
* Este clasificador lineal binario separa el espacio de los datos en 2, esta separacion la hace mediante una frontera. A un lado de la forntera quedan los positivos (1) y al otro lado los negativos (-1).

#### Entrada:
* **Una secuencia de pares de entrenamientos** (x1, y1; x2, Y2....)
* **Un hiperparámetro** = Tasa constante de aprendizaje **r** (número muy pequeño y menor a 1)
* Para cada par de datos genero una predicción según mi modelo (+1, -1) y al resultado de esa predicción lo comparo con lo que tengo en el conjunto de entrenamiento:
 * * Si mi prediccion es correcta, no hago nada. 
 * * Si mi prediccion es incorrecta actualizo el vector de pesos de tal forma que sea igual a la versión de la iteración anterior + la constante r * el producto del vector x,y (W(t+1)= W(t)+r*(x,y))     
* Nuestras incognitas, es decir, lo que buscamos aprender es el valor de los coeficientes de W y W0. Para encontrar una función que me separe dos nubes de puntos.
* Si w0=0 -> La recta para separa el hiperplano pasa por el origen. En el algoritmo W0 es al azar o le puedo fijar la semilla a W0.

### Evolución del hiperplano cuando se comete un error

![Imagen3.jpg](attachment:0fc16757-bfe1-4a87-b946-46de4d80e144.jpg)

* En el gráfico anterior, podemos ver que el producto punto del vector (x,y) * W va a ser negativo, ya que W y el vector(x,y) apuntan para lados opuestos. Pero la predicción dice que debe ser clasificado como positivo -> estoy cometiendo un **error de predicción**.
* La ecuación de actualización me dice que debo sumarle al vector de pesos W la muestra que estoy clasificando mal por un factor de actualización r (W(t+1)= W(t)+r*(x,y)).
* En el gráfico y= r   
* El vector W es normal al hiperplano... por eso cuando se mueve el vector W, el hiperplano se desplaza y se actualiza su posición
* El algoritmo hace esta corrección por cada par de datos que va analizando   

![Imagen4.jpg](attachment:1b9cbdba-a97b-4361-a716-7bbf6f20123e.jpg)

### Criterio de parada del algoritmo
* Puede ser que decida que una vez que no cometa más errores y ya no se actualice más el hiperplano ahi decida parar de correr el algoritmo..... esto es algo bastante hipotético.
* En la realidad yo nunca sé si un conjunto es linealmente separable. Por lo tanto en la práctica el **criterio de parada** suele ser el **número de iteraciones** ó el número de pasadas completas por el conjunto de datos, esa pasada completa se denomina **época**.
* Hay que tener en cuenta que cada vez que yo actualizo el hiperplano debo volver a pasar por todo el cunto otra vez, para chequear que esa actualización no haya generado nuevos errores. Por eso tengo que definir un número de épocas alto.

### Suponiendo que nuestros datos son linealmente separables...

![Imagen5.jpg](attachment:74625c55-9e41-41a6-b7e5-db107b3a26ac.jpg)

* Como vemos hay infinitas soluciones al problema de clasificación
* Todas las rectas que separen estos puntos son posibles soluciones que puede encontrar el algoritmo del perceptrón.
* La mejor solución es aquella que posea el **margen máximo**: es decir que genera el hiperplano más estable ante perturbaciones de la entrada. Es la solución que tiene más distancia entre una nube de puntos y la frontera de decisión. 

![Imagen6.jpg](attachment:d7289399-87a7-43a2-990d-e6825628c6ca.jpg)

### 4) Clasificación con el Algoritmo de Vecinos más cercanos (K-Nearest Neighbour)
* Modelo no paramétrico
* Para usar este algoritmo debemos definir:
 * * Una función de distancia, que nos de una nocion de cercaní
 * * El número de elementos que vamos a considerar vecinos cercanos (K). Se suelen elegir números impares. Voy a elegir un K tal que el error del conjunto e datos de test sea lo más chico posible.
* Teniendo un set de datos ya clasificados, el modelo lo que hace es tomar el dato nuevo y calcular la distancia del mismo hacia todos los puntos del set de entrenamiento. Luedo ordena en una lista esas distancias y se queada con las K distancias más ceranas que hayamos definido. Entonces a mi nuevo dato finalemnete le asigno la categoría mayoritaria entre los K vecinos más cercanos.

![KNN.jpg](attachment:d17edcf1-a1c4-4b74-9d5f-0af24004a41e.jpg)

* Para el caso exepcional de K=1 se crea una frontera de decición entre los dos conjuntos a clasificar (Classificatin boundary) lo que es útil para separar conjuntos cuya frontera de separación no sea linear.
* Cada fragmento de recta es perpendicual a la linea formada entre la distancia mas corta entre dos de los puntos. Asrí se va formando u entramado que luego dará lugar a la forntear de decición no linear.

![K1.jpg](attachment:326ea683-ae8b-45d1-aff8-ab162e23aab2.jpg)

* A medida que K aumenta:
 * * La fronterad de desición se vuelve menos precisa.
 * * Puede aumentar el error en el conjunto de entrenamiento.
* Debo elegir el valor de K óptimo que será el que me dé el menor valor de error en el conjunto de test.
* Puedo elegir el valor de K utilizando el método de **Validación Cruzada**.
 * * Separo el set de entrenamiento en dos (entrenamiento y validación).
 * * Mantengo separado el conjunto de validación y mido el error en ese conjunto.

### 5) Clasificación con el Algoritmo Regresión Logística
* Pertenece a la familia de modelos estadísticos avanzados (lineales generalizados), para conjunto de datos que no poseen distribución normal.
* Es más robusto frente a outliers.
* No usa minimos cuadrados como función de costo.
* Es un modelo de clasificación, no de regresión.
* Utiliza una funcion sigmoide, que lleva el valor de x a un valor entre 0 y 1, que se puede tomar como un valor de probabilidad.
* Para minimizar la función de coste, no usamos mínimos cuadrados, utilizamos descenso por gradiente

# Clasificación Multiclase
* Cuando tenemos más de dos categorías para clasificar
* Cada dato puede ser clasificado a k categorías.
* El objetivo es aprender una funcion de predicción para predecir a que clase pertenece cada dato

#### Abordaje de problemas multiclase
* Una forma es descomponer el modelo multiclase, en muchos modelos de clasificación binaria
* Las formas más comunes de descomponer un modelo multiclase son:
 * * Uno vs. todos
 * * Todos vs. todos

#### Uno vs todos
* Asumimos que cada clase puede ser separa de las demás clases
* Entrenamos tantos modelos como clases tengamos
* En cada submodelo se toma a una clase como la positiva (+1) y a todo el resto como clase negativa (-1)

![Imagen7.jpg](attachment:7969e204-6ba8-4167-af21-c8564e9bb675.jpg)

**Función de predicción:** 
 * El scrore máximo gana, se lo conoce como **Winner takes all**
 * El máximo quire decir, el que tenga mayor distancia a la frontera de decisión
 * Sucede cuando un dato puede ser clasificado como positivo para dos o más clases... la forma de definir a que clase pertenecerá finalmente es eligiendo aquel modelo que brinde el mayor valor de predicción.

#### Todos vs todos
* Asumimos que cada par de clases que se puede formar a partir del dataset es separable del resto de las clases.
* Para cada par de clases (j, k) se crea un clasificador binario con:
 * * Ejemplos positivos (categoría j)
 * * Ejemplos negativos (categoría k)
* Cada clasificador creado se especializa en separar entre las dos categorias j y k     

**Función de predicción:** Se realiza mediante un esquema de votación. Se puede pensar a cada uno de los clasificadores asociados a cada par de clases, como un elemento que genera una votación hacia una de sus categorías.
Ejemplo para un dato: 
* El clasificador (verde-azul) asigna al dato como verde
* El clasificador (verde-rojo) asigna al dato como verde
*  El clasificador (rojo-azul) asigna al dato como azul
En total recibió dos votos para la clase verde y un voto para la clase azul, por lo tanto será considerado de la clase verde.

![Imagen8.jpg](attachment:cf2e8907-d107-4b5b-947d-9914bb113bf6.jpg)

* En uno contra todos, uso todas las muestars del conjunto de entrenamiento
* En todos contra todos, en cada clasificador solo considero las muestras correspondientes a las clases pertenecientes a ese par. (cada clasificador es entrenado con un número más chico de muestras)     
 **Performance:**
* A nivel de performance no hay mucha diferencia para el entrenamiento (Si tengo 10 clases, aprendo 10 clasificadores)
* La performance a nivel de test a la hora de evaluar una muestra nueva si hay diferencia. en todos vs todos devo evaluar mas clasificadores por lo que puede relentecer un poco(Si tengo 10 clases, aprendo 10*9/2= 45 clasificadores)

**HIPER PARÁMETROS**
* REGRESION POLINOMIAL
 * * 1 Hiperparámetro en la función de predicción -> Orden del polinomio.
 * * 1 Hiperparámetro en la función de costo (error) -> Lamda de regularización (learning rate= r)

# VALIDACIÓN DEL MODELO ELEGIDO
* Datos se divide en 2: Conjunto de Test y Conjunto de Train
* Conjunto de Train se divide en 2: Train propiamente dicho y Validación

![Imagen9.jpg](attachment:06c14fb0-7554-48b1-8472-51c682b8c640.jpg)

* Voy a entrenar tantos modelos, como valores de hiperparámetros quiera evaluar
* Cada modelo que entreno lo voy evaluando en el mismo conjunto de validación
* Elegiré luego el modelo con mejor valor de performance
* Paso a unir nuevamente el conjunto de Train propiamente dicho con el de validación Y lo corro con el modelo seleccionado
* Ese modelo final es el modelo aprendido con que evaluaré el conjunto de Test y generaré un valor de performance final.

* Lo que evaluo como métrica de performance es un único número obtenido luego de correr el modelo en el set de test.... al ser un único valor no tengo como asegurar la estabilidad de la predicción
* No puedo saber la dispersion o la desviación estandar del valor de performance, ya que e sun único valor
* Para poder obtener estimaciones de estabilidad y robiustez de los modelos hay dos formas:

**1) Remuestreo al azar:** mantengo siempre la proporcion entre conjunto de test y train pero remezclo el data set y tomo de nuevo los conjuntos... asi puedo obtener varios conjuntos de un mismo dataset

![Imagen10.jpg](attachment:5a5addc3-95e8-4360-9c45-427d2eb973be.jpg)

* Me permite reportar la media o desviación estandar, o intérvalo de confianza de la métrica que elegí como representante de la performance del modelo.

**2) Muestreo estratificado:** Cuando el conjunto de entrenamiento es chico, me puede interesar que los subconjuntos que se generen respeten la proporcion de categorías o clases originales. Para eso genero particiones y garantizo que se mantiene la proporcion de clases. Util para problemas multiclase y problemas con datos muy desbalanceados. 

![Imagen11.jpg](attachment:c54f240f-959d-458e-a0e9-7c6d6df59788.jpg)

**3) Validación Cruzada:** Es el método más usado. Parto los datos en train y test. y en el conjunto de Train lo divido en n partes iguales (S1, S2, S3....). Lo que hago es tomar alternativamente cada una de las partes como conjunto de validación, y al resto como conjunto de entrenamiento. Asi obtengo distintos modelos con distintos valores de performance.
Asi puedo obtener un valor de performance medio en el proceso de selección de modelos.
Finalmente uno todos los subsets y corro el modelo elegido, que será el qué compararé con el conjunto de test.

![Imagen12.jpg](attachment:785106c1-cc61-477e-b31d-508d8a7c5f36.jpg)

# Métricas de clasificación
### Métricas y medidas de performance en problemas de clasificación

**1)** Antes de comenzar a trabajar debo dividir mi base de datos en dos conjuntos: Train y Test.    
**2)** Trabajaremos optimizando el modelo sobre el conjunto de entrenamiento (Train).     
**3)** Una vez entrenado el modelo hacemos una prueba final sobre el conjunto de test, para tener una estimación de la performance (metricas que reflejan cuan bien se esta comportando nuestro modelo).      
**4)** Algunas medidas de performance son:

* Matriz de confusión
* Accuracy
* Precision
* Recall (Tasa de verdaderos positivos)
* F1 (Tasa de falsos positivos)

**5)** Para obtener una estimacion no sesgada debemos guardar el conjunto de test y no usarlo para nada durante el entrenamiento. Solo lo usamos al final para para computar el valor de performance.

**Matriz de confusión:** 
* Es muy usada en **problemas multiclase**. En las filas se representan las clases actuales y en las columnas las predicciones.
* En un sistema perfecto todas las predicciones se deberían ver en la diagonal principal, ya que todas las clases actuales estrían predichas correctamente.
* La información útil que puedo obtener es cuando veo desviaciones de ese comportamiento (cuadros grises en la matriz). De este modo puedo guiar la toma de decisiones para mejorar mi modelo (por ejemplo, quizas deba unir dos categorias en una, o puedo buscar mas ejemplos, redefinir las variables... etc).
* Siempre empezamos por tratar de mejorar las categorías que tienen las tazas más grandes de de error.

![Imagen14.jpg](attachment:e1a655ec-c3f5-4152-ae52-96983da155b9.jpg)

* También es util en **problemas binarios**, es decir de dos soluciones:

![Imagen13.jpg](attachment:861c6d3f-701b-431b-a967-06ed852091b9.jpg)

* Si tengo un **problema con categorías muy desvalanceadas**, la medida de **accuracy** no es muy adecuada, Por eso hay que saber la metrica a elegir
* Por lo tanto hay otras opciones de medidas de precisión que se pueden utilizar:

![Imagen15.jpg](attachment:0d1ef235-fd48-48bf-a6f6-cf6aa31e31e3.jpg)

* Otra forma de evaluar la performance del modelo, es  mediante **la Curva ROC**:
* En la curva ROC, elijo un umbral de comparación (threshold) y con ese valor evaluo las muestras de Test que dará lugar a un valor de Recall y F1. Si evaluo entonces distintos valores de ese humbral, obteng distintos pares de datos de Recall y F1 que me permitirán graficar la curva ROC.

![Imagen16.jpg](attachment:4468dce8-250e-4336-a1e5-36ae1fa63664.jpg)

# Optimización y Aprendizaje
* Un problema típico en ML se puede escribir como:
 * * costo de predicción del par (xi, yi)
 * * regularización para controlar el overfitting

### Optimización Sin restricciones:
* Para una función R->R (un número escalar me dá como resultado un número escalar) 
* Si quiero encontrar el mínimo de una función, la forma es calcular la derivada de esa función respecto de la variable en estudio.
* El punto en el que la derivada de una función es =0 se llama **Punto estacionario**. Hay tres tipos de puntos estacionarios:

![derivada.jpg](attachment:770b32a7-7bd9-4837-89b3-c8e3c6f95d78.jpg)

* En todos estos puntos, la derivada (pensada como la tangente de la curva) es =0
* Calculando la derivada segunda, puedo saber si ese punto es un mínimo, un máximo o un punto de inflección.
* Esta idea de los puntos estacionarios se puede extender a funciones n dimensionales, Rn -> R (un vector me dá como resultado un número escalar) con el nombre de **Vector Gradiente**
* La funcion f tiene un punto estacionario en X0 (f(X0)) del vector cuando se dá la condición que X0 valga 0
* X0 va a ser un punto estacionario, si yo calculo el vector gradiente en esa coordenada y el valor del vector es cero
* En el caso de funciones Rn, el concepto de derivada segunda, se extiende al concepto de **Matriz hessiana**, que es una derivada donde estan todos los pares de derivadas en distintos órdenes (respecto a x1, x2, x3 ,etc)
* **Vector gradiente:** calculado mediante la función de costo (W). La dirección de este vector, me da información del sentido en el que crece la función.
* El vector gradiente siempre es normal a las lineas de nivel de la función. Las líneas de nivel son aquellas en las cuales el valor de la función es constante (vale lo mismo).

![vector.jpg](attachment:f8090edd-1179-4126-b941-2caec35b3efe.jpg)

* **Métodos iterativos de descenso:** A partir de un W avanzo en una dirección decreciente, Es decir que el valor de la función valuada en ese punto es menor que el valuado en el punto anterior. Para dar cada paso descendente, me muevo en el sentido contrario al que me indique el vector gradiente.

## Algoritmos de Descenso de gradiente
* delta W(t): direccion y magnitud del moviento del paso desdentente
* delta W(t): C * gradiente de la función de costo
 * * C= coeficiente: indica la magnitud del paso