### Clasificación   
La clasificación es una tarea de aprendizaje supervisado en ML que consiste en asignar una etiqueta de clase (variable categórica discreta) a un elemento desconocido, a partir de un conjunto de variables características. 

Dado un conjunto de datos de entrenamiento etiquetados (con pares de características y etiquetas objetivo), un algoritmo de clasificación aprende una función que mapea las entradas a una de las clases predefinidas.

Este enfoque permite construir modelos para clasificación binaria (2 clases) o multiclase (más de 2 clases).

![Ejemplos](./img/ejemplos_clasificacion.png)

![Algoritmos](./img/algoritmos_clasificacion.png)

##### Árbol de Decisión
Un Árbol de Decisión es un modelo de Machine Learning que aprende a clasificar o predecir dividiendo los datos en subgrupos mediante preguntas simples sobre las características (como “¿edad > 30?” o “¿tiene palabra ‘gratis’?”), eligiendo en cada paso la pregunta que mejor separa las clases, hasta llegar a hojas que contienen la predicción final. Un árbol de decisión se puede construir considerando los atributos uno por uno. Primero, elige un atributo de nuestro conjunto de datos. Calcula la significancia del atributo en la división de los datos. A continuación, divide los datos según el valor del mejor atributo. Luego, ve a cada rama y repítelo para el resto de los atributos. Los árboles de decisión se construyen utilizando particionamiento recursivo para clasificar los datos. El algoritmo elige la característica más predictiva para dividir los datos. Lo más importante es determinar qué atributo es el mejor o más predictivo para dividir los datos según la característica. 

La entropía es la cantidad de desorden de la información, o la cantidad de aleatoriedad en los datos. La entropía en el nodo depende de cuántos datos aleatorios hay en ese nodo, y se calcula para cada nodo. 

La respuesta es, el árbol con mayor ganancia de información después de la división. 

La ganancia de información es la información que puede aumentar el nivel de certeza después de la división. Podemos pensar en la ganancia de información y la entropía como opuestos; a medida que la entropía o la cantidad de aleatoriedad disminuye, la ganancia de información o la cantidad de certeza aumenta y viceversa. Por lo tanto, construir un árbol de decisión se trata de encontrar atributos que devuelvan la mayor ganancia de información. 

##### K-Nearest Neighbors
K-Nearest Neighbors (KNN) es un algoritmo simple y sin entrenamiento: no crea reglas ni modelos.

Guarda todos los datos de entrenamiento (como una base de datos).
Cuando llega un dato nuevo, mide su distancia (ej. euclidiana) a todos los puntos guardados.
Escoge los K puntos más cercanos (los “vecinos”).
Clasifica con la etiqueta más común de esos K vecinos (voto mayoritario).
Resultado: “Si te pareces a gatos, eres gato”. Ideal para patrones locales, pero lento y sensible a escalas.

Se basa en este paradigma. Los casos similares con las mismas etiquetas de clase están cerca unos de otros.

En una frase: “Tú eres como tus vecinos más cercanos.”

##### Regresión Logística
La regresión logística es un tipo de algoritmo de clasificación, es un modelo estadístico y de ML utilizado principalmente para resolver problemas de clasificación binaria, es decir, predecir una variable objetivo que solo puede tomar dos valores. La regresión logística modela la probabilidad de que una observación pertenezca a una de las dos clases. Usa la función logística (también llamada sigmoide) para transformar una combinación lineal de las variables de entrada en un valor binario. Las variables dependientes deben ser continuas. La regresión logística se puede utilizar tanto para clasificación binaria como para clasificación multiclase.

Hay cuatro situaciones en las que la regresión logística es un buen candidato. 

Cuando el campo objetivo en tus datos es es binario.
Cuando necesitas la probabilidad de tu predicción. La regresión logística devuelve un puntaje de probabilidad entre 0 y 1 para una muestra de datos dada. De hecho, la regresión logística predice la probabilidad de esa muestra, y asignamos los casos a una clase discreta basada en esa probabilidad. 
Si tus datos son linealmente separables, el límite de decisión de la regresión logística es una línea, o un plano, o un hiperplano. Un clasificador clasificará todos los puntos de un lado del límite de decisión como pertenecientes a una clase, y todos los del otro lado como pertenecientes a la otra clase. Nos permite entender el impacto que una variable independiente tiene sobre la variable dependiente mientras controlamos otras variables independientes. 

El objetivo principal del entrenamiento en regresión logística es modificar los parámetros del modelo para obtener la mejor estimación de las etiquetas de las muestras en el conjunto de datos 

Para encontrar el mejor modelo debemos encontrar los mejores parámetros θ, para ese modelo. Encontrando y minimizando la función de coste de nuestro modelo, minimizando J(θ) que acabamos de definir. Utilizando un método de optimización.

Existen diferentes métodos de optimización, pero aquí utilizamos uno de los más conocidos y eficaces: el descenso de gradiente. 

El descenso de gradiente es un método iterativo para encontrar el mínimo de una función. El objetivo principal del descenso de gradiente es modificar los valores de los parámetros para minimizar el coste. 

Representa el valor del error para diferentes valores de los parámetros; es decir, el Error, que es una función de los parámetros. Esto se denomina "curva de error" o "cuenco de error" de la función de costo. 

Debemos calcularla para los demás parámetros en cada paso. El valor del gradiente también indica el tamaño del paso a dar. Si la pendiente es grande, debemos dar un paso grande porque estamos lejos del mínimo. Si la pendiente es pequeña, debemos dar un paso más pequeño. El descenso de gradiente da pasos cada vez más pequeños hacia el mínimo con cada iteración. 

En resumen, esta ecuación devuelve la pendiente de ese punto, y debemos actualizar el parámetro en la dirección opuesta a la pendiente. Un vector con todas estas pendientes es el vector gradiente, y podemos usar este vector para cambiar o actualizar todos los parámetros. 

La tasa de aprendizaje nos da mayor control sobre la velocidad de movimiento en la superficie. En resumen, podemos decir que el descenso de gradiente es como dar pasos en la dirección actual de la pendiente, y la tasa de aprendizaje es como la longitud del paso. 

Es una operación iterativa y, en cada iteración, actualizamos los parámetros y minimizamos el costo, hasta que el algoritmo converja en un mínimo aceptable. 

Los parámetros deberían encontrarse aproximadamente después de algunas iteraciones. 


![Métricas de Evaluación](./img/metricas.png)

