# <center> <span style="color:#f6f794">Introducción a: </span> </center>

# <center> <span style="color:#f6f794"> **LM Supervisado: Algoritmos de Clasificación** </span> </center>

#### <span style="color:#c69005"> ¿**Qué es** un "Algoritmo de Clasificación"? </span>  

La clasificación es un tipo de aprendizaje supervisado cuyo objetivo es asignar una entrada a una de varias categorías o clases predefinidas en función de sus características. Cada entrada tiene una etiqueta asociada, y el modelo aprende a predecir la clase de nuevos datos no vistos.  

* **Ejemplo:** Dada una imagen de una flor, clasificarla como "rosa", "tulipán" o "margarita".  

#### ¿Confundido?  

| **Técnicas**          | **Descripción**                                             | **Diferencia clave con la Clasificación**                             |  
|-----------------------|------------------------------------------------------------|-----------------------------------------------------------------------|  
| **Clasificación**     | <span style="color:#f6f794"> **Asigna** </span> una entrada a una de varias categorías predefinidas. | <span style="color:#f6f794"> **Cada entrada se asigna a una clase específica** </span> .                        |  
| **Segmentación**      | <span style="color:#f6f794"> **Divide** </span> los datos en segmentos o regiones significativas (imágenes o texto). | Separa datos en partes sin necesariamente asignar una clase.          |  
| **Agrupamiento**      | <span style="color:#f6f794"> **Agrupa** </span> puntos de datos similares sin etiquetas predefinidas. | No busca clasificar cada elemento individual, solo formar grupos.     |  
| **Regresión**         | <span style="color:#f6f794"> **Predice** </span> un valor continuo (numérico) a partir de los datos de entrada. | La clasificación trabaja con clases discretas, la regresión con valores continuos. |  
| **Detección de Anomalías** | <span style="color:#f6f794"> **Identifica** </span> puntos de datos inusuales que se desvían de los patrones normales. | La clasificación asigna etiquetas, mientras que la detección de anomalías busca datos atípicos. |  

#### <span style="color:#c69005"> **Cuándo** usar algoritmos de clasificación y su utilidad </span>  

Los algoritmos de clasificación son útiles cuando tienes datos **etiquetados**, y tu objetivo es **categorizar** nuevos puntos de datos en una de varias **clases** o etiquetas predefinidas.

#### <span style="color:#c69005"> ¿Por qué son útiles los algoritmos de clasificación? </span>  

* **Automatización de decisiones:** Facilita la detección de fraudes, sistemas de recomendación y diagnósticos médicos.  
* **Mejora en la precisión:** Ayuda a predecir datos desconocidos con base en patrones aprendidos.  
* **Categorización eficiente:** Permite clasificar grandes cantidades de datos de forma rápida y precisa.  
* **Gestión de riesgos:** Detecta anomalías y previene problemas, como fraudes o fallos en equipos.  

#### <span style="color:#c69005"> Principales **ventajas** de los algoritmos de clasificación: </span>  

* **Versatilidad:** Se aplican a diversos dominios (finanzas, salud, marketing, etc.).  
* **Escalabilidad:** Manejan grandes volúmenes de datos, especialmente con algoritmos. 
* **Interpretabilidad:** Algunos algoritmos proporcionan información sobre cómo se toman las decisiones, lo que facilita la comprensión del modelo.  

#### <span style="color:#c69005"> **Bibliotecas** de algoritmos de clasificación: </span>  

1. **Scikit-learn**
2. **TensorFlow (Keras)**
3. **XGBoost**
4. **LightGBM**
5. **PyTorch**
6. **CatBoost**
7. **H2O.ai**
8. **MLlib (Apache Spark)**
9. **Fast.ai**
10. **Keras (Standalone)**

____
# <center> <span style="color:#f6f794">**Tipos** de algoritmos de clasificación supervisada: </center> </span>

### <span style="color:#c69005"> **Regresión Logística**  </span>

* ¿Qué es?
    * Un clasificador probabilístico lineal que predice la probabilidad de una clase binaria. Utiliza una función sigmoide para transformar la salida en probabilidades.
* ¿Qué hace?
    * Genera una frontera de decisión lineal que separa las clases.
* ¿Cómo funciona?
    * El algoritmo encuentra los coeficientes (pesos) que minimizan la función de pérdida logarítmica, ajustando la probabilidad de pertenecer a cada clase. Utiliza la función sigmoide y esto convierte la salida en una probabilidad entre 0 y 1.
* ¿Cuándo elegirlo? 
    - Datos linealmente separables.
    - No multicolinealidad entre las variables.
    - Clasificación binaria (2 clases).
* Ejemplo:
    * Predecir si un correo electrónico es spam basado en características como la longitud del mensaje y la frecuencia de palabras clave. 
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Dibuja una línea recta para separar dos grupos y te dice qué tan probable es que algo pertenezca a uno de ellos.

### <span style="color:#c69005"> **Árboles de Decisión**  </span>

* ¿Qué es?
    * Un clasificador no lineal que divide los datos utilizando reglas simples en subconjuntos en cada nodo de decisión.
* ¿Qué hace?
    * Divide los datos según características hasta que cada nodo terminal (hoja) contiene solo una clase.
* ¿Cómo funciona?
    * El árbol se construye utilizando un algoritmo codicioso que maximiza la ganancia de información (basado en medidas como la entropía o la impureza de Gini). Cada nodo hace una pregunta sobre una característica, y según la respuesta, divide los datos.
* ¿Cuándo elegirlo? 
    - Datos con interacciones complejas.
    - Variables categóricas o numéricas.
    - Necesidad de interpretabilidad (entender cómo se tomó la decisión).
    - Es adecuado cuando los datos contienen reglas claras de decisión que conducen a diferentes resultados.
* Ejemplo:
    * Clasificar si una persona comprará un producto basado en edad, ingresos y ubicación.
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Hace preguntas de sí/no sobre tus datos hasta decidir a qué clase pertenece, como jugar a 20 preguntas.

### <span style="color:#c69005"> **Bosque Aleatorio (Random Forest)**  </span>
* ¿Qué es?
    * Un conjunto de muchos árboles de decisión, donde cada árbol se entrena en un subconjunto aleatorio de datos y características.
* ¿Qué hace?
    * Cada árbol hace una predicción, y el resultado final se determina por el voto mayoritario entre todos los árboles.
* ¿Cómo funciona?
    * Entrena múltiples árboles en muestras bootstrap de los datos, y para cada división, selecciona un subconjunto aleatorio de características. Las predicciones se agregan a través de votación (para clasificación).
* ¿Cuándo elegirlo? 
    - Grandes conjuntos de datos y relaciones complejas.
    - Quieres un modelo robusto que generalice bien.
    - Evitar el sobreajuste. 
    - Datos de alta dimensión.
* Ejemplo:
    * Clasificar imágenes de animales, donde cada árbol predice el animal en la imagen, y el voto mayoritario decide el tipo.
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Hace crecer un montón de árboles de decisión y deja que voten. La mayoría decide la clase final.

### <span style="color:#c69005"> **Máquinas de Vectores de Soporte (SVM)**  </span>
* ¿Qué es?
    * Un clasificador que encuentra el hiperplano que maximiza el margen entre las clases. Puede usar núcleos para manejar datos no lineales.
* ¿Qué hace?
    * Encuentra el hiperplano óptimo que separa las clases, y si los datos son no lineales, usa un núcleo para transformar el espacio a uno donde las clases sean separables linealmente.
* ¿Cómo funciona?
    * El algoritmo resuelve un problema de optimización para maximizar el margen entre las clases. Utiliza multiplicadores de Lagrange para encontrar el hiperplano separador óptimo. Los núcleos como RBF (Función de base radial) mapean los datos a dimensiones superiores para hacerlos separables linealmente.
* ¿Cuándo elegirlo? 
    - Datos bien separados (clara separación entre clases).
    - Espacio de características de alta dimensión.
    - Conjuntos de datos pequeños o medianos.
* Ejemplo:
    * Clasificar imágenes de gatos y perros, donde SVM separa las clases utilizando un gran margen entre los puntos de datos.
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Encuentra la mejor línea (o curva) que separa tus clases con el mayor espacio posible entre ellas.

### <span style="color:#c69005"> **K-Vecinos Más Cercanos (KNN)**  </span>
* ¿Qué es?
    * Un aprendiz perezoso que clasifica un punto de datos según los k vecinos más cercanos.
* ¿Qué hace?
    * Asigna una clase a un nuevo punto de datos encontrando los k puntos más cercanos y seleccionando la clase más común entre ellos.
* ¿Cómo funciona?
    * Para cada nuevo punto de datos, calcula la distancia Euclidiana (o otra métrica de distancia) entre el punto y los datos de entrenamiento, y asigna la clase de los k puntos más cercanos.
* ¿Cuándo elegirlo? 
    - Distribución clara de los datos (separación clara entre clases según proximidad).
    - Conjuntos de datos pequeños.
    - Simplicidad y velocidad (datos relativamente simples).
* Ejemplo:
    * Predecir si una persona tiene diabetes basado en la proximidad a otras personas con características similares.
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Mira a los vecinos más cercanos y clasifica según lo que la mayoría de ellos son.

### <span style="color:#c69005"> **Naive Bayes**  </span>
* ¿Qué es?
    * Un clasificador probabilístico que utiliza el Teorema de Bayes bajo la suposición de características independientes.
* ¿Qué hace?
    * Calcula la probabilidad posterior de cada clase y asigna la clase con la mayor probabilidad.
* ¿Cómo funciona?
    * Aplica **el Teorema de Bayes** para calcular la probabilidad posterior. Se asume que la contribución de cada característica es independiente dado que se conoce la clase.
* ¿Cuándo elegirlo? 
    - Características independientes.
    - Tareas de clasificación de texto, como detección de spam o análisis de sentimientos.
* Ejemplo:
    * Clasificar correos electrónicos como "spam" o "no spam" según las frecuencias de palabras clave.
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Usa probabilidades para adivinar la clase, asumiendo que cada característica actúa por sí sola.

### <span style="color:#c69005"> **Redes Neuronales (Deep Learning)**  </span>
* ¿Qué es?
    * Un modelo inspirado en el cerebro humano, compuesto por capas de neuronas artificiales que aprenden representaciones complejas de los datos.
* ¿Qué hace?
    * Ajusta los pesos de las conexiones entre neuronas para minimizar el error de predicción.
* ¿Cómo funciona?
    * Cada neurona aplica una función de activación (como ReLU) y ajusta los pesos a través de retropropagación y descenso de gradiente para minimizar la pérdida.
* ¿Cuándo elegirlo? 
    - Grandes conjuntos de datos.
    - Problemas no lineales complejos.
    - Se requiere alta precisión y la interpretabilidad es menos importante.
    - Conjuntos de datos no estructurados.
* Ejemplo:
    * Clasificar imágenes de objetos en categorías como "gato", "perro", "coche".
* <span style="color:#F2C122">  **En palabras simples**: </span> 
    * Es como un gran cerebro con capas que aprende patrones—genial para imágenes, sonido y datos desordenados.

<br>

# 

</br>

| <span style="color:#F2C122"> **Situación**   </span>                         | <span style="color:#F2C122"> **Requisitos de Datos / Notas Técnicas** </span> | <span style="color:#F2C122"> **Algoritmo Recomendado** </span> |
|------------------------------------------|--------------------------------------------------------------------------|-----------------------------|
| **Datos linealmente separables y binarios**   | Requiere linealidad entre características y log-odds; sensible a la multicolinealidad y a los valores atípicos; las características deben ser escaladas. | **Regresión Logística**     |
| **Relaciones complejas entre características** | No requiere escalado de características; robusto a los valores atípicos; puede manejar tanto datos numéricos como categóricos; propenso al sobreajuste. | **Árboles de Decisión**          |
| **Grandes conjuntos de datos y robustez necesaria** | Maneja bien los valores faltantes y los valores atípicos; no asume normalidad ni homoscedasticidad; no necesita escalado de características. | **Bosque Aleatorio**           |
| **Tamaño de muestra pequeño, alta dimensionalidad**  | Requiere escalado de características; sensible a los valores atípicos; funciona mejor cuando las clases están bien separadas (basado en márgenes). | **SVM**                     |
| **Distribución clara de datos y rapidez**    | Requiere escalado de características; sensible al ruido y a características irrelevantes; asume homogeneidad local. | **KNN**                     |
| **Variables textuales o discretas**           | Supone independencia entre características; funciona bien incluso con conjuntos de datos pequeños; robusto a características irrelevantes pero sensible a probabilidades cero. | **Naive Bayes**             |
| **Datos no lineales, alta complejidad**     | Requiere grandes conjuntos de datos; sensible al escalado de características; puede sobreajustarse si no se regulariza; los datos deben ser preprocesados (normalizados, codificados). | **Redes Neuronales**         |

<br>

#

</br>


______

# <center> <span style="color:#f6f794"> Palabras clave: </span> </center>

- **Aprendizaje Supervisado**: Un tipo de aprendizaje automático en el que el modelo se entrena con datos etiquetados para hacer predicciones.
- **Modelo**: Una representación matemática o algoritmo que aprende de los datos para hacer predicciones o tomar decisiones.
- **Datos Etiquetados**: Datos en los que cada entrada está emparejada con una salida conocida (etiqueta).
- **Mapeo**: El proceso de aprender una relación entre los datos de entrada y las etiquetas de salida en el aprendizaje supervisado.
- **Características de Entrada**: Los datos que el modelo utiliza para hacer predicciones (por ejemplo, palabras, números, imágenes).
- **Etiquetas de Salida**: Las respuestas correctas o categorías asignadas a las características de entrada durante el entrenamiento.
- **Entrenamiento**: El proceso de enseñar a un modelo proporcionándole datos etiquetados para que pueda aprender.
- **Función de Pérdida**: Una función que mide qué tan alejadas están las predicciones del modelo de las respuestas reales, y el modelo intenta minimizarla.
- **Predicción**: El resultado o salida producida por el modelo basándose en nuevos datos de entrada.
- **Clasificación**: Un tipo de aprendizaje supervisado en el que el modelo asigna datos de entrada a categorías o clases.
- **Regresión**: Un tipo de aprendizaje supervisado en el que el modelo predice valores numéricos continuos.
- **Generalización**: La capacidad del modelo para hacer predicciones precisas sobre datos nuevos que no ha visto antes.
- **Optimización**: El proceso de ajustar los parámetros del modelo para minimizar los errores y mejorar el rendimiento.
- **Descenso de Gradiente**: Una técnica de optimización popular utilizada para ajustar los parámetros del modelo reduciendo la función de pérdida.
- **Probabilístico Lineal**: Un método (como la regresión logística) en el que la predicción es una probabilidad derivada de una combinación lineal de las entradas.
- **Frontera de Decisión Lineal**: Una línea recta o hiperplano que separa diferentes clases en el espacio de características.
- **Función de Pérdida Logarítmica**: También llamada entropía cruzada binaria, mide el rendimiento de un modelo de clasificación penalizando más fuertemente las predicciones incorrectas cuando el modelo está seguro pero se equivoca.
- **Entropía**: Una medida de desorden o incertidumbre. En los árboles de decisión, mide cuán mezcladas están las etiquetas de clase en un conjunto de datos.
- **Impureza de Gini**: Otra medida utilizada en los árboles de decisión para evaluar la calidad de una división; representa la probabilidad de clasificar incorrectamente un elemento elegido aleatoriamente.
- **Hiperplano**: Una frontera de decisión en las SVMs que separa las clases en un espacio de alta dimensión; en 2D, es una línea, en 3D, un plano, y más allá de eso, un hiperplano.
- **Kernel**: Una función que transforma los datos en un espacio de mayor dimensión para facilitar la búsqueda de un hiperplano separador (usado en SVMs


# <center>  <span style="color:#f6f794"> Palabras clave pero más fácil de entender: </span> </center>

- **Aprendizaje Supervisado**: Enseñar a una computadora a tomar decisiones mostrándole ejemplos con las respuestas correctas.
- **Modelo**: Una herramienta (como un cerebro robótico) que aprende de los datos para ayudar a tomar decisiones o hacer predicciones.
- **Datos Etiquetados**: Información en la que ya sabemos la respuesta correcta o la categoría (como marcar correos como "spam" o "no spam").
- **Mapeo**: El proceso de conectar lo que la computadora aprende de los datos con la respuesta correcta.
- **Características de Entrada**: La información que la computadora usa para hacer su predicción (como imágenes, palabras o números).
- **Etiquetas de Salida**: La respuesta correcta o categoría que queremos que la computadora prediga (como "spam" o "no spam").
- **Entrenamiento**: El proceso en el que la computadora ve ejemplos y aprende a hacer predicciones.
- **Función de Pérdida**: Una forma de medir qué tan lejos están las predicciones de la computadora de la respuesta correcta; el objetivo es que ese número sea lo más pequeño posible.
- **Predicción**: La mejor suposición de la computadora sobre cuál debería ser la respuesta cuando recibe nueva información que nunca ha visto.
- **Clasificación**: Un tipo de aprendizaje donde la computadora coloca cosas en diferentes grupos o categorías.
- **Regresión**: Un tipo de aprendizaje donde la computadora predice un número, como adivinar el precio de una casa.
- **Generalización**: Cuando la computadora puede hacer buenas predicciones incluso con cosas nuevas que no ha visto antes.
- **Optimización**: Ajustar el "pensamiento" de la computadora para que mejore al tomar decisiones y hacer predicciones.
- **Descenso de Gradiente**: Un método que usa la computadora para mejorar aprendiendo de sus errores poco a poco.
- **Probabilístico Lineal**: La computadora usa matemáticas para adivinar una probabilidad, como “hay un 90% de que esto sea spam”, basándose en una relación de línea recta.
- **Frontera de Decisión Lineal**: Una línea (o superficie plana) que la computadora dibuja para separar cosas en grupos—como trazar una línea entre manzanas y naranjas.
- **Función de Pérdida Logarítmica**: Una forma de puntuar qué tan equivocada fue una predicción, especialmente cuando la computadora estaba muy segura... ¡y se equivocó! Es como un maestro estricto.
- **Entropía**: Una forma de medir la incertidumbre o el “desorden” en los datos—cuanto más mezclados estén los grupos, mayor es la entropía.
- **Impureza de Gini**: Otra forma de medir qué tan mezclado está un grupo—se usa para ayudar a los árboles de decisión a saber cómo dividir los datos.
- **Hiperplano**: Una palabra elegante para una línea o superficie que la computadora usa para separar grupos, especialmente en dimensiones altas (como 3D o más).
- **Kernel**: Un truco que ayuda a la computadora a ver los datos de otra forma para encontrar patrones incluso cuando no están claramente separados.
- **Multiplicadores de Lagrange**: Una herramienta matemática que se usa detrás de escena para ayudar a encontrar la mejor manera de separar grupos siguiendo ciertas reglas.
- **Distancia Euclidiana**: Simplemente la distancia en línea recta entre dos puntos—como usar una regla para medir qué tan cerca están dos cosas.

<br>

#

</br>


______

# <center>  <span style="color:#f6f794"> Links útiles: </span> </center> 

https://datascientest.com/en/classification-algorithms-definition-and-main-models#:~:text=Classification%20algorithms%20are%20part%20of,and%20then%20predictions%20are%20made.

https://www.ibm.com/think/topics/classification-machine-learning

https://www.sciencedirect.com/topics/engineering/classification-algorithm

https://www.simplilearn.com/tutorials/machine-learning-tutorial/classification-in-machine-learning#what_is_classification
