# Algoritmos de clasificación

En este archivo se verá la definición y algunos conceptos generales de los algoritmos de clasificación. También se mostrarán algunos ejemplos de su aplicación.

## Definición y conceptos generales

La clasificación es una tarea que requiere el uso de algoritmos de _Machine Learning_ que aprendan cómo asignar etiquetas a ciertos datos dados.


**Ejemplos:**

En la vida real algunas aplicaciones de los modelos de clasificación son:

   - Clasificador de e-mail (spam)
   - Clasificador de voz del asistente virtual _Alexa_ 
   - Análisis de sentimientos (satisfacción del cliente)
   - Detección de fraude
   - Clasificación de imágenes
   - Predicción de escritura

**Algoritmos más utilizados:**

   - Regresión Logística
   - _K Nearest Neighbors (KNN)_ (K-vecinos más próximos)
   - _Support Vector Machines (SVM)_ (Máquinas de vectores de soporte)
   - _Naive Bayes_ (Clasificador Bayesiano)
   - Árboles de Decisión
   
A continuación se muestra una tabla con las características de estos modelos:


|                     |                           Uso                          |                                                    Ejemplos                                                   |                                                             Ventajas                                                            |                                                                                    Desventajas                                                                                    |
|:-------------------:|:------------------------------------------------------:|:-------------------------------------------------------------------------------------------------------------:|:-------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|
|      Reg. Log.      |                Con resultados binarios.                |               - Un e-mail es spam o no - Un tumor es maligno o benigno - Inversión buena o mala               |                   - Fácil de implementar - Entrenamiento eficiente - Relativamente fácil de regularizar datos                   |                                           - Alta dependencia en una buena representación de los datos. - Sólo predice datos categóricos                                           |
|         KNN         |     Cuando se requieren algoritmos no paramétricos.    |                      - Reconocimiento de patrones - _Data Mining_ - Detección de intrusos                     |    - No requiere un periodo de entrenamiento separado. - Se pueden agregar nuevos datos sin afectar la precisión del modelo.    |                             - No funciona con bases de datos grandes ni en grandes dimensiones. - Sensible a datos con _outliers_ o valores faltantes.                            |
|         SVM         |                Con grandes dimensiones.                |                                 - Genoma humano - Reconocimiento de escritura                                 |                           - Trabaja bien en grandes dimensiones. - Relativamente eficiente en memoria.                          |                                       - No recomendable para bases de datos grandes. - No es bueno si los datos tienen ruido o se empalman.                                       |
|  Clasif. Bayesiano  |          Con resultados binarios y multiclase.         | - Un e-mail es spam o no - Un tumor es maligno o benigno - Inversión buena o mala - Clasificación de imágenes |                             - Predicción fácil y rápida. - Funciona bien con variables categóricas.                             | - El supuesto de independencia muy probablemente no reflejará los datos en el mundo real. - El modelo puede asignar probabilidades de cero, con ello no se realizan predicciones. |
| Árboles de decisión | En investigación de operaciones: Teoría de decisiones. |                                   - Está lloviendo, ¿debo dormir o trabajar?                                  | - Maneja de manera eficiente parámetros no lineales y valores faltantes. - Fácil de entender. - Periodo de entrenamiento corto. |                                                         - Varianza alta - _Overfitting_ - No recomendable para BD grandes                                                         |

   
### Matriz de Confusión

Es un método utilizado para evaluar modelos de clasificación.

Es una tabla que describe el desempeño de algún modelo de clasificación sobre el conjunto de prueba de los datos.

|           |    |                             Valores |               Reales               |
|-----------|----|------------------------------------:|:-----------------------------------|
|           |    |                  Si                 |                 No                 |
|    **Pre-**   | Si |      Positivos Verdaderos (**TP**)      | Error tipo I Falsos Positivos (**FP**) |
| **dicciones** | No | Error tipo II Falsos Negativos (**FN**) |      Negativos Verdaderos (**TN**)     |


**Métricas:**

En la siguiente tabla se muestra la información que se puede obtener de la matriz de confusión:


|               Nombre |                          |     Fórmula    |                            Indica                            |
|---------------------:|:------------------------:|:--------------:|:------------------------------------------------------------:|
|       Accuracy       |     Exactitud     | $$\dfrac{TP + TN}{Total}$$ | Tasa de respuestas correctas                                   |
|      Error rate      |      Tasa de errores     | $\dfrac{FP + FN}{Total}$ | Tasa de respuestas incorrectas                              |
| Recall / Sensitivity |       Sensibilidad       | $\dfrac{TP}{TP + FN}$ | Porcentaje de los casos positivos predecidos correctamente   |
|  False positive rate | Tasa de falsos positivos | $\dfrac{FP}{FP + TN}$ | Porcentaje de los casos positivos predecidos incorrectamente |
|      Specificity     |       Especificidad      | $\dfrac{TN}{TN + FP}$ | Porcentaje de los casos negativos predecidos correctamente   |
|       Precision      |         Precisión        | $\dfrac{TP}{TP + FP}$ | Porcentaje de los casos positivos predecidos son positivos   |
|      Prevalence      |        Prevalencia       | $\dfrac{TP + FN}{Total}$ | Porcentaje de los casos positivos reales                           |

**Caso $n \times n:$**

En un problema con $n$ clases diferentes se obtiene una matriz de confusión de $n \times n$.

En la diagonal principal se encuentran las respuestas correctas.

En las demás entradas se encuentran las respuestas incorrectas.


**Enlaces:**

En los siguientes enlaces se encuentran ejemplos de algunos de los algoritmos mencionados:

[KNN](https://github.com/ArrigoCoen/Curso_Ciencia_de_Datos/blob/main/M3/3_3%20Algoritmos%20de%20clasificacion-KNN.ipynb)

