# Machine Learning con Scikit-Learn Profesional

Scikit-Learn es una biblioteca de Python que ofrece un conjunto de algoritmos eficientes que pueden ser utilizados para realizar Machine Learning en un ambiente productivo. en este articulo Profesional de Machine Learning con SciKit-Learn aprenderás a implementar los principales algoritmos disponibles en esta biblioteca.

- Iniciar un proyecto con Scikit-Learn
- Aplicar técnicas de regularización a regresiones
- Manejar datos atípicos
- Reducir la dimensionalidad

La herramienta principal será [Scikit Learn](https://scikit-learn.org/stable/)

¿Por qué usar Scikit-learn?

- Curva de aprendizaje suave.
- Es una biblioteca muy versátil.
- Comunidad de soporte.
- Uso en producción.
- Integración con librerías externas.

¿Qué podemos hacer con Scikit-learn?

- **Clasificación:** Scikit-Learn permite construir modelos de clasificación para asignar etiquetas a nuevas instancias basándose en ejemplos previos.

- **Regresión:** Con Scikit-Learn, se pueden aplicar algoritmos de regresión para predecir valores numéricos continuos utilizando variables de entrada.

- **Clustering:** Scikit-Learn ofrece algoritmos de clustering para agrupar datos no etiquetados y descubrir patrones y estructuras ocultas.

- **Preprocesamiento:** Scikit-Learn proporciona herramientas para el preprocesamiento de datos, incluyendo normalización, estandarización y manejo de valores faltantes, que preparan los datos para el aprendizaje automático.

- **Reducción de dimensionalidad:** Scikit-Learn incluye métodos para reducir la cantidad de variables o características en los datos, mejorando la eficiencia y evitando problemas asociados a la dimensionalidad alta.

- **Selección del modelo:** Scikit-Learn ofrece herramientas para evaluar y seleccionar modelos de aprendizaje automático, como la validación cruzada y la búsqueda de hiperparámetros, ayudando a elegir el mejor modelo para un problema específico.

Preguntas que buscamos responder con Scikit-Learn:

- ¿Cómo nos ayuda Scikit-Learn en el preprocesamiento de datos?
- ¿Qué modelos podemos utilizar para resolver problemas específicos?
- ¿Cuál es el procedimiento a seguir para optimizar los modelos?

## ¿Cómo aprenden las máquinas?
Desde el punto de vista de los datos, podemos aplicar tes tecnicas segun la naturaleza y dsiponibilidad de los mismos:

- **Aprendizaje supervisado (Algoritmos por observación):** Utilizamos datos etiquetados para entrenar modelos que puedan predecir o clasificar nuevas instancias.

- **Aprendizaje por refuerzo (Algoritmos por prueba y error):** El modelo aprende a través de la interacción con el entorno y la retroalimentación en forma de recompensas o castigos.

- **Aprendizaje no supervisado (Algoritmos por descubrimiento):** Se exploran datos no etiquetados para descubrir patrones, estructuras ocultas o grupos similares.


El machine learning es solamente una de las posibles ramas que tiene la inteligencia artificial, para otros tipos de problemas existen:


- Algoritmos evolutivos: Técnica inspirada en la evolución biológica que busca soluciones óptimas mediante procesos de selección, reproducción y mutación en una población de posibles soluciones.
    
- Lógica Difusa: Enfoque que permite el razonamiento y la toma de decisiones en situaciones inciertas o imprecisas, utilizando grados de verdad y conjuntos difusos para manejar la ambigüedad.

- Agentes: Entidades que perciben su entorno y toman acciones para alcanzar objetivos, utilizados en diversas aplicaciones y pueden emplear diferentes técnicas, como algoritmos de búsqueda, aprendizaje por refuerzo, etc.

- Sistemas expertos: Programas informáticos que resuelven problemas en áreas específicas, utilizando conocimiento experto y reglas lógicas para proporcionar recomendaciones o soluciones.



## Problemas que podemos resolver con Scikit-learn

- **No es una herramienta de Computer Vision:**  No proporciona funcionalidades avanzadas específicas para el procesamiento de imágenes y tareas de visión por computadora, como detección de objetos, segmentación o reconocimiento facial. Para estas tareas, es mejor utilizar bibliotecas especializadas como OpenCV o frameworks de Deep Learning como TensorFlow, PyTorch o Keras.

- **No se puede correr en GPUs:** Si deseas aprovechar la potencia de las GPUs para acelerar tus cálculos en el aprendizaje automático, deberías considerar el uso de bibliotecas y frameworks optimizados para GPU, como TensorFlow con soporte para CUDA o PyTorch con soporte para CUDA.

- **No es una herramienta de estadística avanzada:** No ofrece funcionalidades sofisticadas para análisis multivariado, modelado de series de tiempo, análisis de supervivencia o análisis de datos longitudinales. Para estas tareas, es posible que necesites utilizar bibliotecas más especializadas como StatsModels o R (un lenguaje de programación estadística).

- **No es muy flexible en temas de Deep Learning:** Si deseas trabajar con modelos de Deep Learning, es mejor considerar el uso de frameworks especializados como TensorFlow, PyTorch o Keras, que brindan una mayor flexibilidad y soporte para arquitecturas de redes neuronales más complejas.



### Qué problemas podemos abordar con Scikit-learn?

- **Clasificación:** Necesitamos etiquetar nuestros datos para que encajen en alguna de ciertas categorías previamente definidas.

    > Ejemplos:\
    > ¿Es cáncer o no es cáncer?\
    > ¿La imagen pertenece a un Ave, Perro o Gato?\
    > ¿A qué segmento de clientes pertenece determinado usuario?

- **Regresión:** Cuando necesitamos modelar el comportamiento de una variable continua, dadas otras variables correlacionadas.

    > Ejemplos:\
    > Predecir el precio del dólar para el mes siguiente.\
    > El total de calorías de una comida dados sus ingredientes.\
    > La ubicación más probable de determinado objeto dentro de una imagen.

- **Clustering:** Queremos descubrir subconjuntos de datos similares dentro del dataset. Queremos encontrar valores que se salen del comportamiento global.

    > Ejemplo:\
    > Identificar productos similares para un sistema de recomendación.\
    > Descubrir el sitio ideal para ubicar paradas de autobús según la densidad poblacional.\
    > Segmentar imágenes según patrones de colores y geometrías.


## Las matemáticas que vamos a necesitar

- [Funciones Matemáticas para Data Science e Inteligencia Artificial](https://deepnote.com/@mazzaroli/Introduccion-a-Funciones-Matematicas-para-Data-Science-e-Inteligencia-Artificial-f9a47b52-0308-4e95-a3d3-c3de3ef7b14f)
- [Matemáticas para Data Science: Estadística Descriptiva](https://deepnote.com/@mazzaroli/Estadistica-Descriptiva-para-Ciencias-de-Datos-b8622ee2-5fb0-44f3-8791-96915665574e)
- [Matemáticas para Ciencias de Datos: Estadística Probabilística](https://deepnote.com/@mazzaroli/Estadistica-Probabilistica-para-Ciencias-de-Datos-aba91c07-8aea-4a1b-9671-3edd06183cf7)
- [Matemáticas para Ciencias de Datos: Estadística Inferencial](https://github.com/mazzaroli/inferential-statistics/blob/master/notebook/estadistica-inferencia.ipynb)
- [Introducción al Cálculo Diferencial para Data Science e Inteligencia Artificial](https://deepnote.com/@mazzaroli/Calculo-Diferencial-para-Data-Science-e-Inteligencia-Artificial-79fb5f7b-baa0-4ced-b881-b4279275e274)
- [Fundamentos de Álgebra Lineal](https://deepnote.com/@mazzaroli/Fundamentos-de-Algebra-Lineal-b2f7b861-a1db-4b8a-9305-654bd16d3900)
- [Álgebra Lineal Aplicada para Machine Learning](https://deepnote.com/@mazzaroli/Algebra-Lineal-Aplicada-para-Machine-Learning-9f3a1078-a83d-48b5-b5a6-a67dea878fc8)

La estrategia del articulo será seguir el desarrollo de software y ciencia de la computación. Scikit Learn nos ayudará a cubrir algunos vacios conceptuales de una manera que beneficie a nuestro modelo.

# Iniciar un proyecto con sklearn

## Configuración de nuestro entorno Python

Los entornos virtuales nos permiten isolar multiples dependencias para el desarrollo de proyecto, puede pasar por ejemplo cuando trabajas con diferentes versiones de python o de django.

Python 3 trae la creación y manejo de entornos virtuales como parte del modulo central.

Entorno virtual con Python

Para crear un entorno virtual utilizas:

```bash
python venv .NOMBRE-ENTORNO
```

> Nota: .NOMBRE-ENTORNO es el nombre de del ambiente

Para activarlo:

```bash
source -m ./.env/bin/activate
```

Si queremos desactivarlo:

```bash
deactivate
```
Si deseamos ver las librerías instaladas en el ambiente:
```bash
pip freeze
```

## Instalación de librerías en Python

Librerias y sus versiones con las que trabajaremos.

Si las copiamos en un archivo requirements.txt y luego con el comando pip install -r requirements.txt podremos instalarlas a todas.

## Datasets que usaremos en el curso
Datasets e informacion sobre ellos en el repo

**[World Happiness Report](https://www.kaggle.com/datasets/unsdsn/world-happiness):** Es un dataset que desde el 2012 recolecta variables sobre diferentes países y las relaciona con el nivel de felicidad de sus habitantes.
Este data set lo vamos a utilizar para temas de regresiones

**[The Ultimate Halloween Candy Power Ranking](https://www.kaggle.com/datasets/fivethirtyeight/the-ultimate-halloween-candy-power-ranking):** Es un estudio online de 269 mil votos de más de 8371 IPs deferentes. Para 85 tipos de dulces diferentes se evaluaron tanto características del dulce como la opinión y satisfacción para generar comparaciones.
Este dataset lo vamos a utilizar para temas de clustering

**[Heart disease prediction](https://www.kaggle.com/c/SAheart):** Es un subconjunto de variables de un estudio que realizado en 1988 en diferentes regiones del planeta para predecir el riesgo a sufrir una enfermedad relacionada con el corazón.
Este data set lo vamos a utilizar para temas de clasificación

# Optimización de features

## ¿Cómo afectan nuestros features a los modelos de Machine Learning?

### ¿Qué son los features? 

En el contexto de los datos, los **"features"** se refieren a las **características o variables** que describen un conjunto de datos: Son las diferentes **columnas o atributos** que contienen información específica sobre cada instancia o muestra en u: conjunto de datos.


### ¿Más features es siempre mejor?

No necesariamente. Agregar más features puede aumentar la complejidad y el riesgo de sobreajuste del modelo. Es importante seleccionar solo los features relevantes que aporten información útil.

- **Features irrelevantes para inferencia:** Los features irrelevantes generan ruido y afectan la precisión del modelo. Es recomendable identificar y eliminar estos features antes de construir el modelo.

- **Valores faltantes:** Los valores faltantes en los datos son comunes. Se pueden manejar eliminando muestras con valores faltantes, imputando datos o utilizando algoritmos que los manejen automáticamente.

- **Introducción de ruido:** El ruido en los datos se debe a errores y puede afectar los resultados. Es necesario limpiar los datos para eliminar o corregir valores ruidosos.

- **Costo computacional:** El procesamiento de grandes volúmenes de datos puede ser costoso. Se pueden reducir costos utilizando técnicas como el muestreo, algoritmos eficientes y optimización del código. Es importante equilibrar el costo computacional con la precisión y utilidad de los resultados.

### Sesgo y varianza

Una de las formas de saber que nuestros features han sido bien seleccionados es con el **sesgo (bias) y la varianza**, donde se busca encontrar un equilibrio entre sesgo y varianza. Un **sesgo bajo** y una **varianza baja** indican un buen ajuste del modelo a los datos y una capacidad para generalizar correctamente a nuevas instancias. La elección adecuada de features, junto con técnicas de evaluación como la **validación cruzada**, puede ayudar a determinar si el modelo tiene un sesgo y una varianza adecuados.


<img src='https://keepcoding.io/wp-content/uploads/2022/12/image-9.png' width=500>

<img src='https://keepler.io/wp-content/uploads/2021/03/modelos-machine-learning.png' width=500>

### ¿Qué podemos hacer para solucionar estos problemas?

- **Feature selection y feature extraction (PCA):** Seleccionar los features relevantes y reducir la dimensionalidad del conjunto de datos para mejorar el rendimiento del modelo.

- **Regularización:** Agregar un término de penalización a la función de coste para evitar el sobreajuste y controlar la varianza del modelo.

- **Balanceo: Oversampling y Undersampling:** Generar nuevas muestras de la clase minoritaria o reducir la cantidad de muestras de la clase mayoritaria para equilibrar las clases y mejorar el rendimiento del modelo.

## Introducción al PCA

### ¿Por qué usaríamos este algoritmo?

Porque en machine learning es normal encontrarnos con problemas donde tengamos una **enorme cantidad de features** en donde hay **relaciones complejas** entre ellos y con la variable que queremos predecir.

### ¿Dónde se puede utilizar un algoritmo PCA?

- Nuestro dataset tiene un número alto de features y no todos son significativos.
- Hay una alta correlación entre los features.
- Cuando hay sobreajuste.
- Cuando implica un alto costo computacional.

### ¿En que consiste el algoritmo PCA?

La tecnica PCA consiste en reducir la complejidad de los features:

- Seleccionando solamente las variables relevantes.
- Combinándolas en nuevas variables que mantengan la información más importante (varianza de los features).

<img src='https://liorpachter.files.wordpress.com/2014/05/pca_figure1.jpg' width='450'>

### ¿Cuales son pasos para llevar a cabo el algoritmo PCA?

- Calculamos la matriz de covarianza para expresar las relaciones entre nuestro features.
- Hallamos los vectores propios y valores propios de esta matriz, para medir la fuerza y variabilidad de estas relaciones.
- Ordenamos y escogemos los vectores propios con mayor variabilidad, esto es, aportan más información.

[ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)](https://www.youtube.com/watch?v=k3CWA2GBb8o)

### ¿Qué hacer si tenemos una PC de bajos recursos?

- Si tenemos un dataset demasiado exigente, podemos usar una variación como IPCA.
- Si nuestros datos no tienen una estructura separable linealmente, y encontramos un KERNEL que pueda mapearlos podemos usar KPCA.


## Preparación de datos para PCA e IPCA

A partir de ahora, crearemos un archivo llamado pca.py en el que llevaremos a cabo los siguientes pasos:

En el código proporcionado, se realizan los siguientes pasos:

1. Se importan las bibliotecas necesarias para el manejo de datos estructurados, machine learning y visualización de gráficos.

2. Se importan las clases específicas de scikit-learn para realizar análisis de componentes principales, regresión logística, estandarización de características y división de los datos en entrenamiento y prueba.

3. Se carga un conjunto de datos del archivo `heart.csv` utilizando la biblioteca pandas y se muestra una vista previa de los primeros 5 registros.

4. Se separan los features (características) y la variable objetivo del conjunto de datos.

5. Se estandarizan las características utilizando la clase `StandardScaler` de scikit-learn para asegurar que tengan una escala común.

6. Se divide el conjunto de datos en conjuntos de entrenamiento y prueba utilizando la función `train_test_split` de scikit-learn.

## Implementación del algoritmo PCA e IPCA

1. Se realiza el análisis de componentes principales (PCA) y el análisis de componentes principales incremental (IPCA) utilizando los datos de entrenamiento.

1. Se grafica la varianza explicada por cada componente principal utilizando Matplotlib y se guarda el gráfico en un archivo llamado 'a'.

1. Se crea un clasificador de regresión logística.

1. Se transforman los datos de entrenamiento y prueba utilizando PCA y se ajusta el modelo de regresión logística utilizando los datos transformados con PCA. Se imprime el score del modelo utilizando los datos de prueba transformados con PCA.

1. Se transforman los datos de entrenamiento y prueba utilizando IPCA y se ajusta el modelo de regresión logística utilizando los datos transformados con IPCA. Se imprime el score del modelo utilizando los datos de prueba transformados con IPCA.

## Kernels y KPCA

Una alternativa son los **Kernels**. Un **Kernel** es una función matemática que toma mediciones que se comportan de manera no lineal y las proyecta en un espacio dimensional más grande en donde son **linealmente separables**.

### ¿Para qué sirven los kernels?

Los **kernels** son utilizados en el aprendizaje automático para **transformar datos** a un espacio dimensional más grande, donde pueden ser más fácilmente **separables**. Esto es útil cuando los datos no pueden ser separados linealmente en su espacio original. Los kernels permiten aplicar algoritmos de clasificación o regresión lineal en un espacio de mayor dimensión sin la necesidad de una transformación explícita. Son comúnmente utilizados en algoritmos como las **Máquinas de Vectores de Soporte (SVM)** para lograr una separación óptima de las clases.

<img src='https://miro.medium.com/v2/resize:fit:838/0*UYg7pGkmsjI5ArZR.png' width=500>

Aquí tienes una breve descripción de los 3 tipos de kernels comunes y sus fórmulas:

1. **Kernel lineal**: El kernel lineal es el más simple y se utiliza para problemas de clasificación o regresión lineal. Su fórmula es simplemente el producto escalar entre dos vectores:

   $\displaystyle K(x, y) = x^T * y$

2. **Kernel polinomial**: El kernel polinomial se utiliza para mapear los datos a un espacio dimensional más alto utilizando una función polinomial. La fórmula general del kernel polinomial es:

   $\displaystyle K(x, y) = (α * x^T * y + c)^d$

   Donde α es un coeficiente, c es una constante y d es el grado del polinomio.

3. **Kernel gaussiano (RBF)**: El kernel gaussiano, también conocido como kernel RBF (Radial Basis Function), es utilizado para mapear los datos a un espacio dimensional infinito. Su fórmula es:

   $\displaystyle K(x, y) = e - \frac{||x - y||^2}{2\sigma^2} $

   Donde:

   - $K(x, y)$ representa el valor del kernel entre dos puntos x e y.
   - $||x - y||^2$ es la distancia euclidiana al cuadrado entre los puntos x e y.
   - $σ$ (sigma) es un parámetro que controla la amplitud del kernel y la influencia de cada muestra vecina en la clasificación final.

<img src='https://qu4nt.github.io/sklearn-doc-es/_images/sphx_glr_plot_iris_svc_001.png' width=400>

## ¿Qué es la regularización y cómo aplicarla?

La **regularización** es una técnica importante en el aprendizaje automático que nos permite reducir la complejidad de nuestro modelo y evitar el sobreajuste. Consiste en aplicar una penalización a las variables menos relevantes del modelo.

**¿Como hacemos lo anterior?**

Para lograr esto, introducimos un **mayor sesgo** sobre las variables y disminuimos la varianza. De esta manera, mejoramos la capacidad de generalización del modelo y evitamos o reducimos el sobreajuste.

<img src='https://www.andreaperlato.com/img/ridge.png'>

En la imagen proporcionada, se muestra un ejemplo de sobreajuste. La línea azul se ajusta muy bien a los datos de prueba, pero no a los datos de entrenamiento. Esto resulta en una mala generalización y una aproximación deficiente.

Para aplicar la regularización, necesitamos incluir un término adicional conocido como **función de pérdida (loss)**. La función de pérdida nos indica qué tan lejos están nuestras predicciones de los datos reales. En general, cuanto menor sea la pérdida, mejor será nuestro modelo.

### Perdida en entrenamiento y en validación

<img src='https://developers.google.com/static/machine-learning/crash-course/images/RegularizationTwoLossFunctions.svg' width=500>

Podemos ver en la gráfica que la **pérdida tiende a disminuir**, porque en algún momento los datos de entrenamiento serán vistos y el modelo se ajustará a ellos. Sin embargo, lo importante es **cómo se comportará en el mundo real**.

En el conjunto de validación o pruebas, es **normal que la pérdida comience a disminuir**, ya que indica una buena generalización. Sin embargo, llega un punto donde la introducción de nuevos valores hace que la pérdida vuelva a subir, lo cual generalmente se considera como **sobreajuste**. La pérdida es la medida que utilizamos para **aplicar la regularización**.



### Tipos de regularización

- **L1 (Lasso)**: Este regulizador reduce la complejidad del modelo eliminando características que tienen un impacto mínimo en la predicción. Al aplicar la regularización L1, algunos coeficientes del modelo se vuelven exactamente cero, lo que implica que estas características no son consideradas en la predicción final. Es útil para la selección automática de características relevantes.

    $\displaystyle\underset{\beta}{\text{arg min}}\sum_{i=1}^{n}  \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 + \underset{\text{penalización}}{\lambda \sum_{j=1}^{p} |\beta|}$


    Aquí está la descripción de cada componente de la fórmula:

    - $\displaystyle\underset{\beta}{\text{arg min}}$: Se refiere al valor de los coeficientes $\beta$ que minimiza la función de costo.

    - $\sum_{i=1}^{n}$: Representa la suma de los índices $i$ desde 1 hasta $n$, donde $n$ es el número de observaciones en el conjunto de datos.

    - $y_i$: Es el valor real de la variable objetivo para la observación $i$.

    - $\beta_0$: Es el coeficiente de intersección o término de sesgo.

    - $\sum_{j=1}^{p}$: Representa la suma de los índices $j$ desde 1 hasta $p$, donde $p$ es el número de características o variables independientes en el conjunto de datos.

    - $\beta_j$: Son los coeficientes asociados a las características $x_{ij}$ del modelo.

    - $x_{ij}$: Representa el valor de la característica $j$ para la observación $i$.

    - $\underset{\text{penalización}}{\lambda \sum_{j=1}^{p} |\beta|}$: Es la penalización que se aplica a los coeficientes. Se utiliza la norma L1 (valor absoluto) para sumar los coeficientes $\beta_j$. El parámetro $\lambda$ controla la intensidad de la penalización, donde un valor más alto de $\lambda$ lleva a una mayor reducción de los coeficientes.



- **L2 (Ridge)**: El regulizador L2 reduce la complejidad del modelo disminuyendo el impacto de ciertos features en la predicción. Penaliza los coeficientes grandes y favorece coeficientes más pequeños. A diferencia de L1, L2 no descarta características, sino que las reduce gradualmente. Es útil para evitar la multicolinealidad y mejorar la estabilidad del modelo.

    $\displaystyle\underset{\beta}{\text{arg min}}\sum_{i=1}^{n}  \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 + \underset{\text{penalización}}{\lambda \sum_{j=1}^{p} \beta^2_{j}}$

    Teniendo en cuenta que la descripción del regulador L2 (Ridge) contiene algunos puntos que se repiten con la descripción del regulador L1 (Lasso), los puntos que se pueden omitir en la descripción del regulador L2 son los siguientes:

    - El uso de la función de costo cuadrática $(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2$ en lugar de la función de costo absoluta en la descripción del Lasso.

    - $\underset{\text{penalización}}{\lambda \sum_{j=1}^{p} \beta^2_{j}}$: Es la penalización que se aplica a los coeficientes. Se utiliza la norma L2 (cuadrados) para sumar los coeficientes $\beta_j$ al cuadrado. El parámetro $\lambda$ controla la intensidad de la penalización, donde un valor más alto de $\lambda$ lleva a una mayor reducción de los coeficientes.

- **ElasticNet**: Es una combinación de los regulizadores L1 y L2. Combina los efectos de selección automática de características de L1 con la regularización de coeficientes de L2. Proporciona un equilibrio entre la eliminación de características irrelevantes y la reducción del impacto de ciertos features en el modelo. Es útil cuando se sospecha que hay muchas características irrelevantes en los datos.

   $\displaystyle\underset{\beta}{\text{arg min}}\sum_{i=1}^{n}  \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 +  \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2$

   Donde:

    - $(\lambda_1)$ y $(\lambda_2)$ son hiperparámetros que controlan la intensidad de las penalizaciones L1 y L2, respectivamente.





## Implementación de Lasso y Ridge

Implementaremos las tecnicas de regularizacion. Para esto utilizaremos dos regresores que vienen por defecto en Scikit Learn y que de una manera automatizada nos integra un modelo lineal con su respectiva regularización.

Utilizaremos el dataset del reporte de la felicidad mundial. Dataset que mide varios factores en diferentes paises, tales como, el indice de corrupción, nivel que nos indica que tan fuerte son las relaciones de familia, el desarrollo per capita económico y nos intenta dar una variable continua para medir la felicidad del pais en cuestión.

Pasamos a crear un archivo con nombre ```regularization.py```

1. Importar las bibliotecas necesarias:
   - Se importa `pandas` para el manejo de datos estructurados.
   - Se importan clases específicas de los módulos `sklearn.linear_model`, `sklearn.metrics` y `sklearn.model_selection` para su uso posterior.

2. Leer el conjunto de datos:
   - Se utiliza la función `pd.read_csv()` para leer un archivo CSV que contiene los datos del conjunto de datos.

3. Separar características y variable objetivo:
   - Se seleccionan las columnas específicas del conjunto de datos que se utilizarán como características (`X`) y se asignan a la variable `X`.
   - Se selecciona la columna que se utilizará como la variable objetivo (`y`) y se asigna a la variable `y`.

4. Dividir el conjunto de datos en conjuntos de entrenamiento y prueba:
   - Se utiliza la función `train_test_split()` del módulo `sklearn.model_selection` para dividir los datos en conjuntos de entrenamiento (`X_train`, `y_train`) y prueba (`X_test`, `y_test`). Se especifica que el 25% de los datos se utilizarán como conjunto de prueba y se establece una semilla aleatoria (`random_state`) para la reproducibilidad.

5. Entrenar los modelos de regresión:
   - Se crean instancias de los modelos `LinearRegression`, `Lasso`, `Ridge` y `ElasticNet` del módulo `sklearn.linear_model`.
   - Se ajustan (`fit()`) los modelos a los conjuntos de entrenamiento (`X_train`, `y_train`).

6. Realizar predicciones en el conjunto de prueba:
   - Se utilizan los modelos entrenados para hacer predicciones (`predict()`) en los conjuntos de prueba (`X_test`) y se guardan en las variables correspondientes (`y_predict_lineal`, `y_predict_lasso`, `y_predict_ridge`, `y_predict_elastic`).

7. Calcular el MSE para cada modelo:
   - Se utiliza la función `mean_squared_error()` del módulo `sklearn.metrics` para calcular el error cuadrático medio (MSE) entre las predicciones y los valores reales de las variables objetivo (`y_test`). Se calcula un MSE para cada modelo y se guarda en las variables correspondientes (`lineal_loss`, `lasso_loss`, `ridge_loss`, `elastic_loss`).

8. Imprimir los valores de MSE para cada modelo:
   - Se imprimen los valores de MSE calculados para cada modelo.

## Explicación resultado de la implementación

- **lineal_loss:**   9.893337283086869e-08
- **lasso_loss:** 0.049605751139829145
- **ridge_loss:** 0.005650124499962814
- **elastic_loss:** 0.00912409728272294

Menor perdida es mejor, esto quiere decir que hubo menos equivocacion entre los valores esperados y los valores predichos.

|            | lineal   | lasso    | ridge    | elastic  |
|------------|----------|----------|----------|----------|
| gdp        | 1.000128 | 1.289214 | 1.072349 | 1.106542 |
| family     | 0.999946 | 0.919694 | 0.970486 | 0.962883 |
| lifexp     | 0.999835 | 0.476864 | 0.856054 | 0.803020 |
| freedom    | 1.000034 | 0.732973 | 0.874002 | 0.861674 |
| generosity | 1.000260 | 0.142455 | 0.732857 | 0.654667 |
| corruption | 0.999771 | 0.000000 | 0.685833 | 0.554539 |
| dystopia   | 0.999938 | 0.899653 | 0.962066 | 0.953720 |

Los numeros mas grandes dentro del arreglo, significa que la columna en si esta teniendo mas peso en el modelo que estamos entrenando.

- Lasso

    Los valores que Lasso haya hecho 0, nos indica que el algoritmo no te dio la atencion necesaria o no los considero importante. Analizar porque hizo eso nuestro algoritmo Lasso ya esta tarea nuestra como Data Scientist.

- Ridge

    En Ridge ninguno de los coeficientes han sido 0, sino que fueron disminuidos, esto se hace precisamente la regresión Ridge

# Regresiones robustas

## El problema de los valores atípicos


### ¿Qué son los valores atípicos?

- Un valor atípico es cualquier medición que se encuentre por fuera del comportamiento general de una muestra de datos.
- Pueden indicar variabilidad, errores de medición o novedades.

### ¿Por qué son problemáticos?

- Pueden generar sesgos importantes en los modelos de Machine Learning.
- A veces contienen información relevante sobre la naturaleza de los datos.
- Detección temprana de fallos.

### ¿Cómo identificarlos?

A traves de métodos estadísticos
- **Z-Score**: Mide la distancia (en desviaciones estándar) de un punto dado a la media.

- Técnicas de clustering como **DBSCAN**.

- Si $q<Q1 -1.5 * IQR\;\;$ ó $\;\;q>Q3+1.5 * IQR$

A traves de métodos graficos

- Boxplot 

    <img src='https://soka.gitlab.io/blog/post/2019-04-11-r-ggplot2-boxplot/images/boxplot-diagram-01.PNG' width=500>

## Regresiones Robustas en Scikit-learn

La regresión robusta es una técnica utilizada en análisis de regresión para mitigar los efectos de los valores atípicos o datos ruidosos en el ajuste del modelo. Los valores atípicos son observaciones que difieren significativamente del patrón general de los datos y pueden tener un impacto desproporcionado en los resultados de la regresión tradicional.

Scikit Learn nos ofrece algunos modelos especificos para abordar el problema de los valores atipicos:

### RANSAC
**RANSAC** es un algoritmo que encuentra la **mejor aproximación de un modelo matemático en datos ruidosos o con valores atípicos**. Selecciona muestras aleatorias, ajusta el modelo y encuentra los **puntos cercanos al modelo dentro de un umbral de error**. Repite el proceso varias veces y elige el **modelo con más puntos cercanos (inliers) como el resultado final**. Es útil cuando los datos son problemáticos debido a **valores atípicos o ruido**.

[RANSAC - 5 Minutes with Cyrill](https://www.youtube.com/watch?v=9D5rrtCC_E0)

<img src='https://upload.wikimedia.org/wikipedia/commons/c/c0/RANSAC_LINIE_Animiert.gif' width=500>


### Huber Regressor

El **Huber Regressor** es un algoritmo de regresión que trata de ser **resistente a valores atípicos** en los datos. En lugar de ignorarlos por completo, les asigna **menos influencia utilizando un parámetro llamado "epsilon"**. Los datos con errores absolutos por debajo de "epsilon" se tratan como **valores típicos y se usan en la función de pérdida cuadrática**, mientras que los datos con **errores mayores que "epsilon" se consideran valores atípicos y se tratan con la función de pérdida lineal**. El valor de **"epsilon = 1.35" se ha demostrado como una elección efectiva que logra un 95% de eficiencia estadística** en muchos casos. Esto permite que el modelo sea **robusto, proporcionando predicciones precisas incluso cuando existen valores atípicos en el conjunto de datos**.

## Preparación de datos para la regresión robusta


Creamos un archibo robust.py y a continuacion realizamos los siguientes pasos

1. `import pandas as pd`: Importa la librería pandas con el alias "pd" para manejar y manipular los datos en formato de DataFrames.

2. `from sklearn.linear_model import RANSACRegressor, HuberRegressor`: Importa los estimadores RANSACRegressor y HuberRegressor de la librería scikit-learn, que son algoritmos de regresión robustos.

3. `from sklearn.svm import SVR`: Importa el estimador Support Vector Regression (SVR) de scikit-learn, que es un algoritmo de regresión basado en Máquinas de Soporte Vectorial.

4. `from sklearn.model_selection import train_test_split`: Importa la función train_test_split de scikit-learn para dividir el conjunto de datos en conjuntos de entrenamiento y prueba.

5. `from sklearn.metrics import mean_squared_error`: Importa la función mean_squared_error de scikit-learn para calcular el error cuadrático medio.

6. `dataset = pd.read_csv('./data/felicidad_corrupt.csv')`: Lee un archivo CSV llamado "felicidad_corrupt.csv" y carga los datos en un DataFrame llamado "dataset".

7. `print(dataset.head(5))`: Muestra las primeras 5 filas del DataFrame para visualizar los datos.

8. `X = dataset.drop(['country', 'score'], axis=1)`: Selecciona todas las columnas excepto "country" y "score" como características de entrada (variables independientes) y almacena el resultado en "X".

9. `y = dataset.score`: Selecciona la columna "score" como la variable objetivo (variable dependiente) y la almacena en "y".

10. `X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=.3, random_state=42)`: Divide el conjunto de datos en conjuntos de entrenamiento y prueba. El 70% de los datos se utilizará para entrenar los modelos (conjuntos X_train e y_train), y el 30% restante se utilizará para evaluar el rendimiento de los modelos (conjuntos X_test e y_test).

11. `estimadores = {...}`: Crea un diccionario llamado "estimadores" que contiene tres instancias de estimadores diferentes: SVR, RANSACRegressor y HuberRegressor. Cada estimador se inicializa con sus respectivos hiperparámetros.

## Implementación regresión robusta

1. `for name, estimador in estimadores.items():`: Itera sobre cada elemento del diccionario de estimadores, obteniendo el nombre del estimador como `name` y el estimador en sí como `estimador`.

2. `estimador.fit(X_train, y_train)`: Entrena el estimador utilizando el conjunto de características de entrenamiento `X_train` y el vector de etiquetas de entrenamiento `y_train`.

3. `predictions = estimador.predict(X_test)`: Realiza predicciones utilizando el estimador entrenado en el conjunto de características de prueba `X_test`, almacenando los resultados en el vector `predictions`.

4. `print("="*32)`: Imprime una línea de 32 "=" para separar los resultados de diferentes estimadores.

5. `print(name)`: Imprime el nombre del estimador actual.

6. `print("mse:", mean_squared_error(y_test, predictions))`: Calcula el error cuadrático medio (Mean Squared Error, MSE) entre las etiquetas de prueba `y_test` y las predicciones `predictions`, y lo imprime junto con el texto "mse:".

# Métodos de ensamble aplicados a clasificación

## ¿Qué son los métodos de ensamble?

Los métodos de ensamble son técnicas que combinan múltiples modelos de aprendizaje automático para obtener una predicción final más precisa y robusta. En lugar de confiar en un solo modelo, los métodos de ensamble aprovechan la diversidad y el poder predictivo de varios modelos para mejorar el rendimiento general.

1. **Combinar diferentes métodos de ML con diferentes configuraciones y aplicar un método para lograr un consenso:** Los métodos de ensamble combinan modelos de aprendizaje automático variados y utilizan técnicas como el promedio o modelos "meta" para obtener una predicción más sólida.

2. **La diversidad es una muy buena opción:** La diversidad entre los modelos base es crucial. Si los modelos son diversos y cometen errores diferentes, el ensamble puede corregir y mejorar el rendimiento general. Se logra mediante distintas técnicas de muestreo y configuración de modelos.

3. **Los métodos de ensamble se han destacado por ganar muchas competencias de ML:** Estos métodos son altamente efectivos en competencias y desafíos de aprendizaje automático. Han ganado muchas competiciones de ciencia de datos gracias a su capacidad para mejorar la precisión y estabilidad de los modelos predictivos. Son ampliamente utilizados en aplicaciones reales para resolver diversos problemas.

En el **aprendizaje automático**, los **métodos de ensamble** son **técnicas** que combinan **múltiples modelos** de aprendizaje para **mejorar la precisión y generalización** del modelo resultante. Dos **estrategias populares** de ensamble son el **"bagging"** y el **"boosting"**. Ambas estrategias utilizan el **concepto de entrenar varios modelos** y **combinar sus predicciones**, pero **difieren en cómo se generan y ponderan los modelos base**.


### Bagging (Bootstrap Aggregating):

**Bagging** es una **estrategia de ensamble** que se basa en el concepto de *bootstrap*. En este enfoque, se generan múltiples muestras de entrenamiento a partir del conjunto de datos original, cada una de ellas con reemplazo. Es decir, se toman muestras aleatorias del conjunto de datos original permitiendo que una misma muestra pueda aparecer múltiples veces y otras no aparezcan en absoluto en una determinada muestra.

Después de generar las muestras, se entrena un **modelo base** (como un árbol de decisión o un modelo lineal) en cada una de ellas. Luego, las **predicciones** de cada modelo se combinan a través de **votación** (en el caso de clasificación) o **promediando** (en el caso de regresión) para obtener la predicción final del ensamble. Bagging ayuda a reducir la **varianza** y, por lo tanto, a mejorar la generalización del modelo, ya que los diferentes modelos base capturan diferentes aspectos del conjunto de datos.

El algoritmo de bagging más conocido es el **"Random Forest"**, que utiliza árboles de decisión como modelos base y agrega sus predicciones para obtener una predicción más robusta y precisa. Además, tenemos otros algoritmos como el **"Voting Classifiers/Regressors"** y, en general, se puede aplicar bagging sobre cualquier familia de modelos de *machine learning*.

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/Ensemble_Bagging.svg/440px-Ensemble_Bagging.svg.png'>

### Boosting

**Boosting** es otra **estrategia de ensamble** que se enfoca en mejorar la precisión del modelo al dar más importancia a los ejemplos difíciles de clasificar. En lugar de entrenar múltiples modelos de manera independiente, el algoritmo de boosting **entrena secuencialmente** una serie de **modelos base**, cada uno de los cuales se construye para corregir los errores del modelo anterior.

En cada iteración del proceso de boosting, los ejemplos mal clasificados por el modelo actual se **ponderan** más para que el siguiente modelo se enfoque en corregir esos errores. Este proceso continúa iterativamente hasta que se alcanza un cierto número de modelos o cuando se logra un criterio de detención predefinido. Luego, las **predicciones** de cada modelo base se combinan mediante una ponderación basada en su rendimiento, para obtener la predicción final del ensamble.

El algoritmo de boosting más conocido es **"AdaBoost"** (Adaptive Boosting), que generalmente utiliza árboles de decisión como modelos base, pero también se puede combinar con otros algoritmos de aprendizaje. Otros algoritmos pueden ser **Gradient Tree Boosting** y **XGBoost**.

**Boosting** tiende a tener un mejor rendimiento que bagging cuando los modelos base son suficientemente fuertes y se combinan bien con ellos.

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/Ensemble_Boosting.svg/768px-Ensemble_Boosting.svg.png'>

## Preparación de datos para implementar métodos de ensamble

Utilizaremos un meta estimador que tiene Scikit Learn llamado Bagging Classifier. Al ser un meta estimador podemos adaptarlo a las diferentes familias de estimadores y Scikit Learn lo configurara de forma automática para que se convierta en un método de ensamble.

Utilizaremos el dataset de afecciones cardiacas. Teniamos diferentes datos de pacientes, donde la meta finalmente era clasificarlos en si el paciente tenia o no una afección cardiaca.


## Implementación de Bagging
Este código es un ejemplo de cómo usar el ensamble de Bagging con varios clasificadores en un conjunto de datos de clasificación binaria (columna 'target' con etiquetas 0 y 1) utilizando la biblioteca scikit-learn de Python.

```Creamos un archivo bagging.py```

Pasos del código:

1. Se importan las bibliotecas necesarias, como pandas para trabajar con el conjunto de datos, varios clasificadores (KNeighborsClassifier, LinearSVC, SVC, SGDClassifier y DecisionTreeClassifier) y la clase BaggingClassifier para realizar el ensamble de Bagging.

2. Se lee el conjunto de datos desde un archivo CSV ('heart.csv') utilizando pandas y se muestra el contenido del DataFrame 'df_heart' y la descripción estadística de la columna objetivo 'target'.

3. Se separa el conjunto de datos en atributos (X) y etiquetas (y). Los atributos son todas las columnas excepto la columna objetivo, mientras que las etiquetas son la columna objetivo.

4. Se divide el conjunto de datos en conjuntos de entrenamiento y prueba utilizando la función train_test_split de scikit-learn.

5. Se define un diccionario llamado 'classifier' que contiene varios clasificadores junto con sus nombres como claves.

6. Se itera sobre cada clasificador del diccionario y se realiza lo siguiente:
   a. Se ajusta el modelo con el conjunto de entrenamiento (X_train, y_train).
   b. Se hacen predicciones en el conjunto de prueba (X_test) y se calcula la precisión del modelo utilizando accuracy_score de scikit-learn.
   c. Luego, se crea un clasificador Bagging utilizando el modelo base actual como 'base_estimator' y se ajusta con el conjunto de entrenamiento (X_train, y_train) utilizando BaggingClassifier.
   d. Se hacen predicciones en el conjunto de prueba (X_test) con el clasificador Bagging y se calcula la precisión nuevamente.

7. Se imprime la precisión de cada clasificador y su respectivo clasificador Bagging en el conjunto de prueba.


## Implementación de Boosting

Para realizar el ejemplo con **boosting**, se agregó la biblioteca **GradientBoostingClassifier** de scikit-learn. Luego, se **ajustó el modelo GradientBoostingClassifier** con el conjunto de entrenamiento *(X_train, y_train)* y se **hicieron predicciones** en el conjunto de prueba *(X_test)* utilizando este modelo. Se **calculó la precisión** de las predicciones utilizando **accuracy_score** y se **imprimió el resultado** para cada clasificador, indicando que se trata del **Gradient Boosting Classifier**. De esta manera, se pudo comparar la precisión del ensamble de boosting con la de los otros clasificadores y sus versiones bagging.

# Clustering
## Estrategias de Clustering

Los algoritmos de clustering son las estrategias que podemos usar para agrupar los datos de tal manera que todos los datos pertenecientes a un grupo sean lo mas similiares que sea posible entre si, y mas diferentes a los otros grupos.

### Casos de uso

1. **No conocemos con anterioridad las etiquetas de nuestros datos (Aprendizaje no supervisado):** En el aprendizaje no supervisado, no se proporcionan etiquetas o categorías para los datos de entrenamiento. En lugar de eso, el algoritmo de clustering agrupa los datos en función de sus características y similitudes, sin que se le indique previamente qué categorías deberían formarse. Es útil cuando se desconoce la estructura intrínseca de los datos o cuando se buscan agrupamientos naturales sin información de referencia.

2. **Queremos descubrir patrones ocultos a simple vista:** Los algoritmos de clustering ayudan a identificar patrones o estructuras ocultas en los datos que pueden no ser evidentes a simple vista. Al agrupar los datos en clusters, podemos visualizar y entender mejor la distribución y las relaciones entre los elementos de los datos, lo que puede conducir a un mayor conocimiento y comprensión del conjunto de datos.

3. **Queremos identificar datos atípicos:** Los datos atípicos (outliers) son puntos que se encuentran lejos del patrón general de los datos y pueden tener un comportamiento inusual o significativo. El clustering puede ayudar a identificar estos datos atípicos al agrupar los puntos en clusters y observar aquellos puntos que no se ajustan bien a ningún grupo específico. Detectar datos atípicos es valioso en muchas aplicaciones, como el análisis de fraude, control de calidad o diagnóstico médico, donde es esencial identificar valores inusuales que puedan indicar problemas o condiciones especiales.

### Dos casos de aplicación
1. **Cuando sabemos cuántos grupos *k* queremos:**
En este caso, conocemos previamente el número de grupos (*k*) que deseamos obtener en el resultado del clustering.

    En estos casos se recomiendan usar ***k-means***, o bien, ***Spectral Clustering***

2. **Cuando queremos que el algoritmo determine el número óptimo de grupos *k*:**
Aquí no tenemos información sobre la cantidad adecuada de grupos, y buscamos que el algoritmo descubra automáticamente el número óptimo de grupos basado en los datos.

    En estos casos usaremos ***Meanshift, Herarchical Clustering***, o bien ***DBScan***. 

## Implementación de Batch K-Means

Asumiremos que sabemos los grupos que implementariemos en el resultado final

Utilizaremos el dataset de candy. Este nos dice las caracterisicas de diferentes caramelos. Podemos conocer mas el dataset en el su readme.

Usamos la implementación Mini Batch K-Means. Esta es una variante del algoritmo K-Means que usa mini batches (lotes) que reduce el tiempo de computo. La unica diferencia es que la calidad de los resultados es reducida.

[sklearn.cluster.MiniBatchKMeans](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.MiniBatchKMeans.html)

No implementamos el metodo del codo, al conocerce el datasets utilizamos la cantidad de cluster adecuada, aunque el metodo de seleccion de estos no fue el adecuado, ya que debe usarse el metodo de codo u otro.

<img src='https://camo.githubusercontent.com/315702ef4aa54369a673dc7ab67a14d0c44027117bb8174b1e6e3ba12d4aabbc/68747470733a2f2f696d6775722e636f6d2f4b3944715545382e706e67' width=500>

- sugarpercent: ​ El percentil de azúcar en el que recae dentro del mismo dataset.
- pricepercent: El percentil de precio por unidad dentro del que se encuentra respecto al dataset.
- winpercent:​ Porcentaje de victorias de acuerdo a 269.000 emparejamientos al azar.

> Se observan los 4 diferentes colores, ya que se eligieron 4 clusters. Se puede observar una clara clusterizacion cuando se compara respecto a winpercent las variables pricepercent, sugarpercent.

## Implementactión de Mean-Shift

Puede suceder que lo que necesitemos sea simplemente dejar que el algoritmo decida cuantas categorías requiere. Esto lo podremos hacer con el algoritmo [Mean-Shift](https://scikit-learn.org/stable/modules/clustering.html#mean-shift). El algoritmo de la clustering tiene como objetivo descubrir manchas en una densidad uniforme de muestras. O sea, diferenciar y clusterizar.

[Sklearn.cluster.MeanShift](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.MeanShift.html)

<img src='https://camo.githubusercontent.com/7a4eb7221655350c71faa67612a79cf37ca7f254c77ff99ba4b7419874aa5271/68747470733a2f2f696d6775722e636f6d2f684e75503256592e706e67' width=500>

El algoritmo nos devolvio 3 clusters, porque le pareció que esa era la cantidad correcta teniendo en cuenta como se distrubuye la densidad de nuestros datos. Podemos ver eso mismo en el gráfico anterior.

Se observan los 3 diferentes colores, clusters generados automaticamente por el algoritmo MeanShift. Se puede observar una clara clusterizacion cuando se compara respecto a winpercent las variables pricepercent, sugarpercent.

NOTA: En la documentación (en Scalability) se advierte que el algoritmo tiene una complejidad algorítmica que escala a O(T*n^2) a medida que el número de registros aumenta.

# Optimización paramétrica

Hasta ahora hemos estudiado y hecho:

- Aprender a lidiar con Features antes de mandarlo al entrenamiento.
- Aprender modelo espeficidos para resolver problemas de gran complejidad.

Ahora nos toca la etapa final del proceso de Machine Learning, esto es:

- Validacion de lo que se ha hecho. Scikit Learn nos ofrece realizar este tipo de tareas de una manera casi automatizada.

## Validación de nuestros modelos. Hold Out y Cross Validation

- La última palabra siempre la van a tener los datos.
 
    - Todas nuestras intuiciones no tiene nada que hacer frente a lo que digan los datos y las matemáticas que aplicamos sobre estos datos. Por eso es importante siempre tener rigurosidad a la hora de evaluar los resultados que estamos recibiendo.
- Necesitamos mentalidad de testeo.
 
- No se trata solamente de probar un poco al principio y un poco al final, sino que tendremos que probar constantemente durante todo el proceso, para poder encontrar cuál es la solución óptima que realmente nos soluciona el problema que tenemos pendiente, todo esto:
    - con varias formas
        - con varios conjuntos de datos
        - con varias configuraciones de parámetros
        - con varias distribuciones de nuestros datos
        - Todos los modelos son malos, solamente algunos son útiles.
 
- Todos los modelos que nosotros hacemos en últimas son una sobre simplificación de lo que pasa realmente. Entonces nunca nuestros modelos van a corresponder con la realidad al cien por ciento. Si jugamos lo suficiente y si somos lo suficientemente hábiles para configurar, vamos a llegar a un punto donde el modelo que estamos trabajando va a ser útil para ciertos casos específicos dentro del mundo real.

### Tipos de validaciones

**Hold-Out:**

La validación Hold-Out es uno de los métodos más sencillos de validación cruzada. Implica dividir el conjunto de datos en dos partes: el conjunto de entrenamiento (train) y el conjunto de prueba (test). Por lo general, se asigna una parte mayor de los datos al conjunto de entrenamiento y una parte más pequeña al conjunto de prueba. Este método es adecuado en situaciones donde se necesita un prototipado rápido, hay poco conocimiento en Machine Learning y recursos limitados en términos de poder de cómputo. También puede ser útil cuando se quiere una separación clara entre los datos de entrenamiento y prueba para evitar fugas de información.

¿Cuándo utilizar Hold-on?

- Se requiere un prototipado rápido.
- No se tiene mucho conocimiento en ML.
- No se cuenta con abundante poder de cómputo.

<img src='https://vitalflux.com/wp-content/uploads/2020/12/Hold-out-method-for-model-evaluation.png' width=400>
<img src='https://vitalflux.com/wp-content/uploads/2020/12/Hold-out-method-Training-Validation-Test-Dataset.png' width=400>

**K-Folds:**

K-Folds es un enfoque más robusto que el Hold-Out. En este método, el conjunto de datos se divide en K partes o "pliegues" (folds) de aproximadamente igual tamaño. Luego, el modelo se entrena y evalúa K veces, cada vez utilizando un fold diferente como conjunto de prueba y el resto de los pliegues como conjunto de entrenamiento. Este método es recomendable en la mayoría de los casos, especialmente cuando se tiene un equipo adecuado para desarrollar Machine Learning, ya que permite aprovechar mejor los datos disponibles. También es útil cuando se requiere integrar técnicas de optimización paramétrica, como la búsqueda de hiperparámetros, ya que se pueden evaluar diferentes configuraciones de manera más robusta. K-Folds es más adecuado cuando se dispone de tiempo para realizar múltiples pruebas.

¿Cuándo utilizar K-Folds?

- Recomendable en la mayoría de los casos.
- Se cuenta con un equipo suficiente para desarrollar ML.
- Se require la integración con técnicas de optimización paramétrica.
- Se tiene más tiempo para las pruebas.

<img src='https://scikit-learn.org/stable/_images/grid_search_cross_validation.png'>

**LOOCV (Leave-One-Out Cross-Validation):**

LOOCV es un enfoque de validación cruzada extremadamente riguroso. En LOOCV, se entrena el modelo en K-1 pliegues y se evalúa en un pliegue de prueba diferente en cada iteración, donde K es igual al número total de muestras en el conjunto de datos. Este enfoque es ideal cuando se dispone de un gran poder de cómputo, ya que realiza una validación exhaustiva probando cada muestra como conjunto de prueba en algún momento. LOOCV es útil cuando se tienen muy pocos datos para dividir en conjuntos de entrenamiento y prueba, ya que garantiza que cada punto de datos se use tanto para entrenamiento como para prueba. Sin embargo, puede ser computacionalmente costoso y menos práctico en conjuntos de datos grandes debido a la cantidad masiva de iteraciones.

<img src='https://biol607.github.io/lectures/images/cv/loocv.png' width=500>

¿Cuándo utilizar LOOCV?

- Se tiene gran poder de computo
- Se cuetan con pocos datos para poder dividir por Train/Test
- Cuando se quiere probar todos los casos posibles (para personas con TOC)

## Implementación de K-Folds Cross Validation

Este código es un ejemplo de cómo se podría realizar la validación cruzada utilizando el algoritmo de regresión de árbol de decisión en Python con la librería Scikit-Learn. El objetivo principal es evaluar el rendimiento del modelo de regresión utilizando diferentes enfoques de validación cruzada y calcular el error cuadrático medio (MSE) en cada caso.

A continuación, te proporciono un análisis línea por línea del código:

```python
import pandas as pd
import numpy as np

from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import mean_squared_error
```
En esta sección, se importan las librerías necesarias, incluyendo pandas para el manejo de datos, numpy para cálculos numéricos, DecisionTreeRegressor para el modelo de regresión de árbol de decisión, cross_val_score y KFold para realizar validación cruzada, y mean_squared_error para calcular el error cuadrático medio.

```python
if __name__ == '__main__':
    data = pd.read_csv('./data/felicidad.csv')

    X = data.drop(['country','score'],axis=1)
    y = data.score
```
Esta parte del código verifica si el script se está ejecutando como el programa principal. Luego, lee un archivo CSV que supuestamente contiene datos de felicidad. A continuación, separa los datos en la matriz X (características) y el vector y (objetivo) eliminando la columna 'country' y 'score' de los datos originales.

```python
    model = DecisionTreeRegressor()
    score = cross_val_score(model, X, y, cv=3, scoring='neg_mean_squared_error')
```
Aquí se crea una instancia de DecisionTreeRegressor como el modelo para regresión. Luego, se realiza una validación cruzada utilizando cross_val_score con 3 particiones (cv=3) y se utiliza el negativo del MSE como métrica de evaluación (scoring='neg_mean_squared_error'). El resultado es una lista de valores de MSE negativos para cada partición.

```python
    kf = KFold(n_splits=5, shuffle=True, random_state=42)
    mse_values = []
    for train, test in kf.split(data):
        X_train = X.iloc[train]
        y_train = y.iloc[train]
        X_test = X.iloc[test]
        y_test = y.iloc[test]

        model = DecisionTreeRegressor().fit(X_train, y_train)
        predict = model.predict(X_test)
        mse_values.append(mean_squared_error(y_test, predict))
```
Se define un objeto KFold con 5 particiones, aleatorización (shuffle) y una semilla aleatoria fija (random_state=42). Luego, se realiza un bucle que itera a través de las particiones generadas por KFold. En cada iteración, se separan los datos en conjuntos de entrenamiento y prueba. Se ajusta un modelo de regresión de árbol de decisión utilizando los datos de entrenamiento y se realiza una predicción en los datos de prueba. El MSE de cada iteración se calcula utilizando la función mean_squared_error y se agrega a la lista mse_values.

```python
    print("Los tres MSE fueron: ", mse_values)
    print("El MSE promedio fue: ", np.mean(mse_values))
```
Finalmente, se imprimen los valores de MSE calculados en cada iteración y el MSE promedio obtenido de todas las particiones de KFold.

## Optimización paramétrica

Familiarizados con el concepto de Cross Validation vamos a utilizar este mismo principio de fondo para lograr automatizar un poco la selección y optimización de nuestros modelos.

Problema: Parece que encontramos un modelo de aprendizaje que parece funcionar, pero esto puede implicar que ahora tenemos que encontrar la optimización de cada uno de los parámetros de este modelo, encontrar el que mejor se ajuste y el que mejor resultado nos de.

- Es facil perderse entre los conceptos de tantos parámetros. Tenemos flexibilidad para algoritmos básicos de Machine Learning, pero facil perderse.
- Es difícil medir la sensibilidad de los mismos manualmente.
- Es COSTOSO, en tiempo humano y computacionalmente.

Scikit Learn nos ofrece enfoques para automatizar el proceso de optimización paramétrica. Existen 3 enfoques principales, estos son:

- Optimización manual
- Optimizacion por grilla de parámetros | GridSearchCV
- Optimizacion por búsqueda aleatorizada | RandomizedSearchCV

### Optimización manual
- Escoger el modelo que queremos ajustar.
- Buscar en la documentación de Scikit-Learn
- Identificar parámetros y ajustes. Parámetros que vamos a necesitar y cuáles son los posibles ajustes que vamos a requerir para cada uno de estos parámetros.
- Probar combinaciones una por una iterando a través de listas.

### Optimizacion por grilla de parámetros | GridSearchCV
Es una forma organizada, exhaustiva y sistematica de probar todos los parametros que le digamos que tenga que probar, con los respectivos rangos de valores que le aportemos.

- Definir una o varias métricas que queremos optimizar.
- Identificar los posibles valores que pueden tener los parámetros.
- Crear un diccionario de parámetros.
- Usar Cross Validation.
- Entrenar el modelo (e ir por un café)

La grilla de parámetros nos define GRUPOS DE PARÁMETROS que serán probados en todas sus combinaciones (Un grupo a la vez)

<img src='https://camo.githubusercontent.com/6ff7cea324f1524ed97c19db5884d58e019312dbe97e5afccb385ed8929704fd/68747470733a2f2f696d6775722e636f6d2f536467537570762e706e67' width=500>

#### Optimizacion por búsqueda aleatorizada | RandomizedSearchCV
Si no tenemos tanto tiempo para una prueba tan exhaustiva o queremos combinaciones aleatorias usaremos este metodo. Es lo mismo que el caso anterior, pero busca de forma aleatoria los parametros y Scikit Learn selecciona los mejores de las combinaciones aleatorias que se hicieron.

En este método, definimos escalas de valores para cada uno de los parámetros seleccionados, el sistema probará varias iteraciones (Configurables según los recursos) y mostrará la mejor combinación encontrada.

<img src='https://camo.githubusercontent.com/165343f9952c2562d4c8db8e3cc63f74322ada8e66146ae8d6790974aa01f87f/68747470733a2f2f696d6775722e636f6d2f437243466c33572e706e67' width=500>



# Salida a producción

## Revisión de nuestra arquitectura de código

Ahora vamos a convertir los scripts que tenemos en un código que sea modular y extensible con facilidad para que nuestra arquitectura pueda salir a producción de una manera exitosa.

Una estructura de carpetas que sea organizada para poder gestionar todo lo que vas a necesitar en cualquier proceso de Machine Learning.

**Carpetas:**

- in: Carpeta que contendrá archivos de entrada, datos que alimentarán a nuestros modelos.
- out: Carpeta que contendrá el resultado de la exportacion de nuestros modelos, visualizaciones, datos en excel o csv, etc.
- models: Carpeta que contedrá a los modelos.

**Archivos:** Cada clase será un archivo que tenga su propia responsabilidad y se encargue específicamente de una tareas concreta.

- main.py: Metodo principal de ejecucion. Ejecutará todo el flujo de datos. Se encargaría de controlar el flujo de todo el código de principio a fin.
- load.py: Archivo que se encarga de cargar los datos desde in o una DB
- utils.py: Todos los metodos que se reutilizaran una y otra vez.
- models.py: Irá toda la parte de ML como tal.

## Importar y exportar modelos con Sklearn

Se creo la clase Models que contiene:

models.py

- Metodo grid_training(): Metodo para seleccionar al mejor modelo con el mejor score. Trabaja sobre los atributos, que son diccionarios de modelos y sus respectivos rangos y opciones de parámetros. Se utiliza el optimizador Grid y se selecciona finalmente el mejor modelo y el que mas score entrega de estos.
- Atributos:
    - reg: Atributo que contiene a los regresores en diccionarios. Estos son los modelos que se utilizarán
    - params: Atributo que contiene a los parámetros de cada modelo en diccionario.

## Creación de una API con Flask para el modelo
- Instalamos flask
- Eliminamos load.py, ya que no lo utilizaremos finalmente
- Creamos el archivo server.py para crear un servidor local para nuestra API.
    - En este creamos la funcion predict(), que será la expuesta en nuestro servidor con el metodo GET, en la direccion 8080/predict y que muestra la prediccion hecha. La prediccion se hace con datos de pruebas y con nuestro modelo que exportamos al archivo best_model.pkl

Tenemos entonces un JSON que tiene una llave que se llama predicción y el valor de la predicción que nos generó nuestro modelo según los datos que le pasamos de configuración.

```
http://127.0.0.1:8080/predict
```

sí podemos entonces ver un ejemplo de cómo podríamos salir a producción.

Ya el JSON tendríamos que tratarlo, si estamos desarrollando una aplicación móvil o una plataforma web, podríamos trabajarlo con JavaScript o desde Android sin importar la naturaleza lo que estemos haciendo.

Con esto ya tenemos las predicciones y tenemos un sistema que se conecta a nuestro modelo y nos trae los resultados de una manera extensible, modular, fácil de utilizar y que podemos convertir en la solución que estamos buscando.

Así damos por finalizado la construcción de la arquitectura para salir a producción de nuestro modelo Inteligencia artificial.

# Conclusiones
## Manejo de features
Optimización de features

En el curso aprendimos cómo tratar con nuestro features y como seleccionarlos para extraer la información más importante. Esto es optimización de features a través de PCA, IPCA, KPCA. Tambienn Regularización e implementación de Lasso y Ridge

## Algoritmos de ML
También como construir algunos modelos de Machine Learning aún para casos bastante complejos como los que vimos.

Nos adentramos en las tres areas de Machine Learning mas importantes como son:

Regresiones robustas: Estudiamos sobre Regresiones robustas y como implementarlas para evitar valores atípicos.

Métodos de ensamble aplicados a clasificación: Estudiamos métodos de ensamble aplicados a clasificación, preparamos datos e implementamos Bagging y Boosting.

Clustering: Estudiamos estrategias de Clustering y como implementar Batch K-Means y Mean-Shift

## Validacion y optimizacion de hiperparametros
Optimización paramétrica

Se le dedico un modulo completo a como validar nuestros modelos. Conocimos en profundiad los tipos de validación (Hold-Out, K-Folds, LOOCV). Esto se lo conoce como Cross Validation.

Luego en el mismo modulo conocimos y estudiamos sobre Optimización paramétrica o Hyperparameter Optimization. Implementamos GridSearchCV y RandomizedSearchCV

## Como exponer un modelo en produccion
Salida a producción

Finalmente cómo sacarlos a producción a través de una APIrest

Formamos una arquitectura de archivos y carpetas para nuestro código, importar y exportar modelos con Sklearn y creamos una APIrest con Flask para el modelo.