# Machine Learning con Scikit-Learn Profesional

Scikit-Learn es una biblioteca de Python que ofrece un conjunto de algoritmos eficientes que pueden ser utilizados para realizar Machine Learning en un ambiente productivo. en este articulo Profesional de Machine Learning con SciKit-Learn aprenderás a implementar los principales algoritmos disponibles en esta biblioteca.

- Iniciar un proyecto con Scikit-Learn
- Aplicar técnicas de regularización a regresiones
- Manejar datos atípicos
- Reducir la dimensionalidad

La herramienta principal será [Scikit Learn](https://scikit-learn.org/stable/)

¿Por qué usar Scikit-learn?

- Curva de aprendizaje suave.
- Es una biblioteca muy versátil.
- Comunidad de soporte.
- Uso en producción.
- Integración con librerías externas.

¿Qué podemos hacer con Scikit-learn?

- **Clasificación:** Scikit-Learn permite construir modelos de clasificación para asignar etiquetas a nuevas instancias basándose en ejemplos previos.

- **Regresión:** Con Scikit-Learn, se pueden aplicar algoritmos de regresión para predecir valores numéricos continuos utilizando variables de entrada.

- **Clustering:** Scikit-Learn ofrece algoritmos de clustering para agrupar datos no etiquetados y descubrir patrones y estructuras ocultas.

- **Preprocesamiento:** Scikit-Learn proporciona herramientas para el preprocesamiento de datos, incluyendo normalización, estandarización y manejo de valores faltantes, que preparan los datos para el aprendizaje automático.

- **Reducción de dimensionalidad:** Scikit-Learn incluye métodos para reducir la cantidad de variables o características en los datos, mejorando la eficiencia y evitando problemas asociados a la dimensionalidad alta.

- **Selección del modelo:** Scikit-Learn ofrece herramientas para evaluar y seleccionar modelos de aprendizaje automático, como la validación cruzada y la búsqueda de hiperparámetros, ayudando a elegir el mejor modelo para un problema específico.

Preguntas que buscamos responder con Scikit-Learn:

- ¿Cómo nos ayuda Scikit-Learn en el preprocesamiento de datos?
- ¿Qué modelos podemos utilizar para resolver problemas específicos?
- ¿Cuál es el procedimiento a seguir para optimizar los modelos?

## ¿Cómo aprenden las máquinas?
Desde el punto de vista de los datos, podemos aplicar tes tecnicas segun la naturaleza y dsiponibilidad de los mismos:

- **Aprendizaje supervisado (Algoritmos por observación):** Utilizamos datos etiquetados para entrenar modelos que puedan predecir o clasificar nuevas instancias.

- **Aprendizaje por refuerzo (Algoritmos por prueba y error):** El modelo aprende a través de la interacción con el entorno y la retroalimentación en forma de recompensas o castigos.

- **Aprendizaje no supervisado (Algoritmos por descubrimiento):** Se exploran datos no etiquetados para descubrir patrones, estructuras ocultas o grupos similares.


El machine learning es solamente una de las posibles ramas que tiene la inteligencia artificial, para otros tipos de problemas existen:


- Algoritmos evolutivos: Técnica inspirada en la evolución biológica que busca soluciones óptimas mediante procesos de selección, reproducción y mutación en una población de posibles soluciones.
    
- Lógica Difusa: Enfoque que permite el razonamiento y la toma de decisiones en situaciones inciertas o imprecisas, utilizando grados de verdad y conjuntos difusos para manejar la ambigüedad.

- Agentes: Entidades que perciben su entorno y toman acciones para alcanzar objetivos, utilizados en diversas aplicaciones y pueden emplear diferentes técnicas, como algoritmos de búsqueda, aprendizaje por refuerzo, etc.

- Sistemas expertos: Programas informáticos que resuelven problemas en áreas específicas, utilizando conocimiento experto y reglas lógicas para proporcionar recomendaciones o soluciones.



## Problemas que podemos resolver con Scikit-learn

- **No es una herramienta de Computer Vision:**  No proporciona funcionalidades avanzadas específicas para el procesamiento de imágenes y tareas de visión por computadora, como detección de objetos, segmentación o reconocimiento facial. Para estas tareas, es mejor utilizar bibliotecas especializadas como OpenCV o frameworks de Deep Learning como TensorFlow, PyTorch o Keras.

- **No se puede correr en GPUs:** Si deseas aprovechar la potencia de las GPUs para acelerar tus cálculos en el aprendizaje automático, deberías considerar el uso de bibliotecas y frameworks optimizados para GPU, como TensorFlow con soporte para CUDA o PyTorch con soporte para CUDA.

- **No es una herramienta de estadística avanzada:** No ofrece funcionalidades sofisticadas para análisis multivariado, modelado de series de tiempo, análisis de supervivencia o análisis de datos longitudinales. Para estas tareas, es posible que necesites utilizar bibliotecas más especializadas como StatsModels o R (un lenguaje de programación estadística).

- **No es muy flexible en temas de Deep Learning:** Si deseas trabajar con modelos de Deep Learning, es mejor considerar el uso de frameworks especializados como TensorFlow, PyTorch o Keras, que brindan una mayor flexibilidad y soporte para arquitecturas de redes neuronales más complejas.

### Qué problemas podemos abordar con Scikit-learn?

- **Clasificación:** Necesitamos etiquetar nuestros datos para que encajen en alguna de ciertas categorías previamente definidas.

    > Ejemplos:\
    > ¿Es cáncer o no es cáncer?\
    > ¿La imagen pertenece a un Ave, Perro o Gato?\
    > ¿A qué segmento de clientes pertenece determinado usuario?

- **Regresión:** Cuando necesitamos modelar el comportamiento de una variable continua, dadas otras variables correlacionadas.

    > Ejemplos:\
    > Predecir el precio del dólar para el mes siguiente.\
    > El total de calorías de una comida dados sus ingredientes.\
    > La ubicación más probable de determinado objeto dentro de una imagen.

- **Clustering:** Queremos descubrir subconjuntos de datos similares dentro del dataset. Queremos encontrar valores que se salen del comportamiento global.

    > Ejemplo:\
    > Identificar productos similares para un sistema de recomendación.\
    > Descubrir el sitio ideal para ubicar paradas de autobús según la densidad poblacional.\
    > Segmentar imágenes según patrones de colores y geometrías.


## Las matemáticas que vamos a necesitar

- [Funciones Matemáticas para Data Science e Inteligencia Artificial](https://deepnote.com/@mazzaroli/Introduccion-a-Funciones-Matematicas-para-Data-Science-e-Inteligencia-Artificial-f9a47b52-0308-4e95-a3d3-c3de3ef7b14f)
- [Matemáticas para Data Science: Estadística Descriptiva](https://deepnote.com/@mazzaroli/Estadistica-Descriptiva-para-Ciencias-de-Datos-b8622ee2-5fb0-44f3-8791-96915665574e)
- [Matemáticas para Ciencias de Datos: Estadística Probabilística](https://deepnote.com/@mazzaroli/Estadistica-Probabilistica-para-Ciencias-de-Datos-aba91c07-8aea-4a1b-9671-3edd06183cf7)
- [Matemáticas para Ciencias de Datos: Estadística Inferencial](https://github.com/mazzaroli/inferential-statistics/blob/master/notebook/estadistica-inferencia.ipynb)
- [Introducción al Cálculo Diferencial para Data Science e Inteligencia Artificial](https://deepnote.com/@mazzaroli/Calculo-Diferencial-para-Data-Science-e-Inteligencia-Artificial-79fb5f7b-baa0-4ced-b881-b4279275e274)
- [Fundamentos de Álgebra Lineal](https://deepnote.com/@mazzaroli/Fundamentos-de-Algebra-Lineal-b2f7b861-a1db-4b8a-9305-654bd16d3900)
- [Álgebra Lineal Aplicada para Machine Learning](https://deepnote.com/@mazzaroli/Algebra-Lineal-Aplicada-para-Machine-Learning-9f3a1078-a83d-48b5-b5a6-a67dea878fc8)

La estrategia del articulo será seguir el desarrollo de software y ciencia de la computación. Scikit Learn nos ayudará a cubrir algunos vacios conceptuales de una manera que beneficie a nuestro modelo.

# Iniciar un proyecto con sklearn
## Configuración de nuestro entorno Python

Los entornos virtuales nos permiten isolar multiples dependencias para el desarrollo de proyecto, puede pasar por ejemplo cuando trabajas con diferentes versiones de python o de django.

Python 3 trae la creación y manejo de entornos virtuales como parte del modulo central.

Entorno virtual con Python

Para crear un entorno virtual utilizas:

```bash
python venv .NOMBRE-ENTORNO
```

> Nota: .NOMBRE-ENTORNO es el nombre de del ambiente

Para activarlo:

```bash
source -m ./.env/bin/activate
```

Si queremos desactivarlo:

```bash
deactivate
```
Si deseamos ver las librerías instaladas en el ambiente:
```bash
pip freeze
```

## Instalación de librerías en Python

Librerias y sus versiones con las que trabajaremos.

Si las copiamos en un archivo requirements.txt y luego con el comando pip install -r requirements.txt podremos instalarlas a todas.

## Datasets que usaremos en el curso
Datasets e informacion sobre ellos en el repo

**[World Happiness Report](https://www.kaggle.com/datasets/unsdsn/world-happiness):** Es un dataset que desde el 2012 recolecta variables sobre diferentes países y las relaciona con el nivel de felicidad de sus habitantes.
Este data set lo vamos a utilizar para temas de regresiones

**[The Ultimate Halloween Candy Power Ranking](https://www.kaggle.com/datasets/fivethirtyeight/the-ultimate-halloween-candy-power-ranking):** Es un estudio online de 269 mil votos de más de 8371 IPs deferentes. Para 85 tipos de dulces diferentes se evaluaron tanto características del dulce como la opinión y satisfacción para generar comparaciones.
Este dataset lo vamos a utilizar para temas de clustering

**[Heart disease prediction](https://www.kaggle.com/c/SAheart):** Es un subconjunto de variables de un estudio que realizado en 1988 en diferentes regiones del planeta para predecir el riesgo a sufrir una enfermedad relacionada con el corazón.
Este data set lo vamos a utilizar para temas de clasificación

# Optimización de features

## ¿Cómo afectan nuestros features a los modelos de Machine Learning?

### ¿Qué son los features? 

En el contexto de los datos, los **"features"** se refieren a las **características o variables** que describen un conjunto de datos: Son las diferentes **columnas o atributos** que contienen información específica sobre cada instancia o muestra en u: conjunto de datos.


### ¿Más features es siempre mejor?

No necesariamente. Agregar más features puede aumentar la complejidad y el riesgo de sobreajuste del modelo. Es importante seleccionar solo los features relevantes que aporten información útil.

- **Features irrelevantes para inferencia:** Los features irrelevantes generan ruido y afectan la precisión del modelo. Es recomendable identificar y eliminar estos features antes de construir el modelo.

- **Valores faltantes:** Los valores faltantes en los datos son comunes. Se pueden manejar eliminando muestras con valores faltantes, imputando datos o utilizando algoritmos que los manejen automáticamente.

- **Introducción de ruido:** El ruido en los datos se debe a errores y puede afectar los resultados. Es necesario limpiar los datos para eliminar o corregir valores ruidosos.

- **Costo computacional:** El procesamiento de grandes volúmenes de datos puede ser costoso. Se pueden reducir costos utilizando técnicas como el muestreo, algoritmos eficientes y optimización del código. Es importante equilibrar el costo computacional con la precisión y utilidad de los resultados.

### Sesgo y varianza

Una de las formas de saber que nuestros features han sido bien seleccionados es con el **sesgo (bias) y la varianza**, donde se busca encontrar un equilibrio entre sesgo y varianza. Un **sesgo bajo** y una **varianza baja** indican un buen ajuste del modelo a los datos y una capacidad para generalizar correctamente a nuevas instancias. La elección adecuada de features, junto con técnicas de evaluación como la **validación cruzada**, puede ayudar a determinar si el modelo tiene un sesgo y una varianza adecuados.


<img src='https://keepcoding.io/wp-content/uploads/2022/12/image-9.png' width=500>

<img src='https://keepler.io/wp-content/uploads/2021/03/modelos-machine-learning.png' width=500>

### ¿Qué podemos hacer para solucionar estos problemas?

- **Feature selection y feature extraction (PCA):** Seleccionar los features relevantes y reducir la dimensionalidad del conjunto de datos para mejorar el rendimiento del modelo.

- **Regularización:** Agregar un término de penalización a la función de coste para evitar el sobreajuste y controlar la varianza del modelo.

- **Balanceo: Oversampling y Undersampling:** Generar nuevas muestras de la clase minoritaria o reducir la cantidad de muestras de la clase mayoritaria para equilibrar las clases y mejorar el rendimiento del modelo.

## Introducción al PCA

### ¿Por qué usaríamos este algoritmo?

Porque en machine learning es normal encontrarnos con problemas donde tengamos una **enorme cantidad de features** en donde hay **relaciones complejas** entre ellos y con la variable que queremos predecir.

### ¿Dónde se puede utilizar un algoritmo PCA?

- Nuestro dataset tiene un número alto de features y no todos son significativos.
- Hay una alta correlación entre los features.
- Cuando hay sobreajuste.
- Cuando implica un alto costo computacional.

### ¿En que consiste el algoritmo PCA?

La tecnica PCA consiste en reducir la complejidad de los features:

- Seleccionando solamente las variables relevantes.
- Combinándolas en nuevas variables que mantengan la información más importante (varianza de los features).

<img src='https://liorpachter.files.wordpress.com/2014/05/pca_figure1.jpg' width='450'>

### ¿Cuales son pasos para llevar a cabo el algoritmo PCA?

- Calculamos la matriz de covarianza para expresar las relaciones entre nuestro features.
- Hallamos los vectores propios y valores propios de esta matriz, para medir la fuerza y variabilidad de estas relaciones.
- Ordenamos y escogemos los vectores propios con mayor variabilidad, esto es, aportan más información.

[ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)](https://www.youtube.com/watch?v=k3CWA2GBb8o)

### ¿Qué hacer si tenemos una PC de bajos recursos?

- Si tenemos un dataset demasiado exigente, podemos usar una variación como IPCA.
- Si nuestros datos no tienen una estructura separable linealmente, y encontramos un KERNEL que pueda mapearlos podemos usar KPCA.


## Preparación de datos para PCA e IPCA

A partir de ahora, crearemos un archivo llamado pca.py en el que llevaremos a cabo los siguientes pasos:

En el código proporcionado, se realizan los siguientes pasos:

1. Se importan las bibliotecas necesarias para el manejo de datos estructurados, machine learning y visualización de gráficos.

2. Se importan las clases específicas de scikit-learn para realizar análisis de componentes principales, regresión logística, estandarización de características y división de los datos en entrenamiento y prueba.

3. Se carga un conjunto de datos del archivo `heart.csv` utilizando la biblioteca pandas y se muestra una vista previa de los primeros 5 registros.

4. Se separan los features (características) y la variable objetivo del conjunto de datos.

5. Se estandarizan las características utilizando la clase `StandardScaler` de scikit-learn para asegurar que tengan una escala común.

6. Se divide el conjunto de datos en conjuntos de entrenamiento y prueba utilizando la función `train_test_split` de scikit-learn.

## Implementación del algoritmo PCA e IPCA

1. Se realiza el análisis de componentes principales (PCA) y el análisis de componentes principales incremental (IPCA) utilizando los datos de entrenamiento.

1. Se grafica la varianza explicada por cada componente principal utilizando Matplotlib y se guarda el gráfico en un archivo llamado 'a'.

1. Se crea un clasificador de regresión logística.

1. Se transforman los datos de entrenamiento y prueba utilizando PCA y se ajusta el modelo de regresión logística utilizando los datos transformados con PCA. Se imprime el score del modelo utilizando los datos de prueba transformados con PCA.

1. Se transforman los datos de entrenamiento y prueba utilizando IPCA y se ajusta el modelo de regresión logística utilizando los datos transformados con IPCA. Se imprime el score del modelo utilizando los datos de prueba transformados con IPCA.

## Kernels y KPCA

Una alternativa son los **Kernels**. Un **Kernel** es una función matemática que toma mediciones que se comportan de manera no lineal y las proyecta en un espacio dimensional más grande en donde son **linealmente separables**.

### ¿Para qué sirven los kernels?

Los **kernels** son utilizados en el aprendizaje automático para **transformar datos** a un espacio dimensional más grande, donde pueden ser más fácilmente **separables**. Esto es útil cuando los datos no pueden ser separados linealmente en su espacio original. Los kernels permiten aplicar algoritmos de clasificación o regresión lineal en un espacio de mayor dimensión sin la necesidad de una transformación explícita. Son comúnmente utilizados en algoritmos como las **Máquinas de Vectores de Soporte (SVM)** para lograr una separación óptima de las clases.

<img src='https://miro.medium.com/v2/resize:fit:838/0*UYg7pGkmsjI5ArZR.png' width=500>

Aquí tienes una breve descripción de los 3 tipos de kernels comunes y sus fórmulas:

1. **Kernel lineal**: El kernel lineal es el más simple y se utiliza para problemas de clasificación o regresión lineal. Su fórmula es simplemente el producto escalar entre dos vectores:

   $\displaystyle K(x, y) = x^T * y$

2. **Kernel polinomial**: El kernel polinomial se utiliza para mapear los datos a un espacio dimensional más alto utilizando una función polinomial. La fórmula general del kernel polinomial es:

   $\displaystyle K(x, y) = (α * x^T * y + c)^d$

   Donde α es un coeficiente, c es una constante y d es el grado del polinomio.

3. **Kernel gaussiano (RBF)**: El kernel gaussiano, también conocido como kernel RBF (Radial Basis Function), es utilizado para mapear los datos a un espacio dimensional infinito. Su fórmula es:

   $\displaystyle K(x, y) = e - \frac{||x - y||^2}{2\sigma^2} $

   Donde:

   - $K(x, y)$ representa el valor del kernel entre dos puntos x e y.
   - $||x - y||^2$ es la distancia euclidiana al cuadrado entre los puntos x e y.
   - $σ$ (sigma) es un parámetro que controla la amplitud del kernel y la influencia de cada muestra vecina en la clasificación final.

<img src='https://qu4nt.github.io/sklearn-doc-es/_images/sphx_glr_plot_iris_svc_001.png' width=400>

## ¿Qué es la regularización y cómo aplicarla?

La **regularización** es una técnica importante en el aprendizaje automático que nos permite reducir la complejidad de nuestro modelo y evitar el sobreajuste. Consiste en aplicar una penalización a las variables menos relevantes del modelo.

**¿Como hacemos lo anterior?**

Para lograr esto, introducimos un **mayor sesgo** sobre las variables y disminuimos la varianza. De esta manera, mejoramos la capacidad de generalización del modelo y evitamos o reducimos el sobreajuste.

<img src='https://www.andreaperlato.com/img/ridge.png'>

En la imagen proporcionada, se muestra un ejemplo de sobreajuste. La línea azul se ajusta muy bien a los datos de prueba, pero no a los datos de entrenamiento. Esto resulta en una mala generalización y una aproximación deficiente.

Para aplicar la regularización, necesitamos incluir un término adicional conocido como **función de pérdida (loss)**. La función de pérdida nos indica qué tan lejos están nuestras predicciones de los datos reales. En general, cuanto menor sea la pérdida, mejor será nuestro modelo.

### Perdida en entrenamiento y en validación

<img src='https://developers.google.com/static/machine-learning/crash-course/images/RegularizationTwoLossFunctions.svg' width=500>

Podemos ver en la gráfica que la **pérdida tiende a disminuir**, porque en algún momento los datos de entrenamiento serán vistos y el modelo se ajustará a ellos. Sin embargo, lo importante es **cómo se comportará en el mundo real**.

En el conjunto de validación o pruebas, es **normal que la pérdida comience a disminuir**, ya que indica una buena generalización. Sin embargo, llega un punto donde la introducción de nuevos valores hace que la pérdida vuelva a subir, lo cual generalmente se considera como **sobreajuste**. La pérdida es la medida que utilizamos para **aplicar la regularización**.



### Tipos de regularización

- **L1 (Lasso)**: Este regulizador reduce la complejidad del modelo eliminando características que tienen un impacto mínimo en la predicción. Al aplicar la regularización L1, algunos coeficientes del modelo se vuelven exactamente cero, lo que implica que estas características no son consideradas en la predicción final. Es útil para la selección automática de características relevantes.

    $\displaystyle\underset{\beta}{\text{arg min}}\sum_{i=1}^{n}  \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 + \underset{\text{penalización}}{\lambda \sum_{j=1}^{p} |\beta|}$


    Aquí está la descripción de cada componente de la fórmula:

    - $\displaystyle\underset{\beta}{\text{arg min}}$: Se refiere al valor de los coeficientes $\beta$ que minimiza la función de costo.

    - $\sum_{i=1}^{n}$: Representa la suma de los índices $i$ desde 1 hasta $n$, donde $n$ es el número de observaciones en el conjunto de datos.

    - $y_i$: Es el valor real de la variable objetivo para la observación $i$.

    - $\beta_0$: Es el coeficiente de intersección o término de sesgo.

    - $\sum_{j=1}^{p}$: Representa la suma de los índices $j$ desde 1 hasta $p$, donde $p$ es el número de características o variables independientes en el conjunto de datos.

    - $\beta_j$: Son los coeficientes asociados a las características $x_{ij}$ del modelo.

    - $x_{ij}$: Representa el valor de la característica $j$ para la observación $i$.

    - $\underset{\text{penalización}}{\lambda \sum_{j=1}^{p} |\beta|}$: Es la penalización que se aplica a los coeficientes. Se utiliza la norma L1 (valor absoluto) para sumar los coeficientes $\beta_j$. El parámetro $\lambda$ controla la intensidad de la penalización, donde un valor más alto de $\lambda$ lleva a una mayor reducción de los coeficientes.



- **L2 (Ridge)**: El regulizador L2 reduce la complejidad del modelo disminuyendo el impacto de ciertos features en la predicción. Penaliza los coeficientes grandes y favorece coeficientes más pequeños. A diferencia de L1, L2 no descarta características, sino que las reduce gradualmente. Es útil para evitar la multicolinealidad y mejorar la estabilidad del modelo.

    $\displaystyle\underset{\beta}{\text{arg min}}\sum_{i=1}^{n}  \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 + \underset{\text{penalización}}{\lambda \sum_{j=1}^{p} \beta^2_{j}}$

    Teniendo en cuenta que la descripción del regulador L2 (Ridge) contiene algunos puntos que se repiten con la descripción del regulador L1 (Lasso), los puntos que se pueden omitir en la descripción del regulador L2 son los siguientes:

    - El uso de la función de costo cuadrática $(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij})^2$ en lugar de la función de costo absoluta en la descripción del Lasso.

    - $\underset{\text{penalización}}{\lambda \sum_{j=1}^{p} \beta^2_{j}}$: Es la penalización que se aplica a los coeficientes. Se utiliza la norma L2 (cuadrados) para sumar los coeficientes $\beta_j$ al cuadrado. El parámetro $\lambda$ controla la intensidad de la penalización, donde un valor más alto de $\lambda$ lleva a una mayor reducción de los coeficientes.

- **ElasticNet**: Es una combinación de los regulizadores L1 y L2. Combina los efectos de selección automática de características de L1 con la regularización de coeficientes de L2. Proporciona un equilibrio entre la eliminación de características irrelevantes y la reducción del impacto de ciertos features en el modelo. Es útil cuando se sospecha que hay muchas características irrelevantes en los datos.

   $\displaystyle\underset{\beta}{\text{arg min}}\sum_{i=1}^{n}  \left( y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij} \right)^2 +  \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2$

   Donde:

    - $(\lambda_1)$ y $(\lambda_2)$ son hiperparámetros que controlan la intensidad de las penalizaciones L1 y L2, respectivamente.





## Implementación de Lasso y Ridge

Implementaremos las tecnicas de regularizacion. Para esto utilizaremos dos regresores que vienen por defecto en Scikit Learn y que de una manera automatizada nos integra un modelo lineal con su respectiva regularización.

Utilizaremos el dataset del reporte de la felicidad mundial. Dataset que mide varios factores en diferentes paises, tales como, el indice de corrupción, nivel que nos indica que tan fuerte son las relaciones de familia, el desarrollo per capita económico y nos intenta dar una variable continua para medir la felicidad del pais en cuestión.

Pasamos a crear un archivo con nombre ```regularization.py```

1. Importar las bibliotecas necesarias:
   - Se importa `pandas` para el manejo de datos estructurados.
   - Se importan clases específicas de los módulos `sklearn.linear_model`, `sklearn.metrics` y `sklearn.model_selection` para su uso posterior.

2. Leer el conjunto de datos:
   - Se utiliza la función `pd.read_csv()` para leer un archivo CSV que contiene los datos del conjunto de datos.

3. Separar características y variable objetivo:
   - Se seleccionan las columnas específicas del conjunto de datos que se utilizarán como características (`X`) y se asignan a la variable `X`.
   - Se selecciona la columna que se utilizará como la variable objetivo (`y`) y se asigna a la variable `y`.

4. Dividir el conjunto de datos en conjuntos de entrenamiento y prueba:
   - Se utiliza la función `train_test_split()` del módulo `sklearn.model_selection` para dividir los datos en conjuntos de entrenamiento (`X_train`, `y_train`) y prueba (`X_test`, `y_test`). Se especifica que el 25% de los datos se utilizarán como conjunto de prueba y se establece una semilla aleatoria (`random_state`) para la reproducibilidad.

5. Entrenar los modelos de regresión:
   - Se crean instancias de los modelos `LinearRegression`, `Lasso`, `Ridge` y `ElasticNet` del módulo `sklearn.linear_model`.
   - Se ajustan (`fit()`) los modelos a los conjuntos de entrenamiento (`X_train`, `y_train`).

6. Realizar predicciones en el conjunto de prueba:
   - Se utilizan los modelos entrenados para hacer predicciones (`predict()`) en los conjuntos de prueba (`X_test`) y se guardan en las variables correspondientes (`y_predict_lineal`, `y_predict_lasso`, `y_predict_ridge`, `y_predict_elastic`).

7. Calcular el MSE para cada modelo:
   - Se utiliza la función `mean_squared_error()` del módulo `sklearn.metrics` para calcular el error cuadrático medio (MSE) entre las predicciones y los valores reales de las variables objetivo (`y_test`). Se calcula un MSE para cada modelo y se guarda en las variables correspondientes (`lineal_loss`, `lasso_loss`, `ridge_loss`, `elastic_loss`).

8. Imprimir los valores de MSE para cada modelo:
   - Se imprimen los valores de MSE calculados para cada modelo.

## Explicación resultado de la implementación
