# Introducción a Scikit-learn

Scikit-learn es una de las librerías más populares de Python para machine learning. 

https://scikit-learn.org

Proporciona herramientas simples y eficientes para tareas como clasificación, regresión, clustering y reducción de dimensionalidad. 

En este notebook, exploraremos los conceptos básicos de Scikit-learn.

## **1. Scikit-learn y su API**

Scikit-learn sigue una API consistente y bien documentada. 

- https://scikit-learn.org/stable/api/index.html


Los principales componentes son:

- **Estimadores**: Objetos que implementan algoritmos de machine learning (por ejemplo, `LinearRegression`, `RandomForestClassifier`).
    - Ver Anexo *ResumenAPI_scikitlearn*
- **Transformadores**: Objetos que preprocesan los datos (por ejemplo, `StandardScaler`, `PCA`).
- **Predictores**: Estimadores que pueden hacer predicciones (por ejemplo, el método `predict()`).

![image.png](attachment:image.png)

### **Ejemplo: Cargar un Dataset y Aplicar un Modelo Simple**

In [None]:
# Importar módulos Scikit-learn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Cargar el dataset Iris
iris = load_iris()
X = iris.data  # Características
y = iris.target  # Target

# Mostrar las primeras filas del dataset
print("Características (X):")
print(X[:5])
print("\nEtiquetas (y):")
print(y[:5])


## **2. División de Datos en Entrenamiento y Prueba**

![image.png](attachment:image.png)

Es fundamental dividir los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.

- Antes de abarcar cualquier transformación en nuestro dataset, debemos primero dividir nuestros datos entre entrenamiento y prueba (train, test). 

    - La idea es que los **datos de test no sean considerados** en niguna transformación, como si fuesen nuevos de verdad.

- Para realizar el split entre train y test contamos con la función `train_test_split`, la cual devuelve una tupla con cuatro elementos: **`Xtrain`, `Xtest`, `Ytrain` e `Ytest`**.

Asimismo, para que el split sea reproducible podemos fijar la semilla usando el parámetro `random_state`.

### **Ejemplo: Dividir el Dataset**

In [None]:
# Dividir el dataset en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}")


## **3. Preprocesamiento de Datos**

![image.png](attachment:image.png)

Antes de entrenar un modelo, es común preprocesar las características.

- Imputación de Valores Perdidos con Sklearn
    - Imputación de valores perdidos univariantes
    - Imputación multivariante de valores perdidos
    - Imputación mediante kNN
- Transformación de los datos
    - Modificar la distribución de una variable
    - Normalizar o estandarizar los datos
    - One-hot encoding


### **Ejemplo: Escalar las Características**


In [None]:
# Escalar las características para que tengan media 0 y desviación estándar 1
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\nCaracterísticas escaladas (primeras filas):")
print(X_train_scaled[:5])

## **4. Entrenamiento de un Modelo**

Dentro de Sklearn contamos con muchísimas familias de modelos de Machine Learning diferentes que podemos aplicar.
- Dentro de cada familia, puede haber varios modelos diferentes.

En la siguiente tabla se pueden ver las familias de modelos de Machine Learning junto con el nombre del módulo donde se encuentran:

| Modelo                                           | Módulo                 | Enlace                                                                                               |
|--------------------------------------------------|------------------------|------------------------------------------------------------------------------------------------------|
| **Modelos Lineales**                             | `linear_model`         | [Scikit-learn - Linear Models](https://scikit-learn.org/stable/modules/linear_model.html)           |
| **Análisis Discriminante Lineal y Cuadrático**   | `discriminant_analysis`| [Scikit-learn - LDA & QDA](https://scikit-learn.org/stable/modules/lda_qda.html)                     |
| **Regresión de Cresta con Kernel**               | `kernel_ridge`         | [Scikit-learn - Kernel Ridge Regression](https://scikit-learn.org/stable/modules/kernel_ridge.html) |
| **Máquinas de Vectores de Soporte**              | `svm`                  | [Scikit-learn - SVM](https://scikit-learn.org/stable/modules/svm.html)                              |
| **Descenso de Gradiente Estocástico**            | `linear_model`         | [Scikit-learn - SGD](https://scikit-learn.org/stable/modules/sgd.html)                              |
| **Vecinos Más Cercanos**                         | `neighbors`            | [Scikit-learn - Nearest Neighbors](https://scikit-learn.org/stable/modules/neighbors.html)         |
| **Procesos Gaussianos**                          | `gaussian_process`     | [Scikit-learn - Gaussian Processes](https://scikit-learn.org/stable/modules/gaussian_process.html) |
| **Descomposición Cruzada**                       | `cross_decomposition`  | [Scikit-learn - Cross Decomposition](https://scikit-learn.org/stable/modules/cross_decomposition.html) |
| **Naive Bayes**                                  | `naive_bayes`          | [Scikit-learn - Naive Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html)              |
| **Árboles de Decisión**                          | `tree`                 | [Scikit-learn - Decision Trees](https://scikit-learn.org/stable/modules/tree.html)                  |
| **Métodos de Ensamble**                          | `ensemble`             | [Scikit-learn - Ensemble Methods](https://scikit-learn.org/stable/modules/ensemble.html)            |
| **Algoritmos Multiclase y Multioutput**          | `multiclass`, `multioutput` | [Scikit-learn - Multiclass & Multioutput](https://scikit-learn.org/stable/modules/multiclass.html) |
| **Aprendizaje Semi-Supervisado**                 | `semi_supervised`      | [Scikit-learn - Semi-Supervised Learning](https://scikit-learn.org/stable/modules/semi_supervised.html) |
| **Regresión Isotónica**                          | `isotonic`             | [Scikit-learn - Isotonic Regression](https://scikit-learn.org/stable/modules/isotonic.html)        |
| **Calibración de Probabilidades**                | `calibration`          | [Scikit-learn - Probability Calibration](https://scikit-learn.org/stable/modules/calibration.html)  |
| **Modelos de Redes Neuronales (supervisados)**   | `neural_network`       | [Scikit-learn - Neural Networks](https://scikit-learn.org/stable/modules/neural_networks_supervised.html) |



En el caso de los modelos no supervisados pasa algo parecido, ya que cuenta con muchos modelos no supervisados que podemos encontrarn en diferentes módulos:

| Modelo                                                  | Módulo            | Enlace                                                                                               |
|---------------------------------------------------------|-------------------|------------------------------------------------------------------------------------------------------|
| **Gaussian Mixture Models**                             | `GaussianMixture` | [Scikit-learn - Gaussian Mixture Models](https://scikit-learn.org/stable/modules/mixture.html)      |
| **Manifold Learning**                                   | `manifold`        | [Scikit-learn - Manifold Learning](https://scikit-learn.org/stable/modules/manifold.html)           |
| **Clustering**                                          | `cluster`         | [Scikit-learn - Clustering](https://scikit-learn.org/stable/modules/clustering.html)                |
| **Descomposición de Señales en Componentes**           | `decomposition`   | [Scikit-learn - Decomposition](https://scikit-learn.org/stable/modules/decomposition.html)          |
| **Estimación de Covarianza**                            | `covariance`      | [Scikit-learn - Covariance Estimation](https://scikit-learn.org/stable/modules/covariance.html)     |
| **Modelos de Redes Neuronales (No Supervisados)**       | `neural_network`  | [Scikit-learn - Neural Networks (Unsupervised)](https://scikit-learn.org/stable/modules/neural_networks_unsupervised.html) |



Vamos a entrenar un modelo de clasificación usando el algoritmo **K-Nearest Neighbors (KNN)**.

### **Ejemplo: Entrenar un Modelo KNN**

In [None]:
# Crear y entrenar el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train_scaled, y_train)

# Predecir en el conjunto de prueba
y_pred = knn.predict(X_test_scaled)

print("\nPredicciones (y_pred):")
print(y_pred)

## **5. Evaluación del Modelo y Métricas**

La forma de evaluar el rendimiento de un modelo es analizar cómo de buenas son sus predicciones. 

Para ello Sklearn cuenta con diferentes funciones dentro del módulo **metrics** de Sklearn.
- https://scikit-learn.org/stable/modules/model_evaluation.html

<br>

> Es crucial evaluar el rendimiento del modelo utilizando métricas adecuadas.

### **Ejemplo: Calcular la Precisión (Accuracy)**

In [None]:
# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"\nPrecisión del modelo: {accuracy:.2f}")

**El mecanismo subyacente cuando se llama el método score:**

![image-2.png](attachment:image-2.png)

Para calcular la puntuación, el predictor primero calcula las predicciones (utilizando el método predictor) y luego utiliza una función de puntuación para comparar el objetivo verdadero Y y las predicciones.

Finalmente, se devuelve el puntaje.

### **Métricas Comunes**

Scikit-learn proporciona varias métricas para evaluar modelos. Algunas de las más comunes son:

| Métrica                          | Descripción                                                 | Enlace Oficial                                                                                   |
|----------------------------------|-------------------------------------------------------------|-------------------------------------------------------------------------------------------------|
| **Matriz de Confusión**          | Evaluación del desempeño de un clasificador.               | [Confusion Matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) |
| **Precisión, Recall y F1-Score** | Métricas para evaluar modelos en clases desbalanceadas.    | [Precision, Recall & F1-Score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html) |
| **Error Cuadrático Medio (MSE)** | Evalúa la diferencia promedio al cuadrado en regresión.    | [Mean Squared Error (MSE)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html) |
| **Coeficiente de Determinación (R²)** | Evalúa qué tan bien el modelo explica la varianza de los datos. | [R² Score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) |
| **Área bajo la curva ROC (AUC-ROC)** | Mide la capacidad de discriminación de un clasificador.   | [ROC AUC Score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) |
| **Log Loss (Logaritmo de Verosimilitud Negativa)** | Evalúa la probabilidad de predicciones correctas en clasificación. | [Log Loss](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html) |


#### **Ejemplo: Matriz de Confusión y Reporte de Clasificación**

In [None]:
from sklearn.metrics import confusion_matrix, classification_report

# Matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusión:")
print(conf_matrix)

# Reporte de clasificación
class_report = classification_report(y_test, y_pred, target_names=iris.target_names)
print("\nReporte de Clasificación:")
print(class_report)

## **6. Ejercicio**

Entrena un modelo de [Regresión Lineal](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) utilizando el dataset California Housing (fetch_california_housing()). 
- California Housing: contiene información sobre diversas características de viviendas en California y su precio medio.
- El objetivo es construir un modelo que prediga el valor medio de las viviendas en función de sus características. 
- Evaluar el desempeño del modelo mediante Error Cuadrático Medio (MSE).
- Graficar predicciones vs valores reales