# Introducción a Scikit-learn

Scikit-learn es una de las librerías más populares de Python para machine learning. 

https://scikit-learn.org

Proporciona herramientas simples y eficientes para tareas como clasificación, regresión, clustering y reducción de dimensionalidad. 

En este notebook, exploraremos los conceptos básicos de Scikit-learn.

## **1. Introducción a Scikit-learn y su API**

Scikit-learn sigue una API consistente y bien documentada. 

- https://scikit-learn.org/stable/api/index.html


Los principales componentes son:

- **Estimadores**: Objetos que implementan algoritmos de machine learning (por ejemplo, `LinearRegression`, `RandomForestClassifier`).
    - Ver *4.2.ResumenAPI_scikitlearn*
- **Transformadores**: Objetos que preprocesan los datos (por ejemplo, `StandardScaler`, `PCA`).
- **Predictores**: Estimadores que pueden hacer predicciones (por ejemplo, `predict()`).

### **Ejemplo: Cargar un Dataset y Aplicar un Modelo Simple**

In [None]:
# Importar Scikit-learn y cargar un dataset de ejemplo
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Cargar el dataset Iris
iris = load_iris()
X = iris.data  # Características
y = iris.target  # Target

# Mostrar las primeras filas del dataset
print("Características (X):")
print(X[:5])
print("\nEtiquetas (y):")
print(y[:5])


## **2. División de Datos en Entrenamiento y Prueba**

Es fundamental dividir los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.

- Antes de abarcar cualquier transformación en nuestro dataset, debemos primero dividir nuestros datos entre train y test. 

    - La idea es que los datos de test no se tengan considerados en niguna transformación, como si fuesen nuevos de verdad.

- Así pues, para realizar el split entre train y test contamos con la función `train_test_split`, la cual devuelve una tupla con cuatro elementos: `Xtrain`, `Xtest`, `Ytrain` e `Ytest`.

Asimismo, para que el split sea reproducible podemos fijar la semilla usando el parámetro `random_state`.

### **Ejemplo: Dividir el Dataset**

In [None]:
# Dividir el dataset en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}")


## **3. Preprocesamiento de Datos**

Antes de entrenar un modelo, es común preprocesar las características.

- Imputación de Valores Perdidos con Sklearn
    - Imputación de valores perdidos univariantes
    - Imputación multivariante de valores perdidos
    - Imputación mediante kNN
- Transformación de los datos
    - Modificar la distribución de una variable
    - Normalizar o estandarizar los datos
    - One-hot encoding


### **Ejemplo: Escalar las Características**


In [None]:
# Escalar las características para que tengan media 0 y desviación estándar 1
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\nCaracterísticas escaladas (primeras filas):")
print(X_train_scaled[:5])

## **4. Entrenamiento de un Modelo**

Dentro de Sklearn contamos con muchísimas familias de modelos de Machine Learning diferentes que podemos aplicar y, dentro de cada familia, puede haber varios modelos diferentes.

Poe lo tanto, en la siguiente tabla te incluyo todas las familias de modelos de Machine Learning junto con el nombre del módulo donde se encuentran:

|Modelo Supervisado|Module|
|------------------|------|
|Linear Models|linear_model|
|Linear and Quadratic Discriminant Analysis|discriminant_analysis|
|Kernel ridge regression|kernel_ridge|
|Support Vector Machines|svm|
|Stochastic Gradient Descent|linear_model|
|Nearest Neighbors|neighbors|
|Gaussian Processes|gaussian_process|
|Cross decomposition|cross_decomposition|
|Naive Bayes|naive_bayes|
|Decision Trees|tree|
|Ensemble methods|ensemble|
|Multiclass and multioutput algorithms|multiclass & multioutput|
|Semi-supervised learning|semi_supervised|
|Isotonic regression|isotonic|
|Probability calibration|calibration|
|Neural network models (supervised)|neural_networ|


En el caso de los modelos no supervisados pasa un poco parecido ya que cuenta con muchos modelos no supervisados que podemos encontrarn en diferentes módulos:

|Model|Module|
|---|---|
|Gaussian mixture models|GaussianMixture|
|Manifold learning|manifold|
|Clustering|cluster|
|Decomposing signals in components (matrix factorization problems)|decomposition|
|Covariance estimation|covariance|
|Neural network models (unsupervised)|neural_network|




Vamos a entrenar un modelo de clasificación usando el algoritmo **K-Nearest Neighbors (KNN)**.

### **Ejemplo: Entrenar un Modelo KNN**

In [None]:
# Crear y entrenar el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train_scaled, y_train)

# Predecir en el conjunto de prueba
y_pred = knn.predict(X_test_scaled)

print("\nPredicciones (y_pred):")
print(y_pred)

## **5. Evaluación del Modelo y Métricas**

La forma de evaluar el rendimiento de un modelo es analizar cómo de buenas son sus predicciones. 

Para ello Sklearn cuenta con diferentes funciones dentro del módulo metrics de Sklearn.

Es crucial evaluar el rendimiento del modelo utilizando métricas adecuadas.

### **Ejemplo: Calcular la Precisión (Accuracy)**

In [None]:
# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"\nPrecisión del modelo: {accuracy:.2f}")

### **Otras Métricas Comunes**

Scikit-learn proporciona varias métricas para evaluar modelos. Algunas de las más comunes son:

- **Matriz de Confusión**: Para problemas de clasificación.
- **Precisión, Recall y F1-Score**: Para evaluar el rendimiento en clases desbalanceadas.
- **Error Cuadrático Medio (MSE)**: Para problemas de regresión.


#### **Ejemplo: Matriz de Confusión y Reporte de Clasificación**

In [None]:
from sklearn.metrics import confusion_matrix, classification_report

# Matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusión:")
print(conf_matrix)

# Reporte de clasificación
class_report = classification_report(y_test, y_pred, target_names=iris.target_names)
print("\nReporte de Clasificación:")
print(class_report)

## **6. Ejercicio**

Entrenar un modelo de regresión lineal usando el dataset **Boston Housing** (load_boston) y evalúa su rendimiento utilizando el **Error Cuadrático Medio (MSE)**.