<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-5/15_ScikitLearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Introducción a Scikit-learn**

Scikit-learn es una de las bibliotecas más populares para el aprendizaje automático en Python. Ofrece herramientas simples y eficientes para el análisis y modelado de datos, además de ser altamente compatible con otras bibliotecas como NumPy y pandas. Scikit-learn es ideal tanto para principiantes como para expertos en el campo, ya que proporciona una interfaz consistente y fácil de usar para construir, entrenar y evaluar modelos de machine learning.

###**Instalación**

Para instalar Scikit-learn, puedes utilizar pip:

```python
pip install scikit-learn
```

###**Principales características**

1. **Modelos de aprendizaje automático**: Scikit-learn incluye una amplia gama de algoritmos de machine learning como regresión, clasificación, clustering y reducción de dimensionalidad.

2. **Herramientas para preprocesamiento de datos**: Permite la normalización, escalado, codificación de variables categóricas y manejo de valores faltantes, entre otros.

3. **Evaluación de modelos**: Scikit-learn facilita la evaluación de modelos mediante métricas de desempeño como accuracy, precision, recall y más, además de técnicas como cross-validation.

4. **Pipelines**: Permite construir flujos de trabajo complejos que integran diferentes pasos de preprocesamiento y modelado de forma secuencial.

###**Ejemplos prácticos**

#### 1. **Entrenamiento de un modelo de clasificación**

Vamos a entrenar un modelo de clasificación utilizando el famoso dataset de iris.

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Cargar el dataset
iris = load_iris()
X = iris.data
y = iris.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear el modelo
model = RandomForestClassifier()

# Entrenar el modelo
model.fit(X_train, y_train)

# Predecir los valores de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
```

**Mejores prácticas:**

- **Dividir los datos en conjuntos de entrenamiento y prueba**: Siempre debes evaluar el rendimiento de tu modelo en un conjunto de datos que no haya visto durante el entrenamiento para evitar el sobreajuste.
- **Ajuste de hiperparámetros**: Utiliza técnicas como GridSearchCV para encontrar los mejores hiperparámetros para tu modelo.
- **Validación cruzada**: Implementa cross-validation para asegurarte de que tu modelo generaliza bien.

#### 2. **Pipeline de preprocesamiento y modelado**

Los Pipelines son una herramienta poderosa para simplificar el flujo de trabajo, combinando múltiples pasos en un solo objeto.

```python
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# Crear un pipeline con escalado de datos y un clasificador SVM
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVC())
])

# Entrenar el pipeline
pipeline.fit(X_train, y_train)

# Predecir y evaluar
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy with Pipeline: {accuracy}")
```

**Mejores prácticas:**

- **Uso de Pipelines**: Los Pipelines aseguran que las transformaciones de datos se apliquen de manera consistente en los conjuntos de entrenamiento y prueba.
- **Estandarización de datos**: Cuando trabajas con algoritmos que dependen de la escala de los datos (como SVM o regresión logística), siempre es recomendable escalar los datos.

### Consideraciones indispensables

- **Compatibilidad con otras bibliotecas**: Scikit-learn se integra perfectamente con bibliotecas como pandas para la manipulación de datos y NumPy para operaciones matemáticas.
- **Simplicidad y flexibilidad**: Ofrece una API simple y consistente, lo que facilita el cambio entre diferentes modelos y la experimentación.
- **Documentación extensa**: La documentación de Scikit-learn es completa y está llena de ejemplos, lo que es invaluable para aprender y aplicar técnicas avanzadas.

##**Ejercicios:**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

file_id = '1GxFpnjaEPauGQ0PRe-YTzjhDaCwd-wTN'
raw_url = f'https://drive.google.com/uc?id={file_id}&export=download'

import pandas as pd
data = pd.read_csv(raw_url)

print(data.head())

df=data.copy()

Mounted at /content/drive
   User_ID Product_ID Gender   Age  Occupation City_Category  \
0  1000001  P00069042      F  0-17          10             A   
1  1000001  P00248942      F  0-17          10             A   
2  1000001  P00087842      F  0-17          10             A   
3  1000001  P00085442      F  0-17          10             A   
4  1000002  P00285442      M   55+          16             C   

  Stay_In_Current_City_Years  Marital_Status  Product_Category_1  \
0                          2               0                   3   
1                          2               0                   1   
2                          2               0                  12   
3                          2               0                  12   
4                         4+               0                   8   

   Product_Category_2  Product_Category_3  Purchase  
0                 NaN                 NaN      8370  
1                 6.0                14.0     15200  
2                 

###**Ejercicio 1: Ingeniería de Características con ColumnTransformer**
**Objetivo:** Aplicar transformaciones diferentes a distintas columnas del dataset en un solo paso.

###**Ejercicio 2: Implementación de Pipelines con Preprocesamiento y Modelado**
**Objetivo:** Crear un pipeline que combine preprocesamiento de datos y entrenamiento de un modelo.

###**Ejercicio 3: Evaluación de Modelos con Validación Cruzada Estratificada**
**Objetivo:** Usar validación cruzada estratificada para evaluar el desempeño de un modelo.

###**Ejercicio 4: Optimización de Hiperparámetros con GridSearchCV**
**Objetivo:** Ajustar los hiperparámetros de un modelo para maximizar su desempeño.

###**Ejercicio 5: Selección de Características con SelectFromModel**
**Objetivo:** Identificar y seleccionar automáticamente las características más importantes.

###**Ejercicio 6: Análisis de Componentes Principales (PCA) para Reducción de Dimensionalidad**
**Objetivo:** Aplicar PCA para reducir la dimensionalidad del dataset.

###**Ejercicio 7: Clasificación de Productos con KNeighborsClassifier**
**Objetivo:** Implementar un modelo k-NN para clasificar las compras basadas en características del cliente.

###**Ejercicio 8: Implementación de un Ensamble con VotingClassifier**
**Objetivo:** Combinar múltiples modelos para mejorar el desempeño de clasificación.

###**Ejercicio 9: Evaluación de un Modelo con Matriz de Confusión y Reporte de Clasificación**
**Objetivo:** Evaluar el desempeño de un modelo usando una matriz de confusión y un reporte de clasificación.