# Introducción a Scikit-Learn

¡Bienvenido a la primera lección sobre **Scikit-Learn**, una de las bibliotecas más poderosas y versátiles para **Machine Learning** en Python!

En esta lección quiero explicar casi desde cero qué es **Scikit-Learn**, para que podamos entender cómo está construida esta herramienta para crear modelos de aprendizaje automático. La idea es que comprendas cuáles son los componentes principales de la estructura de Scikit-Learn y que puedas ampliar tu capacidad de trabajar con esta increíble biblioteca.


### ¿Qué es Scikit-Learn?

**Scikit-Learn**, o `sklearn`, es una biblioteca de Python que sirve para facilitar la implementación de **algoritmos de Machine Learning**. Por eso en este curso primero nos abocamos a aprender Machine Learning, y con eso aprendido poder profundizar mucho más en **Scikit-Learn**.

**Scikit-Learn** fue creada en 2007 y está diseñada con un enfoque principal en la *simplicidad* y en la *eficiencia*, lo que la hace ideal para aquellos que están empezando en el campo del aprendizaje automático, pero también lo suficientemente robusta para los expertos en esta materia.

Como todo en python, Scikit-Learn está construida sobre los principios de la **Programación Orientada a Objetos (OOP)**, que es este concepto que venimos viendo desde el principio del curso: *en Python, todo es un objeto*.

Esto significa que en Scikit-Learn, (que fue construida sobre **numpy**, **scipy** y **matplotlib**), también, como en cualquier librería de Python, aquí todo es un objeto.


### Estructura de Scikit-Learn

A continuación vamos a ver que cuando implementamos Scikit-Learn, aplicamos un código que contiene **3 componentes principales**:
+ Estimadores
+ Transformadores
+ Predictores.

Vamos a ver un pequeño ejemplo de código, para poder identificar estos componentes.

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# Cargamos el dataset
data = load_iris()
X = data.data
y = data.target

# Dividimos el dataset en conjunto de entrenamiento y de prueba
X_entrena, X_prueba, y_entrena, y_prueba = train_test_split(X, y, test_size=0.25, random_state=0)

# Creamos una instancia del escalador
scaler = StandardScaler()

# Estimador (StandardScaler): Aprendemos los parámetros de escalado con fit
scaler.fit(X_entrena)

# Transformador (StandardScaler): Aplicamos la transformación a los datos de entrenamiento y prueba
X_entrena_escalado = scaler.transform(X_entrena)
X_prueba_escalado = scaler.transform(X_prueba)

# Creamos una instancia del modelo
modelo = LogisticRegression()

# Estimador (LogisticRegression): Entrenamos el modelo con los datos escalados
modelo.fit(X_entrena_escalado, y_entrena)

# Predictor (LogisticRegression): Hacemos predicciones y evaluamos el modelo
y_pred = modelo.predict(X_prueba_escalado)
puntaje = modelo.score(X_prueba_escalado, y_prueba)
print(f"Las predicciones son: {y_pred}")
print(f"La precisión del modelo es: {puntaje:.2f}")

Las predicciones son: [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
La precisión del modelo es: 0.97


### Análisis de los Componentes del Código

Como te decía, en el código de Scikit-Learn vamos a encontrar una estructura que contiene **3 componentes principales**: Estimadores, Transformadores, y Predictores.

Antes de identificarlos, es importante destacar que muchas veces un mismo elemento puede cumplir las funciones de distintos componentes. Por ejemplo, un *estimador*, puede cumplir luego la función de ser un *predictor*.


##### Estimadores

Los **Estimadores** son cualquier objeto del código que pueda estimar algunos parámetros basados en el dataset. La estimación misma se realiza mediante el método `fit()`, y solamente va a tomar un dataset como parámetro.

En este código de ejemplo, los estimadores son `StandardScaler` y `LogisticRegression`, ya que ambos aplican el método `fit()` y por lo tanto **ambos hacen diferentes estimaciones**:
+ `StandardScaler` determina los parámetros *media* y *desviación estándar* de cada característica
+ `LogisticRegression` aprende los *coeficientes del modelo* de regresión logística a partir de los datos, luego de que han sido escalados.


##### Transformadores

Algunos estimadores, además de hacer estimaciones, también pueden **transformar un dataset**; a estos estimadores entonces también los consideramos **Transformadores**. La transformación se realiza mediante el método `transform()`, que devuelve un nuevo conjunto de datos, que en realidad es una **modificación de los datos originales**. 
Cuando ocurre que **el mismo elemento** es un *estimador* y un *transformador*, tambien pueden usar otro método muy conveniente, llamado `fit_transform()` que en realidad es una optimización que realiza una estimación y una transformación en el mismo paso.

En el código de ejemplo, el transformador es `StandardScaler`, ya que este estimador, después de estimar los parámetros necesarios, se comporta como transformador, porque también aplica una transformación, que en este caso es la **estandarización de los datos**, escalándolos, usando el método `transform()`. Esto ya lo hemos visto en algunos ejercicios de Machine Learning, y se hace para ajustar los datos de entrada para que tengan una **media de `0`** y una **desviación estándar de `1`**.


##### Predictores

Finalmente, algunos estimadores también son capaces de hacer predicciones. A estos estimadores que pueden hacer predicciones, los llamamos **Predictores**. El predictor actúa aplicando el método `predict()`, que toma un nuevo conjunto de datos y produce **predicciones basadas en el modelo aprendido**, y también tiene un método `score()` que mide la calidad de las predicciones que ha hecho al evaluarlas con un conjunto de prueba.

En nuestro ejemplo, `LogisticRegression`, que inicialmente actuó como estimador (cuando entrenó al modelo usando los datos escalados), y que luego una vez que el modelo ha aprendido los parámetros durante el entrenamiento, ahora pasa a actuar como un *predictor*. Utiliza el método `predict()` para clasificar nuevas observaciones basándose en los coeficientes aprendidos, y luego usa el método `score()` para evaluar el rendimiento del modelo en el conjunto de prueba, proporcionando la precisión de las predicciones.

*******
Este breve ejemplo de código ha encapsulado la naturaleza y la estructura de **Scikit-Learn**: *simple*, *eficiente* y *poderoso*.

Con esto hemos cubierto los fundamentos de qué es Scikit-Learn, cómo está estructurada y hemos visto un ejemplo simple en acción par aidentificar sus componentes principales.

A medida que avanzamos en las próximas lecciones, vamos a explorar cada componente en más detalle y vamos a aprender a aprovechar al máximo esta herramienta para nuestros proyectos de Machine Learning.
