# Introducción a Scikit-Learn

**NOTAS DE LA CLASE:**

Hay 3 conceptos fundamentales de la estructura de Scikit-Learn a tener en cuenta:

1. **Estimadores:** Cualquier objeto del código que pueda servir para estimar algunos parámetros que estén basados en el dataset. La estimación se realiza con el método `fit()`. Generalmente, se usan al comienzo (después de crear la instancia del escalador o del modelo).

2. **Transformadores:** Objetos (frecuentemente, estimadores) que cambian el estado de otros objetos (por ejemplo, un dataset). Se distinguen en el código por el método `transform()`. Son extremadamente útiles para normalizar los datos.

3. **Predictores:** Se les llama así a los estimadores que, sin mayor sorpresa, también pueden generar predicciones a partir de sus estimaciones basadas en los datos. Las predicciones se realizan llamando al método `predict()`. También pueden evaluar la precisión de sus predicciones con el método `score()`.

## Caso de ejemplo

In [None]:
import numpy as np

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler     # estimador/transformador
from sklearn.linear_model import LogisticRegression  # estimador/predictor
from sklearn.utils._bunch import Bunch

In [10]:
data: Bunch = load_iris()
data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [11]:
type(data)

sklearn.utils._bunch.Bunch

In [15]:
X: np.ndarray = data['data']
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [16]:
type(X)

numpy.ndarray

In [17]:
y: np.ndarray = data['target']
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [19]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.25,
    random_state=0
)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((112, 4), (38, 4), (112,), (38,))

In [None]:
scaler: StandardScaler = StandardScaler()

In [None]:
scaler.fit(X_train)  # estimador

In [None]:
X_train_scaled: np.ndarray = scaler.transform(X_train)  # transformador
X_test_scaled: np.ndarray = scaler.transform(X_test)    # transformador
X_train_scaled, X_test_scaled

(array([[ 1.54399532e-02, -1.19254753e-01,  2.25126850e-01,
          3.55797625e-01],
        [-9.98450310e-02, -1.04039491e+00,  1.13559562e-01,
         -2.98410911e-02],
        [ 1.05300481e+00, -1.19254753e-01,  9.50314227e-01,
          1.12707506e+00],
        [-1.36797986e+00,  3.41315328e-01, -1.39259884e+00,
         -1.31530348e+00],
        [ 1.16828980e+00,  1.11030287e-01,  7.27179649e-01,
          1.38416753e+00],
        [-1.02212490e+00,  1.03217045e+00, -1.22524790e+00,
         -8.01118523e-01],
        [-5.60984968e-01,  1.49274053e+00, -1.28103155e+00,
         -1.31530348e+00],
        [-1.02212490e+00, -2.42210516e+00, -1.65358660e-01,
         -2.86933568e-01],
        [ 7.07149859e-01, -1.19254753e-01,  9.50314227e-01,
          7.41436341e-01],
        [ 9.37719827e-01,  5.71600368e-01,  1.06188152e+00,
          1.64126001e+00],
        [ 1.30724937e-01, -1.96153508e+00,  6.71396005e-01,
          3.55797625e-01],
        [ 9.37719827e-01, -1.27067995e+00, 

Nótese que `StandardScaler` funciona tanto como _estimador_ como _transformador_.

In [25]:
model: LogisticRegression = LogisticRegression()

In [None]:
model.fit(X_train_scaled, y_train)  # estimador

In [27]:
y_pred: np.ndarray = model.predict(X_test_scaled)  # predictor
y_pred

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2])

In [None]:
score: float = model.score(X_test_scaled, y_test)
score

0.9736842105263158

In [29]:
print(f'Las predicciones son: {y_pred}')
print(f'El puntaje para la precisión del modelo es: {score:.2f}')

Las predicciones son: [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
El puntaje para la precisión del modelo es: 0.97
