# Scikit-learn

A biblioteca **scikit-learn** é uma biblioteca que disponibiliza uma gama de modelos estatísticos especializados para o uso em *aprendizado de máquina*.

Nesta aula não será tratado o aprendizado de máquina propriamente dito, mas serão demonstrados a sintaxe do **scikit-learn** e algumas aplicações básicas em modelagem estatística.

## Regressão linear

Os modelos de regressão linear permite identificar uma relação linear entre variáveis explicativas e uma variável resposta.

O modelo é formulado da seguinte forma

$$
\min_{\omega} (X \beta - y)^2 + \alpha \beta^w
$$

em que $X$ é a matriz de covariáveis, $y$ é o vetor de respostas, $\beta$ é o vetor de coeficientes e $\alpha \geq 0$ é o parâmetro de penalização do coeficiente (quanto maior o valor $\alpha$ mais robusto à colinearidade é o modelo). Tomando $\alpha = 0$ obtém-se o modelo de regressão linear usual.

O código abaixo demonstra o uso da função `sklearn.linear_model()` para ajuste de modelos de regressão e a comparação entre as regressões Ridge e linear no ajuste de um modelo degenerado.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

from sklearn import linear_model

X_train = np.c_[0.5, 1].T
y_train = [0.5, 1]
X_test = np.c_[0, 2].T

np.random.seed(0)

classifiers = dict(
    ols=linear_model.LinearRegression(), ridge=linear_model.Ridge(alpha=0.1)
)

for name, clf in classifiers.items():
    fig, ax = plt.subplots(figsize=(4, 3))

    for _ in range(6):
        this_X = 0.1 * np.random.normal(size=(2, 1)) + X_train
        clf.fit(this_X, y_train)

        ax.plot(X_test, clf.predict(X_test), color="gray")
        ax.scatter(this_X, y_train, s=3, c="gray", marker="o", zorder=10)

    clf.fit(X_train, y_train)
    ax.plot(X_test, clf.predict(X_test), linewidth=2, color="blue")
    ax.scatter(X_train, y_train, s=30, c="red", marker="+", zorder=10)

    ax.set_title(name)
    ax.set_xlim(0, 2)
    ax.set_ylim((0, 1.6))
    ax.set_xlabel("X")
    ax.set_ylabel("y")

    fig.tight_layout()

plt.show()

In [None]:
# Dados sobre automóveis
df = pd.DataFrame(
    { "mpg": [21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4,
              22.8, 19.2, 17.8, 16.4, 17.3, 15.2, 10.4, 10.4,
              14.7, 32.4, 30.4, 33.9, 21.5, 15.5, 15.2, 13.3,
              19.2, 27.3, 26.0, 30.4, 15.8, 19.7, 15.0, 21.4],
      "cyl": [6, 6, 4, 6, 8, 6, 8, 4,
               4, 6, 6, 8, 8, 8, 8, 8,
               8, 4, 4, 4, 4, 8, 8, 8,
               8, 4, 4, 4, 8, 6, 8, 4],
      "disp": [160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7,
               140.8, 167.6, 167.6, 275.8, 275.8, 275.8, 472.0, 460.0,
               440.0,  78.7,  75.7,  71.1, 120.1, 318.0, 304.0, 350.0,
               400.0,  79.0, 120.3,  95.1, 351.0, 145.0, 301.0, 121.0],
      "hp": [110, 110,  93, 110, 175, 105, 245,  62,
              95, 123, 123, 180, 180, 180, 205, 460,
             440,  66,  52,  65,  97, 150, 150, 245,
             175,  66,  91, 113, 264, 175, 335, 109],
      "drat": [3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69,
               3.92, 3.92, 3.92, 3.07, 3.07, 3.07, 2.93, 3.00,
               3.23, 4.08, 4.93, 4.22, 3.70, 2.76, 3.15, 3.73,
               3.08, 4.08, 4.43, 3.77, 4.22, 3.62, 3.54, 4.11],
      "wt": [2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190,
             3.150, 3.440, 3.440, 4.070, 3.730, 3.780, 5.250, 5.424,
             5.345, 2.200, 1.615, 1.835, 2.465, 3.520, 3.435, 3.840,
             3.845, 1.935, 2.140, 1.513, 3.170, 2.770, 3.570, 2.780],
      "qsec": [16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00,
               22.90, 18.30, 18.90, 17.40, 17.60, 18.00, 17.98, 17.82,
               17.42, 19.47, 18.52, 19.90, 20.01, 16.87, 17.30, 15.41,
               17.05, 18.90, 16.70, 16.90, 14.50, 15.50, 14.60, 18.60],
      "vs": [0, 0, 1, 1, 0, 1, 0, 1,
             1, 1, 1, 0, 0, 0, 0, 0,
             0, 1, 1, 1, 1, 0, 0, 0,
             0, 1, 0, 1, 0, 0, 0, 1],
      "am": [1, 1, 1, 0, 0, 0, 0, 0,
             0, 0, 0, 0, 0, 0, 0, 0,
             0, 1, 1, 1, 0, 0, 0, 0,
             0, 1, 1, 1, 1, 1, 1, 1],
      "gear": [4, 4, 4, 3, 3, 3, 3, 4,
               4, 4, 4, 3, 3, 3, 3, 3,
               3, 4, 4, 4, 3, 3, 3, 3,
               3, 4, 5, 5, 5, 5, 5, 4],
      "carb": [4, 4, 1, 1, 2, 1, 4, 2,
               2, 4, 4, 3, 3, 3, 4, 4,
               4, 1, 2, 1, 1, 2, 2, 4,
               2, 1, 2, 2, 4, 6, 8, 2]
    },
    index= ["Mazda RX4", "Mazda RX4 Wag", "Datsun 710", "Hornet 4 Drive",
            "Hornet Sportabout", "Valiant", "Duster 360", "Merc 240D",
            "Merc 230", "Merc 280", "Merc 280C", "Merc 450SE",
            "Merc 450SL", "Merc 450SLC", "Cadillac Fleetwood", "Lincoln Continental",
            "Chrysler Imperial", "Fiat 128", "Honda Civic", "Toyota Corolla",
            "Toyota Corona", "Dodge Challenger", "AMC Javelin", "Camaro Z28",
            "Pontiac Firebird", "Fiat X1-9", "Porsche 914-2", "Lotus Europa",
            "Ford Pantera L", "Ferrari Dino", "Maserati Bora", "Volvo 142E"])

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

from sklearn import linear_model

X = df.loc[:, ["hp"]].to_numpy()
y = df.loc[:, ["mpg"]].to_numpy()

np.random.seed(0)

ols = linear_model.LinearRegression()
ridge = linear_model.Ridge(alpha=0.1)

Xt = pd.DataFrame(np.array(range(50, 455, 5)))

ols.fit(X, y)
fig, ax = plt.subplots(figsize=(4, 3))


ax.plot(Xt, ols.predict(Xt), color="gray")
ax.scatter(X, y, s = 3, c= "blue", marker= "o")
ax.set_title("Regressão linear")
ax.set_xlabel("Potência (HP)")
ax.set_ylabel("Consumo (milha/gal.)")

plt.show()


ridge.fit(X, y)
fig, ax = plt.subplots(figsize=(4, 3))


ax.plot(Xt, ridge.predict(Xt), color="gray")
ax.scatter(X, y, s = 3, c= "blue", marker= "o")
ax.set_title("Regressão Ridge")
ax.set_xlabel("Potência (HP)")
ax.set_ylabel("Consumo (milha/gal.)")

plt.show()


## Classificação de objetos

Os modelos de regressão podem, por exemplo, serem utilizados para fazer a classificação de objetos. Abaixo há um exemplo do uso da *regressão Ridge* para classificar documentos de blogs com relação à sua origem. Uma adaptação deste modelo permite, por exemplo, implementar algoritmos de análise de sentimento para textos diversos (basta trocar a indicação de origem por variáveis indicadoras de sentimentos nos textos de treinamento para calibrar o modelo).

In [None]:
from time import time

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer

categories = [
    "alt.atheism",
    "talk.religion.misc",
    "comp.graphics",
    "sci.space",
]


def size_mb(docs):
    return sum(len(s.encode("utf-8")) for s in docs) / 1e6


def load_dataset(verbose=False, remove=()):
    """Load and vectorize the 20 newsgroups dataset."""

    data_train = fetch_20newsgroups(
        subset="train",
        categories=categories,
        shuffle=True,
        random_state=42,
        remove=remove,
    )

    data_test = fetch_20newsgroups(
        subset="test",
        categories=categories,
        shuffle=True,
        random_state=42,
        remove=remove,
    )

    # order of labels in `target_names` can be different from `categories`
    target_names = data_train.target_names

    # split target in a training set and a test set
    y_train, y_test = data_train.target, data_test.target

    # Extracting features from the training data using a sparse vectorizer
    t0 = time()
    vectorizer = TfidfVectorizer(
        sublinear_tf=True, max_df=0.5, min_df=5, stop_words="english"
    )
    X_train = vectorizer.fit_transform(data_train.data)
    duration_train = time() - t0

    # Extracting features from the test data using the same vectorizer
    t0 = time()
    X_test = vectorizer.transform(data_test.data)
    duration_test = time() - t0

    feature_names = vectorizer.get_feature_names_out()

    if verbose:
        # compute size of loaded data
        data_train_size_mb = size_mb(data_train.data)
        data_test_size_mb = size_mb(data_test.data)

        print(
            f"{len(data_train.data)} documentos - "
            f"{data_train_size_mb:.2f}MB (conjunto de treinamento)"
        )
        print(f"{len(data_test.data)} documentos - {data_test_size_mb:.2f}MB (conjunto de teste)")
        print(f"{len(target_names)} categorias")
        print(
            f"vetorização do conjunto de treinamento concluído em {duration_train:.3f}s "
            f"a {data_train_size_mb / duration_train:.3f}MB/s"
        )
        print(f"amostras: {X_train.shape[0]}, características: {X_train.shape[1]}")
        print(
            f"vetorização do conjunto de teste concluído em {duration_test:.3f}s "
            f"at {data_test_size_mb / duration_test:.3f}MB/s"
        )
        print(f"amostras: {X_test.shape[0]}, características: {X_test.shape[1]}")

    return X_train, X_test, y_train, y_test, feature_names, target_names

Usando a função definida acima é possível carregar os textos dos grupos de discussão.

In [None]:
X_train, X_test, y_train, y_test, feature_names, target_names = load_dataset(
    verbose=True
)

Os textos são classificados utilizando uma regressão Ridge.

In [None]:
from sklearn.linear_model import RidgeClassifier

clf = RidgeClassifier(tol=1e-2, solver="sparse_cg")
clf.fit(X_train, y_train)
pred = clf.predict(X_test)

O resultado é uma matriz de confundimento, na qual se mostra a quantidade de textos classificados pelo algoritmo (com relação à origem) em comparação com a origem real.

In [None]:
import matplotlib.pyplot as plt

from sklearn.metrics import ConfusionMatrixDisplay

fig, ax = plt.subplots(figsize=(10, 5))
ConfusionMatrixDisplay.from_predictions(y_test, pred, ax=ax)
ax.xaxis.set_ticklabels(target_names)
ax.yaxis.set_ticklabels(target_names)
_ = ax.set_title(
    f"Matriz de confundimento para {clf.__class__.__name__}\nsobre os documentos originais"
)

Cada palavra do texto (característica) possui um efeito associado à classificação em cada uma das listas de discussão.

In [None]:
import numpy as np
import pandas as pd


def plot_feature_effects():
    # learned coefficients weighted by frequency of appearance
    average_feature_effects = clf.coef_ * np.asarray(X_train.mean(axis=0)).ravel()

    for i, label in enumerate(target_names):
        top5 = np.argsort(average_feature_effects[i])[-5:][::-1]
        if i == 0:
            top = pd.DataFrame(feature_names[top5], columns=[label])
            top_indices = top5
        else:
            top[label] = feature_names[top5]
            top_indices = np.concatenate((top_indices, top5), axis=None)
    top_indices = np.unique(top_indices)
    predictive_words = feature_names[top_indices]

    # plot feature effects
    bar_size = 0.25
    padding = 0.75
    y_locs = np.arange(len(top_indices)) * (4 * bar_size + padding)

    fig, ax = plt.subplots(figsize=(10, 8))
    for i, label in enumerate(target_names):
        ax.barh(
            y_locs + (i - 2) * bar_size,
            average_feature_effects[i, top_indices],
            height=bar_size,
            label=label,
        )
    ax.set(
        yticks=y_locs,
        yticklabels=predictive_words,
        ylim=[
            0 - 4 * bar_size,
            len(top_indices) * (4 * bar_size + padding) - 4 * bar_size,
        ],
    )
    ax.legend(loc="lower right")

    print("top 5 keywords per class:")
    print(top)

    return ax


_ = plot_feature_effects().set_title("Efeito médio das características sobre os dados originais")

## Agrupamento de objetos

Além de regressão e classificação de objetos, a biblioteca *scikit* permite realizar o agrupamento de objetos. O exemplo abaixo mostra o agrupamento de imagens de dígitos escritos à mão. O objetivo é identificar se apenas as diferenças na grafia destes dígitos permitiriam identificar de forma satisfatória cada dígito de acordo com diferentes métodos de agrupamento hierárquico.

In [None]:
# Authors: Gael Varoquaux
# License: BSD 3 clause (C) INRIA 2014

from time import time

import numpy as np
from matplotlib import pyplot as plt

from sklearn import datasets, manifold

digits = datasets.load_digits()
X, y = digits.data, digits.target
n_samples, n_features = X.shape

np.random.seed(0)


# ----------------------------------------------------------------------
# Visualize the clustering
def plot_clustering(X_red, labels, title=None):
    x_min, x_max = np.min(X_red, axis=0), np.max(X_red, axis=0)
    X_red = (X_red - x_min) / (x_max - x_min)

    plt.figure(figsize=(6, 4))
    for digit in digits.target_names:
        plt.scatter(
            *X_red[y == digit].T,
            marker=f"${digit}$",
            s=50,
            c=plt.cm.nipy_spectral(labels[y == digit] / 10),
            alpha=0.5,
        )

    plt.xticks([])
    plt.yticks([])
    if title is not None:
        plt.title(title, size=17)
    plt.axis("off")
    plt.tight_layout(rect=[0, 0.03, 1, 0.95])


# ----------------------------------------------------------------------
# 2D embedding of the digits dataset
print("Computing embedding")
X_red = manifold.SpectralEmbedding(n_components=2).fit_transform(X)
print("Done.")

from sklearn.cluster import AgglomerativeClustering

for linkage in ("ward", "average", "complete", "single"):
    clustering = AgglomerativeClustering(linkage=linkage, n_clusters=10)
    t0 = time()
    clustering.fit(X_red)
    print("%s :\t%.2fs" % (linkage, time() - t0))

    plot_clustering(X_red, clustering.labels_, "%s linkage" % linkage)


plt.show()