<h1>Scikit-learn</h1>

From Oficial site: https://scikit-learn.org

"In order to avoid potential conflicts with other packages it is strongly recommended to use a virtual environment (venv) or a conda environment." 

Here we use a venv ( https://github.com/FabioRochaPoeta/initializaing-git-automated-power-shell ) in 3 basic examples. User guide: https://scikit-learn.org/stable/user_guide.html

And here is 15 most important features of this library: https://www.analyticsvidhya.com/blog/2021/07/15-most-important-features-of-scikit-learn/

O QUE É

Uma biblioteca da linguagem Python open source de análise de dados, a mais útil e robusta para Machine Learning. Resumo do USER GUIDE:
- Supervised / Unsupervised learning
- Model selection and evaluation
- Inspection
- Visualizations
- Dataset transformations / Loading utilities

USOS

Desenvolvimento de modelos de classificação e regressão para previsão de resultados em problemas de negócios e científicos;
Análise de dados e extração de insights por meio de técnicas de clusterização e decomposição de dados;
Pré-processamento de dados, incluindo tratamento de dados faltantes, normalização, codificação de variáveis categóricas e seleção de características relevantes para o modelo;
Seleção e ajuste de modelos de aprendizado de máquina, incluindo a escolha de hiperparâmetros e avaliação de desempenho por meio de validação cruzada

VANTAGENS

Ser uma biblioteca de código aberto, com uma grande comunidade de desenvolvedores e usuários ativos que contribuem com novos recursos e correções de bugs;
Possuir uma interface consistente e intuitiva que facilita o desenvolvimento de modelos de aprendizado de máquina;
Ter uma documentação abrangente e de alta qualidade, com muitos exemplos e tutoriais que ajudam a entender os conceitos e as funcionalidades da biblioteca;
Ser compatível com outras bibliotecas populares do ecossistema de ciência de dados do Python, como NumPy, Pandas e Matplotlib.

In [2]:
# Installing
%pip install -U scikit-learn

Collecting scikit-learn
  Using cached scikit_learn-1.2.2-cp310-cp310-win_amd64.whl (8.3 MB)
Collecting threadpoolctl>=2.0.0
  Using cached threadpoolctl-3.1.0-py3-none-any.whl (14 kB)
Collecting scipy>=1.3.2
  Using cached scipy-1.10.1-cp310-cp310-win_amd64.whl (42.5 MB)
Collecting joblib>=1.1.1
  Using cached joblib-1.2.0-py3-none-any.whl (297 kB)
Installing collected packages: threadpoolctl, scipy, joblib, scikit-learn
Successfully installed joblib-1.2.0 scikit-learn-1.2.2 scipy-1.10.1 threadpoolctl-3.1.0
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.0.1 -> 23.1
[notice] To update, run: python.exe -m pip install --upgrade pip


# Cross-griding e Pipeline

Cross-Griding e Pipeline são duas funcionalidades importantes da biblioteca Scikit-Learn para desenvolvimento de modelos de aprendizado de máquina.

Cross-Griding, ou busca em grade com validação cruzada, é uma técnica que permite testar diferentes combinações de hiperparâmetros para um modelo de aprendizado de máquina, a fim de encontrar a combinação que oferece o melhor desempenho em dados novos e desconhecidos.

O objetivo é explorar o espaço de parâmetros do modelo, testando todas as combinações possíveis, a fim de encontrar os melhores parâmetros que otimizam o desempenho do modelo. A validação cruzada é utilizada para avaliar o desempenho do modelo para cada combinação de parâmetros testados.

Já o Pipeline é uma técnica que permite encadear vários passos de pré-processamento de dados e modelagem em um único objeto. Isso facilita o desenvolvimento de modelos de aprendizado de máquina, pois evita a repetição de código para cada etapa do processo.

Com o Pipeline, é possível definir uma sequência de transformações para pré-processar os dados (por exemplo, normalização, seleção de características, codificação de variáveis categóricas) e um modelo de aprendizado de máquina para treinar e testar os dados. Em seguida, podemos executar a busca em grade (Grid Search) nos hiperparâmetros do modelo com validação cruzada, como explicado anteriormente.

Usar Cross-Griding com validação cruzada e Pipeline em conjunto pode trazer muitos benefícios, uma vez que podemos testar diferentes combinações de pré-processamento de dados e parâmetros do modelo, garantindo que o modelo final tenha o melhor desempenho possível. Além disso, essa técnica permite economizar tempo e evitar erros, já que todo o processo é automatizado e sequencial.

Neste exemplo, estamos usando o conjunto de dados Iris para treinar um modelo SVM. Primeiro, carregamos os dados e os dividimos em conjuntos de treinamento e teste. Em seguida, definimos um pipeline que normaliza os dados e treina um modelo SVM. Também definimos um grid de parâmetros a serem testados pelo Grid Search, que consiste em diferentes valores para os parâmetros C e kernel do SVM.

Ao executar o Grid Search com validação cruzada, o Scikit-Learn testa todas as combinações de valores de parâmetros do grid e retorna o melhor conjunto de parâmetros encontrados. Finalmente, avaliamos o desempenho do modelo com os dados de teste e imprimimos o score final e os melhores parâmetros encontrados pelo Grid Search.



In [3]:
# Importação das bibliotecas necessárias
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC

# Carregamento dos dados
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# Definição do pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # normalização dos dados
    ('svm', SVC())  # modelo SVM
])

# Definição do grid de parâmetros a serem testados
param_grid = {
    'svm__C': [0.1, 1, 10],  # parâmetro C do SVM
    'svm__kernel': ['linear', 'rbf'],  # parâmetro kernel do SVM
}

# Configuração do Grid Search com validação cruzada
grid_search = GridSearchCV(pipeline, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Avaliação do desempenho do modelo
score = grid_search.score(X_test, y_test)
print(f"Score final: {score:.2f}")

# Imprime os melhores parâmetros encontrados
print(f"Melhores parâmetros: {grid_search.best_params_}")


Score final: 0.97
Melhores parâmetros: {'svm__C': 1, 'svm__kernel': 'linear'}


<h2>1. Preprocessing (Dataset Transformations)</h2> - https://scikit-learn.org/stable/modules/preprocessing.html

O escalonamento de dados é uma etapa de pré-processamento de dados para recursos numéricos. Muitos algoritmos de aprendizado de máquina, como métodos de descida gradiente, algoritmo KNN, regressão linear e logística, etc., requerem escalonamento de dados para produzir bons resultados.

O Standard Scaler ajuda a obter uma distribuição padronizada, com média zero e desvio padrão de um (variância da unidade). Ele padroniza os recursos subtraindo o valor médio do recurso e, em seguida, dividindo o resultado pelo desvio padrão do recurso. 

A escala padrão é calculada como: 

z = (x - u) / s

Onde,

z são dados em escala.
x deve ser um dado escalado.
u é a média das amostras de treinamento
s é o desvio padrão das amostras de treinamento.

Sintaxe: class sklearn.preprocessing.StandardScaler (*, copy = True, with_mean = True, with_std = True)

Parâmetros:
copy: Se False, o dimensionamento local é feito. Se True, a cópia é criada em vez do dimensionamento local.
with_mean: se True, os dados são centralizados antes do escalonamento.
with_std: se True, os dados são escalados para a variação da unidade.

In [12]:
from sklearn.preprocessing import StandardScaler

# Load dataset - create an instance of the StandardScaler class and fit it to the data using the fit method
X = [[1, -1, 2], 
     [2, 0, 0], 
     [0, 1, -1]]
scaler = StandardScaler().fit(X)

# Transform the data using the transform method and store the scaled data in the X_scaled variable
X_scaled = scaler.transform(X)

# Print results - print both the original and scaled data to the console
print("Original data:\n", X, "\n\n")
print("Scaled data:\n", X_scaled)


Original data:
 [[1, -1, 2], [2, 0, 0], [0, 1, -1]] 


Scaled data:
 [[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


<h2>2. Cross-Validating (Model selection and evaluation)</h2> - https://scikit-learn.org/stable/modules/cross_validation.html

Cross Validation é uma técnica muito utilizada para avaliação de desempenho (validação) de modelos de aprendizado de máquina. O CV consiste em particionar os dados em conjuntos(partes), onde um conjunto é utilizado para treino e outro conjunto é utilizado para teste e avaliação do desempenho do modelo.

A validação cruzada é um método de reamostragem e tem como objetivo avaliar a capacidade de generalização do seu modelo. Em outras palavras, verificar o quão pronto seu modelo está para receber novos dados. Quando nós estamos avaliando nosso modelo, seja usando a função .score() do Scikit-learn ou qualquer outra, nosso principal objetivo é saber quão bem nosso modelo irá generalizar, ou seja, ela serve para sabermos se o nosso modelo será efetivo ao receber um dado que ele nunca viu na vida.

Ao executarmos essa função, nós teremos que passar dois principais parâmetros nela: as features de treino ou teste (X), e a label — ou rótulo — esperada (Y).

A função cross_val_score tem como resultado de saída uma lista com os scores de cada iteração feita com cada parte(fold) do método cross validation. 

Como resultado dessa função, você deverá receber um número que vai de 0.0 a 1.0, onde quanto mais próximo de 1.0, melhor. Mas, não se esqueça que é muito importante que seu modelo não tenha um score absurdamente alto no conjunto de treino, enquanto no de teste ele está bem baixo. Quando isso acontece, você está enfrentando um problema de Overfitting — quando o modelo “adivinha” muito bem os dados que foram usados para treiná-lo, mas ele não consegue se sair muito bem com dados que nunca viu. Há também os casos de Underfitting, onde seu modelo não consegue entender a tendência dos dados

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

# Load dataset - load the Iris dataset using the load_iris function
iris = load_iris()

# Train model with cross-validation - create an instance of the DecisionTreeClassifier class 
# and use the cross_val_score function to train and evaluate the model using 5-fold cross-validation
model = DecisionTreeClassifier()
scores = cross_val_score(model, iris.data, iris.target, cv=5)

# Print results - print the cross-validation scores and their mean to the console
print("Cross-validation scores:", scores)
print("Mean score:", scores.mean())


Cross-validation scores: [0.96666667 0.96666667 0.9        0.96666667 1.        ]
Mean score: 0.9600000000000002


In [8]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

<h2>3. Clustering Data (Unsupervised learning)</h2> - https://scikit-learn.org/stable/modules/clustering.html#overview-of-clustering-methods

A clusterização de dados é uma técnica que visa fazer agrupamentos automáticos de dados, levando em consideração o grau de semelhança, tem por objetivo agrupar através de aprendizado não supervisionado casos de uma base em k grupos, também denominados clusters.

K-Means é um algoritmo de clusterização (ou agrupamento) disponível na biblioteca Scikit-Learn.

É um algoritmo de aprendizado não supervisionado (ou seja, que não precisa de inputs de confirmação externos) que avalia e clusteriza os dados de acordo com suas características, como por exemplo:

lojas/centro logístico
clientes/produtos ou serviços semelhantes
clientes/características semelhantes
séries/gênero da série ou faixa etária
usuarios de uma rede social/usuario influenciador
paciente/sintoma ou característica semelhante

Por exemplo, se eu tenho uma rede de lojas com abrangência nacional, qual seria os melhores lugares para construir os centros logísticos de abastecimento?

Podemos começar a responder isso com K-means.

Como funciona?
Primeiro, preciso definir um ‘K’, ou seja, um número de clusters (ou agrupamentos).
Depois, preciso definir, aleatoriamente, um centroide para cada cluster.
O próximo passo é calcular, para cada ponto, o centroide de menor distância. Cada ponto pertencerá ao centroide mais próximo (lembrar do exemplo do CD logístico e das lojas: cada loja (ponto) deve ser atendida pelo CD (centróide) mais próximo)
Agora, devo reposicionar o centróide. A nova posição do centroide deve ser a média da posição de todos os pontos do cluster.
Os dois ultimos passos são repetidos, iterativamente, até obtermos a posição ideal dos centróides.

In [9]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# Generate synthetic data - with 3 clusters (centers)
X, y = make_blobs(n_samples=1000, centers=3, random_state=42)

# Cluster data - instance of the KMeans class with three clusters and fit it to the data using the fit_predict method
kmeans = KMeans(n_clusters=3, random_state=42)
labels = kmeans.fit_predict(X)

# Print results - print the cluster labels assigned by the algorithm to the console
print("Cluster labels:", labels)


Cluster labels: [0 0 1 2 2 0 1 1 1 1 2 0 2 1 1 1 2 2 2 2 1 0 0 0 1 2 2 2 1 1 0 0 1 2 2 0 0
 1 0 0 2 1 2 0 2 0 2 2 0 1 0 2 1 0 2 0 2 2 2 1 1 2 0 0 2 2 0 1 1 2 0 2 1 1
 1 0 1 2 2 2 1 2 2 2 1 0 1 0 2 2 2 2 1 1 0 1 0 2 1 1 1 0 0 2 0 1 1 2 1 2 0
 1 1 1 2 1 0 0 1 2 2 1 0 1 0 0 1 0 1 1 2 1 1 0 2 0 2 1 1 1 2 2 0 0 0 2 1 2
 2 2 2 0 1 0 2 1 2 1 2 0 1 2 2 1 2 2 1 1 0 0 1 2 2 1 2 0 1 0 1 0 2 1 2 1 2
 0 2 0 2 0 1 2 1 1 2 0 1 1 1 0 2 1 2 2 1 2 1 2 2 1 1 0 0 1 1 2 0 2 0 1 0 0
 1 2 0 2 2 1 0 2 2 0 2 0 1 1 0 1 0 1 0 0 0 1 0 2 1 2 1 2 1 1 0 1 2 1 2 1 1
 1 1 2 0 1 0 0 1 2 2 0 1 2 1 1 2 0 2 0 0 1 0 1 0 1 1 2 2 1 2 0 0 2 1 1 0 2
 1 0 0 2 0 0 1 0 2 1 0 1 0 0 0 0 0 1 0 0 1 2 0 0 1 0 0 1 0 1 2 1 2 2 1 1 0
 0 0 2 0 1 0 1 0 1 1 1 2 2 0 0 2 2 2 2 2 1 2 2 1 2 2 0 1 1 1 1 0 1 0 0 0 1
 1 2 2 1 2 1 2 0 1 2 0 1 0 1 1 0 2 0 1 0 1 2 0 2 0 0 0 2 1 2 2 0 2 1 2 0 1
 2 2 0 1 2 0 0 0 1 0 2 0 1 2 2 2 2 2 0 1 0 1 1 2 2 0 2 0 1 0 1 0 2 0 0 0 1
 2 2 1 2 0 0 0 0 2 2 0 2 1 0 1 2 1 1 2 2 1 1 1 0 1 2 0 2 2 0 0 1 0 2 1 2 0
 1 0 1 1 



In [11]:
X,y

(array([[-6.59633932, -7.13901457],
        [-6.13753182, -6.58081701],
        [ 5.19820575,  2.04917508],
        ...,
        [ 3.69047995,  4.60555175],
        [ 4.03036663,  1.78619838],
        [-7.44179522, -7.08933147]]),
 array([2, 2, 1, 0, 0, 2, 1, 1, 1, 1, 0, 2, 0, 1, 1, 1, 0, 0, 0, 0, 1, 2,
        2, 2, 1, 0, 0, 0, 1, 1, 2, 2, 1, 0, 0, 2, 2, 1, 2, 2, 0, 1, 0, 2,
        0, 2, 0, 0, 2, 1, 2, 0, 1, 2, 0, 2, 0, 0, 0, 1, 1, 0, 2, 2, 0, 0,
        2, 1, 1, 0, 2, 0, 1, 1, 1, 2, 1, 0, 0, 0, 1, 0, 0, 0, 1, 2, 1, 2,
        0, 0, 0, 0, 1, 1, 2, 1, 2, 0, 1, 1, 1, 2, 2, 0, 2, 1, 1, 0, 1, 0,
        2, 1, 1, 1, 0, 1, 2, 2, 1, 0, 0, 1, 2, 1, 2, 2, 1, 2, 1, 1, 0, 1,
        1, 2, 0, 2, 0, 1, 1, 1, 0, 0, 2, 2, 2, 0, 1, 0, 0, 0, 0, 2, 1, 2,
        0, 1, 0, 1, 0, 2, 1, 0, 0, 1, 0, 0, 1, 1, 2, 2, 1, 0, 0, 1, 0, 2,
        1, 2, 1, 2, 0, 1, 0, 1, 0, 2, 0, 2, 0, 2, 1, 0, 1, 1, 0, 2, 1, 1,
        1, 2, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 2, 2, 1, 1, 0, 2, 0, 2, 1,
        2, 2, 1, 0, 2, 0, 0, 