# Visão geral da biblioteca `sklearn`
Esse notebook faz parte do material de apoio do tutorial [Introdução ao Scikit-learn - Parte 1: uma visão geral](http://computacaointeligente.com.br/outros/intro-sklearn-part-2/)

**Observação:** os dados e funções neste notebook servem apenas para exemplificar os módulos da biblioteca

## Estimadores básicos

In [None]:
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier()
X = [[1, 2, 3, 4],  # Entrada com 3 amostras de 4 atributos
     [4, 5, 6, 7],  
     [7, 8, 9, 8]]
y = [0, 1, 1] # Uma saída para cada amostra
mlp.fit(X, y)
X_teste = [[1, 6, 3, 1],  # Teste com 2 amostras
           [4, 2, 4, 9]]
y_pred = mlp.predict(X_teste) # y_pred será um array com duas predições, ex: [1, 0]

## Pré-processamento e transformadores

In [None]:
from sklearn.preprocessing import MaxAbsScaler
normalizador = MaxAbsScaler()
X = [[1, 2, 3, 4],  # Entrada com 3 amostras de 4 atributos
     [4, 5, 6, 7],  
     [7, 8, 9, 8]]
normalizador.fit(X) # Calcula o max de cada atributo
X_teste = [[1, 6, 3, 1],
           [4, 2, 4, 9]]
X_teste_norm = normalizador.transform(X_teste) # normaliza X_teste de acordo com X
print("Dados originais:")
print(X_teste)
print("\nDados normalizados:")
print(X_teste_norm)

## Avaliação de modelos

In [None]:
from sklearn.metrics import accuracy_score, balanced_accuracy_score
y = [1, 0, 1, 0]
y_pred = [0, 0, 1, 0]
print(f"Acuracia: {accuracy_score(y, y_pred)}")
print(f"Acurácia balanceada: {balanced_accuracy_score(y, y_pred)}")

## Pipelines

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import MaxAbsScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, balanced_accuracy_score
from sklearn.model_selection import train_test_split

X = [[1, 2, 3, 4],  
     [4, 5, 6, 7],  
     [7, 8, 9, 8],
     [1, 5, 7, 9]]
y = [0, 1, 1, 0] 
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, random_state=0)
meu_pipeline = Pipeline(steps=[
  ("normalizacao", MaxAbsScaler()),  
  ("MLP", MLPClassifier())
])
meu_pipeline.fit(X_treino, y_treino)
y_pred = meu_pipeline.predict(X_teste)
print(f"Acuracia: {accuracy_score(y_teste, y_pred)}")
print(f"Acurácia balanceada: {balanced_accuracy_score(y_teste, y_pred)}")

## Busca automática de parâmetros

In [None]:
from sklearn.model_selection import GridSearchCV
param_busca={
  'MLP__learning_rate_init': [0.1, 0.01, 0.001]
}
buscador = GridSearchCV(estimator=meu_pipeline, param_grid=param_busca, cv=2)
buscador.fit(X, y)
print("Melhor LR:", buscador.best_params_)
print("Score:", buscador.score)