<a href="https://colab.research.google.com/github/Andersonsstr/Exemplos-Simples-Machine-Learn-Sklearn-/blob/main/Exemplos_Simples.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [30]:
#Preparando os dados para utilizar nos testes e dividindo eles para treino e teste
import numpy as np
from sklearn.model_selection import train_test_split

X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1], [-4, -3], [-5, -1], [5, 2], [3, 2]])
y = np.array([1, 1, 2, 2, 1, 1, 2, 2])
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
print("Conjunto Treino X:", X_train)
print("Conjunto Teste X:", X_test)
print("Conjunto Treino Y:", y_train)
print("Conjunto Teste Y:", y_test)

Conjunto Treino X: [[-2 -1]
 [ 3  2]
 [ 2  1]
 [-1 -1]
 [-5 -1]
 [-4 -3]]
Conjunto Teste X: [[5 2]
 [1 1]]
Conjunto Treino Y: [1 2 2 1 1 1]
Conjunto Teste Y: [2 2]


#Regressão Logística

In [None]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
model = lr.fit(X_train, y_train)

In [None]:
print("Dados de teste: ", X_test)
print("Predictions X Test:", model.predict(X_test))
print("Predictions Manual:", model.predict([[-1, -2], [1,0], [10,20], [-1,-1]]))

Dados de teste:  [[5 2]
 [1 1]]
Predictions X Test: [2 2]
Predictions Manual: [1 2 2 1]


#Gradiente Estocástico Descendente


In [None]:
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

clf = make_pipeline(StandardScaler(),
                    SGDClassifier(max_iter=1000, tol=1e-3))
clf.fit(X, y)

Pipeline(memory=None,
         steps=[('standardscaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('sgdclassifier',
                 SGDClassifier(alpha=0.0001, average=False, class_weight=None,
                               early_stopping=False, epsilon=0.1, eta0=0.0,
                               fit_intercept=True, l1_ratio=0.15,
                               learning_rate='optimal', loss='hinge',
                               max_iter=1000, n_iter_no_change=5, n_jobs=None,
                               penalty='l2', power_t=0.5, random_state=None,
                               shuffle=True, tol=0.001, validation_fraction=0.1,
                               verbose=0, warm_start=False))],
         verbose=False)

In [None]:
print(clf.predict([[2, 3], [-1, -2], [1,0], [-1, -3]]))

[2 1 2 1]


#Classificador de Árvore Randômica

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()
rf_model = rf.fit(X_train, y_train)

In [None]:

print("Predictions X Test:", rf_model.predict(X_test))
print("Predictions Manual:", rf_model.predict([[-1, -2], [1,2], [10,20], [-1,-1]]))

Predictions X Test: [2 2]
Predictions Manual: [1 2 2 1]


#Pré Processamento

Na maioria dos projetos de aprendizado de máquina do mundo real, os dados que você usa não estarão necessariamente prontos para treinar um modelo. É altamente provável que primeiro você precise executar algumas etapas de pré-processamento e transformação de dados, como manipulação de valores ausentes, transformação de dados categóricos em numéricos ou aplicação de escala de recursos.

O Scikit-learn possui métodos integrados para executar essas etapas de pré-processamento. Por exemplo, o SimpleImputer () preenche os valores ausentes usando um método de sua escolha.

---

In [None]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')
X_train_clean = imputer.fit(X_train)

#Avaliação

Uma vez que um modelo tenha sido treinado, você precisa medir o quão bom ele é na previsão de novos dados. Esta etapa é conhecida como avaliação do modelo e a métrica que você escolher será determinada pela tarefa que você está tentando resolver. Por exemplo, normalmente em um problema de regressão, você pode escolher RMSE, enquanto para classificação você pode escolher a pontuação F1.

Todos os estimadores incluem um método score () que retorna uma métrica padrão que é mais relevante para a tarefa de aprendizado de máquina que executam.

Além disso, o Scikit-learn possui um conjunto de funções métricas que fornecem uma avaliação mais detalhada para um modelo. Como exemplo, para tarefas de classificação, a biblioteca possui um relatório de classificação que fornece precisão, recall, pontuação F1 e acurácia geral.

---

In [24]:
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()
rf_model = rf.fit(X_train, y_train)
rf_predictions = rf_model.predict(X_test)
print(classification_report(rf_predictions, y_test))

              precision    recall  f1-score   support

           2       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



#Otimização de Modelo


Todos os estimadores na biblioteca Scikit-learn contêm uma variedade de parâmetros, para os quais existem várias opções. Os valores que você escolhe para um determinado algoritmo afetarão o desempenho do modelo final. Por exemplo, com o RandomForestClassifier você pode definir o max_depth da árvore para potencialmente qualquer valor e, dependendo de seus dados e tarefa, diferentes valores para este parâmetro produzirão resultados diferentes.

Este processo de tentar diferentes combinações de parâmetros para encontrar a combinação ideal é conhecido como **otimização de hiperparâmetros**.

O Scikit-learn fornece duas ferramentas para realizar essa tarefa automaticamente, **GridSearchCV** , que implementa uma técnica conhecida como pesquisa exaustiva em grade, e **RandomizedSearchCV**, que executa a **otimização de parâmetros aleatórios**.

O exemplo a seguir usa GridSearchCV para encontrar os parâmetros ideais para o RandomForestClassifier. A saída é mostrada abaixo do código.

---



In [32]:
param_grid = { 
    'n_estimators': [200, 500],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth' : [4,5,6,7,8],
    'criterion' :['gini', 'entropy']
}
from sklearn.model_selection import GridSearchCV
CV = GridSearchCV(rf, param_grid, n_jobs= 1)
print(X_train, y_train) 
print(CV)                 
CV.fit(X_train, y_train)  
print(CV.best_params_)    
print(CV.best_score_)

[[-2 -1]
 [ 3  2]
 [ 2  1]
 [-1 -1]
 [-5 -1]
 [-4 -3]] [1 2 2 1 1 1]
GridSearchCV(cv=None, error_score=nan,
             estimator=RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                                              class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              max_samples=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators=100, n_jobs=None,
                                          

ValueError: ignored