<a href="https://colab.research.google.com/github/Rogerio-mack/work/blob/main/IMT_estimadores_scikitlearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="ITM">
</head>

<img src="https://maua.br/images/selo-60-anos-maua.svg" width=300, align="right">
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


# **Estimadores do `scikit-learn` para Classificação e Regressão**
---

Veja aqui a forma geral de aplicar os estimadores do `scikit-learn` para problemas de classificação e regressão.



Os estimadores, sejam para classificação ou regressão, seguem a mesma lógica. O `scikit-learn` também emprega estimadores para muitas outras transformações, como encodes e normalizações, e mesmo para modelos não supervisionados. Por isso é muito importante que você entenda a forma de funcionamento dos estimadores.

<small> *Click for animation* 📺

[<img src="https://github.com/Rogerio-mack/work/raw/main/IMT/Slide2.PNG" width=700, align="left">](https://github.com/Rogerio-mack/work/raw/main/IMT/ML_gift1.gif)




# Imports

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# Dados

In [2]:
df = sns.load_dataset('penguins')
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


# Preparação dos Dados

Por simplicidade, por hora, vamos empregar apenas atributos preditores numéricos. Mais adiante você verá como empregar *encode* para transformar dados categóricos para numéricos, bem como outras transformações como a normalização de dados. Você também verá mais adiante refinamentos desse modelo, como uso de conjuntos de treinamento e teste, validação cruzada etc. Por hora, é importante e também suficiente que, você entenda como funcionam os estimadores do `scikit-learn` antes de seguir com a construção de modelos mais elaborados.

In [26]:
df = df.dropna()

df_clf = df[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'species']]
df_reg = df[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']]

from sklearn.model_selection import train_test_split

df_clf , new_df_clf = train_test_split(df_clf, random_state=1) 
df_reg, new_df_reg = train_test_split(df_reg, random_state=1)

new_df_clf = new_df_clf.drop(columns='species').head(1)
new_df_reg = new_df_reg.drop(columns='body_mass_g').head(1)

# Classificação

<img src="https://github.com/Rogerio-mack/work/raw/main/IMT/ClassificationPenguins_gift.gif" width=600, align="center">




In [28]:
display(df_clf.head()) 
display(new_df_clf)

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,species
294,46.4,15.0,216.0,4700.0,Gentoo
194,50.9,19.1,196.0,3550.0,Chinstrap
76,40.9,16.8,191.0,3700.0,Adelie
179,49.5,19.0,200.0,3800.0,Chinstrap
112,39.7,17.7,193.0,3200.0,Adelie


Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
65,41.6,18.0,192.0,3950.0


In [38]:
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

# predictors and target
X = df_clf.drop(columns='species')
y = df_clf['species']

# choose a model 
clf = DecisionTreeClassifier()

# train
clf.fit(X,y)

# score model
score = clf.score(X, y)
print(f'Score: {score:.2f}')

# predict new data
y_pred = clf.predict(new_df_clf)
print(f'Prediction: {y_pred[0]}')

Score: 1.00
Prediction: Adelie


# Regressão

<img src="https://github.com/Rogerio-mack/work/raw/main/IMT/RegressionPenguins_gift.gif" width=600, align="center">




In [29]:
display(df_reg.head()) 
display(new_df_reg)

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
294,46.4,15.0,216.0,4700.0
194,50.9,19.1,196.0,3550.0
76,40.9,16.8,191.0,3700.0
179,49.5,19.0,200.0,3800.0
112,39.7,17.7,193.0,3200.0


Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm
65,41.6,18.0,192.0


In [40]:
from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from xgboost.sklearn import XGBRegressor
from sklearn.linear_model import SGDRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression

# predictors and target
X = df_reg.drop(columns='body_mass_g')
y = df_reg['body_mass_g']

# choose a model 
reg = LinearRegression()

# train
reg.fit(X,y)

# score model
score = reg.score(X, y)
print(f'Score: {score:.2f}')

# predict new data
y_pred = reg.predict(new_df_reg)
print(f'Prediction: {y_pred[0]:.2f}')

Score: 0.78
Prediction: 3766.12
