<a href="https://colab.research.google.com/github/guilhermeaugusto9/sigmoidal/blob/master/05_8_M%C3%A9todo_de_Ensemble.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 2.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Método de Ensemble

Por que usar apenas um estimador? Imagine que você poderia aproveitar o melhor de cada mundo, usar os pontos fortes de cada estimador e até mesmo combiná-los.

Esta aula é apenas uma introdução de um conceito conhecido como Métodos de Ensemble.


In [None]:
# importar os pacotes necessários
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler

# importar o arquivo
df = pd.read_csv("http://dl.dropboxusercontent.com/s/6d91j46mkcdj4qv/heart-disease-clean.csv?dl=0")

# ver as primeiras entradas
print("Tamanho de df: {}\n".format(df.shape))

df.head()

Aqui se divide normalmente o *dataset* entre treino e teste.

Repare que iremos criar não apenas um modelo, mas vários modelos.

In [None]:
import numpy as np
np.random.seed(2)

# 1. escolher e importar um modelo
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier

# 2. Instanciar e escolher os hyperparameters
model_sgd = SGDClassifier()
model_svc = SVC()
model_dt = DecisionTreeClassifier()
voting_clf = VotingClassifier(estimators=[('sgd', model_sgd),('svc', model_svc),('dt', model_dt)])

# 3. Separar os dados entre feature matrix e target vector 
X = df.drop('num', axis=1)
y = df['num']

# 3.1 Dividir o dataset entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3.2 Padronizar os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 4. Fit do modelo (treinar)
for model in (model_sgd, model_svc, model_dt, voting_clf):
    model.fit(X_train_scaled, y_train)

# 5. Fazer previsões em cima de novos dados
model = []
accuracy = []
for clf in (model_sgd, model_svc, model_dt, voting_clf):
    y_pred = clf.predict(X_test_scaled)
    model.append(clf.__class__.__name__)
    accuracy.append(accuracy_score(y_test,y_pred))

# Verificar a acurácia
col = ['Acurácia']
ac = pd.DataFrame(data=accuracy, index = model, columns=col)
ac

Unnamed: 0,Acurácia
SGDClassifier,0.75
SVC,0.842105
DecisionTreeClassifier,0.736842
VotingClassifier,0.855263
