In [15]:
import pandas as pd
import numpy as np
from sklearn.cross_validation import train_test_split
from sklearn import svm
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import f1_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
import time

In [16]:
beer = pd.DataFrame(pd.read_csv("beerData.csv"), 
                                   columns=['Style','Size(L)','OG','FG','ABV','IBU',
                                            'Color','BoilSize','BoilTime','Efficiency'])

n_beer = beer.shape[0]

## Código dos estilos de Cervejas
## 1 - American IPA
## 2 - American Amber Ale
## 3 - American Light Lager
## 4 - American Pale Ale
## 5 - Saison

print("Arquivo carregado com sucesso! {} linhas carregadas.".format(n_beer))

Arquivo carregado com sucesso! 26449 linhas carregadas.


In [17]:
#Definindo as colunas feature(X) e target (y)
features_col = list(beer.columns[1:12])
target_col = beer.columns[0]
print("Colunas features: {}".format(features_col))
print("Coluna farget: {}".format(target_col))

X_all = beer[features_col]
y_all = beer[target_col]

print(X_all.head())

Colunas features: ['Size(L)', 'OG', 'FG', 'ABV', 'IBU', 'Color', 'BoilSize', 'BoilTime', 'Efficiency']
Coluna farget: Style
   Size(L)     OG     FG   ABV     IBU  Color  BoilSize  BoilTime  Efficiency
0    18.93  1.063  1.018  5.91   59.25   8.98     22.71        60        70.0
1    22.71  1.061  1.017  5.80   54.48   8.50     26.50        60        70.0
2    24.61  1.055  1.013  5.58   40.12   8.00     29.34        70        79.0
3    25.00  1.064  1.014  6.63   64.26   7.78     29.00        90        74.0
4    15.14  1.066  1.015  6.62  111.00  14.26     11.36        90        70.0


In [18]:
#Definindo o tamanho da base que será destinada para treino e efetuando o treino
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, train_size=0.7)

In [19]:
# Treinando o modelo DecisionTreeClassifier

def train_classifier(clf, X_train, y_train):
    print("Treinando {}...".format(clf.__class__.__name__))
    start = time.time()
    clf.fit(X_train, y_train)
    end = time.time()
    print("Feito!\nTreinado em {:.3f} (secs)".format(end - start))
    #return end - start

clf = DecisionTreeClassifier()

# Treinando o modelo
train_classifier(clf, X_train, y_train)

Treinando DecisionTreeClassifier...
Feito!
Treinado em 0.230 (secs)


In [20]:
# Prevendo e calculando a F1 score
# A F-score é uma medida de precisão de um teste. Quanto mais próximo de 1 melhor e quanto mais perto de 0 pior.

def predict_labels(clf, features, target):
    print("Prevendo utilizando {}.".format(clf.__class__.__name__))
    start = time.time()
    y_pred = clf.predict(features)
    end = time.time()
    print("Feito!\nA previsão demorou {:.3f} (secs).".format(end - start))
    return f1_score(target, y_pred, average='macro')

train_f1_score = predict_labels(clf, X_train, y_train)
print("F1 score para o treinamento foi: {}".format(train_f1_score))

Prevendo utilizando DecisionTreeClassifier.
Feito!
A previsão demorou 0.009 (secs).
F1 score para o treinamento foi: 0.9999691091471454


In [21]:
# Aplicando a predição nos dados de teste
print("F1 score for test set: {}".format(predict_labels(clf, X_test, y_test)))


Prevendo utilizando DecisionTreeClassifier.
Feito!
A previsão demorou 0.005 (secs).
F1 score for test set: 0.4882691673994799


In [22]:
# Treinando o modelo utilizando SVC()

def train_classifier(clf, X_train, y_train):
    print("Treinando {}...".format(clf.__class__.__name__))
    start = time.time()
    clf.fit(X_train, y_train)
    end = time.time()
    print("Feito!\nTreinado em {:.3f} (secs)".format(end - start))
    #return end - start
    
clf = SVC()

# Treinando o modelo
train_classifier(clf, X_train, y_train)

Treinando SVC...
Feito!
Treinado em 92.589 (secs)


In [23]:
# Aplicando a predição e calculando a F1 score
# A F-score é uma medida de precisão de um teste. Quanto mais próximo de 1 melhor e quanto mais perto de 0 pior.

def predict_labels(clf, features, target):
    print("Prevendo utilizando {}.".format(clf.__class__.__name__))
    start = time.time()
    y_pred = clf.predict(features)
    end = time.time()
    print("Feito!\nA previsão demorou {:.3f} (secs).".format(end - start))
    return f1_score(target, y_pred, average='macro')

train_f1_score = predict_labels(clf, X_train, y_train)
print("F1 score para o treinamento foi: {}".format(train_f1_score))

Prevendo utilizando SVC.
Feito!
A previsão demorou 18.190 (secs).
F1 score para o treinamento foi: 0.8766165501426508


In [24]:
# Aplicando a predição nos dados de teste
print("F1 score for test set: {}".format(predict_labels(clf, X_test, y_test)))

Prevendo utilizando SVC.
Feito!
A previsão demorou 7.760 (secs).
F1 score for test set: 0.4074360183437853


In [25]:
# Treinando o modelo utilizando GaussianNB

def train_classifier(clf, X_train, y_train):
    print("Treinando {}...".format(clf.__class__.__name__))
    start = time.time()
    clf.fit(X_train, y_train)
    end = time.time()
    print("Feito!\nTreinado em {:.3f} (secs)".format(end - start))
    #return end - start
    
clf =  GaussianNB()

# Treinando o modelo
train_classifier(clf, X_train, y_train)

Treinando GaussianNB...
Feito!
Treinado em 0.014 (secs)


In [26]:
# Aplicando a predição e calculando a F1 score
# A F-score é uma medida de precisão de um teste. Quanto mais próximo de 1 melhor e quanto mais perto de 0 pior.

def predict_labels(clf, features, target):
    print("Prevendo utilizando {}.".format(clf.__class__.__name__))
    start = time.time()
    y_pred = clf.predict(features)
    end = time.time()
    print("Feito!\nA previsão demorou {:.3f} (secs).".format(end - start))
    return f1_score(target, y_pred, average='macro')

train_f1_score = predict_labels(clf, X_train, y_train)
print("F1 score para o treinamento foi: {}".format(train_f1_score))

Prevendo utilizando GaussianNB.
Feito!
A previsão demorou 0.024 (secs).
F1 score para o treinamento foi: 0.42573700821856725


In [27]:
# Aplicando a predição nos dados de teste
print("F1 score for test set: {}".format(predict_labels(clf, X_test, y_test)))

Prevendo utilizando GaussianNB.
Feito!
A previsão demorou 0.008 (secs).
F1 score for test set: 0.40847269365367406
