In [2]:
import pandas as pd
import calendar
import joblib

wine = pd.read_csv("D:\Pós Big Data\Aprendizagem de Máquina\winequality-red.csv", delimiter=';')

In [3]:
# Exibe o número de linhas e o número de colunas
print(wine.shape)

(1599, 12)


In [4]:
# Função para classificar a Qualidade do Vinho em: Ruim, Bom, Otimo
def get_wine_clf(value):
    if value <= 4:
        return 'Ruim'

    elif value <= 6:
        return 'Bom'

    return 'Otimo'

In [5]:
# Modifica os valores na coluna quality baseado na função apresentada acima
wine['quality'] = wine['quality'].map(get_wine_clf)

print(wine)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
5               7.4             0.660         0.00             1.8      0.075   
6               7.9             0.600         0.06             1.6      0.069   
7               7.3             0.650         0.00             1.2      0.065   
8               7.8             0.580         0.02             2.0      0.073   
9               7.5             0.500         0.36             6.1      0.071   
10              6.7             0.580         0.08             1.8      0.097   
11              7.5         

In [6]:
# Exibir contagem das classes criadas
print(wine['quality'].value_counts())

Bom      1319
Otimo     217
Ruim       63
Name: quality, dtype: int64


In [7]:
# Segmentar as classes para a qualidade de vinho
ruim = wine[wine['quality']=='Ruim']

bom = wine[wine['quality']=='Bom']

otimo = wine[wine['quality']=='Otimo']

from sklearn.utils import resample

ruim_upsample = resample(ruim,
                         replace=True,
                         n_samples=1319,
                         random_state=None
                         )

otimo_upsample = resample(otimo,
                         replace=True,
                         n_samples=1319,
                         random_state=None
                         )


print(otimo_upsample)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
1086            8.5             0.340         0.40             4.7      0.055   
1466            7.3             0.480         0.32             2.1      0.062   
198             5.4             0.835         0.08             1.2      0.046   
1440            7.2             0.370         0.32             2.0      0.062   
389             9.6             0.380         0.31             2.5      0.096   
320             9.8             0.660         0.39             3.2      0.083   
339            12.5             0.280         0.54             2.3      0.082   
902             7.4             0.635         0.10             2.4      0.080   
584            11.8             0.330         0.49             3.4      0.093   
1417            7.3             0.340         0.33             2.5      0.064   
898             8.3             0.310         0.39             2.4      0.078   
1450            7.2         

In [8]:
#Merge dos Data Frames

wine_balanceado = pd.concat([ruim_upsample,bom,otimo_upsample])

print(wine_balanceado['quality'].value_counts())

Otimo    1319
Ruim     1319
Bom      1319
Name: quality, dtype: int64


In [9]:
# Divide os dados em dois conjuntos: Atributos e Classes
attributes = wine_balanceado.drop('quality', axis=1)
classes = wine_balanceado['quality']

In [10]:
# Dividir os dados aleatoriamente em conjunto para aprendizado e conjunto para testes
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(attributes, classes, test_size=0.20) 
#20% do tamanho do arquivo será usado para testes
# X_train: segmento dos atributos para treinamento do modelo
# X_test : segmento dos atributos para avaliação do modelo
# y_train: segmento das classes para treinamento do modelo
# y_testn: segmento das classes para avaliação do modelo

In [11]:
#Treinar o modelo
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier()
classifier.fit(X_train, y_train)



RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

In [12]:
#Aplicar o modelo gerado sobre os dados separados para testes
y_pred = classifier.predict(X_test)
y_pred_proba = classifier.predict_proba(X_test)

print(y_pred)
print(y_pred_proba)

['Otimo' 'Ruim' 'Otimo' 'Ruim' 'Otimo' 'Ruim' 'Ruim' 'Ruim' 'Bom' 'Otimo'
 'Otimo' 'Bom' 'Bom' 'Otimo' 'Ruim' 'Ruim' 'Ruim' 'Otimo' 'Otimo' 'Otimo'
 'Bom' 'Ruim' 'Ruim' 'Bom' 'Otimo' 'Otimo' 'Ruim' 'Ruim' 'Otimo' 'Otimo'
 'Ruim' 'Bom' 'Otimo' 'Otimo' 'Bom' 'Bom' 'Bom' 'Bom' 'Bom' 'Otimo' 'Bom'
 'Ruim' 'Bom' 'Bom' 'Ruim' 'Bom' 'Otimo' 'Otimo' 'Bom' 'Otimo' 'Otimo'
 'Bom' 'Otimo' 'Bom' 'Bom' 'Otimo' 'Ruim' 'Ruim' 'Ruim' 'Bom' 'Ruim'
 'Ruim' 'Ruim' 'Otimo' 'Ruim' 'Otimo' 'Otimo' 'Ruim' 'Otimo' 'Otimo' 'Bom'
 'Otimo' 'Otimo' 'Bom' 'Ruim' 'Ruim' 'Bom' 'Otimo' 'Bom' 'Bom' 'Ruim'
 'Otimo' 'Otimo' 'Ruim' 'Bom' 'Bom' 'Ruim' 'Ruim' 'Otimo' 'Otimo' 'Ruim'
 'Ruim' 'Otimo' 'Bom' 'Ruim' 'Bom' 'Ruim' 'Bom' 'Ruim' 'Ruim' 'Otimo'
 'Otimo' 'Otimo' 'Ruim' 'Otimo' 'Ruim' 'Ruim' 'Otimo' 'Ruim' 'Otimo' 'Bom'
 'Otimo' 'Bom' 'Bom' 'Otimo' 'Bom' 'Bom' 'Bom' 'Otimo' 'Ruim' 'Bom'
 'Otimo' 'Otimo' 'Bom' 'Ruim' 'Otimo' 'Bom' 'Ruim' 'Otimo' 'Ruim' 'Ruim'
 'Bom' 'Bom' 'Bom' 'Ruim' 'Otimo' 'Ruim' 'Ruim' 'Bom' 'Ruim' 

In [13]:
#Avaliar o modelo: Acurácia e matriz de contingência
from sklearn.metrics import classification_report, confusion_matrix
print("Resultado da Avaliação do Modelo")
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

Resultado da Avaliação do Modelo
[[252  11   6]
 [  0 252   0]
 [  0   0 271]]
              precision    recall  f1-score   support

         Bom       1.00      0.94      0.97       269
       Otimo       0.96      1.00      0.98       252
        Ruim       0.98      1.00      0.99       271

   micro avg       0.98      0.98      0.98       792
   macro avg       0.98      0.98      0.98       792
weighted avg       0.98      0.98      0.98       792



In [14]:
#Classificar uma nova instância
print("Classificar [8.1, 0.56, 0.28, 1.7, 0.368, 16, 56, 0.9968, 3.11, 1.28, 9.3]")
nova_instancia=[[8.1, 0.56, 0.28, 1.7, 0.368, 16, 56, 0.9968, 3.11, 1.28, 9.3]]
print(classifier.predict(nova_instancia))

Classificar [8.1, 0.56, 0.28, 1.7, 0.368, 16, 56, 0.9968, 3.11, 1.28, 9.3]
['Bom']


In [15]:
#Salvar o modelo para uso posterior
joblib.dump(classifier, 'random_forrest_wine.joblib')

['random_forrest_wine.joblib']

In [16]:
classifier = joblib.load('SVM_wine.joblib')
nova_instancia=[[8.8, 0.61, 0.3, 2.8, 0.088, 17, 46, 0.9976, 3.26, 0.51, 9.3]]
print("Com o modelo salvo: ")
print("Classificar [5, 177, 72, 11, 500, 37.6, 0.256, 47]")
print("Predict")
print(classifier.predict(nova_instancia))
print("Proba")
print(classifier.predict_proba(nova_instancia))

Com o modelo salvo: 
Classificar [5, 177, 72, 11, 500, 37.6, 0.256, 47]
Predict
['Ruim']
Proba
[[0.47366652 0.02059275 0.50574073]]


In [None]:
### Análise

Comparado a Random Forest, a acurácia da SVM foi inferior. Sendo que a Random Forest foi perfeita para esta base sendo sua pior
acurácia, para a classe Ótimo, muito melhor do que da SVM.