# SOMMELIER INTELIGENTE

## 1. Visão Geral e Objetivos

Esses dados são os resultados de uma análise química de vinhos cultivados em uma mesma região da Itália, mas derivados de três cultivos diferentes. A análise determinou as quantidades de 13 constituintes encontrados em cada um dos três tipos de vinhos. Os constituintes são:

1) Alcohol: teor de álcool, relatado em unidades de ABV (alcohol by volume).

2) Malic acid: um dos principais ácidos orgânicos encontrados no vinho. Embora seja encontrado em quase todas as frutas e bagas, seu sabor é mais proeminente nas maçãs verdes; da mesma forma, ele projeta esse sabor azedo no vinho. Para obter mais informações, fique à vontade para ler sobre os ácidos do vinho.

3) Ash: o vinho tem cinzas e elas são simplesmente a matéria inorgânica deixada após a evaporação e incineração.

4) Alcalinity of ash: a alcalinidade da cinza determina o quão básica (em oposição a ácida) a cinza é em um vinho.

5) Magnesium: o magnésio é um metal que afeta o sabor do vinho.

6) Total phenols: Os fenóis são produtos químicos que afetam o sabor, a cor e a sensação na boca (ou seja, a textura) do vinho. Para algumas informações (muito) aprofundadas sobre fenóis, referimo-nos ao conteúdo fenólico no vinho.

7) Flavoids: flavonóides são um tipo de fenol.

8) Nonflavoid phenols: não flavonóides são outro tipo de fenol.

9) Proanthocyanins: as proantocianidinas são outro tipo de fenol.

10) Color intensity: a intensidade da cor de um vinho: ou seja, quão escuro é.

11) Hue: a tonalidade de um vinho, que normalmente é determinada pela cor da cultivar utilizada (embora nem sempre seja o caso).

12) OD280/OD315 of diluted wines: medições de conteúdo de proteína.

13) Proline: um aminoácido presente nos vinhos

O conjunto de dados, disponível no [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data), consiste em 178 amostras dessas três classes  diferentes de vinho ('Classe_1','Classe_2','Classe_3'). Nesse sentido, o conjunto de dados do vinho é um conjunto de dados de classificação de várias classes.


Considerando este conjunto de dados, deseja-se construir uma aplicação web que auxilie na classificação de forma mais precisa e mais rápida.

Original Owners:

Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy.
*The attributes are (dontated by Riccardo Leardi,riclea@anchem.unige.it)



## 2. Configuração do projeto

In [None]:
import joblib
import os
import urllib

import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

import sklearn
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score, GridSearchCV, KFold, train_test_split, cross_val_predict
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score


#pacotes incluídos
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB



print('Matplotlib version: {}'.format(matplotlib.__version__))
print('Numpy version: {}'.format(np.__version__))
print('Pandas version: {}'.format(pd.__version__))
print('Sklearn version: {}'.format(sklearn.__version__))
print('Seaborn version: {}'.format(sns.__version__))

WINE_ROOT = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/'
WINE_URL = WINE_ROOT + 'wine.data'

DATA_PATH = os.path.join('..','data','raw')
DATA_FILE = 'wine.csv'
WINE_DATA = os.path.join (DATA_PATH, DATA_FILE)

DEPLOY_PATH = os.path.join ('..','model')
DEPLOY_FILE = 'finalized_model.sav'

SEED = 42

print("Configuração completa!")

## 3. Carga de dados

In [None]:
def download_data(data_url=WINE_URL, data_path=DATA_PATH, data_file=DATA_FILE):
    os.makedirs(data_path, exist_ok=True)
    local_path = os.path.join(data_path, data_file)
    urllib.request.urlretrieve(WINE_URL, local_path)

In [None]:
download_data(WINE_URL, DATA_PATH, DATA_FILE)

In [None]:
def load_data(data_path, data_file):
    local_path = os.path.join(data_path, data_file)
    return pd.read_csv(local_path,header=None, names = ['Alcohol', 'Malic_acid','Ash', 
                                                       'Alcalinity_of_ash','Magnesium', 'Total_phenols',
                                                       'Flavanoids','Nonflavanoid_phenols','Proanthocyanins',
                                                       'Color_intensity','Hue','Protein_content',
                                                       'Proline'])

In [None]:
wine_data = load_data(DATA_PATH, DATA_FILE)

## 4. Análise Exploratória dos dados

In [None]:
wine_data.info()
print("-"*55)
print('O dataset tem {} linhas e {} colunas'.format(wine_data.shape[0], wine_data.shape[1]))

In [None]:
wine_data = wine_data.rename_axis('Class').reset_index()

In [None]:
wine_data['Class']= wine_data['Class'].replace([1,2,3],['Class_1','Class_2','Class_3'])

In [None]:
wine_data.head()

In [None]:
wine_data.tail()

In [None]:
wine_data.describe()

In [None]:
#Verificando as classes existentes de vinhos e suas respectivas ocorrências no dataset
plt.figure(figsize = (10,5))
plt.title('Vinhos distribuídos por classes')
_=sns.countplot(x='Class', data=wine_data)
print(wine_data.groupby(by='Class').size())

### 4.1 Verificando "missing values"

In [None]:
#Verificando a contagem de registros ausentes
print('Registros ausentes por coluna')
for c in range(wine_data.shape[1]):
    missing   = wine_data[[wine_data.columns[c]]].isnull().sum()
    percentual = missing / wine_data.shape[0] * 100
    print ("> %s, ausentes: %d (%.2f%%)" % (wine_data.columns[c], missing, percentual) )
plt.figure(figsize=(10,5))
_ = sns.heatmap(wine_data.isnull(),yticklabels=False, cbar=False)

In [None]:
#Verificando a contagem de registros iguais a zero
print('Registros iguais a zero por coluna')
for c in range(wine_data.shape[1]):
    count_zeros   = (wine_data[[wine_data.columns[c]]]==0).sum()
    percentual = count_zeros / wine_data.shape[0] * 100
    print ("> A coluna %s tem %d (%.2f%%) registros iguais a zero." % (wine_data.columns[c], count_zeros, percentual) )

plt.figure(figsize=(10,5))
_ = sns.heatmap((wine_data == 0),yticklabels=False, cbar=False)

### 4.2 Correlação e distribuição dos dados

In [None]:
#predictors
X = wine_data.drop(['Class'], axis=1)
#target
y = wine_data['Class']

In [None]:
cores = y.astype('category').cat.codes
_=pd.plotting.scatter_matrix( X, c=cores ,figsize=[15,15], marker='D')

for ax in _.flatten():
    ax.xaxis.label.set_rotation(90)
    ax.yaxis.label.set_rotation(0)
    ax.yaxis.label.set_ha('right')

In [None]:
# calcular a matriz de correlação
corr = X.corr()

def magnify():
    return [dict(selector="th",
                 props=[("font-size", "7pt")]),
            dict(selector="td",
                 props=[('padding', "0em 0em")]),
            dict(selector="th:hover",
                 props=[("font-size", "12pt")]),
            dict(selector="tr:hover td:hover",
                 props=[('max-width', '200px'),
                        ('font-size', '12pt')])]

corr.style.background_gradient()\
    .set_properties(**{'max-width': '80px', 'font-size': '10pt'})\
    .set_caption("Passe o mouse para ampliar")\
    .set_precision(2)\
    .set_table_styles(magnify())

## 5. Transformação dos dados

In [None]:
#from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler

#scaler = MinMaxScaler() 
#X_scaled = pd.DataFrame(scaler.fit_transform(X))
#X_scaled.columns = X.columns

scaler = StandardScaler() 
X_scaled = pd.DataFrame(scaler.fit_transform(X))
X_scaled.columns = X.columns

In [None]:
X_scaled.head()

## 6. Particionamento do dataset

In [None]:
#predictors
X = X_scaled
#target
y = wine_data['Class']
#split (70/30)
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=.3, stratify=y, random_state=SEED)

## 7. Criação dos classificadores

In [None]:
def build_classifiers():
    """Retorna uma lista com os classificadores que serão avaliados"""
    classifiers=[]
    classifiers.append(
        ('KNN',                                          #nome do classificador
         KNeighborsClassifier(),                         #instância do classificador 
         {'n_neighbors':range(1,33,2)}                   #hiperparametros
        )
    )
    classifiers.append(
        ('LR',                   
         LogisticRegression(max_iter=10000),
         {'penalty':['l2'], 'C':[100, 10, 1, 0.1, 0.01]}                 
        )
    )
    classifiers.append(
        ('SVM',                   
         SVC(),   
         {'kernel':['linear', 'rbf'],
          'C':[2**(-5),1,2**5,2**10],
          'gamma':[2**(-15),2**(-10),2**(-5),1,2**5]
         }                 
        )
    )
    classifiers.append(
        ('DT',                   
         DecisionTreeClassifier(random_state=SEED),   
         {'max_depth':[2,4,6,8,10,12]}   
        )
    )
    classifiers.append(
        ('RF',                   
         RandomForestClassifier(random_state=SEED),   
         {'n_estimators':[10, 50, 100]}   
        )
    )
    classifiers.append(
        ('GNB',                   
         GaussianNB(),
         {}
        )
    )
    return classifiers

## 8. Desempenho dos classificadores

### 8.1. Avaliação dos classificadores em treino

In [None]:
classifiers = build_classifiers()
results_train = []
names  = []
for name, model, parameters in classifiers:
    print('>> classifier name: {}'.format(name))
    gs = GridSearchCV(estimator=model, param_grid=parameters, refit=True, verbose=0)
    kf = KFold(n_splits=10, shuffle=True, random_state=SEED)
    cv = cross_val_score(gs, X_train, y_train, cv=kf, scoring='accuracy')
    print('Mean Accuracy: {:.2f}%, Standard Deviation: {}'.format(cv.mean()*100,cv.std()))
    results_train.append(cv)
    names.append(name)

### 8.2. Avaliação dos classificadores em teste

In [None]:
results_test = []
names = []

print('Desempenho dos algoritmos em teste: "scoring = accuracy"')
for name, model, parameters in classifiers:
    model.fit(X_train, y_train) 
    y_pred = model.predict(X_test)
    #y_pred = cross_val_predict(model, X_train, y_train, cv = KFold(n_splits = 10, shuffle = True))
    score = model.score(X_test,y_test)
    results_test.append(score)
    names.append(name)
    print('Classifier Name: {} >> {:.2f}%'.format(name, (score)*100))

### 8.3.  Comparativo de desempenho dos algoritmos (treinamento vs. teste)

In [None]:
#Gráficos
fig, (ax1, ax2) = plt.subplots(1,2,figsize=(16,5))
fig.suptitle('Treinamento vs. Teste', fontsize=18)

#Gráfico Treino
ax1.boxplot(results_train)
ax1.set_xticklabels(names, rotation=45)
ax1.set_ylabel('Accuracy')
ax1.set_xlabel('Classificadores')
ax1.set_title('Desempenhos dos algortimos em treinamento')

#Gráfico Teste
df = pd.DataFrame((zip(names, results_test)),columns = ['Classificadores','Accuracy_teste'])
df.set_index('Classificadores',inplace=True)

ax2 = sns.barplot(x=df.index,y=df.Accuracy_teste)
ax2.set_xticklabels(names,rotation=45)
ax2.set_ylabel('Accuracy')
ax2.set_xlabel('Classificadores')
_=ax2.set_title('Desempenhos dos algortimos em teste')

### 8.4. Matriz de Confusão

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

class_names = ['Class_1','Class_2','Class_3']

for  name, model, parameters in classifiers:
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    cm_display = ConfusionMatrixDisplay(cm).plot()
    #print('***** Classification Report:{}*****'.format(name))
    #print(classification_report(y_test, y_pred))
    cm_display.ax_.set_title(name)
    cm_display.ax_.set_xticklabels(class_names)
    cm_display.ax_.set_yticklabels(class_names)

### 8.5. Classification Report

In [None]:
for  name, model, parameters in classifiers:
    y_pred = model.predict(X_test)
    print('CLASSIFICATION REPORT'+'     *****   {}   *****'.format(name))   
    print(classification_report(y_test, y_pred,digits=5))
    print('')

## 9. Deploy do Modelo

In [None]:
model = RandomForestClassifier()
local_path = os.path.join(DEPLOY_PATH, DEPLOY_FILE)
joblib.dump(model, local_path)