# $\large{\color{CadetBlue}{\textbf{Escolhendo uma Cerveja Artesanal üç∫}}}$

### Um datasey de mais de 73k linhas, foi realizado uma an√°lise explorat√≥ria, a fim de descobrir qual era o estilo de bebida de acordo com as vari√°veis preditoras, no final, esta quantidade de linhas foi reduzida para 35k e a partir deste momento, foi testado 4 modelos de Classifica√ß√£o:

1. Regress√£o Log√≠stica
2. Naive Bayes
3. KNN
4. Decision Tree


<a id = "table-of-content"></a>
# $\large{\color{CadetBlue}{\textbf{Sum√°rio üìë}}}$ 

- **[1. Carregando as Bibliotecas üìö](#lib)**
- **[2. Lendo os dados üëÄ](#ler)**
- **[3. An√°lise Explorat√≥ria dos Dados üîé](#an√°lise)**
    - [3.1. Propor√ß√£o das colunas e linhas üìã](#an√°lise1)
    - [3.2. Observando o tipo das Vari√°veis üî¢](#an√°lise2)
    - [3.3. Verificando se h√° Valores Nulos ‚ùå](#an√°lise3)
    - [3.4. Excluindo Colunas Desnecess√°rias üßπ](#an√°lise3.1)
    - [3.5. Propor√ß√£o dos valores da Vari√°vel Alvo üéØ](#an√°lise5)
    - [3.6. Substituindo dados missing por valores ‚ú®](#an√°lise6)
    - [3.7. Separando Vari√°veis Preditoras e Vari√°vel Alvo üéØ](#an√°lise4)
- **[4. Cria√ß√£o do Modelo üß†](#modelo)**
    - [4.1. Rodando 4 Modelos de Classifica√ß√£o üíª](#kfold)
    - [4.2. KNN üèôÔ∏è](#knn)
        - [4.2.1. Aplica√ß√£o do GridSearchCV ü§ñ](#grid)
        - [4.3.2. Treinando o Modelo üèãÔ∏è](#fit1) 
        - [4.3.3. Visualizando os resultados üñ®Ô∏è](#print1) 
    - [4.3. Decision Tree üå≥ ](#tree) 
        - [4.3.1. Aplica√ß√£o do GridSearchCV ü§ñ](#grid2)
        - [4.3.2. Treinando o Modelo üèãÔ∏è](#fit) 
        - [4.3.3. Visualizando os resultados üñ®Ô∏è](#print)     

## $\large{\color{RoyalBlue}{1.}}$ $\large{\color{CadetBlue}{\textbf{Carregando as Bibliotecas üìö}}}$ <a id = "lib"></a>

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import itertools
import graphviz
import subprocess
import os
from IPython.display import Image
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler 
from sklearn.model_selection import cross_val_score, StratifiedKFold, GridSearchCV

## $\large{\color{RoyalBlue}{2.}}$ $\large{\color{CadetBlue}{\textbf{Lendo os dados üëÄ}}}$ <a id = "ler"></a>

In [None]:
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
pd.set_option('display.max.columns',23)
df = pd.read_csv("/kaggle/input/beer-recipes/recipeData.csv", encoding='latin1')
df.head()

In [None]:
df.tail()

## $\large{\color{RoyalBlue}{3.}}$ $\large{\color{CadetBlue}{\textbf{An√°lise Explorat√≥ria dos Dados üîé}}}$ <a id = "an√°lise"></a>

##### $\large{\color{RoyalBlue}{3.1.}}$ $\large{\color{CadetBlue}{\textbf{Propor√ß√£o das colunas e linhas üìã}}}$ <a id = "an√°lise1"></a>

In [None]:
df.shape

##### $\large{\color{RoyalBlue}{3.2.}}$ $\large{\color{CadetBlue}{\textbf{Observando o tipo das Vari√°veis üî¢}}}$ <a id = "an√°lise2"></a>

In [None]:
df.dtypes

##### $\large{\color{RoyalBlue}{3.3.}}$ $\large{\color{CadetBlue}{\textbf{Verificando se h√° Valores Nulos ‚ùå}}}$ <a id = "an√°lise3"></a>

In [None]:
faltantes = (df.isnull().sum()/len(df['BeerID']))*100
print(faltantes)

#### Algumas vari√°veis praticamente n√£o possuem dados, como √© o caso da _'PrimingAmount'_, com 93,53% de dados nulos. Para este modelo eu decidi excluir colunas com mais de 70% dos dados nulos.

In [None]:
df.drop('PrimingMethod',axis = 1, inplace = True)
df.drop('PrimingAmount',axis = 1, inplace = True)


##### $\large{\color{RoyalBlue}{3.4.}}$ $\large{\color{CadetBlue}{\textbf{Excluindo Colunas Desnecess√°rias üßπ}}}$ <a id = "an√°lise5=3.1"></a> 

#### Aproveitando que estamos excluindo colunas, outras colunas que podem ser exclu√≠das s√£o as desnecess√°rias, logo de cara, podemos excluir a coluna _'Name'_ e _'Style'_, porque para amnas as colunas possu√≠mos uma outra coluna com um ID respectivo. Outra coluna √© a URL, com o link para a cerveja, esta informa√ß√£o n√£o ajuda em nada no modelo, assim como o ID do usu√°rio que participou da pesquisa.

#### Vou aplicar a t√©cnica de Feature Selection para avaliar quais s√£o as vari√°veis que mais possuem influ√™ncia com a nossa vari√°vel alvo, o StyleID.

In [None]:
df.drop('Name',axis = 1, inplace = True)
df.drop('Style',axis = 1, inplace = True)
df.drop('URL',axis = 1, inplace = True)
df.drop('UserId',axis = 1, inplace = True)
df.drop('BeerID',axis = 1, inplace = True)


In [None]:
df.dtypes

#### Sobrou duas vari√°veis do tipo object, vamos analisar o que  faremos com elas:

In [None]:
contagem = df['SugarScale'].value_counts()
proporcao = (contagem / len(df))*100

print('Quantidade: ', contagem)
print()
print('Porcentagem: ',proporcao)

#### 97% dos dados s√£o a mesma resposta, al√©m de termos apenas 2 op√ß√µes de resposta, ent√£o vamos transformar os dados em 0 e 1

In [None]:
df['SugarScale'] = df['SugarScale'].replace('Specific Gravity',0)
df['SugarScale'] = df['SugarScale'].replace('Plato',1)

In [None]:
contagem = df['BrewMethod'].value_counts()
proporcao = (contagem / len(df))*100

print('Quantidade: ', contagem)
print()
print('Porcentagem: ',proporcao)

#### J√° os dados da vari√°vel _'BrewMethod'_ possuem 4 tipos de registro, ent√£o vou aplicar o m√©todo de **One-Hot Code**

In [None]:
brewMethod_encode = pd.get_dummies(df['BrewMethod'])
df.drop('BrewMethod',axis=1,inplace=True)
concatenado = pd.concat([df,brewMethod_encode],axis=1)
concatenado.head(3)

##### $\large{\color{RoyalBlue}{3.5.}}$ $\large{\color{CadetBlue}{\textbf{Propor√ß√£o dos valores da Vari√°vel Alvo üéØ}}}$ <a id = "an√°lise5"></a>

In [None]:
contagem = concatenado['StyleID'].value_counts()
proporcao = (contagem / len(df))*100

print('Quantidade: ', contagem.to_string())
print()
print('Porcentagem: ',proporcao)

#### Temos 176 estilos de cervejas artesanais, por√©m, a quantidade de amostra para cada estilo √© bem discrepante, tendo a maior amostra com mais de 11 mil registros e a menor com apenas 2. √â preciso olhar a propor√ß√£o e definir um threshold, ou seja, uma linha de corte. Neste exerc√≠cio vou considerar apenas valores maiores que mil amostra por tipo de cerveja (_'StyleID'_).

In [None]:
plt.figure(figsize=(12, 8))
plt.hist(concatenado['StyleID'], bins=176)
plt.axhline(y=1000, color='r', linestyle='--', label='Threshold')
plt.title('Quantidade de linhas')
plt.xlabel('StyleID')
plt.ylabel('Contagem')
plt.show()

In [None]:
filtro = concatenado.loc[concatenado['StyleID'].isin([7,10,134,9,4,30,86,12,92,6,175,39])]
filtro.shape

#### De 70 mil linhas, nosso novo dataset tem 35 mil, mas agora est√° mais consistente.

##### $\large{\color{RoyalBlue}{3.6.}}$ $\large{\color{CadetBlue}{\textbf{Substituindo dados missing por valores ‚ú®}}}$ <a id = "an√°lise6"></a>

In [None]:
faltantes = (filtro.isnull().sum()/len(filtro['StyleID']))*100
print(faltantes)

#### Ainda temos 4 vari√°veis com dados missing, por ser vari√°veis num√©ricas, podemos substituir os valores nulos pela m√©dia, mediana e afins, encontrando um dado que comporte de maneira razo√°vel naquela distribui√ß√£o num√©rica.

In [None]:
filtro.boxplot(column=['BoilGravity','MashThickness','PitchRate','PrimaryTemp'])
plt.show()

#### Tem muito outlier, mas eu ainda n√£o sei tratar eles de forma apropriada, pelo menos neste primeiro momento que lan√ßo este notebook, vou ignorar esses outliers.

In [None]:
filtro.hist(column=['BoilGravity','MashThickness','PitchRate','PrimaryTemp'],bins=20)
plt.show()

#### Olhando a distibui√ß√£o desses dados, o _'PitchRate'_ segue uma distribui√ß√£o com uma linha de tend√™ncia com queda, isso quer dizer que teremos pontos maiores no come√ßo e menores no final, ent√£o a m√©dia desses valores pode pegar um ponto que esteja razo√°vel para ambas extremidades. J√° os outros gr√°ficos n√£o possuem este padr√£o, onde a mediana possa representar melhor um valor neutro, de baixa influ√™ncia para o modelo.

In [None]:
filtro['PitchRate'].fillna(filtro['PitchRate'].mean(),inplace=True)
filtro.fillna(filtro.median(),inplace=True)

In [None]:
faltantes = (filtro.isnull().sum()/len(filtro['StyleID']))*100
print(faltantes)

##### $\large{\color{RoyalBlue}{3.7.}}$ $\large{\color{CadetBlue}{\textbf{Separando Vari√°veis Preditoras e Vari√°vel Alvo üéØ}}}$ <a id = "an√°lise4"></a>

In [None]:
y = filtro['StyleID']
x = filtro.drop('StyleID', axis=1)

## $\large{\color{RoyalBlue}{4.}}$ $\large{\color{CadetBlue}{\textbf{Cria√ß√£o do Modelo üß†}}}$ <a id = "modelo"></a>

##### $\large{\color{RoyalBlue}{4.1.}}$ $\large{\color{CadetBlue}{\textbf{Rodando 4 Modelos de Classifica√ß√£o üíª}}}$ <a id = "kfold"></a>

In [None]:
def modelosclassificacao(a,b):

    skfold= StratifiedKFold(n_splits=3)
    
    x = a
    y = b
    
    # Normalizando as vari√°veis preditoras para o KNN
    normalizador = MinMaxScaler(feature_range=(0,1))
    x_norm = normalizador.fit_transform(x)
    
    logist = LogisticRegression()
    naive = GaussianNB()
    decision_tree = DecisionTreeClassifier()
    knn = KNeighborsClassifier()
    
    resultado_logist = cross_val_score(logist,x,y,cv=skfold)
    resultado_naive = cross_val_score(naive,x,y,cv=skfold)
    resultado_decision_tree = cross_val_score(decision_tree,x,y,cv=skfold)
    resultado_knn = cross_val_score(knn,x_norm,y,cv=skfold)
    
    dic_classmodels = {'Log√≠stica':resultado_logist.mean(),'naive':resultado_naive.mean(), 'Decision Tree':resultado_decision_tree.mean(), 'KNN':resultado_knn.mean()}
    melhor_modelo = max(dic_classmodels, key=dic_classmodels.get)
    
    print('Regress√£o Log√≠stica: ',resultado_logist.mean(),'Naive Bayes: ',resultado_naive.mean(),'Decision Tree: ',resultado_decision_tree.mean(),'KNN: ',resultado_knn.mean())
    print('Melhor modelo foi: ',melhor_modelo,'com o valor: ',dic_classmodels[melhor_modelo])
                                       
   


In [None]:
modelosclassificacao(x,y)

#### Os melhores resultados foram o KNN e o Decision Tree, ambos com 45% de acur√°cia, como s√£o 2 modelos que est√£o com valores pr√≥ximos, em um teste realizado com hiperparametros padr√µes, ainda √© poss√≠vel buscar um resultado melhor testando diversos valores de hiperparametros com o **GridSearchCV**.

##### $\large{\color{RoyalBlue}{4.2.}}$ $\large{\color{CadetBlue}{\textbf{KNN üèôÔ∏è}}}$ <a id = "knn"></a>

##### $\large{\color{RoyalBlue}{4.2.1.}}$ $\large{\color{CadetBlue}{\textbf{Aplica√ß√£o do GridSearchCV ü§ñ}}}$ <a id = "grid"></a>

In [None]:
# Normalizando as vari√°veis preditoras 
normalizador = MinMaxScaler(feature_range=(0,1))
x_norm = normalizador.fit_transform(x)

#Definindo os valores que ser√£o testados no KNN:
valores_K  = np.array([3,5,7])
calculo_distancia = ['minkowski','chebyshev']
valores_p = np.array([1,2,3])
valores_grid = {'n_neighbors':valores_K,'metric':calculo_distancia,'p':valores_p}

##### $\large{\color{RoyalBlue}{4.2.2.}}$ $\large{\color{CadetBlue}{\textbf{Treinando o Modelo üèãÔ∏è}}}$ <a id = "fit1"></a>

In [None]:
# Cria√ß√£o do modelo:
modelo = KNeighborsClassifier()

# Criando os grids:
gridKNN = GridSearchCV(estimator = modelo,param_grid = valores_grid, cv = 3,n_jobs= -1)
gridKNN.fit(x_norm,y)

##### $\large{\color{RoyalBlue}{4.2.3.}}$ $\large{\color{CadetBlue}{\textbf{Visualizando os resultados üñ®Ô∏è}}}$ <a id = "print1"></a>

In [None]:
# Imprimindo os melhores par√¢metros:
print('Melhor acur√°cia: ', gridKNN.best_score_)
print('Melhor K: ', gridKNN.best_estimator_.n_neighbors)
print('M√©todo dist√¢ncia: ', gridKNN.best_estimator_.metric)
print('Melhor valor p: ', gridKNN.best_estimator_.p)

##### $\large{\color{RoyalBlue}{4.3.}}$ $\large{\color{CadetBlue}{\textbf{Decision Tree üå≥}}}$ <a id = "tree"></a>

##### $\large{\color{RoyalBlue}{4.3.1.}}$ $\large{\color{CadetBlue}{\textbf{Aplica√ß√£o do GridSearchCV ü§ñ}}}$ <a id = "grid2"></a>

In [None]:
# Definindo os valores que ser√£o testados em DecisionTree
minimos_split = np.array([2,3,4,5,6,7])
maximo_nivel = np.array([3,4,5,6,7])
algoritmo = ['gini','entropy', 'log_loss']
valores_grid = {'min_samples_split':minimos_split,'max_depth':maximo_nivel,'criterion':algoritmo}

##### $\large{\color{RoyalBlue}{4.3.2.}}$ $\large{\color{CadetBlue}{\textbf{Treinando o Modelo üèãÔ∏è}}}$ <a id = "fit"></a>

In [None]:
modelo = DecisionTreeClassifier()

grid = GridSearchCV(estimator = modelo, param_grid = valores_grid)
grid.fit(x,y)

##### $\large{\color{RoyalBlue}{4.3.3.}}$ $\large{\color{CadetBlue}{\textbf{Visualizando os resultados üñ®Ô∏è}}}$ <a id = "print"></a>

In [None]:
print('M√≠nimo split: ', grid.best_estimator_.min_samples_split)
print('M√°xima profundidade: ', grid.best_estimator_.max_depth)
print('Algoritmo escolhido: ', grid.best_estimator_.criterion)
print('Acur√°cia: ', grid.best_score_)

#### De 47% foi poss√≠vel aumentar a acur√°cia para 58%, mais de 10%, um aumento significativo atrav√©s de par√¢metros melhores ajustados.
#### Diferente do KNN que teve um aumento de apenas 2%, mesmo tendo custado muito mais do processamento do que o Decision Tree.