## Configurações iniciais

In [None]:
# Importa as bibliotecas que serão utilizadas na análise.

import pandas as pd
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Lê o .csv que contém os reviews e os salva em um DataFrame.
data = pd.read_csv("beer_reviews.csv")

In [None]:
# Exibe o DataFrame gerado na célula anterior.
data

## Estilos de cerveja mais consumidos pelos brasileiros 

Segundo a pesquisa "Retrato dos consumidores de Cerveja 2023", divulgada em dezembro de 2023 pelo site "Surra de Lúpulo", juntamente do Sindicato Nacional da Industria da Cerveja (Sindicerv), os estilos de cerveja mais consumidos pelo brasileiro são:

1. *IPA (India Pale Ale)*
2. *Weissbier*
3. *Pilsen*
4. *American Lager*
5. *APA (American Pale Ale)*

*Link da pesquisa:* https://www.sindicerv.com.br/noticias/ipa-pilsen-e-mais-pesquisa-revela-os-estilos-de-cervejas-preferidos-dos-consumidores/  

Para cada um dos estilos de cerveja mencionados, há representantes bem conhecidos no Brasil. Para os apreciadores de IPA, a Colorado Indica é uma excelente escolha. Se você gosta de Weissbier, a Eisenbahn Weizen é uma ótima opção. No que diz respeito às Pilsners, é comum que no Brasil elas sejam confundidas com American Lagers. Entre essas categorias, há diversas opções amplamente consumidas, como Brahma, Skol e Antártica. Finalmente, para quem prefere APA, a Colorado Appia é uma ótima opção.

Dito isso, vejamos as avaliações de algumas cervejas que seguem os estilos citadas na célula anterior.

### Análise de algumas cervejas brasileiras dos estilos mais populares no Brasil

#####
Com o intuito de facilitar o trabalho de análise, vamos criar um dicionário que guarda os estilos de cerveja mais consumidos pelos brasileiros juntamente de algumas cervejas que representam tais estilos.

In [None]:
# Cria um dicionário que contém os estilos de cerveja mais consumidos pelos brasileiros. Cada estilo de cerveja tem uma ou mais cervejas 
# como suas representantes, e cada uma dessas cervejas possui um DataFrame que armazena os reviews relacionados a ela ou, no caso de algumas 
# cervejas, a ela e suas variantes.

beer_dict = {
    'India Pale Ale':{
        'Colorado Indica':pd.DataFrame()
    },
    'Weissbier':{
        'Eisenbahn Weizenbier':pd.DataFrame()
    },
    'Pilsen/American Lager':{
        'Skol':pd.DataFrame(),
        'Antarctica':pd.DataFrame(),
        'Brahma':pd.DataFrame()
    },
    'American Pale Ale':{
        'Colorado Appia':pd.DataFrame()
    }
}

###
Feito isso, vamos obter os dados sobre as cervejas que colocamos no dicionário acima.

#### IPA (India Pale Ale)

In [None]:
# Nesta célula serão exibidos os reviews sobre a cerveja Colorado Indica.

# Guarda os reviews sobre a cerveja em questão no dicionário "beer_dict".
beer_dict['India Pale Ale']['Colorado Indica'] = data[data['beer_name'] == 'Colorado Indica']

# Exibe tais reviews.
beer_dict['India Pale Ale']['Colorado Indica']

#### Weissbier

In [None]:
# Nesta célula serão exibidos os reviews sobre a cerveja Eisenbahn Weizen.

# Guarda os reviews sobre a cerveja em questão no dicionário "beer_dict".
beer_dict['Weissbier']['Eisenbahn Weizenbier'] = data[data['beer_name'] == "Eisenbahn Weizenbier"]

# Exibe tais reviews.
beer_dict['Weissbier']['Eisenbahn Weizenbier']

#### Pilsen / American Lager

##### Skol

In [None]:
# Nesta célula serão exibidos os reviews sobre a cerveja Skol.

# Perceba que nessa célula estamos usando o "startswith" para pesquisar sobre os reviews da cerveja em questão, ao invês de pesquisar 
# somente pelo nome de tal cerveja. Estamos fazendo isso pois existem várias variações da cerveja pesquisada.

# Guarda os reviews sobre as variantes da cerveja em questão no dicionário "beer_dict".
beer_dict['Pilsen/American Lager']['Skol'] = data[data['beer_name'].str.startswith("Skol", na=False)]

# Exibe tais reviews.
beer_dict['Pilsen/American Lager']['Skol']


##### Antarctica

In [None]:
# Nesta célula serão exibidos os reviews sobre a cerveja Antarctica.

# Perceba que nessa célula estamos usando o "startswith" para pesquisar sobre os reviews da cerveja em questão, ao invês de pesquisar 
# somente pelo nome de tal cerveja. Estamos fazendo isso pois existem várias variações da cerveja pesquisada.

# Guarda os reviews sobre as variantes da cerveja em questão no dicionário "beer_dict".
beer_dict['Pilsen/American Lager']['Antarctica'] = data[data['beer_name'].str.startswith("Antarctica", na=False)]

# Exibe tais reviews.
beer_dict['Pilsen/American Lager']['Antarctica']


##### Brahma

In [None]:
# Nesta célula serão exibidos os reviews sobre a cerveja Brahma.

# Perceba que nessa célula estamos usando o "startswith" para pesquisar sobre os reviews da cerveja em questão, ao invês de pesquisar somente 
# pelo nome de tal cerveja. Estamos fazendo isso pois existem várias variações da cerveja pesquisada.

# Guarda os reviews sobre as variantes da cerveja em questão no dicionário "beer_dict".
beer_dict['Pilsen/American Lager']['Brahma'] = data[data['beer_name'].str.startswith("Brahma", na=False)]

# Exibe tais reviews.
beer_dict['Pilsen/American Lager']['Brahma']

#### APA (American Pale Ale)

##### Colorado Appia

In [None]:
# Nesta célula serão exibidos os reviews sobre a cerveja Colorado Appia.

# Guarda os reviews sobre a cerveja em questão no dicionário "beer_dict".
beer_dict['American Pale Ale']['Colorado Appia'] = data[data['beer_name'] == 'Colorado Appia']

# Exibe tais reviews.
beer_dict['American Pale Ale']['Colorado Appia']

## Avaliação de algumas cervejarias nacionais

Serão avaliadas aqui as cervejarias que produzem as cervejas que citamos em "Análise de algumas cervejas brasileiras dos estilos mais populares no Brasil".

#####

De antemão, veja que tanto a "Colorado Indica" *(India Pale Ale)* quanto a "Colorado Appia" *(American Pale Ale)* são produzidas pela "Cervejaria Colorado", que é uma cervejaria brasileira.

In [None]:
data[data['beer_name'] == 'Colorado Appia']['brewery_name'].unique()

In [None]:
data[data['beer_name'] == 'Colorado Indica']['brewery_name'].unique()

####
Dito isso, vejamos agora quais cervejarias produzem as demais cervejas que analisamos em "Análise de algumas cervejas brasileiras dos estilos mais populares no Brasil".

##### Eisenbahn Weizenbier

In [None]:
# Quem produz a cerveja 'Eisenbahn Weizenbier' (Weissbier) ?

data[data['beer_name'] == 'Eisenbahn Weizenbier']['brewery_name'].unique()

##### Skol

In [None]:
# Quem produz a cerveja 'Skol' (Pilsen / American Lager) ?

data[data['beer_name'].str.startswith('Skol')]['brewery_name'].unique()

In [None]:
# Perceba que na célula acima apenas uma cervejaria é brasileira, que no caso é a 'Cervejarias Reunidas Skol-Caracu', vejamos qual cerveja
# 'Skol' é produzida por eles.

reviews[reviews['brewery_name'] == 'Cervejarias Reunidas Skol-Caracu']['beer_name'].unique()

# É interessante que trabalhemos apenas com as cervejas 'Skol' exibidas como saída dessa célula.

##### Antarctica

In [None]:
# Quem produz a cerveja 'Antarctica' (Pilsen / American Lager) ?

data[data['beer_name'].str.startswith('Antarctica', na=False)]['brewery_name'].unique()

##### Brahma

In [None]:
# Quem produz a cerveja 'Brahma' (Pilsen / American Lager) ?

data[data['beer_name'].str.startswith('Brahma',na=False)]['brewery_name'].unique()

In [None]:
# Das cervejarias acima, apenas a 'Companhia Cervejaria Brahma' é brasileira. Por conta disso, vejamos quais cervejas 'Brahma' são produzidas
# por tal cervejaria.

reviews[reviews['brewery_name'] == 'Companhia Cervejaria Brahma']['beer_name'].unique()

## Avaliando as melhores cervejarias

In [None]:
# Encontrando a cervejaria com maior overall
data.sort_values(by='review_overall', ascending=False)

Percebendo que há muitas cervejas com score 5.0 de overall, pensei em criar uma nova coluna com a média geométrica das colunas review_aroma, review_appearance, review_palate e review_taste.

_Por que uma média geométrica?_
- Médias geométricas punem desvios com muito mais força que médias aritméticas. Usando essa estratégia, talvez possamos encontrar a cervejaria com a nota mais sólida. Assim, talvez tenhamos uma avaliação mais rigorosa.

In [None]:
reviews = ['review_aroma', 'review_appearance', 'review_palate', 'review_taste']
data['geom_mean'] = sp.stats.mstats.gmean(data[reviews], axis=1).round(2)
display(data)

Agora, ordenamos pela média geométrica.

In [None]:
data = data.sort_values(by='geom_mean', ascending=False)
display(data)

Algo bem confuso nesse resultado é que algumas cervejas com média geométrica 5 nos parâmetros avaliados não têm média 5 de overall...

Usando datetime na coluna de review_time:

In [None]:
data['review_time'] = pd.to_datetime(data['review_time'], unit='s')
display(data)

Para ver se a média geométrica tem alguma relação positiva com o overall, resolvi fazer um regplot

In [None]:
#fazendo uma amostragem pra fazer o plot já que a base é bem grande
data_amostra = data.sample(n=10000, random_state=1)
plt.figure(figsize=(7,7))
sns.regplot(data=data_amostra, x='geom_mean', y='review_overall')
plt.show()

In [None]:
# agora, vendo a correlação em si
data[['review_overall', 'geom_mean']].corr()

Até que a correlação é forte!

Tentando agora encontrar as melhores cervejarias filtrando o df para mostrar somente as cervejas que receberam tanto overall quanto média geométrica 5/5

In [None]:
melhores_cervejas = data[(data['review_overall'] == 5) & (data['geom_mean'] == 5)]
                                            # dando display por ordem de id
display(melhores_cervejas.sort_values(by='brewery_id'))

Fazendo um df e depois um gráfico com as cervejas que mais foram perfeitamente avaliadas (5/5 em geom mean e overall)

In [None]:
contagem_cervejas = melhores_cervejas['beer_name'].value_counts().reset_index()
contagem_cervejas.columns = ['beer_name', 'count']
contagem_cervejas = contagem_cervejas.sort_values(by='count', ascending=False)
display(contagem_cervejas)

In [None]:
top_cervejas = contagem_cervejas.head(15)

# Criar o gráfico de barras
plt.figure(figsize=(12, 6))
sns.barplot(x='count', y='beer_name', data=top_cervejas, palette='YlOrBr')
plt.xlabel('Número de avaliações 5/5')
plt.ylabel('Nome da cerveja')
plt.title('Top 15 Cervejas com Avaliações 5/5 em geom_mean e review_overall')
plt.show()