# Aula \#5 - Desafio em Grupo & Checkpoint \#1 - Desafio: vinhos populares

Nesse desafio, vamos usar um dataset **modificado** a partir de um dos datasets sobre `wine reviews` do [Kaggle](https://www.kaggle.com/zynicide/wine-reviews).

Caso queira reproduzir os passos para chegar ao "mesmo" dataset, você pode usar o dataset original `winemag-data-130k-v2.csv` e executar as seguintes linhas:
```python
df = pd.read_csv('data/datasets/winemag-data-130k-v2.csv', sep=',', encoding='utf-8')

df = df[['country', 'description', 'points', 'price', 'taster_name', 'taster_twitter_handle', 'title']]

df = df.drop_duplicates().reset_index(drop=True).rename(columns={'points': 'rating'})

df = df[(df['price'].notnull())&(df['rating'].notnull())]

df = df.sample(n=100000)

df.reset_index(drop=True, inplace=True)
```

Note que não será exatamente o mesmo dataset devido ao uso do método [sample](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html).

In [None]:
import doctest
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from wordcloud import WordCloud

from utils.hints import give_me_a_hint

In [None]:
pd.set_option('display.max_colwidth', -1)

### Leitura do dataset

In [None]:
df = pd.read_csv('data/datasets/kaggle_wine_reviews.csv', sep=',', encoding='utf-8')

In [None]:
df.head(n=5)

## Quais as palavras mais comuns na coluna _description_?

Vamos criar uma função que retorne as palavras mais frequentes. O argumento que ela recebe é uma lista dessas palavras.

Note que a função deve ser genérica para receber outro tipo de objetos, como números, por exemplo.

Atenção: a função abaixo já está documentada, de forma que seu código deve obedecer ao formato de saída especificado na documentação.

In [None]:
# give_me_a_hint('most_frequent_function')

In [None]:
def get_most_frequent(objs_list, n=10):
    """Get the `n` most frequent objects from `objs_list`
    
    Args:
        - objs_list (list<str>/list<int>/list<obj>)
        - n (int)
        
    Returns:
        - list<tuple(str, int)>
        
    >>> get_most_frequent(['a', 'b', 'a', 'a'], n=2)
    [('a', 3), ('b', 1)]
    """
    return ###

Ao executar a célula abaixo, deve-se obter a seguinte saída:

```bash
Finding tests in NoName
Trying:
    get_most_frequent(['a', 'b', 'a', 'a'], n=2)
Expecting:
    [('a', 3), ('b', 1)]
ok
```

In [None]:
doctest.run_docstring_examples(get_most_frequent, globals(), verbose=True)

Para encontrar as palavras mais comuns nos reviews, é necessário que tenhamos a lista de todas as palavras que aparecem lá.

Já vimos antes como separar um texto em palavras. Mas nesse caso, cada linha conterá uma string.

Como obter uma única lista contendo todas as palavras?

Uma maneira é percorrer a lista de strings e executar o que já havíamos feito anteriormente no outro notebook para obter a lista de palavras. Para cada texto, teremos uma lista, e podemos construir a lista única conforme obtemos cada uma dessas listas. Lembre-se de normalizar as palavras para que elas fiquem com o mesmo _case_ (todas minúsculas ou todas maiúsculas. Lembre-se dessa escolha, pois deveremos manter o mesmo `case` em outras tarefas também, ok?)

In [None]:
words_list = []
for text in ###:
    words_list ###

In [None]:
get_most_frequent(words_list)

Se tudo estiver certo, você deve ter reparado que na lista acima aparecem muitas palavras que carregam pouco significado, como artigos e preposições.

Por coincidência (ou não :p), temos uma lista com algumas dessas palavras disponível no diretório `data/resources` em um arquivo chamado `en_stopwords.txt`. Sua próxima tarefa envolve remover da lista `words_list` todas as palavras que estão nessa lista de stopwords.

Carregue a lista do arquivo `data/resources/en_stopwords.txt` na variável `stopwords`

In [None]:
stopwords = ###

Após a leitura, a célula abaixo deve retornar `True`.

In [None]:
' -- '.join(stopwords[:10]) == 'a -- about -- above -- after -- again -- against -- all -- am -- an -- and'

Lembre-se de que se você escolheu colocar as palavras de `word_list` em letra minúscula/maiúscula, você deve converter as palavras de `stopwords` para o mesmo case.

In [None]:
###

Crie a função que remove stopwords de uma lista de palavras

In [None]:
def remove_stopwords(words_list, stopwords):
    ###

In [None]:
%%time
words_list = remove_stopwords_from_text(words_list, stopwords)

In [None]:
get_most_frequent(words_list)

**Bônus**: Remova stopwords e a pontuação das palavras

Você deve ter reparado que na lista acima, havia uma palavra com pontuação. Isso acontece já que houve remoção de pontuação em nosso pré-processamento.

A ideia desse exercício bônus é você fazê-lo somente se já terminou os demais. Não executar as próximas células, não afeta substancialmente o desenvolvimento das outras tarefas

In [None]:
# give_me_a_hint('remove_stopwords_and_punctuation')

In [None]:
def remove_stopwords_and_punctuation(words_list, stopwords):
    ###

Note que abaixo estamos usando a função mágica `%%time` que nos permite visualizar o tempo de execução da célula

In [None]:
%%time
words_list = remove_stopwords_and_punctuation(words_list, stopwords)

In [None]:
get_most_frequent(words_list)

**Continue aqui para pular o bônus**

Você já ouviu falar em uma nuvem de palavras?

Vamos usar a função abaixo para plotar a famosa nuvem de palavras. Note que ela recebe como argumento uma `string`.

Como construir uma string a partir de uma lista de strings?

In [None]:
def plot_circular_word_cloud(text):
    """Plot word cloud with the frequent words inside text
    Args:
    - text (str)
    """
    x, y = np.ogrid[:400, :400]

    mask = (x - 200) ** 2 + (y - 200) ** 2 > 210 ** 2
    mask = 255 * mask.astype(int)

    wc = WordCloud(background_color="white", mask=mask)
    wc.generate(text)

    plt.figure(figsize=(4, 4), dpi=100)
    plt.axis("off")
    plt.imshow(wc, interpolation="bilinear")
    plt.show()

Crie a variável `text` a partir da lista de strings `words_list`

In [None]:
# give_me_a_hint('text_from_list_strings')

In [None]:
text = ###

Aprecie agora sua arte!

(Como estamos processando muito texto, a execução pode demorar um pouco. Se quiser saber quanto, adicione a função mágica `%%time` para medir o tempo de execução)

In [None]:
plot_circular_word_cloud(text)

## Normalizando a coluna _rating_ para que os pontos fiquem de zero a um

Pergunta-chave:
* Qual a amplitude dos valores na coluna _rating_? (ou seja, qual o mínimo e qual o máximo?)

In [None]:
min_rating = ###

In [None]:
max_rating = ###

In [None]:
min_rating, max_rating

Crie a coluna `normalized_rating` com o rating entre zero e um

In [None]:
# give_me_a_hint('rating_normalizer')

In [None]:
df['normalized_rating'] = ###

Lembre-se de checar se o mínimo e máximo de `normalized_rating` é 0 e 1, respectivamente

In [None]:
###

## De que países são os vinhos com melhor e pior _rating_?

Exiba o país e a quantidade de vinhos com essas avaliações

In [None]:
# give_me_a_hint('best_words_rating')

**Melhores**

In [None]:
###

**Piores**

In [None]:
###

## Se você chegou até aqui, salve seu dataset df para um arquivo csv com um nome e em uma pasta que você consiga lembrar posteriormente

Utilize as teclas `Shift + Tab` para ver os argumentos de `to_csv`

Uma configuração que particularmente gosto de usar, é usar o argumento `index=False` para que não seja criada uma coluna nova para o índice no arquivo salvo (mas lembre-se que em alguns casos os índices são importantes, cabe a você, como _data scientist_, fazer essa decisão)

In [None]:
df.to_csv()

## Bônus: encontre a região a partir da coluna _title_

Crie uma coluna `region` que conterá a região de que vem o vinho. Para a maior parte das linhas, essa informação está entre parêntesis dentro da coluna `title` e você deve pensar em uma maneira de extraí-la.

Note que nem todos os títulos contêm essa informação. Quando a informação não existe, o campo deve informar `not found`. Há casos também que o nome entre parêntesis não é uma região válida. Você deve tratar esses casos com a ajuda do arquivo `data/datasets/valid_wine_regions.txt` que tem uma lista de regiões válidas.

In [None]:
# give_me_a_hint('region_from_title')

In [None]:
df['region'] = ###

Leia o arquivo `data/datasets/valid_wine_regions.txt` e transforme o conteúdo dele em uma lista. Use essa lista para:

1. manter as regiões que estão na lista; e
2. substituir as que não estão na lista por `not found`.

In [None]:
wine_regions = ###

Se a leitura ocorreu corretamente, a seguinte célula deverá exibir `True` ao ser executada

In [None]:
' -- '.join(wine_regions[:10]) == 'Crozes-Hermitage -- Tavel -- Cerasuolo di Vittoria -- Puglia -- Calabria -- Quarts de Chaume -- Chambolle-Musigny -- Brda -- Chianti Montalbano -- Beneventano'

Substitua agora as regiões que não estão em `wine_regions` por `not found`

In [None]:
# give_me_a_hint('replace_region')

In [None]:
%%time
df.loc[:, 'region'] = ###

Dependendo da maneira como você implementou essa substituição, converter a variável `wine_regions` para `set` pode tornar a execução mais rápida.

Por que não testar? Lembre-se de re-executar a primeira parte, em que foi construída a coluna `region` a partir da coluna `title`.

In [None]:
df['region'] = #
wine_regions = set(wine_regions)

In [None]:
%%time
df.loc[:, 'region'] = ###

O resultado que obtive ao procurar as regiões dessa maneira foi tal que não encontrei a região para apenas cerca de 7 mil registros. Você pode testar o seu resultado contra o meu, rodando as duas células abaixo

In [None]:
def compare_to_instructor(df):
    size_not_found = len(df[df['region'] == 'not found'])
    if size_not_found == 7163:
        print('Exatamente igual ao da instrutora!')
    elif size_not_found < 7163:
        print('Parece que você encontrou ainda mais regiões!')
    else:
        print('Parece que você encontrou um pouco menos de regiões do que a instrutora. Se você quiser, pode olhar as dicas para tentar chegar ao mesmo resultado!')

In [None]:
compare_to_instructor(df)

### Regiões com mais vinhos diferentes avaliados (Top 5)

Imprima as regiões com com mais vinhos diferentes avaliados. Não queremos que a região `not found` apareça na lista, por isso, o primeiro passo será filtrar os registros de que não temos a região.

Formate o resultado para imprimir, de forma que seja impressa, além da região (`region`), o `país` (`country`) e a quantidade de títulos (`title`) diferentes para cada uma das regiões encontradas.

In [None]:
df_with_region = ###

Uma maneira de descobrir essas regiões seria a partir do uso de dicionários e da nossa função que retorna os elementos mais frequentes de uma lista.

Passo-a-passo:
1. Remova do dataframe os títulos duplicados utilizando o método [drop_duplicates](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html)
2. Crie um dicionário que tenha como chave a região e como valor o país (a ideia é que seja possível descobrir o país de uma região usando esse dicionário)
3. Obtenha a lista de todas as regiões a partir da coluna `region`
4. Obtenha a lista e contagem das regiões mais frequentes com a função `get_most_frequent`
5. Formate o resultado (obtendo o país usando o dicionário criado no passo 1) para que possamos imprimir `região`, `país` e `contagem`

In [None]:
no_duplicated_titles_df = ###

In [None]:
region2country = ###

In [None]:
regions_list = ###
regions_count = ###

In [None]:
regions_count

Formate o resultado para exibir uma linha como:

`Region: Napa Valley - Country: US: 3700`

In [None]:
for region, count in regions_count:
    print(###)

**Bônus do bônus:** Outra maneira de obter o mesmo resultado seria fazendo uma agregação no dataframe e selecionando a coluna `title` e contando os títulos distintos dela, de forma que o dataframe obtido seria:

<img src="data/dataset_top5.jpeg"/>

Você consegue obter esse dataframe?

In [None]:
###