# Construindo uma Word Cloud

Word Cloud ou Tag Clouds é uma técnica de visualização de textos que são usados ​​nativamente para visualizar as tags ou palavras-chave dos sites. A seguir, relatamos algumas características:

* Cada palavra nesta nuvem tem um tamanho de fonte variável e um tom de cor. Assim, essa representação ajuda a determinar palavras de destaque. 

* Um tamanho de fonte maior de uma palavra retrata sua proeminência mais em relação a outras palavras no cluster. 

* O Word Cloud pode ser construído em várias formas e tamanhos com base na visão dos criadores. 

* O número de palavras desempenha um papel importante ao criar uma nuvem de palavras. 

* Um número maior de palavras nem sempre significa uma nuvem de palavras melhor, pois ela se torna confusa e difícil de ler. 

* Uma Nuvem de Palavras deve sempre ser semanticamente significativa e deve representar para o que se destina.


![Word Cloud Example](https://static.commonlounge.com/fp/600w/FxEgN5woHmXOJOLtm7oGGenV81520493685_kc)


Embora existam diferentes maneiras pelas quais as Nuvens de Palavras podem ser criadas, o tipo mais usado é usando a  Frequência das Palavras em relação ao nosso corpus. Dessa forma, no exemplo a seguir, iremos criar uma Numem de palavras como base

## Aplicações

* Feedback de clientes

* Discurso de candidatos

* Tópicos em alta


## 1. Importando as bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

## 2. Base de Dados

Para este exemplo, estamos usando o Popular Dataset Top Games na Google Play Store  da Kaggle, disponível em https://www.kaggle.com/dhruvildave/top-play-store-games.

Baixe o conjunto de dados e salve-o em seu diretório de trabalho atual para implementação de código sem complicações.

Importe o conjunto de dados para uma variável de sua escolha. Neste exemplo, os dados são importados para a variável df .

In [None]:
df = pd.read_csv("/content/drive/MyDrive/PLN/android-games.csv")
df.head()

## 3. Selecionando o texto corretamente
Selecionar texto para criar uma nuvem de palavras é uma tarefa importante. Deve-se verificar vários fatores para a seleção do Texto, tais como:

* Temos Declaração do Problema?
* O Texto Selecionado tem significado nele?
* Podemos concluir a Word Cloud criada?
* Nosso Texto tem uma quantidade adequada de Texto?
* O Word Cloud requer texto em quantidade adequada. Um grande número de palavras prejudicaria a aparência visual do Word Cloud e um número menor de palavras não faria sentido.

Podemos usar o método .head() do DataFrame para verificar as Colunas e o tipo de dado presente nelas. Em nosso exemplo, tomamos a categoria da coluna como Texto.

Como a categoria de colunas tem um prefixo de GAME antes de cada categoria de jogo, nossa Nuvem de Palavras acabaria criando GAME como a palavra mais frequente e a Nuvem de Palavras não teria significado em int. Assim, realizaremos a filtragem ao adicionar a  coluna de categoria ao Texto.

## 4. Verificar os valores nulos
É necessário verificar os valores nulos em nosso conjunto de dados, pois ao criar o Word Cloud, ele não aceitaria texto com valores `NaN` .

Como no nosso conjunto de dados não possui valores `NaN`, podemos continuar seguindo...

Se em outra base de dados houver poucos valores `NaN`, é aconselhável remover essas linhas, pois em geral, não afetaria muito a nuvem de palavras.

In [None]:
df.isna().sum()

## 5. Adicionando texto a uma variável

Com base nos parâmetros da etapa 3, vamos adicionar os dados de texto a uma variável de nossa escolha, que no nosso caso é a variável `text`.

Como precisamos filtrar o GAME  da categoria, dividimos o valor de cada linha e pegamos o 2º item, ou seja, o nome da  categoria da coluna da categoria.

In [None]:
text = " ".join(cat.split()[1] for cat in df.category)

## 6. Criando a nuvem de palavras

Vamos criar um da classe WordCloud com um nome de sua preferência e chamr o método `generate()`. Decidimos criar o objeto com o nome `word_cloud`.

O WordCloud() aceita vários argumentos conforme a necessidade. Aqui estamos adicionando dois argumentos:

* 1. `collocations = False`, que irá ignorar as palavras de collocation (ex. take a shower, pay attention) do texto.
* 2. `backgroun_color='white'`, que irá tornar as palavras mais claras.

O método `generate()` recebe um argumento do texto que criamos. No nosso caso, daremos a variável text como argumento para `generate()`

In [None]:
word_cloud = WordCloud(collocations = False, background_color = 'white').generate(text)

## 7. Criando a nuvem de palavras

Ao utilizar o `plt.imshow` estamos recebendo dois argumentos:

* `word_cloud` criado na etapa 6 e `interpolation = 'bilinear'`

Ao criar a imagem com `imshow()` ocorre uma reamostragem de imagem pois o tamanho do pixel da imagem e a resolução da tela não coincidem.

Controlamos essa reamostragem a partir do argumento de interpolação a fim de produzir imagens mais suaves ou nítidas.

Podemos configurar a interpolação com argumentos: `gaussian`, `quadric`, `bicubic` e `bilinear`. No nosso caso, escolhemos a interpolação `bilinear`.

Iremos imprimir a imagem com o eixo não aparente, pois não queremos a representação do eixo na nossa imagem.


In [None]:
plt.imshow(word_cloud, interpolation='bilinear')
plt.axis("off")
plt.show()