<a href="https://colab.research.google.com/github/gnlins/estudo/blob/master/Minha_primeira_nuvem_de_palavras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Instalando e importando bibliotecas

In [None]:
pip install wordcloud -q

In [None]:
pip install newspaper3k -q

In [None]:
from newspaper import Article #para coletar o texto da wikipedia que será usado
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator #para fazer a nuvem de palavras
import matplotlib.pyplot as plt #biblioteca para configurar a plotagem
from PIL import Image #para abrir a imagem da máscara
import numpy as np #para transformar a imagem em matriz

#Importando base de dados

Aqui vou acessar os dados referentes ao artigo da [Wikipedia sobre Engenharia Ambiental](https://pt.wikipedia.org/wiki/Engenharia_do_ambiente)

In [None]:
referencia = 'https://pt.wikipedia.org/wiki/Engenharia_do_ambiente'
artigo = Article(referencia,'pt-br')
artigo.download()
artigo.parse()

In [None]:
texto = artigo.text

#Criando a nuvem de palavra

In [None]:
wc = WordCloud()

wc.generate(texto)
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

Como podemos perceber, existem palavras que aparecem excessivamente como, por exemplo 'de', 'da', 'por'... e essas palavras não acrescentam muito à nossa análise. Portanto utilizaremos uma lista de "Stopworords", as palavras presentes nessa lista não serão contabilizadas

In [None]:
STOPWORDS=['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'é', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'à', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'há', 'nos', 'já', 'está', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estão', 'você', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'têm', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'será', 'nós', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'fosse', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'há', 'havemos', 'hão', 'houve', 'houvemos', 'houveram', 'houvera', 'houvéramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvéssemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houverá', 'houveremos', 'houverão', 'houveria', 'houveríamos', 'houveriam', 'sou', 'somos', 'são', 'era', 'éramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'fôramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fôssemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'será', 'seremos', 'serão', 'seria', 'seríamos', 'seriam', 'tenho', 'tem', 'temos', 'tém', 'tinha', 'tínhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tivéramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivéssemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'terá', 'teremos', 'terão', 'teria', 'teríamos', 'teriam']

In [None]:
wc = WordCloud(background_color='white', #Mudando a cor do fundo para branco
               max_words = 2000, #numero máximo de palavras que vão aparecer
               stopwords = STOPWORDS, #lista de palavras que não serão contabilizadas
               max_font_size = 256, #Tamanho máximo de fonte
               random_state=42, #atribuindo valor a esse parametro, as palavras aparecem de forma aleatória, mas sempre da mesma forma
               width=500, #Largura da imagem
               height=500 #altura da imagem
               )

wc.generate(texto)
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.tight_layout()

# Fazendo nuvem de palavras com uma mascara customizada

Aqui utilizarei a logo da minha antiga empresa Júnior, Flua Consultoria Abmiental, como uma pequena homenagem.
![Flua](https://static.wixstatic.com/media/2c476a_8e5033914b7748a0a36410c065763534~mv2.png/v1/fill/w_424,h_420,al_c,q_85,usm_0.66_1.00_0.01/%5BFLUA%5D_Assinatura_Principal_Verde-Fundo_.webp)

## Criando a Máscara

In [None]:
path_image = '/content/drive/MyDrive/Online_CODE/Logo_Flua.jpg' #Localização da imagem a ser utilizada como máscara

mask = np.array(Image.open(path_image))
wc = WordCloud(background_color='white',
               mask = mask, #configurando a imagem como máscara
               max_words = 2000,
               stopwords = STOPWORDS,
               max_font_size = 256,
               random_state=42,
               width=mask.shape[1],
               height=mask.shape[0])

wc.generate(texto)
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

##Personalizando as cores da Máscara

In [None]:
path_image = '/content/drive/MyDrive/Online_CODE/Logo_Flua.jpg'

mask = np.array(Image.open(path_image))
wc = WordCloud(background_color='black',
               mask = mask,
               max_words = 2000,
               stopwords = STOPWORDS,
               max_font_size = 256,
               random_state=42,
               width=mask.shape[1],
               height=mask.shape[0])

wc.generate(texto)
image_colors = ImageColorGenerator(mask)
wc.recolor(color_func=image_colors) #usando as cores da imagem para exibição das palavras

plt.figure(figsize=(10,10))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.tight_layout(pad=0) #retirando bordas
plt.savefig('Eng_Flua.png') #Salvando a imagem



Para a documentação mais detalhada da biblioteca, [Clique aqui](https://amueller.github.io/word_cloud/references.html)