# WordCloud

```python
pip install wordcloud
```

_**Documentación:** https://github.com/amueller/word_cloud_

**`WordCloud`** es una libreria desarrollada por **Andreas Mueller** y nos permite generar nubes de palabras (**wordclouds**) utilizando solamente una cadena de caracteres. 

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from wordcloud import WordCloud, STOPWORDS

from PIL import Image

#### Cargamos un archivo de texto:

In [None]:
with open("alicia.txt", "r", encoding = "UTF-8") as file:
    alice_novel = file.read()

In [None]:
len(alice_novel)

In [None]:
alice_novel

### stopwords
Palabras vacías (**stopwords en inglés**) es el nombre que reciben las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos en **`NLP`**.

In [None]:
stopwords = STOPWORDS

stopwords

**Para crear un objeto WordCloud utilizamos la función `WordCloud()` que toma como parámetros el número total de palabras y los `stopswords`**.

**Para generar la nube debemos llenarla con las palabras del texto usando el método `.generate()`.**

In [None]:
alice_wc = WordCloud(background_color = "white",
                     max_words = len(alice_novel),
                     stopwords = stopwords)

# El objeto de WordCloud

alice_wc.generate(alice_novel)

**Para mostrar la imagen usamos la libreria de `matplotlib`**

In [None]:
plt.subplots(figsize = (12, 12))
plt.imshow(alice_wc)
plt.axis("off")
plt.show()

**Para eliminar esos caracteres que no son palabras podemos agregalos a la lista de `stopwords`.**

In [None]:
stopwords.add("said")
stopwords.add("one") 
stopwords.add("know") 
stopwords.add("will") 
stopwords.add("must") 
stopwords.add("went") 
stopwords.add("us") 
stopwords.add("come") 
stopwords.add("see") 
stopwords.add("well") 
stopwords.add("now") 
stopwords.add("may") 
stopwords.add("came") 
stopwords.add("seemed") 
stopwords.add("even") 
stopwords.add("project")
stopwords.add("Gutenberg")
stopwords.add("and")
stopwords.add("â")
stopwords.add("œ")
stopwords.add("Œ")

# Creamos de nuevo el objeto

alice_wc = WordCloud(background_color = "white",
                     max_words = len(alice_novel),
                     stopwords = stopwords)

alice_wc.generate(alice_novel)

plt.subplots(figsize = (10, 10))
plt.imshow(alice_wc)
plt.axis("off")
plt.show()

**También podemos usar una `mascara` para que el wordcloud tome la forma de una figura en lugar de un rectangulo.**

**Para esto necesitamos un archivo con extensión `.png`.**

In [None]:
mask = np.array(Image.open("alice_mask.png"))   
mask.shape

In [None]:
plt.subplots(figsize = (10, 10))

plt.imshow(mask, cmap = "binary_r")
plt.axis("off")
plt.show()

**Para unir el `wordcloud` con la mascara agregamos el parámetro `mask`.**

In [None]:
# Creamos de nuevo el objeto agregando la mascara

alice_wc = WordCloud(background_color = "white",
                     max_words = 2000,
                     mask = mask,
                     stopwords = stopwords,
                     contour_width = 0.5,
                     contour_color = "steelblue")

alice_wc.generate(alice_novel)


fig, ax = plt.subplots(figsize = (20, 20))
ax.imshow(alice_wc)
ax.axis("off")
alice_wc.to_file("imagenalicia.png")
plt.show()

**Otro `wordcloud`:**

In [None]:
with open("breakingbadscript.txt", "r", encoding = "UTF-8") as file:
    breakingbad_script = file.read()

In [None]:
bb_wc = WordCloud(background_color = "white",
                  max_words = len(breakingbad_script),
                  stopwords = stopwords)

# El objeto de word cloud
bb_wc.generate(breakingbad_script)

In [None]:
plt.subplots(figsize = (12, 12))
plt.imshow(bb_wc)
plt.axis("off")
plt.show()

In [None]:
breakingbad_mask = np.array(Image.open("breakingbad_mask.png"))
breakingbad_mask.shape

In [None]:
plt.subplots(figsize = (10, 10))

plt.imshow(breakingbad_mask)
plt.axis("off")
plt.show()

In [None]:
%%time

# Creamos de nuevo el objeto agregando la mascara
bb_wc = WordCloud(background_color = "white",
                  max_words = 2000,
                  mask = breakingbad_mask,
                  stopwords = stopwords,
                  contour_width = 2,
                  contour_color = "black")

bb_wc.generate(breakingbad_script)

plt.subplots(figsize = (20, 20))

plt.imshow(bb_wc, interpolation = "bilinear")
plt.axis("off")
bb_wc.to_file("imagenbb.png")
plt.show()

In [None]:
%%time

bb_wc = WordCloud(background_color = "black",
                  max_words = 2000,
                  mask = breakingbad_mask,
                  stopwords = stopwords,
                  contour_width = 2,
                  contour_color = "white")

bb_wc.generate(breakingbad_script)

plt.subplots(figsize = (20, 20))

plt.imshow(bb_wc, interpolation = "bilinear")
plt.axis("off")
bb_wc.to_file("imagenbb.png")
plt.show()

In [None]:
################################################################################################################################

### Ejercicio:
- Genera un **`wordcloud`** de algo que te interese. Saca la información de un archivo de internet, puedes usar el **`api de twitter`** para extraer la información, hacer **`web scraping`** sobre alguna página o simplemente descargar un **`.txt`**. Encuentra un archivo **`.png`** para hacer una mascara sobre el **`wordcloud`**, personaliza la gráfica como quieras.