<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



<h1>Curso Ingeniería de Características</h1>

<h3>Nube de palabras y uso de Spacy</h3>


<p> Julio Waissman Vilanova </p>

<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/tipos/python/nube_informe.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;"  width="30" /> Ejecuta en Colab</a>

</center>

## Introducción

En esta libreta vamos a ver como hacer nubes de palabras como un pretexto para ver como usar la biblioteca `spacy` en la limpieza de lenguaje natural (procesamiento sencillo).


Como un ejemplo de aplicación actual (al momento de hacer la libreta, claro). Vamos a utilizar el [Discurso del presidente Andrés Manuel López Obrador durante el Quinto Informe de Gobierno](https://www.gob.mx/presidencia/articulos/version-estenografica-5-informe-de-gobierno?idiom=es).

![](https://lopezobrador.org.mx/wp-content/uploads/2023/08/banner_quinto_informe-1.jpg)

Este tipo de estudio se puede aplicar a cualquier versión estenográfica o a cualquier informa. Y da un poco la idea de los temas más importantes tratados. Si bien los resultados son a tomar con precaución, las nubes de palabra suelen generar impacto.

Carguemos primero las bibliotecas que vamos ausar y algunas configuraciones de base.

In [None]:
# !pip install requests
# !pip install spacy
# !python -m spacy download es_core_news_md
# !pip install beautifulsoup4
# !pip install wordcloud

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import spacy
from bs4 import BeautifulSoup
import requests
import wordcloud

nlp = spacy.load('es_core_news_md')
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (15, 7)


## Descargando el texto

Vamos a usar `requests` para descargar la página completa como datos crudos, y luego utilizaremos `BeautifulSoup` para extraer del archivo el texto en parágrafor. Cáda parágrafo lo vamos a guardar en una entrada de un `dataframe`, por si luego decidimos hacer otro tipo de análisis con la información.


In [None]:
url = "https://www.gob.mx/presidencia/articulos/version-estenografica-5-informe-de-gobierno.html"

informe_html = requests.get(url)
sopa = BeautifulSoup(informe_html.text)

contenido = sopa.find_all("div", {"class":"article-body"})
df_informe = pd.DataFrame({
    'Parrafo': [parrafo.text for parrafo in contenido[0].find_all("p")] 
})

df_informe

Vamos a evitar lineas que contienen caractéres alfanumericos, así como las lineas que sabemos no son parte del informe.

In [None]:
df_informe = df_informe[df_informe.Parrafo.str.contains(r"\w", regex=True)]
df_informe = df_informe[~df_informe.Parrafo.str.startswith(('MODERADORA', 'PRESIDENTE', '(HONORES)', 'VOCES'))]
df_informe

## Haciendo una nube de palabras *rápido y furioso*

Ahora vamos autilizar el texto tal cual lo tenemos para hacer una nube de palabras, usando solo lo que nos ofrece la biblioteca de [`wordcloud`](https://amueller.github.io/word_cloud).



In [None]:
# Primero vamos a ver la funcionalidad básica
# de la clase WordCloud
wordcloud.WordCloud?

In [None]:
texto = '\n'.join(df_informe.Parrafo.str.lower().values)

# Genera la nube de palabras
wc = wordcloud.WordCloud().generate(texto)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

Pues muy bonita pero muy inutil. El problema más grande de esta nube de palabras es que se hizo tomando en cuenta todas las palabras, y la mayoría de las que más se repiten no dan información.

Vamos entonces a usar la serie de palabras de paro que nos da `spacy` con el modelo en español que bajamos.

In [None]:
palabras_paro = nlp.Defaults.stop_words

# Genera la nube de palabras
wc = wordcloud.WordCloud(
    stopwords=palabras_paro
).generate(texto)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

Y pues algo mejor, pero vemos que se siguen usando paabras que en otro contexto serían palabras significativas, pero que en un informa son muy esperables. Por ejemplo: México, o las que tengan que ver con porcentajes y con cantidades.

In [None]:
# Actualizamos palabras a mano
palabras_paro.update([
  "México", "país", "gobierno",
  "año", "años", "mil", "millones", 
  "pesos", "dolares", "dólares", "ciento", 'a', 'y', 'o'
])

# Genera la nube de palabras
wc = wordcloud.WordCloud(
    stopwords=palabras_paro
).generate(texto)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

Un poco mejor, pero podemos ajustar mejor los tamaños de las letras y otros detalles

In [None]:
# Una mascara redonda de radio dado en pixeles
radio = 200
largo = int(1.2 * radio)
x, y = np.ogrid[:2*largo, :2*largo]
mascara_redonda = (x - largo) ** 2 + (y - largo) ** 2 > radio ** 2
mascara_redonda = 255 * mascara_redonda.astype(int)


# Genera la nube de palabras
wc = wordcloud.WordCloud(
    stopwords=palabras_paro,
    max_words=100,
    max_font_size=50,
    background_color="black",
    #mask= mask
).generate(texto)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

# Si te gusta lo puedes guardad
wc.to_file("nube.png")

## Usando `spacy`para extraer mejores características

Vamos ahora a utilizar spacy y su capacidad para tratar tokens de forma automñatica para extraer diferentes características importantes del informe y revisar como procesar texto con spacy.

Por ejemplo, vamos a ver que adjetivos utilizó el presidente en su discurso

In [None]:
texto = '\n'.join(df_informe.Parrafo.values)
doc = nlp(texto)

palabras = ' '.join(
    [ 
     token.norm_ for token in doc
     if token.is_alpha and not token.like_num and not token.is_stop and
        not token.is_currency and token.pos_ in ['ADJ']
    ]
)

# Genera la nube de palabras
wc = wordcloud.WordCloud().generate(palabras)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

¿Y que verbos utilizó el presidente? ¿Se puede sacar alguna conclusión? ¿Cambia si se usan los verbos en infinitivo?

In [None]:
verbos = ' '.join(
  [token.norm_ for token in doc if token.pos_ in ['VERB']]
)

verbos_inf = ' '.join(
  [token.lemma_ for token in doc if token.pos_ in ['VERB']]
)


# Genera la nube de palabras
wc = wordcloud.WordCloud().generate(verbos)
wc2 = wordcloud.WordCloud().generate(verbos_inf)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.subplot(2,1,1)
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.subplot(2,1,2)
plt.imshow(wc2, interpolation='bilinear')
plt.axis("off")
plt.show()

¿Y su usamos puros sustantivos?

In [None]:
palabras = ' '.join(
    [ 
     token.norm_ for token in doc
     if token.is_alpha and not token.like_num and not token.is_stop and
        not token.is_currency and token.pos_ in ['NOUN']
    ]
)

# Genera la nube de palabras
wc = wordcloud.WordCloud().generate(palabras)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

¿Y por nombres propios?

In [None]:
palabras = ' '.join(
    [ 
     token.text for token in doc
     if token.is_alpha and not token.like_num and not token.is_stop and
        not token.is_currency and token.pos_ in ['PROPN'] 
    ]
)

# Genera la nube de palabras
wc = wordcloud.WordCloud().generate(palabras)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()

¿Y que tal si pudiermos ver los lugares que más mencionó? ¿Y si los ponemos en una imagen con el controno del país?

In [None]:
import urllib.request
from PIL import Image

mexico_img = "mapa-mexico.png"
mapa_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/tipos/python/mapa-mexico.png"
urllib.request.urlretrieve(mapa_url, mexico_img)

mask =  np.array(Image.open(mexico_img))[:,:,0]
mask[mask != 0] = 10
mask[mask == 0] = 255
plt.imshow(mask)

Ahora si, listos para hacer nuestra nube de palabras con el perfil de México. Por cierto el perfil de México es pésimo para hacer nubes de palabras, pero el del estado de Sonora está que ni mandado a hacer.

In [None]:
lugares = {}
for ent in doc.ents:
    if ent.label_ in ['LOC'] and ent.label_:
        lugares[ent.text] = lugares.get(ent.text, 0) + 1

# Genera la nube de palabras
wc = wordcloud.WordCloud(mask=mask, background_color="white", contour_color='blue').generate_from_frequencies(lugares)

# Muestra la nube de palabras
plt.figure(figsize=(15, 15))
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()