<a href="https://colab.research.google.com/github/nathalyAlarconT/mod_datasources/blob/master/Unstructured_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Extracción de datos para fuentes no estructuradas

# Caso 1

Extracción de noticias/artículos

In [None]:
# Vamos a instalar una de las librerías que nos permiten obtener el contenido 
# de las noticias de una página web
# https://pypi.org/project/goose3/
!pip install goose3

In [None]:
# Importamos la librería
from goose3 import Goose

In [None]:
# Definamos la url a partir de la cual deseamos extraer la noticia
url_noticia = 'https://cnnespanol.cnn.com/2019/09/10/alerta-incendios-en-bolivia-consumen-dos-millones-de-hectareas/'

In [None]:
# Inicializamos la librería, especificando el lenguaje en la que se encuentra el
# contenido del artículo
g = Goose({'target_language':'es', 'use_meta_language': False})
# Extraemos el contenido de la url y almacenamos el contenido en la variable article
article = g.extract(url=url_noticia)

In [None]:
# Veamos el título de la noticia
print ("******* Título de la noticia: ******* \n")
article.title

In [None]:
# Veamos el contenido de la noticia extraída
# Ya que la noticia puede ser muy larga, vamos a limitar el número de caracteres a desplegar
max_chars_to_show = 300 

print ("******* Contenido de la noticia: ******* \n")
print(article.cleaned_text[:max_chars_to_show])

In [None]:
from wordcloud import WordCloud
# from PIL import Image
import matplotlib.pyplot as plt
% matplotlib inline

In [None]:
# Creamos el primer wordcloud a partir del texto que hemos obtenido
wordcloud = WordCloud(max_words=200, background_color="white").generate(article.cleaned_text)
plt.figure(1, figsize=(12, 12))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

In [None]:
# En el worcloud previo generado, vemos que existen palabras "conectoras" que 
# se repiten con más frecuencia que el resto.
# Es necesario aplicar un procedimiento para remover los "stopwords"
# https://countwordsfree.com/stopwords/spanish

In [None]:
# Importamos las librerías y utilitarios necesarios para procesar el texto del artículo
import nltk
nltk.download("popular")
from nltk.corpus import stopwords

In [None]:
# Vamos a generar el listado de Stopwords de la librería que debemos usar para 
stopwords_esp = stopwords.words('spanish')

In [None]:
# Veamos las contenido inicial de los stopwords
stopwords_esp[:10]

In [None]:
# Puedes adicionar a la lista las palabras propias del contexto de la noticia.. no relevantes que 
# no deberían mostrarse en el wordcloud
stopwords_propias = ['CNN', 'Español']
stopwords_esp.extend(stopwords_propias)

In [None]:
# Volvamos a crear el wordcloud, pero esta vez, vamos a remover las stopwords
wordcloud = WordCloud(max_words=100, background_color="white", stopwords=stopwords_esp).generate(article.cleaned_text)
plt.figure(1, figsize=(12, 12))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

# Caso 2

In [None]:
# Crea un archivo que contengo el texto (plano) que deseas analizar
archivo_nombre = 'my_texto.txt'
# Vamos a leer el contenido del archivo y almacenaremos el texto del archivo en la 
# variable mi_texto
f = open(archivo_nombre, "r")
mi_texto = f.read()

In [None]:
# Imprimimos el contenido de la variable "mi_texto"
mi_texto[:100]

In [None]:
# Volvamos a crear el wordcloud a partir del texto introducido.
wordcloud = WordCloud(max_words=100, background_color="white", stopwords=stopwords_esp).generate(mi_texto)
plt.figure(1, figsize=(12, 12))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

# Caso 3

In [None]:
!pip install feedparser

In [None]:
import feedparser

In [None]:
import re
TAG_RE = re.compile(r'<[^>]+>')
def remove_tags(text):
    return TAG_RE.sub('', text)



In [None]:
# https://www.paginasiete.bo/rss/

FEED_URL='https://www.paginasiete.bo/rss/feed.html?r=91'

In [None]:
fp = feedparser.parse(FEED_URL)

for e in fp.entries:
    print("-------------------------")
    print(remove_tags(e.title))
    # print(e.links[0].href)
    print(remove_tags(e.content[0].value))

In [None]:
FEED_URL = "https://www.lostiempos.com/rss/ultimas"


In [None]:
fp = feedparser.parse(FEED_URL)

for e in fp.entries:
    print("-------------------------")
    print(remove_tags(e.title))
    # print(e.links[0].href)
    print(remove_tags(e.summary))