# ***Análisis de comportamiento en redes sociales usando Procesamiento del Lenguaje Natural***

**Instructor:** Hugo Porras

**Linkedin:** https://www.linkedin.com/in/hugo-b-porras-e-bb405512b/

**Correo de contacto:** hugo-sXe@hotmail.com

**Número de contacto:** +593998403685

# **Capítulo 3: Obtención y procesamiento de datos de texto**

## **1. Principios básicos del mineo de texto**

### **1.1. ¿Qué es el mineo de texto?**

#### **Definición del mineo de texto**

<img src="https://datacated.com/wp-content/uploads/2019/01/0_8gb5Ir-2ROQne0WN.jpg" width="500" alt="" />

Según Kwartler (2017):

*''El mineo de texto (text mining) es el proceso de destilar accionables útiles desde texto.''* (traducido del inglés)

#### **Ventajas del mineo de texto**

Realizado sobre Python (o cualquier lenguaje de programación similar), este mineo de texto tiene varias ventajas, incluyendo (y no limitado) a las siguientes:

+ Se crea confianza en los involucrados en cada proyecto (stakeholders) ya que generalmente no se requiere muestreo para extraer información.
+ Se puedan aplicar varias metodologías de manera rápida.
+ Los procedimientos realizados son de naturaleza auditable y reproducible.
+ El mineo de texto obtiene datos novedosos del texto.

#### **Recomendaciones sobre el mineo de texto**

Algunos ejemplos y recomendaciones específicas sobre el uso del mineo de texto incluyen:

+ **Textos de encuesta, grupos focales**: Se pueden explorar los tópicos de las respuestas a través de varios métodos con el fin de obtener la perspectiva de quienes han respondido.
+ **Texto muy corto**: Realizar análisis de texto sobre textos muy cortos puede sesgar las conclusiones obtenidas.
+ **Documentos legales y de recursos humanos**: A pesar de que el análisis de texto es útil, existen restricciones éticas y legales que deben ser respetadas.
+ **Datos de redes sociales**: En redes sociales se pueden obtener y procesar datos (siempre y cuando esté permitido) para sacar conclusiones útiles de contextos o noticias relevantes.
+ **Comentarios y reviews de productos**: Análisis de texto sobre comentarios de productos pueden ayudarnos a obtener la perspectiva que distintos segmentos de clientes tienen sobre él.
+ **Modelamiento predictivo**: A veces los datos de texto pueden permitirnos construir variables estructuradas que puedan ser usadas como datos de entrada en modelos predictivos.

#### **Flujo de trabajo sobre datos de texto**

Los datos de texto son de naturaleza no estructurada. Estos deben ser primero pre-procesados de una manera estructurada, se deben definir sus características y luego ser extraídas en forma de un documento organizado conocido como corpus. Al final se analizan las características extraídas.

A continuación se muestra este flujo de trabajo:

<img src="https://media-exp3.licdn.com/dms/image/C5112AQEYozomrc83eA/article-cover_image-shrink_720_1280/0/1562520931989?e=1628121600&v=beta&t=gZIjV5B-d25a4KHEihSHz0k3Bh2Bj4iaHyQhQBlthVo" width="400" alt="" />

A breves rasgos, podemos seguir estos pasos:

+ **Definir el problema y los objetivos específicos:** Tal como en otras tareas de analítica avanzada, no es prudente comenzar buscando respuestas. Es preciso entonces definir primero el problema a resolver.
+ **Identificar los datos de texto que deben ser recolectados:** Acorde al problema definido, los datos podrían venir de una fuente u otra. De dentro de la empresa o de datos gubernamentales por ejemplo. Estos datos pueden ser recolectados a través de web scraping, APIs (redes sociales), reconocimiento óptico de caracteres (OCR) o análisis de documentos.
+ **Organizar el texto:** Cuando los datos han sido recolectados, debemos organizarlos en un corpus, es decir, en datos estructurados. Posteriormente decidiremos si utilizamos técnicas para análisis de bolsa de palabras o análisis sintáctico.
+ **Extraer características:** Con el texto ya organizado realizamos pre-procesamiento sobre el texto, acorde a la metodología que pensemos seguir después, con el fin de obtener características de los datos de texto.
+ **Análisis:** En este punto utilizaremos la técnica analítica que hayamos pensado en un inicio sobre los datos pre-procesados.
+ **Elaborar las conclusiones y/o recomendaciones:** El resultado final del análisis deberá ser convertido en un accionable o en una conclusión, acorde a los objetivos definidos inicialmente.

### **1.2. Tipos de análisis de texto**

#### **Bolsa de palabras (bag of words)**

El mineo de texto basado en bolsa de palabras es más fácil de entender y analizar, incluso para el uso de técnicas de aprendizaje automático.

Este trata cada palabra (o grupo de palabras, i.e. n-gramas) como una característica única de un documento. En este tipo de análisis el orden de las palabras y sus características gramáticas y sintácticas no son utilizadas.

Uno de sus principales beneficios yace en que sus técnicas no son computacionalmente costosas, y por ende el análisis puede ser realizado de manera rápida. Debido a que sus resultados son devueltos en forma de datos estructurados, estos pueden ser utilizados en modelos de aprendizaje automático. Una de las formas más usuales de devolver estos resultados son las DTM (document-term matrix o matriz documento-término).

En estas matrices, cada fila representa un documento o corpus, cada columna una palabra o n-grama, y cada una de las entradas de la matriz se puede llenar con distintas medidas. Por ahora lo haremos con la frecuencia de cada palabra. Su traspuesta es la matriz término-documento.

Otra forma de representar estos datos es a través de listas, diccionarios o de objetos en formato CoNLL (**Conference on Computational Natural Language Learning**). 

Los objetos CoNLL usualmente se guardan como archivos TSV. En estos:

+ Cada palabra o **token** se representa en una línea.
+ Cada **oración** esta separada de la siguiente por una línea vacía.
+ Cada **columna** representa una **anotación**.
+ Cada palabra en una oración tiene el mismo número de columnas.

#### **Análisis sintáctico**

El análisis sintáctico difiere de una bolsa de palabras tanto en complejidad como en enfoque. Este se basa en la sintaxis de las palabras y utiliza el etiquetado POS (part of speech) para identificar las palabras en un contexto adecuado. Cada una de las etiquetas es analizada para obtener conclusiones y resultados.

En base a estas descripciones preliminares, el enfoque de este curso tomará el camino del análisis de bolsa de palabras.

## **2. Definición de objetivos**

Para objetivos prácticos de este curso analizaremos un conjuntos de datos desde el inicio, y realizaremos cada uno de los pasos sugeridos en la primera seccción de este capítulo.

Así, definiremos primero los objetivos del análisis.

## **2.1. Análisis de noticias: ¿Qué se dice de Guillermo Lasso?**

<img src="https://static.dw.com/image/57649543_303.jpg" width="500" alt="" />

En este caso, obtendremos conclusiones acerca de las noticias que mencionan al presidente del Ecuador: Guillermo Lasso. Para ello, obtendremos los datos de las noticias que se encuentren en **Google News**.

## **3. Obtención de datos de texto**

### **3.1. Obtención de datos de Google News a través de web scrapping**

#### **Web scrapping**

Según **Wikipedia**, el *''web scraping o raspado web, es una técnica utilizada... para extraer información de sitios web''*. Estos datos nos son útiles no solo para realizar analítica de texto, sino para muchos otros tipos de análisis, incluyendo el **enriquecimiento de información**. 

En la siguiente gráfica podemos observar un pipeline similar al que vimos anteriormente. En esta se detalla que el web scrapping consta de dos tareas principales: **acceder a la data cruda** y **analizarla y extraer la información de interés**. Esto se realiza durante la etapa de **adquisición de datos**.

<img src="https://ertherab.sirv.com/EcuAnalytics-INSight/web_scrapping_pipe.png" 
     width="250" alt="" />

Para realizar web scrapping utilizaremos **código css** para extraer los atributos de la página web que nos encontremos analizando. Para ello, y por futuras referencias, se dejan algunas fuentes de información útiles.
+ [HTML tags](https://www.w3schools.com/TAGS/default.ASP)
+ [Documentación Scrapy](https://scrapy.org/)

#### **Proceso de extracción con scrapy**

Para obtener los datos mencionados seguiremos el proceso mostrado a continuación.

+ Cargamos las librerías necesarias para el ejercicio (y las instalamos de ser necesario).

<img src="https://ichi.pro/assets/images/max/724/1*Ticq4UJuod-3ataVHm9Y7g.png" 
     width="500" alt="" />

In [43]:
#!pip install scrapy
#!pip install siuba

Collecting siuba
  Downloading siuba-0.1.2.tar.gz (106 kB)
[K     |████████████████████████████████| 106 kB 21.7 MB/s 
Building wheels for collected packages: siuba
  Building wheel for siuba (setup.py) ... [?25l[?25hdone
  Created wheel for siuba: filename=siuba-0.1.2-py3-none-any.whl size=126968 sha256=356afce89eb19d0192faf6fd831e2befceea64ccabbed85c309c95172ffe79b1
  Stored in directory: /root/.cache/pip/wheels/bd/bf/fd/acdd87b7fa898b5af85090aba6ec6f258f6b97227851cf0f6a
Successfully built siuba
Installing collected packages: siuba
Successfully installed siuba-0.1.2


In [44]:
import requests # Obtener html de página web
import pandas as pd # Manejo de datos
from siuba.dply.verbs import * # Transformación de datos (al estilo tidyverse)
from scrapy import Selector # Scrapping de información

+ Creamos dos funciones. Una para la obtención de los titulares atados a una búsqueda en google news y otra para obtener las características de cada noticia (titular, diario, fecha de publicación, hipervínculo). Para ello primero explicaremos un ejemplo.

En la siguiente imagen podemos ver que cuando realizamos una búsqueda en google news, la url de búsqueda (marcada en rojo) está conformada por tres partes (https://news.google.com/ , search?q= y el término de búsqueda con “%20” en lugar de espacios) más una parte de parámetros adicionales (marcada en azul).

<img src="https://ertherab.sirv.com/02_Scrapping1.png" width="750" alt="" />

Para comenzar el scrapping debemos entonces:

+ Definimos un objeto que contenga como cadena de texto la página principal de google news:

In [4]:
news_pag = "https://news.google.com/"
news_pag

'https://news.google.com/'

+ Creamos un parámetro adicional que se va a encargar de la búsqueda:

In [5]:
parametro_busqueda = "search?q="
parametro_busqueda

'search?q='

+ Parametrizamos un objeto que contenga el texto que vamos a buscar, sustityendo los espacios por %20.:

In [6]:
busqueda_no_espacios = 'Guillermo Lasso'.replace(" ","%20")
busqueda_no_espacios

'Guillermo%20Lasso'

+ Definimos un parámetro adicional de búsqueda en español:

In [7]:
parametro_final = "&hl=es-419&gl=US&ceid=US:es-419"
parametro_final

'&hl=es-419&gl=US&ceid=US:es-419'

+ Con estos cuatro objetos definidos formamos la url de búsqueda:

In [8]:
html_dir = news_pag+parametro_busqueda+busqueda_no_espacios+parametro_final
html_dir

'https://news.google.com/search?q=Guillermo%20Lasso&hl=es-419&gl=US&ceid=US:es-419'

Si navegamos a esta dirección web en internet obtendremos el resultado de la búsqueda escrita, del cual deberemos extraer las características que necesitemos de cada noticia, es decir, textos como el titular, la fecha, el sitio web donde la noticia fue publicada, y el más importante, el link de la noticia. Para llevar a cabo esta tarea realizaremos el siguiente procedimiento.

+ Leemos la url creada antes:

In [9]:
google_news = requests.get(html_dir).content
type(google_news)

bytes

+ Para comenzar la exploración del texto html necesitamos inicializar un *selector* con *scrapy*:

In [10]:
google_news_sel = Selector(text = google_news)

In [11]:
type(google_news_sel)

scrapy.selector.unified.Selector

Ahora necesitaremos el código CSS o Xpath que identifique a cada noticia y nos permita extraer sus características. Para llevar a cabo esta actividad usaremos SelectorGadget, el cual es una extensión de Google Chrome.

La extensión de selector gadget puede ser instalada desde el siguiente link: https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb?hl=es.

Para usarla:

+ Primero abriremos la página web deseada y daremos clic en el ícono de SelectorGadget. Con esta acción se activará la barra de SelectorGadget en la parte inferior de la pantalla:

<img src="https://ertherab.sirv.com/02_SelectorGadget.png" width="750" alt="" />

+ Luego daremos clic en el objeto que queremos extraer y la barra de SelectorGadget se poblará con su selector CSS. Copiaremos este selector CSS al portapapeles.

<img src="https://ertherab.sirv.com/02_SelectorCSS.png" width="750" alt="" />

Una vez que hayamos obtenido esta información, continuaremos con el scrapping:

+ Usaremos el código CSS obtenido con el *método css* aplicado sobre el *selector* con la finalidad de obtener los objetos de las noticias (google news muestra 100 noticias máximo sobre las cuales realizar la extracción).

In [12]:
noticias = google_news_sel.css('.nID9nc')
type(noticias[0])

scrapy.selector.unified.Selector

Con la ayuda del SelectorGadget y la opción inspeccionar disponible en navegadores como Google Chrome y Mozilla Firefox extraeremos el titular, el diario, la fecha y el link de la noticia como se muestra a continuación, para la primera noticia de las encontradas.

Es preciso notar que después de explorar los nodos css, es necesario extraer la información con el método *extract*.

In [13]:
titular = noticias[2].css('h3').css('::text').extract()
titular

['Bill Clinton, Iván Duque, Guillermo Lasso, la travesía culinaria de los presidentes durante su visita en Galápagos']

In [14]:
diario = [noticias[2].css("a.wEwyrc.AVN2gc.uQIVzc.Sksgp").css("::text").extract_first()]
diario

['El Universo']

In [15]:
fecha = [noticias[2].css('time').xpath("@datetime").extract_first()]
fecha

['2022-02-05T03:00:00Z']

In [16]:
link_enmascarado = [noticias[2].css('a').xpath("@href").extract_first()]
link_enmascarado

['./articles/CBMirAFodHRwczovL3d3dy5lbHVuaXZlcnNvLmNvbS9lbnRyZXRlbmltaWVudG8vZ2FzdHJvbm9taWEvYmlsbC1jbGludG9uLWl2YW4tZHVxdWUtZ3VpbGxlcm1vLWxhc3NvLWxhLXRyYXZlc2lhLWN1bGluYXJpYS1kZS1sb3MtcHJlc2lkZW50ZXMtZHVyYW50ZS1zdS12aXNpdGEtZW4tZ2FsYXBhZ29zLW5vdGEv0gG7AWh0dHBzOi8vd3d3LmVsdW5pdmVyc28uY29tL2VudHJldGVuaW1pZW50by9nYXN0cm9ub21pYS9iaWxsLWNsaW50b24taXZhbi1kdXF1ZS1ndWlsbGVybW8tbGFzc28tbGEtdHJhdmVzaWEtY3VsaW5hcmlhLWRlLWxvcy1wcmVzaWRlbnRlcy1kdXJhbnRlLXN1LXZpc2l0YS1lbi1nYWxhcGFnb3Mtbm90YS8_b3V0cHV0VHlwZT1hbXA?hl=es-419&gl=US&ceid=US%3Aes-419']

In [17]:
link = news_pag+link_enmascarado[0][2:]
link

'https://news.google.com/articles/CBMirAFodHRwczovL3d3dy5lbHVuaXZlcnNvLmNvbS9lbnRyZXRlbmltaWVudG8vZ2FzdHJvbm9taWEvYmlsbC1jbGludG9uLWl2YW4tZHVxdWUtZ3VpbGxlcm1vLWxhc3NvLWxhLXRyYXZlc2lhLWN1bGluYXJpYS1kZS1sb3MtcHJlc2lkZW50ZXMtZHVyYW50ZS1zdS12aXNpdGEtZW4tZ2FsYXBhZ29zLW5vdGEv0gG7AWh0dHBzOi8vd3d3LmVsdW5pdmVyc28uY29tL2VudHJldGVuaW1pZW50by9nYXN0cm9ub21pYS9iaWxsLWNsaW50b24taXZhbi1kdXF1ZS1ndWlsbGVybW8tbGFzc28tbGEtdHJhdmVzaWEtY3VsaW5hcmlhLWRlLWxvcy1wcmVzaWRlbnRlcy1kdXJhbnRlLXN1LXZpc2l0YS1lbi1nYWxhcGFnb3Mtbm90YS8_b3V0cHV0VHlwZT1hbXA?hl=es-419&gl=US&ceid=US%3Aes-419'

Ahora que hemos obtenido el link de la noticia, necesitamos obtener su información. Para ello:

+ Navegamos al link de la noticia e inicializamos un *selector*:

In [18]:
noticia = requests.get(link).content
news_sel = Selector(text = noticia)
type(news_sel)

scrapy.selector.unified.Selector

+ De esta haremos buscaremos el selector CSS que contenga el texto de la noticia:

<img src="https://ertherab.sirv.com/02_SelectorCSSNoticia.png" width="750" alt="" />

+ Y con él extraemos el texto similar a cómo lo hicimos anteriormente. Al final lo unimos con espacios.

In [19]:
selact = news_sel.css('.prose-text').css('p').css('::text').extract()
text = ' '.join(selact)
text

'Estar en cocina y compartir para nosotros es más que un trabajo, es disfrutar con lo que nos gusta, cocinar, cierto es que hacerlo en nuestras aulas de la escuela o en un restaurante siempre será más cómodo, conocemos nuestro espacio, herramientas, tenemos a la mano cualquier ingrediente y es nuestro lugar habitual. Pero a veces en esta profesión nos toca enfrentar retos que nos llevan a lugares desafiantes en todo sentido,  tiempos, presión, comodidades, exigencias, que las tomamos con gusto y responsabilidad. Esta es la historia de lo que vivimos hace poco al elaborar con escasos días de anticipación un almuerzo en altamar para más de 100 personas, muchos invitados y personalidades extranjeras, con solicitudes especiales, un menú diverso con una serie de requisitos tanto de los comensales como de las autoridades de un lugar tan protegido como Galápagos, lo cual es un reto emocionante y que es parte de lo que como todo cocinero queremos seguir experimentando, es lo que nos mantiene v

Con esto habremos finalizado el proceso de web-scrapping para esta noticia. Cabe notar que cada diario tendrá su propia estructura, que tendrá que ser analizada con SelectorGadget.

Una vez explicado el ejemplo, unamos todas sus partes para crear 3 funciones, de las cuales explicaremos un par de detalles adicionales.

#### **Función de búsqueda de noticias:**

In [20]:
def obtiene_noticias_data(busqueda):
    # Parametrización de búsqueda
    news_pag = "https://news.google.com/"
    parametro_busqueda = "search?q="
    busqueda_no_espacios = busqueda.replace(" ","%20")
    parametro_final = "&hl=es-419&gl=US&ceid=US:es-419"
    html_dir = news_pag+parametro_busqueda+busqueda_no_espacios+parametro_final
    google_news = requests.get(html_dir).content
    google_news_sel = Selector(text = google_news)
    # Obtención de data
    noticias = google_news_sel.css('.nID9nc')
    titulares = []
    diarios = []
    fechas = []
    links = []
    for i in range(0,len(noticias)):
        titular = noticias[i].css('h3').css('::text').extract()
        diario = [noticias[i].css('a.wEwyrc.AVN2gc.uQIVzc.Sksgp').css('::text').extract_first()]
        fecha = [noticias[i].css('time').xpath("@datetime").extract_first()]
        link_enmascarado = noticias[i].css('a').xpath("@href").extract_first()
        link = news_pag+link_enmascarado[2:]
        titulares.append(titular[0])
        diarios.append(diario[0])
        fechas.append(fecha[0])
        links.append(link)
    result = {'Titular' : titulares, 'Diario' : diarios, 'Fechas' : fechas, 'Link' : links}
    result = pd.DataFrame(result)
    return result

Esta función recibe como argumento una búsqueda de texto y extrae todas las noticias que devuelva google news para esa búsqueda (con un máximo de 100).

Al final se devuelve un *pandas DataFrame* con la información relevante de todas las noticias encontradas. Este resultado será el principal input de la siguiente función.

#### **Función de caracterización de noticias:**

In [21]:
def obtiene_noticias_busqueda(dataset_noticias, diccionario_css):
    noticias_texto = []
    dataset_noticias_filtrado = dataset_noticias.\
        loc[dataset_noticias.Diario.isin(list(diccionario_css.diarios)),:].copy()
    for i in range(0,dataset_noticias_filtrado.shape[0]):
        noticia = requests.get(list(dataset_noticias_filtrado.Link)[i]).content
        diario = list(dataset_noticias_filtrado.Diario)[i]
        news_sel = Selector(text = noticia)
        css = list(diccionario_css.loc[diccionario_css.diarios==diario,'css'])[0].split('|')
        selact = news_sel.css(css[0])
        if len(css)!=1:
            for j in css[1:len(css)]:
                selact = selact.css(j)
        selact = selact.css('::text').extract()
        text = ' '.join(selact)
        noticias_texto.append(text)
    dataset_noticias_filtrado['Noticia'] = noticias_texto
    return(dataset_noticias_filtrado)  

Esta función sirve para extraer el texto de las noticias obtenidos a través de un objeto llamado *diccionario_css*. Este último nos permite mapear el código css necesario para obtener el texto de cada noticia que se visite.

Con este procesamiento, obtengamos de la búsqueda requerida.

In [22]:
gl_result = obtiene_noticias_data('Guillermo Lasso')

In [23]:
gl_result.head()

Unnamed: 0,Titular,Diario,Fechas,Link
0,Guillermo Lasso informa a empresarios chinos l...,El Universo,2022-02-04T21:41:16Z,https://news.google.com/articles/CBMiqwFodHRwc...
1,Guillermo Lasso se reunió con empresarios chinos,El Comercio (Ecuador),2022-02-04T20:50:00Z,https://news.google.com/articles/CBMiYGh0dHBzO...
2,"Bill Clinton, Iván Duque, Guillermo Lasso, la ...",El Universo,2022-02-05T03:00:00Z,https://news.google.com/articles/CBMirAFodHRwc...
3,Guillermo Lasso saluda a la deportista Sarah E...,El Universo,2022-02-04T17:27:38Z,https://news.google.com/articles/CBMihAFodHRwc...
4,Guillermo Lasso espera hasta marzo las negocia...,El Universo,2022-01-27T08:00:00Z,https://news.google.com/articles/CBMihwFodHRwc...


No olvidemos definir el diccionario de css requerido para la ejecución de la segunda función.

In [24]:
diarios_dic = pd.DataFrame({"diarios" : ["El Universo","El Comercio (Ecuador)","Primicias"], 
                            "css" : ['.prose-text|p','.entry__content|p','#entry-content-inarticle|p']})

Obtenemos el texto de las noticias:

In [25]:
noticias_df = obtiene_noticias_busqueda(gl_result, diarios_dic)

In [26]:
noticias_df.loc[noticias_df.Diario=='Primicias'].head(1)

Unnamed: 0,Titular,Diario,Fechas,Link,Noticia
20,Guillermo Lasso pide al COE que el partido de ...,Primicias,2022-01-26T00:11:38Z,https://news.google.com/articles/CBMiYGh0dHBzO...,"El martes 25 de enero, Guillermo Lasso recibió..."


In [27]:
noticias_df.loc[noticias_df.Diario=='El Comercio (Ecuador)'].head(1)

Unnamed: 0,Titular,Diario,Fechas,Link,Noticia
1,Guillermo Lasso se reunió con empresarios chinos,El Comercio (Ecuador),2022-02-04T20:50:00Z,https://news.google.com/articles/CBMiYGh0dHBzO...,"El presidente de la República, Guillermo La..."


In [28]:
noticias_df.loc[noticias_df.Diario=='El Universo'].head(1)

Unnamed: 0,Titular,Diario,Fechas,Link,Noticia
0,Guillermo Lasso informa a empresarios chinos l...,El Universo,2022-02-04T21:41:16Z,https://news.google.com/articles/CBMiqwFodHRwc...,"De forma virtual, el presidente Guillermo Las..."


Al final, guardamos el como un archivo excel el dataset obtenido.

In [29]:
from google.colab import drive

In [30]:
drive.mount('/content/drive')

Mounted at /content/drive


In [41]:
path = '/content/drive/MyDrive/CursoNLP_EdicionPython/'

In [42]:
noticias_df.to_excel(path+'noticias_Guillermo_Lasso.xlsx')

In [36]:
from google.colab import files

In [38]:
files.download('noticias_Guillermo_Lasso.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>