#**Maestría en Inteligencia Artificial Aplicada**
##**Curso: Procesamiento de Lenguaje Natural (NLP)**
###Tecnológico de Monterrey
###Prof Luis Eduardo Falcón Morales

## **Adtividad de la Semana 02**
###**Introducción al procesamiento de texto.**

En esta actividad deberás utilizar los datos del siguiente archivo que se encuentra en Canvas:

MNA_NLP_semana_02_Actividad_datos.txt

El archivo contiene comentarios en inglés sobre servicios de comida de la página de Yelp: https://www.yelp.com/ .

Son mil comentarios y forman parte del conjunto de datos que se encuentra en el Machine Learning Repository de la UCI, llamado "Sentiment Labelled Sentences": https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences#


#**Parte 1. Cargamos los datos.**   

Cargar los datos del archivo indicado y obtener una lista de longitud de 1000 strings/comentarios.

Por el momento solamente requerimos las bibliotecas de Numpy y re, para el manejo de los arreglos y de las expresiones regulares en Python.

En particular, no necesitarás en esta actividad la biblioteca de Pandas.

###**NOTA: En esta actividad no debes importar nada más, con estas dos bibliotecas será *suficiente*.**

In [35]:
import numpy as np       # importamos Numpy para el manejo de los arreglos.
import re                # importamos re para el manejo de las expresiones regulares.
import gdown             # importamos gdown para descargar el archivo de trabajo
import os                # importamos os para manejo de archivos y directorios
import tabulate as tab   # importamos tabulate para impresión de tablas

In [36]:
os.makedirs('datos', exist_ok=True)
datos_url = 'https://drive.google.com/uc?id=1qVQ5sn901fDCQMRP_NpaHEoTEEOlrfM3'
output = 'datos/actividad_datos.txt'

print("Descargando datos")
gdown.download(datos_url, output, quiet=False)

Descargando datos


Downloading...
From: https://drive.google.com/uc?id=1qVQ5sn901fDCQMRP_NpaHEoTEEOlrfM3
To: /home/jarcos/datos/actividad_datos.txt
100%|█████████████████████████████████████████████████████████████████████| 59.9k/59.9k [00:00<00:00, 510kB/s]


'datos/actividad_datos.txt'

In [37]:
# Ejecuta las siguientes instrucciones para cargar la información del achivo dado:

with open('datos/actividad_datos.txt',        # puedes actualizar la ruta a tu archivo, en dado caso.
          mode='r',                           # abrimos el archivo en modo lectura.
          ) as f:
    docs = f.readlines()                      # separamos cada comentario por líneas

f.close()                         # ya que tenemos la información en la variable docs, cerramos el archivo

In [38]:
type(docs) == list   # Verifica que tu variable "docs" es una lista

True

In [39]:
len(docs)==1000  # verifica que la longitud de "docs" es de mil comentarios.

True

In [40]:
docs[0:10]     # observa algunos de los primeros comentarios

['Wow... Loved this place.\n',
 'Crust is not good.\n',
 'Not tasty and the texture was just nasty.\n',
 'Stopped by during the late May bank holiday off Rick Steve recommendation and loved it.\n',
 'The selection on the menu was great and so were the prices.\n',
 'Now I am getting angry and I want my damn pho.\n',
 "Honeslty it didn't taste THAT fresh.)\n",
 'The potatoes were like rubber and you could tell they had been made up ahead of time being kept under a warmer.\n',
 'The fries were great too.\n',
 'A great touch.\n']

#**Parte 2: sección de preguntas (regex).**   


##**Instrucciones:**

###**A continuación deberás contestar cada una de las preguntas que te piden usando expresiones regulares (regex).**

###**Por el momento no hay restricción en cuanto al número de líneas de código que agregues, pero trata de incluir las mínimas posibles.**

*   **Pregunta 1.**

Busca y elimina todos los saltos de línea '\n' que se encuentran al final de cada comentario.

Una vez finalizado, imprime los primeros 10 comentarios del resultado obtenido.


In [41]:
comentarios_sin_saltos = [re.sub(r'\n$', '', registro) for registro in docs]
for comentario in comentarios_sin_saltos[:10]:
    print(comentario)

Wow... Loved this place.
Crust is not good.
Not tasty and the texture was just nasty.
Stopped by during the late May bank holiday off Rick Steve recommendation and loved it.
The selection on the menu was great and so were the prices.
Now I am getting angry and I want my damn pho.
Honeslty it didn't taste THAT fresh.)
The potatoes were like rubber and you could tell they had been made up ahead of time being kept under a warmer.
The fries were great too.
A great touch.


*   **Pregunta 2.**  

Busca e imprime todas las palabras que terminan con dos o más signos de admiración seguidos, por ejemplo "!!!".

Debes imprimir tanto la palabra como la totalidad de signos de admiración que le siguen.

Indica cuántos resultados obtuviste.



In [42]:
def imprimir_resultado(palabras,columnas):
  filas = []
  ordenados = sorted(palabras)
  for i in range(0, len(ordenados), columnas):
        fila = ordenados[i:i + columnas]

        while len(fila) < columnas:
            fila.append("")
        filas.append(fila)

  print(tab.tabulate(filas, tablefmt="grid", stralign="center"))
  print(f"Se identificaron un total de \033[32m\033[1m{len(palabras)}\033[0m palabras")

In [43]:
palabras_con_exclamaciones = []
for comentario in comentarios_sin_saltos:
    palabras_con_exclamaciones.extend(re.findall(r'\b\w+!{2,}', comentario))

imprimir_resultado(palabras_con_exclamaciones,3)

+----------------+----------------------------+---------------------+
| APPETIZERS!!!  |        DELICIOUS!!         |     FLY!!!!!!!!     |
+----------------+----------------------------+---------------------+
| Firehouse!!!!! |            Up!!            |      amazing!!      |
+----------------+----------------------------+---------------------+
|   amazing!!!   | amazing!!!!!!!!!!!!!!!!!!! |      awesome!!      |
+----------------+----------------------------+---------------------+
|  biscuits!!!   |         buffet!!!          |    delicious!!!     |
+----------------+----------------------------+---------------------+
| disappointed!! |      disappointing!!!      |        dry!!        |
+----------------+----------------------------+---------------------+
|     far!!      |           good!!           | great!!!!!!!!!!!!!! |
+----------------+----------------------------+---------------------+
|    here!!!     |           it!!!!           |     otherwise!!     |
+----------------+--

*   **Pregunta 3.**  

Busca e imprime todas las palabras que están escritas totalmente en mayúsculas. Cada coincidencia debe ser una sola palabra.

Indica cuántas palabras encontraste.



In [44]:
set_mayusculas = set()
for comentario in comentarios_sin_saltos:
    set_mayusculas.update(re.findall(r'\b[A-Z]+\b', comentario))

palabras_mayusculas = list(set_mayusculas)

imprimir_resultado(palabras_mayusculas,6)

+-----------+---------------+---------------+------------+-----------+------------+
|     A     |     AGAIN     |      ALL      |     AN     |    AND    | APPETIZERS |
+-----------+---------------+---------------+------------+-----------+------------+
|   AVOID   |     AYCE      |      AZ       |    BACK    |   BARE    |  BARGAIN   |
+-----------+---------------+---------------+------------+-----------+------------+
|    BBQ    |     BEST      |    BETTER     |  BITCHES   |   BLAND   | CONCLUSION |
+-----------+---------------+---------------+------------+-----------+------------+
| DELICIOUS | ESTABLISHMENT |     EVER      | EXPERIENCE | FANTASTIC |   FLAVOR   |
+-----------+---------------+---------------+------------+-----------+------------+
|    FLY    |    FORWARD    |   FREEZING    |     FS     |    GC     |     GO     |
+-----------+---------------+---------------+------------+-----------+------------+
|   GREAT   |      HAD      |     HANDS     |  HAPPENED  |   HAVE    |    HO

*   **Pregunta 4.**  

Busca e imprime los comentarios en donde todos los caracteres alfabéticos (letras) están en mayúsculas.

Cada coincidencia encontrada debe ser todo el comentario/enunciado.

Indica cuántos resultados obtuviste.


In [45]:
comentarios_mayusculas = []

for comentario in comentarios_sin_saltos:
    if re.fullmatch(r'[A-Z\s\W]+', comentario):
        comentarios_mayusculas.append(comentario)

imprimir_resultado(comentarios_mayusculas,1)

+----------------------------------------------------------------------+
|                      AVOID THIS ESTABLISHMENT!                       |
+----------------------------------------------------------------------+
|                             DELICIOUS!!                              |
+----------------------------------------------------------------------+
|                   RUDE & INCONSIDERATE MANAGEMENT.                   |
+----------------------------------------------------------------------+
|                         TOTAL WASTE OF TIME.                         |
+----------------------------------------------------------------------+
| WILL NEVER EVER GO BACK AND HAVE TOLD MANY PEOPLE WHAT HAD HAPPENED. |
+----------------------------------------------------------------------+
Se identificaron un total de [32m[1m5[0m palabras


*   **Pregunta 5.**  

Busca e imprime todas las palabras que tengan una vocal acentuada, del tipo á, é, í, ó, ú.

Indica cuántos resultados obtuviste.

In [46]:
palabras_tilde = []

for comentario in comentarios_sin_saltos:
    palabras_tilde.extend(re.findall(r'\b\w*[áéíóú]\w*\b', comentario, re.IGNORECASE))

imprimir_resultado(palabras_tilde,3)

+------+--------+--------+
| Café | fiancé | puréed |
+------+--------+--------+
Se identificaron un total de [32m[1m3[0m palabras


*   **Pregunta 6.**  

Busca e imprime todas las cantidades numéricas monetarias, enteras o con decimales, que inician con el símbolo $\$$.

Indica cuántos resultados obtuviste.

In [47]:
cantidades_monetarias = []

for comentario in comentarios_sin_saltos:
    cantidades_monetarias.extend(re.findall(r'\$\s*(\d+(?:\.\d+)?)', comentario))

imprimir_resultado(cantidades_monetarias,4)

+-------+----+----+-------+
| 11.99 | 12 | 17 | 20    |
+-------+----+----+-------+
|  3    | 35 |  4 |  7.85 |
+-------+----+----+-------+
Se identificaron un total de [32m[1m8[0m palabras


*   **Pregunta 7.**  

Busca e imprime todas las palabras que sean variantes de la palabra "love", sin importar si incluyen mayúsculas o minúsculas, o la manera en que esté conjugada o alguna otra variación que se haga con dicha palabra.

Indica cuántos resultados obtuviste.

In [48]:
regex = re.compile(r'\b[Ll]ov(?:e[sd]?|ing|er|ers|ely|able|es|ed|ing|ingly|esque|ish|less|ness|ful|ment|s|d)\b', re.IGNORECASE)
palabras_love = []

for comentario in comentarios_sin_saltos:
  palabras_love.extend(regex.findall(comentario))

imprimir_resultado(palabras_love,6)

+--------+-------+--------+--------+-------+--------+
| LOVED  | LOVED |  Love  |  Love  | Loved | Loved  |
+--------+-------+--------+--------+-------+--------+
|  love  | love  |  love  |  love  | love  |  love  |
+--------+-------+--------+--------+-------+--------+
|  love  | love  |  love  |  love  | love  |  love  |
+--------+-------+--------+--------+-------+--------+
|  love  | love  |  love  |  love  | love  | loved  |
+--------+-------+--------+--------+-------+--------+
| loved  | loved | loved  | loved  | loved | lovely |
+--------+-------+--------+--------+-------+--------+
| lovely | lover | lovers | lovers | loves | loving |
+--------+-------+--------+--------+-------+--------+
Se identificaron un total de [32m[1m36[0m palabras


*   **Pregunta 8.**  

Busca e imprime todas las palabras, variantes de "so" y "good", que tengan dos o más "o" en "so" y 3 o más "o" en good.

Indica cuántas encontraste.


In [49]:
regex_so = re.compile(r'\bso+o+\b', re.IGNORECASE)
regex_good = re.compile(r'\bgo+o+od\w*\b', re.IGNORECASE)

# Buscar y almacenar todas las variantes de "so" y "good"
palabras_so = []
palabras_good = []
for comentario in comentarios_sin_saltos:
    palabras_so.extend(regex_so.findall(comentario))
    palabras_good.extend(regex_good.findall(comentario))

imprimir_resultado(palabras_so,3)
imprimir_resultado(palabras_good,1)

+---------+-------+-------+
| Sooooo  | soooo | soooo |
+---------+-------+-------+
| soooooo |       |       |
+---------+-------+-------+
Se identificaron un total de [32m[1m4[0m palabras
+--------+
| gooodd |
+--------+
Se identificaron un total de [32m[1m1[0m palabras


*   **Pregunta 9.**  

Busca e imprime todas las palabras que tengan una longitud mayor estrictamente a 10 caracteres alfabéticos.

No se consideran los signos de puntuación o caracteres especiales en la longitud de estas cadenas, solo caracteres alfabéticos en mayúsculas o minúsculas.

Indica la cantidad de palabras encontradas.


In [50]:
regex = re.compile(r'\b[a-zA-Z]{11,}\b')
palabras_largas = []
for comentario in comentarios_sin_saltos:
  palabras_largas.extend(regex.findall(comentario))

imprimir_resultado(palabras_largas,7)

+-------------------+-----------------+----------------+----------------+----------------+----------------+-----------------+
|   Disappointed    |  Disappointing  | ESTABLISHMENT  |  Furthermore   | INCONSIDERATE  |  Interesting   |  Mediterranean  |
+-------------------+-----------------+----------------+----------------+----------------+----------------+-----------------+
|    Outstanding    |  Philadelphia   |  Smashburger   | Unfortunately  | Unfortunately  | Unfortunately  |   Veggitarian   |
+-------------------+-----------------+----------------+----------------+----------------+----------------+-----------------+
| WAAAAAAyyyyyyyyyy | Wienerschnitzel | accommodations |  accordingly   |  acknowledged  |  acknowledged  |   anticipated   |
+-------------------+-----------------+----------------+----------------+----------------+----------------+-----------------+
|    beautifully    |   calligraphy   |  caterpillar   |  cheeseburger  |  cheeseburger  |  cheesecurds   |  circumsta

*   **Pregunta 10.**  

Busca e imprime todas las palabras que inician con una letra mayúscula y terminan con una minúscula, pero que además no sea la primera palabra del comentario/string.

Indica la cantidad de resultados obtenidos.

In [51]:
patron_10 = r"(?<!^)\b[A-Z][a-z]*[a-z]\b"
palabras_10 = []
for comentario in comentarios_sin_saltos:
  palabras_10.extend(re.findall(patron_10, comentario))

imprimir_resultado(palabras_10,8)

+-------------+------------+---------------+-----------------+---------------+--------------+------------+--------------+
|    After    |   After    |     After     |   Albondigas    |      All      |     All      |    All     |     All      |
+-------------+------------+---------------+-----------------+---------------+--------------+------------+--------------+
|    Also     |    Also    |     Also      |      Also       |     Also      |   Although   |    And     |     And      |
+-------------+------------+---------------+-----------------+---------------+--------------+------------+--------------+
|   Anyway    |   Anyway   |    Anyways    |       Are       |     Area      |     Aria     |     As     |      As      |
+-------------+------------+---------------+-----------------+---------------+--------------+------------+--------------+
|     As      |     As     |      At       |       At        |    Attack     |     Baba     |   Bachi    |    Bachi     |
+-------------+---------

*   **Pregunta 11.**  

Busca e imprime la secuencia de dos o más palabras que están separadas por un guion, "-", sin que tengan espacios en blanco entre ellas.

Por ejemplo "Go-Kart" sería válido, pero "Go  -Kart" o "Go  -  Kart" no lo serían.

Indica la cantidad de resultados obtenidos.

In [52]:
patron_11 = r"\b\w+-\w+\b"
palabras_11 = []
for comentario in comentarios_sin_saltos:
  palabras_11.extend(re.findall(patron_11, comentario))

imprimir_resultado(palabras_11,3)

+--------------+--------------------+----------------+
| High-quality |   Service-check    |  been-stepped  |
+--------------+--------------------+----------------+
|  flat-lined  |   golden-crispy    |   hands-down   |
+--------------+--------------------+----------------+
|    in-and    |      in-house      |    low-key     |
+--------------+--------------------+----------------+
| multi-grain  |     must-stop      |  non-customer  |
+--------------+--------------------+----------------+
|  non-fancy   |      over-hip      |  over-priced   |
+--------------+--------------------+----------------+
|  over-whelm  |      sit-down      |    sub-par     |
+--------------+--------------------+----------------+
|    to-go     | tracked-everywhere | under-services |
+--------------+--------------------+----------------+
Se identificaron un total de [32m[1m21[0m palabras


*   **Pregunta 12.**  

Busca e imprime todas las palabras que terminan en "ing" o "ed".

Indica la cantidad de palabras que encontraste de cada una.

In [53]:
patron_ing = r"\b\w+ing\b"
patron_ed = r"\b\w+ed\b"

# Buscar palabras que coincidan con cada patrón
palabras_ing = []
palabras_ed = []
for comentario in comentarios_sin_saltos:
  palabras_ing.extend(re.findall(patron_ing, comentario))
  palabras_ed.extend(re.findall(patron_ed, comentario))

imprimir_resultado(palabras_ing,8)

+--------------+---------------+---------------+---------------+---------------+---------------+---------------+------------+
|    Coming    | Disappointing |  Everything   |  Everything   |  Everything   |  Everything   |  Everything   | Everything |
+--------------+---------------+---------------+---------------+---------------+---------------+---------------+------------+
| Interesting  |    Nothing    |  Outstanding  |    Paying     |    Pricing    |    amazing    |    amazing    |  amazing   |
+--------------+---------------+---------------+---------------+---------------+---------------+---------------+------------+
|   amazing    |    amazing    |    amazing    |    amazing    |    amazing    |    amazing    |    amazing    |  amazing   |
+--------------+---------------+---------------+---------------+---------------+---------------+---------------+------------+
|   amazing    |    amazing    |    amazing    |    amazing    |    amazing    |    amazing    |    amazing    |  amaz

In [54]:
imprimir_resultado(palabras_ed,9)

+--------------+--------------+--------------+--------------+--------------+--------------+---------------+--------------+--------------+
|    Based     |    Cooked    | Disappointed |    Loved     |    Loved     |   Ordered    |    Ordered    |   Ordered    |  Overpriced  |
+--------------+--------------+--------------+--------------+--------------+--------------+---------------+--------------+--------------+
|   Stopped    |   Stopped    |    Tasted    |    Tried     |    Waited    |    Waited    | acknowledged  | acknowledged |    added     |
+--------------+--------------+--------------+--------------+--------------+--------------+---------------+--------------+--------------+
|    added     | anticipated  |   arrived    |   arrived    |   arrived    |    asked     |     asked     |    asked     |    asked     |
+--------------+--------------+--------------+--------------+--------------+--------------+---------------+--------------+--------------+
|    asked     |   attached   |   

#**Parte 3. Proceso de limpieza.**

*   **Pregunta 13.**  

Ahora realiza un proceso de limpieza del corpus que incluya los siguientes procesos:

*   Solo se deben considerar caracteres alfabéticos. Es decir, se eliminan todos los signos de puntuación y caracteres especiales.
*   Todos los caracteres alfabéticos se transforman a minúsculas.
*   Se deben eliminar todos los espacios en blanco adicionales que se puedan encontrar en cada comentario.

Al finalizar dicho proceso de limpieza, imprime el resultado de los primeros 10 comentarios resultantes.
   




In [55]:
def limpiar_texto(texto):
    comentarios_limpios = []
    for comentario in texto:
        comentario_limpio = re.sub(r'[^a-zA-Z\s]', '', comentario)  # Solo mantener caracteres alfabéticos (y espacios)
        comentario_limpio = comentario_limpio.lower()               # Convertir a minúsculas
        comentario_limpio = re.sub(r'\s+', ' ', comentario_limpio)  # Eliminar espacios en blanco adicionales
        comentarios_limpios.append(comentario_limpio)
    return comentarios_limpios


In [56]:
comentario_limpio = limpiar_texto(comentarios_sin_saltos)

for comentario in comentario_limpio[:10]:
    print(comentario)

wow loved this place
crust is not good
not tasty and the texture was just nasty
stopped by during the late may bank holiday off rick steve recommendation and loved it
the selection on the menu was great and so were the prices
now i am getting angry and i want my damn pho
honeslty it didnt taste that fresh
the potatoes were like rubber and you could tell they had been made up ahead of time being kept under a warmer
the fries were great too
a great touch


*   **Pregunta 14.**  

Con el resultado de la limpieza obtenido en la pregunta anterior, realiza ahora un proceso de tokenización por palabras del corpus.

Es decir, al final de este proceso de tokenización, debes tener como resultado una lista de listas, donde cada comentario estará tokenizado por palabras.

Al terminar calcula el total de tokens obtenido en todo el corpus.

In [57]:
comentarios_tokenizados = [comentario.split() for comentario in comentario_limpio]
total_tokens = sum(len(comentario) for comentario in comentarios_tokenizados)

print(f"Total de tokens: {total_tokens}")

Total de tokens: 10777


*   **Pregunta 15.**  

Finalmente, en este ejercicio definiremos nuestro conjunto de palabras "stopwords", las cuales deberás eliminar de todo el corpus.

Recuerda que ejemplos de stopwords son artículos, adverbios, conectivos, etcétera, que tienen frecuencias de aparición muy altas en cualquier documento, pero que no brindan mucho significado en cuanto al significado de un enunciado.

Con base a la lista de stopwords que se te proporciona, realiza un proceso de limpieza eliminando todas estas palabras del corpus obtenido en el ejercicio anterior.

Obtener cuántos tokens/palabras quedan finalmente en todo el corpus.

Obtener cuántos de estos tokens/palabras son diferentes, es decir, cuántos tokens únicos tendrá lo que llamaremos más adelante nuestro vocabulario.

In [58]:
# Considera la siguiente lista como tu conjunto de stopwords:
mis_stopwords = ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'should', 'now', 'll']

In [59]:
comentarios_sin_stopwords = []

for comentario in comentarios_tokenizados:
  comentarios_sin_stopwords.append([palabra for palabra in comentario if palabra not in mis_stopwords])

total_tokens_restantes = sum(len(comentario) for comentario in comentarios_sin_stopwords)

print(f"Total de tokens restantes: \033[32m\033[1m{total_tokens_restantes}\033[0m")

# Calcular tokens únicos (vocabulario)
tokens_unicos = set([palabra for comentario in comentarios_sin_stopwords for palabra in comentario])
total_tokens_unicos = len(tokens_unicos)
print(f"Total de tokens únicos (vocabulario): \033[32m\033[1m{total_tokens_unicos}\033[0m")

Total de tokens restantes: [32m[1m5776[0m
Total de tokens únicos (vocabulario): [32m[1m1941[0m


*   **Comentarios**

Incluye finalmente tus comentarios de la actividad.

<< incluye aquí tus comentarios >>

##**Fin de la Actividad de la semana 2.**