<a href="https://colab.research.google.com/github/jrebull/NLP/blob/main/MNA_NLP_semana_02_Actividad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Maestría en Inteligencia Artificial Aplicada**
##**Curso: Procesamiento de Lenguaje Natural (NLP)**
###Tecnológico de Monterrey
###Prof Luis Eduardo Falcón Morales

## **Adtividad de la Semana 02**
###**Introducción al procesamiento de texto.**

En esta actividad deberás utilizar los datos del siguiente archivo que se encuentra en Canvas:

MNA_NLP_semana_02_Actividad_datos.txt

El archivo contiene comentarios en inglés sobre servicios de comida de la página de Yelp: https://www.yelp.com/ .

Son mil comentarios y forman parte del conjunto de datos que se encuentra en el Machine Learning Repository de la UCI, llamado "Sentiment Labelled Sentences": https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences#


#**Parte 1. Cargamos los datos.**   

Cargar los datos del archivo indicado y obtener una lista de longitud de 1000 strings/comentarios.

Por el momento solamente requerimos las bibliotecas de Numpy y re, para el manejo de los arreglos y de las expresiones regulares en Python.

En particular, no necesitarás en esta actividad la biblioteca de Pandas.

###**NOTA: En esta actividad no debes importar nada más, con estas dos bibliotecas será *suficiente*.**

In [2]:
# --- Importación de Librerías ---

import numpy as np
# Explicación Detallada de NumPy (np):
# ------------------------------------
# Nombre Completo: NumPy (Numerical Python).
# Alias Común: np (convención estándar en la comunidad Python).
#
# Propósito Principal:
# Es la librería fundamental para la computación científica y numérica en Python.
# Su principal característica es el objeto 'ndarray' (N-dimensional array),
# una estructura de datos muy eficiente para almacenar y manipular grandes
# conjuntos de datos numéricos de forma homogénea (todos del mismo tipo).
#
# ¿Por qué usar NumPy en lugar de listas de Python para números?
# - Rendimiento: Las operaciones matemáticas (suma, resta, multiplicación, etc.)
#   sobre arrays NumPy son significativamente más rápidas porque muchas están
#   implementadas en C/Fortran y optimizadas a bajo nivel.
# - Memoria: Generalmente usan menos memoria que las listas para el mismo volumen de datos numéricos.
# - Funcionalidad Rica: Ofrece un vasto conjunto de funciones matemáticas incorporadas:
#   - Operaciones de Álgebra Lineal (matrices, vectores).
#   - Estadísticas (media, mediana, desviación estándar).
#   - Generación de números aleatorios.
#   - Transformadas (Fourier), etc.
# - Vectorización: Permite aplicar operaciones a arrays enteros sin escribir bucles 'for'
#   explícitos en Python, resultando en código más conciso, legible y rápido.
#   Ej: `resultado = array1 * 2 + array2`
#
# Relevancia para el Análisis de Texto:
# Aunque no manipula texto directamente, es crucial para:
#   - Representar características extraídas del texto como vectores o matrices numéricas
#     (ej: conteos de palabras, TF-IDF, embeddings de palabras).
#   - Realizar cálculos matemáticos o estadísticos sobre estas representaciones numéricas.
#   - Servir de base para otras librerías de ciencia de datos y Machine Learning (Pandas, Scikit-learn).
#
# En resumen: Importamos NumPy para el manejo eficiente y potente de arreglos/arrays/matrices
# numéricas y las operaciones matemáticas optimizadas sobre ellos.

import re
# Explicación Detallada de re (Regular Expressions):
# -------------------------------------------------
# Nombre Completo: re (Módulo de Expresiones Regulares).
# Alias Común: No se suele usar alias, se importa directamente como 're'. Es un módulo incorporado en Python.
#
# Propósito Principal:
# Proporciona funcionalidades para trabajar con Expresiones Regulares (regex).
# Las regex son secuencias de caracteres especiales que definen patrones de búsqueda
# dentro de cadenas de texto (strings). Son extremadamente potentes y flexibles.
#
# ¿Para qué usar 're' en el procesamiento de comentarios/texto?
# - Búsqueda Compleja: Encontrar texto que coincide con patrones específicos, más allá de palabras exactas.
#   Ej: buscar fechas (DD/MM/AAAA), emails, URLs, palabras que empiezan con mayúscula,
#   palabras con signos de admiración repetidos (como en ejercicios anteriores).
# - Validación de Formatos: Comprobar si un texto cumple una estructura definida (ej: DNI, teléfono).
# - Extracción de Información: Sacar datos específicos del texto que coincidan con un patrón.
#   Ej: extraer todos los hashtags (#tag), menciones (@usuario), o números de teléfono de un texto.
# - Limpieza y Sustitución: Reemplazar todas las partes de un texto que coincidan con un patrón.
#   Ej: eliminar etiquetas HTML, reemplazar múltiples espacios por uno solo, anonimizar datos sensibles.
# - División (Splitting): Dividir un texto en partes usando un patrón como delimitador.
#   Ej: separar frases usando cualquier signo de puntuación como separador.
#
# Funciones Clave Comunes:
# - `re.search(patron, texto)`: Busca la primera ocurrencia del patrón en cualquier parte del texto.
# - `re.match(patron, texto)`: Busca el patrón solo al principio del texto.
# - `re.findall(patron, texto)`: Encuentra TODAS las ocurrencias no superpuestas y las devuelve como una lista.
# - `re.sub(patron, reemplazo, texto)`: Sustituye las ocurrencias del patrón por el texto de reemplazo.
# - `re.split(patron, texto)`: Divide el texto usando las ocurrencias del patrón como delimitadores.
#
# En resumen: Importamos 're' para poder definir patrones de búsqueda muy precisos y flexibles
# (expresiones regulares) y usarlos para encontrar, extraer, validar o modificar información
# específica dentro de los comentarios o cualquier otro texto. Es una herramienta fundamental
# para la limpieza y el análisis detallado de datos textuales.

In [3]:
import gdown         # Para descargar archivos de Google Drive

# ID del archivo en Google Drive (entre /d/ y /view)
file_id = "1c90HVx3GYb9nnB90ICMlcF-hV9GhhxAG"
PATH    = "MNA_NLP_semana_02_Actividad_datos.txt"

print("🚀 Descargando el conjunto de datos con gdown por ID... ¡Por favor espera! 🚀")
# Descarga el archivo de Google Drive
gdown.download(id=file_id, output=PATH, quiet=False)

# Lee el archivo descargado
with open(PATH,        # usando la misma RUTA de la descarga
          mode='r',    # abre el archivo en modo lectura
          ) as f:
    docs = f.readlines()    # separa cada comentario por líneas

f.close()  # cierra el archivo ya que tenemos la info en la variable docs

🚀 Descargando el conjunto de datos con gdown por ID... ¡Por favor espera! 🚀


Downloading...
From: https://drive.google.com/uc?id=1c90HVx3GYb9nnB90ICMlcF-hV9GhhxAG
To: /content/MNA_NLP_semana_02_Actividad_datos.txt
100%|██████████| 59.9k/59.9k [00:00<00:00, 12.3MB/s]


In [7]:
# Explicación de: type(docs) == list
#-------------------------------------------------
# Propósito: Verifica si la variable 'docs' almacena *exactamente* un objeto del tipo 'list'.
# Cómo:
#   - 'type(docs)' obtiene el tipo de dato actual del contenido de 'docs'.
#   - '== list' compara ese tipo con el tipo 'list' incorporado de Python.
# Resultado: Es 'True' si 'docs' es una lista, y 'False' si es cualquier otro tipo (str, int, dict, etc.).
# Uso Típico: Asegurarse de que 'docs' es una lista antes de intentar operaciones específicas de listas
#             (como iterar, usar índices 'docs[i]', o métodos como '.append()'), para prevenir errores.
type(docs) == list

True

In [10]:
# Explicación concisa de: len(docs) == 1000
#-------------------------------------------
# Propósito: Verifica si la variable 'docs' contiene exactamente mil elementos.
# Cómo:
#   - 'len(docs)': La función 'len()' devuelve el número de ítems que hay dentro
#     del objeto 'docs' (asumiendo que es una secuencia como lista, tupla, string,
#     o una colección como diccionario/set). Si 'docs' es una lista de comentarios,
#     esto cuenta cuántos comentarios hay.
#   - '== 1000': Compara si ese número de elementos es igual a 1000.
# Resultado: Es 'True' si 'docs' tiene una longitud de 1000, y 'False' en cualquier otro caso.
# Uso Típico: Validar que la cantidad de datos (ej: comentarios) en 'docs' cumple
#             con un tamaño esperado o requerido (aquí, exactamente 1000).
len(docs) == 1000

True

In [5]:
docs[0:10]     # observa algunos de los primeros comentarios

['Wow... Loved this place.\n',
 'Crust is not good.\n',
 'Not tasty and the texture was just nasty.\n',
 'Stopped by during the late May bank holiday off Rick Steve recommendation and loved it.\n',
 'The selection on the menu was great and so were the prices.\n',
 'Now I am getting angry and I want my damn pho.\n',
 "Honeslty it didn't taste THAT fresh.)\n",
 'The potatoes were like rubber and you could tell they had been made up ahead of time being kept under a warmer.\n',
 'The fries were great too.\n',
 'A great touch.\n']

#**Parte 2: sección de preguntas (regex).**   


##**Instrucciones:**

###**A continuación deberás contestar cada una de las preguntas que te piden usando expresiones regulares (regex).**

###**Por el momento no hay restricción en cuanto al número de líneas de código que agregues, pero trata de incluir las mínimas posibles.**

*   **Pregunta 1.**

Busca y elimina todos los saltos de línea '\n' que se encuentran al final de cada comentario.

Una vez finalizado, imprime los primeros 10 comentarios del resultado obtenido.


In [6]:
# Elimina los saltos de línea al final de cada comentario usando regex
docsLimpios = [re.sub(r'\n$', '', comentario) for comentario in docs]

In [7]:
# Imprime una línea en blanco seguida de una línea de 50 asteriscos (*) como separador superior.
print("\n" + "*" * 50)

# Imprime el texto del título ("🔍 Análisis de los 10 Primeros Comentarios 📜") centrado en un espacio de 50 caracteres.
print("🔍 Análisis de los 10 Primeros Comentarios 📜".center(50))

# Imprime otra línea de 50 asteriscos (*) como separador inferior para el encabezado.
print("*" * 50)

# Inicia un bucle 'for' que itera sobre los primeros 10 elementos de la lista 'docs_limpios'.
# 'enumerate(..., 1)' genera pares de (índice, elemento), comenzando el índice desde 1.
# 'i' guardará el número del comentario (1, 2, 3,... hasta 10).
# 'comentario' guardará el texto del comentario actual en cada iteración.
for i, comentario in enumerate(docsLimpios[:10], 1):
    # Dentro del bucle, para cada comentario:
    # Imprime una cadena formateada (f-string).
    # - "🔹 ": Un emoji de punto azul.
    # - "{i:02d}": El número del comentario 'i', formateado para tener siempre 2 dígitos (ej: 01, 02, ..., 10).
    # - " | ": Un separador vertical.
    # - "{comentario}": El texto del comentario actual.
    print(f"🔹 {i:02d} | {comentario}")

# Después de que el bucle ha terminado (se han impreso los 10 comentarios):
# Imprime una línea separadora hecha de 50 guiones (-).
print("-" * 50)

# Imprime un mensaje final ("✅ ¡Listo! Aquí tienes el top 10. ✅") centrado en un espacio de 50 caracteres.
print("✅ ¡Listo! Aquí tienes el top 10. ✅".center(50))

# Imprime una línea final de 50 asteriscos (*) para cerrar el bloque de salida.
print("*" * 50)


**************************************************
   🔍 Análisis de los 10 Primeros Comentarios 📜    
**************************************************
🔹 01 | Wow... Loved this place.
🔹 02 | Crust is not good.
🔹 03 | Not tasty and the texture was just nasty.
🔹 04 | Stopped by during the late May bank holiday off Rick Steve recommendation and loved it.
🔹 05 | The selection on the menu was great and so were the prices.
🔹 06 | Now I am getting angry and I want my damn pho.
🔹 07 | Honeslty it didn't taste THAT fresh.)
🔹 08 | The potatoes were like rubber and you could tell they had been made up ahead of time being kept under a warmer.
🔹 09 | The fries were great too.
🔹 10 | A great touch.
--------------------------------------------------
        ✅ ¡Listo! Aquí tienes el top 10. ✅        
**************************************************


*   **Pregunta 2.**  

Busca e imprime todas las palabras que terminan con dos o más signos de admiración seguidos, por ejemplo "!!!".

Debes imprimir tanto la palabra como la totalidad de signos de admiración que le siguen.

Indica cuántos resultados obtuviste.



In [8]:
# Busca palabras que terminan con dos o más signos de admiración
patron = r'[A-Za-z]+!{2,}'  # Coincide con letras seguidas de 2+ signos de admiración
resultados = []

for comentario in docs_limpios:
    coincidencias = re.findall(patron, comentario)
    resultados.extend(coincidencias)

In [9]:
# --- Código Mejorado y Comentado ---

# Imprime una línea en blanco (\n) para separar visualmente, seguida de
# una línea decorativa con un emoji de chispa ✨, 46 signos de igual (=), y otra chispa ✨.
print("\n" + "✨" + "="*46 + "✨")

# Imprime el título del reporte. Se usan emojis ❗ para resaltar el tema.
# .center(50) centra el texto dentro de un espacio de 50 caracteres de ancho.
print("❗ Palabras con !!+ Encontradas ❗".center(50))

# Imprime otra línea decorativa, idéntica a la primera, para cerrar el bloque del título.
print("✨" + "="*46 + "✨")

# Inicia un bucle 'for' que recorrerá la lista 'resultados'.
# 'enumerate(resultados, 1)' genera un contador 'i' (empezando desde 1) y
# el elemento 'palabra' correspondiente en cada paso del bucle.
for i, palabra in enumerate(resultados, 1):
    # Dentro del bucle, para cada 'palabra' en 'resultados':
    # Prepara la etiqueta del resultado: emoji 🔸, número 'i' formateado a 2 dígitos (01, 02...), y ':'.
    etiqueta = f"🔸 {i:02d}:"
    # Imprime la etiqueta alineada a la izquierda en un espacio de 12 caracteres (.ljust(12))
    # y luego concatena (+) la 'palabra' encontrada.
    print(etiqueta.ljust(12) + f"{palabra}")

# Una vez que el bucle 'for' ha terminado de procesar todos los resultados:
# Imprime una línea decorativa final, similar a las del encabezado.
print("✨" + "="*46 + "✨")

# Imprime un mensaje resumen indicando el número total de resultados.
# Se usa un f-string para insertar la cantidad de elementos en la lista 'resultados' (len(resultados)).
# Se añaden emojis 🔢 y 🎉 para hacerlo más visual y indicar finalización.
# Se centra el mensaje en 50 caracteres.
print(f"🔢 Total de resultados encontrados: {len(resultados)} 🎉".center(50))

# Imprime una línea final simple de 50 signos de igual, como cierre del bloque de salida.
print("="*50)


         ❗ Palabras con !!+ Encontradas ❗         
🔸 01:       Firehouse!!!!!
🔸 02:       APPETIZERS!!!
🔸 03:       amazing!!!
🔸 04:       buffet!!!
🔸 05:       good!!
🔸 06:       it!!!!
🔸 07:       DELICIOUS!!
🔸 08:       amazing!!
🔸 09:       shawarrrrrrma!!!!!!
🔸 10:       yucky!!!
🔸 11:       steak!!!!!
🔸 12:       delicious!!!
🔸 13:       far!!
🔸 14:       biscuits!!!
🔸 15:       dry!!
🔸 16:       disappointing!!!
🔸 17:       awesome!!
🔸 18:       Up!!
🔸 19:       FLY!!!!!!!!
🔸 20:       here!!!
🔸 21:       great!!!!!!!!!!!!!!
🔸 22:       packed!!
🔸 23:       otherwise!!
🔸 24:       amazing!!!!!!!!!!!!!!!!!!!
🔸 25:       style!!
🔸 26:       disappointed!!
     🔢 Total de resultados encontrados: 26 🎉      


*   **Pregunta 3.**  

Busca e imprime todas las palabras que están escritas totalmente en mayúsculas. Cada coincidencia debe ser una sola palabra.

Indica cuántas palabras encontraste.



In [10]:
# Busca palabras escritas totalmente en mayúsculas
patron = r'\b[A-Z]+\b'
resultadosMayusculas = []

for comentario in docs_limpios:
    coincidencias = re.findall(patron, comentario)
    resultadosMayusculas.extend(coincidencias)

In [11]:
# Imprime una línea en blanco (\n) para añadir espacio vertical antes del reporte.
# Luego, imprime una línea decorativa superior: emoji ⬆️, 46 caracteres '═' (línea doble Unicode), emoji ⬆️.
print("\n" + "⬆️" + "═"*46 + "⬆️")

# Imprime el título principal: "📣 Palabras en MAYÚSCULAS Encontradas 📣".
# El método .center(50) asegura que el título quede centrado en un ancho de 50 caracteres.
print("📣 Palabras en MAYÚSCULAS Encontradas 📣".center(50))

# Imprime una segunda línea decorativa, idéntica a la primera, para enmarcar el título.
print("⬆️" + "═"*46 + "⬆️")

# Inicia un bucle 'for' que itera sobre cada elemento de la lista 'resultados'.
# 'enumerate(resultados, 1)' genera un par (índice, elemento) para cada ítem.
# 'i' toma el valor del índice (comenzando desde 1 gracias al segundo argumento de enumerate).
# 'palabra' toma el valor del elemento (la palabra en mayúsculas) en la iteración actual.
for i, palabra in enumerate(resultadosMayusculas, 1):
    # Dentro del bucle, para cada 'palabra':
    # Prepara la etiqueta inicial: emoji 🅰️, el índice 'i' formateado a 2 dígitos (e.g., 01, 02...), y dos puntos ':'.
    etiqueta = f"🅰️ {i:02d}:"
    # Imprime la etiqueta, alineada a la izquierda dentro de un espacio de 13 caracteres (.ljust(13)).
    # A continuación, concatena (+) la 'palabra' correspondiente.
    print(etiqueta.ljust(13) + f"{palabra}")

# Una vez que el bucle ha terminado de imprimir todas las palabras:
# Imprime una línea decorativa final, igual a las usadas en el encabezado.
print("⬆️" + "═"*46 + "⬆️")

# Imprime un mensaje resumen que indica el total de palabras encontradas.
# Usa un f-string para incrustar el número de elementos en 'resultados' (calculado con len(resultados)).
# Se añaden emojis 🔢 y ✨ para decorar y resaltar la información del conteo.
# .center(50) centra este mensaje final.
print(f"🔢 Total de palabras en mayúsculas: {len(resultadosMayusculas)} ✨".center(50))

# Imprime una línea final simple de 50 signos de igual (=), como cierre visual opcional.
print("="*50)


⬆️══════════════════════════════════════════════⬆️
      📣 Palabras en MAYÚSCULAS Encontradas 📣      
⬆️══════════════════════════════════════════════⬆️
🅰️ 01:       I
🅰️ 02:       I
🅰️ 03:       THAT
🅰️ 04:       A
🅰️ 05:       I
🅰️ 06:       I
🅰️ 07:       I
🅰️ 08:       I
🅰️ 09:       I
🅰️ 10:       I
🅰️ 11:       I
🅰️ 12:       I
🅰️ 13:       I
🅰️ 14:       I
🅰️ 15:       I
🅰️ 16:       I
🅰️ 17:       APPETIZERS
🅰️ 18:       A
🅰️ 19:       I
🅰️ 20:       I
🅰️ 21:       I
🅰️ 22:       I
🅰️ 23:       I
🅰️ 24:       I
🅰️ 25:       I
🅰️ 26:       WILL
🅰️ 27:       NEVER
🅰️ 28:       EVER
🅰️ 29:       STEP
🅰️ 30:       FORWARD
🅰️ 31:       IN
🅰️ 32:       IT
🅰️ 33:       AGAIN
🅰️ 34:       I
🅰️ 35:       LOVED
🅰️ 36:       I
🅰️ 37:       AND
🅰️ 38:       REAL
🅰️ 39:       I
🅰️ 40:       I
🅰️ 41:       I
🅰️ 42:       I
🅰️ 43:       BITCHES
🅰️ 44:       I
🅰️ 45:       I
🅰️ 46:       I
🅰️ 47:       I
🅰️ 48:       NYC
🅰️ 49:       I
🅰️ 50:       I
🅰️ 51:       I
🅰️ 52:       I
🅰️ 53:      

In [12]:
# --- Datos de Ejemplo (con duplicados intencionales) ---
# Asumimos que esta es tu lista original que podría tener repetidas.
resultadosMayusculasNoDups = resultadosMayusculas

# --- Paso 1: Eliminar Duplicados ---
# Convertimos la lista a un conjunto (set). Los conjuntos por definición
# solo almacenan elementos únicos, eliminando así los duplicados.
conjunto_unicos = set(resultadosMayusculasNoDups)

# Convertimos el conjunto de nuevo a una lista para poder ordenarla o enumerarla fácilmente.
# Nota: La conversión set -> list no garantiza el orden original.
resultadosMayusculasNoDups = list(conjunto_unicos)

# Opcional: Si deseas que la lista final esté ordenada alfabéticamente:
resultadosMayusculasNoDups.sort()

# --- Paso 2: Imprimir la Lista de Únicas Embellecida ---

# Imprime una línea en blanco (\n) y la línea decorativa superior.
# Usamos ✨ y ═ (línea doble) para un toque distintivo.
print("\n" + "✨" + "═"*46 + "✨")

# Imprime el título, modificado para indicar que son palabras ÚNICAS, centrado.
print("📣 Palabras ÚNICAS en MAYÚSCULAS 📣".center(50))

# Imprime la línea decorativa inferior del encabezado.
print("✨" + "═"*46 + "✨")

# Inicia un bucle 'for' que itera sobre la NUEVA lista 'resultados_unicos'.
# 'enumerate(..., 1)' proporciona el índice 'i' (desde 1) y la 'palabra'.
for i, palabra in enumerate(resultadosMayusculasNoDups, 1):
    # Prepara la etiqueta: emoji 🅰️, índice 'i' formateado a 2 dígitos, y ':'.
    etiqueta = f"🅰️ {i:02d}:"
    # Imprime la etiqueta alineada a la izquierda (.ljust(13)) seguida de la palabra única.
    print(etiqueta.ljust(13) + f"{palabra}")

# Imprime la línea decorativa después de listar todas las palabras únicas.
print("✨" + "═"*46 + "✨")

# Imprime el resumen final, mostrando el número total de palabras ÚNICAS.
# Usa len(resultados_unicos) para contar los elementos en la lista sin duplicados.
# Añade emojis 🔢 y 🎉 y centra el texto.
print(f"🔢 Total de palabras únicas: {len(resultadosMayusculasNoDups)} 🎉".center(50))

# Imprime una línea simple de cierre opcional.
print("="*50)

# --- Nota sobre el orden (Python 3.7+) ---
# Si necesitas mantener el orden en que apareció la palabra por primera vez,
# puedes usar dict.fromkeys en lugar de set (para Python 3.7+):
# resultados_unicos_ordenados = list(dict.fromkeys(resultados_originales))
# Y luego usarías 'resultados_unicos_ordenados' en el bucle de impresión.


✨══════════════════════════════════════════════✨
        📣 Palabras ÚNICAS en MAYÚSCULAS 📣         
✨══════════════════════════════════════════════✨
🅰️ 01:       A
🅰️ 02:       AGAIN
🅰️ 03:       ALL
🅰️ 04:       AN
🅰️ 05:       AND
🅰️ 06:       APPETIZERS
🅰️ 07:       AVOID
🅰️ 08:       AYCE
🅰️ 09:       AZ
🅰️ 10:       BACK
🅰️ 11:       BARE
🅰️ 12:       BARGAIN
🅰️ 13:       BBQ
🅰️ 14:       BEST
🅰️ 15:       BETTER
🅰️ 16:       BITCHES
🅰️ 17:       BLAND
🅰️ 18:       CONCLUSION
🅰️ 19:       DELICIOUS
🅰️ 20:       ESTABLISHMENT
🅰️ 21:       EVER
🅰️ 22:       EXPERIENCE
🅰️ 23:       FANTASTIC
🅰️ 24:       FLAVOR
🅰️ 25:       FLY
🅰️ 26:       FORWARD
🅰️ 27:       FREEZING
🅰️ 28:       FS
🅰️ 29:       GC
🅰️ 30:       GO
🅰️ 31:       GREAT
🅰️ 32:       HAD
🅰️ 33:       HANDS
🅰️ 34:       HAPPENED
🅰️ 35:       HAVE
🅰️ 36:       HOUR
🅰️ 37:       I
🅰️ 38:       IN
🅰️ 39:       INCONSIDERATE
🅰️ 40:       IT
🅰️ 41:       LEGIT
🅰️ 42:       LOVED
🅰️ 43:       M
🅰️ 44:       MANAGEMENT
🅰️ 45:

*   **Pregunta 4.**  

Busca e imprime los comentarios en donde todos los caracteres alfabéticos (letras) están en mayúsculas.

Cada coincidencia encontrada debe ser todo el comentario/enunciado.

Indica cuántos resultados obtuviste.


In [15]:
# --- Datos de Ejemplo ---
# Asegúrate de tener tu lista de comentarios. Usaremos esta como ejemplo:
lista_comentarios = docs_limpios

# --- Paso 1: Definir la función de comprobación ---
# Esta función revisa si todos los caracteres alfabéticos (letras)
# dentro de una cadena de texto dada están en mayúsculas.
def todo_alfabetico_mayusculas(texto):
    """
    Verifica si todas las letras en el 'texto' son mayúsculas.
    Ignora caracteres no alfabéticos (números, espacios, símbolos).
    Devuelve True si no hay letras minúsculas, False en caso contrario.
    """
    # Recorre cada caracter en el texto proporcionado.
    for caracter in texto:
        # Si el caracter es una letra (isalpha()) Y está en minúscula (islower())...
        if caracter.isalpha() and caracter.islower():
            # ...significa que no cumple la condición, devolvemos False inmediatamente.
            return False
    # Si el bucle termina sin encontrar ninguna letra minúscula,
    # significa que todas las letras presentes son mayúsculas (o no hay letras),
    # por lo tanto, devolvemos True.
    return True

In [16]:
# --- Paso 2: Filtrar los comentarios ---
# Utilizamos una "list comprehension" para crear una nueva lista.
# Esta nueva lista ('comentarios_mayusculas_filtrados') contendrá solo aquellos
# 'comentario' de la 'lista_comentarios' original que devuelvan True
# cuando se les aplica la función 'todo_alfabetico_mayusculas'.
comentarios_mayusculas_filtrados = [
    comentario for comentario in lista_comentarios if todo_alfabetico_mayusculas(comentario)
]

# --- Paso 3: Imprimir los resultados embellecidos ---

# Imprime una línea en blanco y la línea decorativa superior (📣 y ═).
print("\n" + "📣" + "═"*46 + "📣")

# Imprime el título del reporte, indicando que son comentarios COMPLETOS en mayúsculas, centrado.
print("💬 Comentarios Completamente en MAYÚSCULAS 💬".center(50))

# Imprime la línea decorativa inferior del encabezado.
print("📣" + "═"*46 + "📣")

# Comprueba si la lista de resultados filtrados NO está vacía.
if comentarios_mayusculas_filtrados:
    # Si hay resultados, itera sobre ellos para imprimirlos.
    # 'enumerate(..., 1)' proporciona el índice 'i' (desde 1) y el 'comentario'.
    for i, comentario in enumerate(comentarios_mayusculas_filtrados, 1):
        # Prepara la etiqueta con emoji 🗣️, número formateado (01, 02...), y ':'.
        etiqueta = f"🗣️ {i:02d}:"
        # Imprime la etiqueta alineada a la izquierda (.ljust(10)) seguida del comentario completo.
        # Puedes ajustar el valor de ljust (10) si necesitas más o menos espacio para la etiqueta.
        print(etiqueta.ljust(10) + f"{comentario}")
else:
    # Si la lista 'comentarios_mayusculas_filtrados' está vacía, imprime un mensaje indicándolo.
    print(" ".center(50)) # Línea en blanco para espaciar
    print("No se encontraron comentarios escritos totalmente en mayúsculas.".center(50))
    print(" ".center(50)) # Línea en blanco para espaciar

# Imprime la línea decorativa final, después de la lista o del mensaje de "no encontrados".
print("📣" + "═"*46 + "📣")

# Imprime el resumen final, mostrando el número total de comentarios encontrados.
# Usa len(comentarios_mayusculas_filtrados) para obtener la cuenta correcta.
# Decora con emojis 📊 y ✅ y centra el texto.
print(f"📊 Total de comentarios en mayúsculas: {len(comentarios_mayusculas_filtrados)} ✅".center(50))

# Imprime una línea simple de cierre opcional.
print("="*50)


📣══════════════════════════════════════════════📣
   💬 Comentarios Completamente en MAYÚSCULAS 💬    
📣══════════════════════════════════════════════📣
🗣️ 01:    DELICIOUS!!
🗣️ 02:    RUDE & INCONSIDERATE MANAGEMENT.
🗣️ 03:    WILL NEVER EVER GO BACK AND HAVE TOLD MANY PEOPLE WHAT HAD HAPPENED.
🗣️ 04:    TOTAL WASTE OF TIME.
🗣️ 05:    AVOID THIS ESTABLISHMENT!
📣══════════════════════════════════════════════📣
    📊 Total de comentarios en mayúsculas: 5 ✅     


*   **Pregunta 5.**  

Busca e imprime todas las palabras que tengan una vocal acentuada, del tipo á, é, í, ó, ú.

Indica cuántos resultados obtuviste.

*   **Pregunta 6.**  

Busca e imprime todas las cantidades numéricas monetarias, enteras o con decimales, que inician con el símbolo $\$$.

Indica cuántos resultados obtuviste.

*   **Pregunta 7.**  

Busca e imprime todas las palabras que sean variantes de la palabra "love", sin importar si incluyen mayúsculas o minúsculas, o la manera en que esté conjugada o alguna otra variación que se haga con dicha palabra.

Indica cuántos resultados obtuviste.

*   **Pregunta 8.**  

Busca e imprime todas las palabras, variantes de "so" y "good", que tengan dos o más "o" en "so" y 3 o más "o" en good.

Indica cuántas encontraste.


*   **Pregunta 9.**  

Busca e imprime todas las palabras que tengan una longitud mayor estrictamente a 10 caracteres alfabéticos.

No se consideran los signos de puntuación o caracteres especiales en la longitud de estas cadenas, solo caracteres alfabéticos en mayúsculas o minúsculas.

Indica la cantidad de palabras encontradas.


*   **Pregunta 10.**  

Busca e imprime todas las palabras que inician con una letra mayúscula y terminan con una minúscula, pero que además no sea la primera palabra del comentario/string.

Indica la cantidad de resultados obtenidos.

*   **Pregunta 11.**  

Busca e imprime la secuencia de dos o más palabras que están separadas por un guion, "-", sin que tengan espacios en blanco entre ellas.

Por ejemplo "Go-Kart" sería válido, pero "Go  -Kart" o "Go  -  Kart" no lo serían.

Indica la cantidad de resultados obtenidos.

*   **Pregunta 12.**  

Busca e imprime todas las palabras que terminan en "ing" o "ed".

Indica la cantidad de palabras que encontraste de cada una.

#**Parte 3. Proceso de limpieza.**

*   **Pregunta 13.**  

Ahora realiza un proceso de limpieza del corpus que incluya los siguientes procesos:

*   Solo se deben considerar caracteres alfabéticos. Es decir, se eliminan todos los signos de puntuación y caracteres especiales.
*   Todos los caracteres alfabéticos se transforman a minúsculas.
*   Se deben eliminar todos los espacios en blanco adicionales que se puedan encontrar en cada comentario.

Al finalizar dicho proceso de limpieza, imprime el resultado de los primeros 10 comentarios resultantes.
   




*   **Pregunta 14.**  

Con el resultado de la limpieza obtenido en la pregunta anterior, realiza ahora un proceso de tokenización por palabras del corpus.

Es decir, al final de este proceso de tokenización, debes tener como resultado una lista de listas, donde cada comentario estará tokenizado por palabras.

Al terminar calcula el total de tokens obtenido en todo el corpus.

*   **Pregunta 15.**  

Finalmente, en este ejercicio definiremos nuestro conjunto de palabras "stopwords", las cuales deberás eliminar de todo el corpus.

Recuerda que ejemplos de stopwords son artículos, adverbios, conectivos, etcétera, que tienen frecuencias de aparición muy altas en cualquier documento, pero que no brindan mucho significado en cuanto al significado de un enunciado.

Con base a la lista de stopwords que se te proporciona, realiza un proceso de limpieza eliminando todas estas palabras del corpus obtenido en el ejercicio anterior.

Obtener cuántos tokens/palabras quedan finalmente en todo el corpus.

Obtener cuántos de estos tokens/palabras son diferentes, es decir, cuántos tokens únicos tendrá lo que llamaremos más adelante nuestro vocabulario.

In [None]:
# Considera la siguiente lista como tu conjunto de stopwords:
mis_stopwords = ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'should', 'now', 'll']

*   **Comentarios**

Incluye finalmente tus comentarios de la actividad.

<< incluye aquí tus comentarios >>

##**Fin de la Actividad de la semana 2.**