# TP5 - TRABAJO PRÁCTICO INTEGRADOR - TEXT MINING

# Introducción al Text Mining 

Es el proceso de extraer información útil y conocimiento a partir de grandes cantidades de texto no estructurado.
Cuando hablamos de texto no estructurado, nos referimos a cosas como:
* Noticias
* Comentarios en redes sociales
* Opiniones de usuarios
* Emails, documentos, libros, etc.
* 
Este tipo de texto no tiene una estructura clara como una tabla de Excel con lo cual se aplican técnicas de procesamiento de lenguaje natural (NLP), estadística e inteligencia artificial para encontrar patrones, relaciones y significado.

¿Qué cosas se hacen con text mining?
* Contar frecuencia de palabras (como lo que estás haciendo ahora)
* Detectar temas o tópicos
* Análisis de sentimiento (¿el texto es positivo o negativo?)
* Extracción de entidades (nombres, lugares, organizaciones)
* Clasificación de texto (por ejemplo, spam vs no spam)
* Resumen automático
* Clustering (agrupar textos similares)

## 1.- Implementación de "WEB SCRAPING"

### El web scraping (o raspado web), es una técnica que utiliza software (bots, crawlers o spider) para extraer datos de sitios web de forma automatizada. Estos programas simulan la navegación web y pueden identificar, extraer y almacenar información específica, como texto, números, imágenes o incluso datos de formularios. 

#### 1.1.- DEFINIMOS URL Y CONTENIDO A PROCESAR

In [None]:
# IMPORTAMOS LAS LIBRERIAS 
import requests # LIBRERIA PARA HACER SOLICITUDES HTTP
from bs4 import BeautifulSoup # LIBRERIA PARA PERMITIR EXTRAER INFORMACION DE PAGINAS WEB

In [None]:
# DEFINIMOS LAS URLS CON LA CUALES VAMOS A TRABAJAR
url1 = "https://vueltaolimpica.com/index.php/category/maratones/page/1/"
url2 = "https://vueltaolimpica.com/index.php/category/maratones/page/2/"
url3 = "https://vueltaolimpica.com/index.php/category/maratones/page/3/"
url4 = "https://vueltaolimpica.com/index.php/category/maratones/page/4/"

In [None]:
# EN LA VARIABLE CONTENIDO RECIBIMOS LA RESPUESTA DE LA SOLICITUD A LA PAGINA WEB QUE INVOCAMOS
# COMO LA RESPUESTA DEL SERVIDOR WEB PUEDE CONTENER DIFERENTES TIPOS DE CONTENIDO (HTML, XML, JSON, ETC) INVOCAMOS AL MÉTODO "TEXT"
# PARA QUE TODO EL CONTENIDO DEVUELTO SEA TRATADO COMO TEXTO
contenido1 = requests.get(url1).text
contenido2 = requests.get(url2).text
contenido3 = requests.get(url3).text
contenido4 = requests.get(url4).text
# CONCATENAMOS EL CONTENIDO EN UNA SOLA VARIABLE
contenido = contenido1 + contenido2 + contenido3 + contenido4

In [None]:
# INVOCAMOS A LA LIBRERIA "BEATIFULSOAP"
# LE PASAMOS COMO PARÁMETRO EL TEXTO A PROCESAR Y LE INDICAMOS QUE DEBE TRATARLO/PARSEARLO COMO UN CONTENIDO HTML
soup = BeautifulSoup(contenido, "html.parser")

In [None]:
# BUSCAMOS LA ETIQUETA <h1> CON CLASE "page-title"
titulo = soup.find('h1', class_='page-title')
# EXTRAEMOS EL TEXTO (QUITAMOS LAS ETIQUETAS)
if titulo:
    texto = titulo.get_text(strip=True)  # ELIMINAMOS ESPACIOS
    print(f"Título:", texto)
# BUSCAMOS LA ETIQUETA <meta> CON property="og:description"
meta_tag = soup.find('meta', property='og:description')
# EXTRAEMOS EL CONTENIDO DEL ATRIBUTO "content"
if meta_tag and meta_tag.has_attr('content'):
    descripcion = meta_tag['content']
    print(f"Descripción:", descripcion)

In [None]:
# DEFINIMOS UNA LISTA VACIA QUE CONTENDRÁ LAS URLS A PROCESAR
urls_validas = []
# RECORREMOS LA LISTA DE URLS BUSCANDO LAS QUE SEAN "href" Y QUE EN PARTE DE SU URL CONTENGAN "20"
for link in soup.find_all('a', href=True):
    if "20" in link['href']:
        urls_validas.append(link['href'])

In [None]:
# VISUALIZAMOS LAS URLS QUE CUMPLEN CON LA CONDICION "20xx"
# NOTA: OBSERVAMOS URLS DUPLICADAS Y ALGUNAS QUE NO SE CORRESPONDEN CON TEXTO A PROCESAR CON LO CUAL DEBEMOS LIMPIARLAS
urls_validas

In [None]:
# CONTAMOS CUANTAS SE RETORNARON (PARA IR OBSERVANDO EL PROCESO DE LIMPIEZA)
len(urls_validas)

In [None]:
# QUITAMOS LAS DUPLICADAS
urls_validas = list(set(urls_validas))
# DEFINIMOS UNA LISTA POR COMPRENSION QUE FILTRA LA LISTA "urls_validas" DEJANDO SOLO LOS ELEMENTOS QUE CONTIENEN EL TEXTO INDICADO.
urls_validas = [url for url in urls_validas if 'https://vueltaolimpica.com/index.php/' in url]
# VISUALIZAMOS LAS URLS ORDENADAS POR AÑO/MES/DIA
sorted(urls_validas)

In [None]:
# VISUALIZAMOS EL RESULTADO
sorted(urls_validas)

In [None]:
# CONTAMOS CUANTAS SE RETORNARON (PARA IR OBSERVANDO EL PROCESO DE LIMPIEZA)
len(urls_validas)

In [None]:
# CREAMOS LAS LISTAS VACIAS PARA CONTENER A LAS URLS DEL AÑO CORRESPONDIENTE
urls_2023 = []
urls_2024 = []
urls_2025 = []
for url in urls_validas:
    if '/2023/' in url:
        urls_2023.append(url)
    elif '/2024/' in url:
        urls_2024.append(url)
    elif '/2025/' in url:
        urls_2025.append(url)

In [None]:
# VERIFICAMOS QUE LAS URLS ESTÁN CORRECTAMENTE ASOCIADAS A CADA LISTA
urls_2023

In [None]:
# VERIFICAMOS QUE LAS URLS ESTÁN CORRECTAMENTE ASOCIADAS A CADA LISTA
urls_2024

In [None]:
# VERIFICAMOS QUE LAS URLS ESTÁN CORRECTAMENTE ASOCIADAS A CADA LISTA
urls_2025

In [None]:
# OBTENEMOS EL TEXTO A TRABAJAR PARA 2023
text_2023 = " "
for item in urls_2023:
  texto_html = requests.get(item).text
  soup = BeautifulSoup(texto_html, "html.parser")
  for paragraphe in soup.find_all("p"):
    text_2023 += str(paragraphe.getText())
# print(text_2023)

In [None]:
# OBTENEMOS EL TEXTO A TRABAJAR PARA 2024
text_2024 = " "
for item in urls_2024:
  texto_html = requests.get(item).text
  soup = BeautifulSoup(texto_html, "html.parser")
  for paragraphe in soup.find_all("p"):
    text_2024 += str(paragraphe.getText())
# print(text_2024)

In [None]:
# OBTENEMOS EL TEXTO A TRABAJAR PARA 2025
text_2025 = " "
for item in urls_2025:
  texto_html = requests.get(item).text
  soup = BeautifulSoup(texto_html, "html.parser")
  for paragraphe in soup.find_all("p"):
    text_2025 += str(paragraphe.getText())
# print(text_2025)

#### 1.2.- LIMPIEZA DEL TEXTO A PROCESAR

In [None]:
# IMPORTAMOS LAS LIBRERIAS
import re       # libreria de expresiones regulares
import string   # libreria de cadena de caracteres
from collections import Counter # librería para contar elementos

In [None]:
# CARACTERES A ELIMINAR
print(string.punctuation) # CARACTERES DE PUNTUACION COMUNES EN UNA CADENA DE TEXTO.

In [None]:
# CARACTERES A ELIMINAR
print(re.escape(string.punctuation)) # escape() SE UTILIZA PARA "escapar" TODOS LOS CARACTERES ESPECIALES DE "string.punctuation".

In [None]:
# DEFINIMOS UNA FUNCION DE LIMPIEZA
def clean_text_round1(text):
    # LA FUNCION RECIBE UN TEXTO Y DEVUELVE EL MISMO TEXTO SIN SIGNOS
    # ****************************************************************
    # NOTA IMPORTANTE:
    # PARA SOLUCIONAR ESTE WARNING EN RE: "SyntaxWarning: invalid escape sequence '\w'"
    # REEMPLAZAMOS LA LLAMADA:  text = re.sub('\[.*?¿\]\%', ' ', text)
    # POR: text = re.sub(r'\[.*?¿\]\%', ' ', text)
    # ****************************************************************
    # CONVERTIMOS TODO A MINÚSCULAS.
    text = text.lower()
    # REEMPLAZAMOS TEXTO ENTRE CORCHETES POR ESPACIOS EN BLANCO.
    text = re.sub(r'\[.*?¿\]\%', ' ', text)
    # REEMPLAZAMOS SIGNOS DE PUNTUACION POR ESPACIOS EN BLANCO (%s -> \S+ es cualquier caracter que no sea un espacio en blanco).
    text = re.sub('[%s]' % re.escape(string.punctuation), ' ', text)
    # REMUEVE PALABRAS QUE CONTIENEN NUMEROS.
    text = re.sub(r'\w*\d\w*', '', text)
    return text

In [None]:
# DEFINIMOS OTRA FUNCION DE LIMPIEZA
def clean_text_round2(text):
    # LA FUNCION RECIBE UN TEXTO Y DEVUELVE EL MISMO TEXTO SIN COMILLAS, PUNTOS SUSPENSIVOS, <<, >>
    text = re.sub('[‘’“”…«»\xa0]', '', text)
    text = re.sub('\n', ' ', text)
    return text

In [None]:
# VALIDAMOS EL TAMAÑO DE LOS TEXTOS A PROCESAR ANTES DE INVOCAR LAS FUNCIONES DE LIMPIEZA
print(f"TAMAÑO 2023:", len(text_2023))
print(f"TAMAÑO 2024:", len(text_2024))
print(f"TAMAÑO 2025:", len(text_2025))

In [None]:
text_2023 = clean_text_round1(text_2023)
text_2024 = clean_text_round1(text_2024)
text_2025 = clean_text_round1(text_2025)

In [None]:
# VALIDAMOS EL TAMAÑO DE LOS TEXTOS LUEGO DE INVOCAR LA FUNCION DE LIMPIEZA #1
print(f"TAMAÑO 2023:", len(text_2023))
print(f"TAMAÑO 2024:", len(text_2024))
print(f"TAMAÑO 2025:", len(text_2025))

In [None]:
text_2023 = clean_text_round2(text_2023)
text_2024 = clean_text_round2(text_2024)
text_2025 = clean_text_round2(text_2025)

In [None]:
# VALIDAMOS EL TAMAÑO LUEGO DE INVOCAR LA FUNCION DE LIMPIEZA #2
print(f"TAMAÑO 2023:", len(text_2023))
print(f"TAMAÑO 2024:", len(text_2024))
print(f"TAMAÑO 2025:", len(text_2025))

In [None]:
lista_de_palabras_2023 = re.sub(r"[^\w]", " ", text_2023).split()
lista_de_palabras_2024 = re.sub(r"[^\w]", " ", text_2024).split()
lista_de_palabras_2025 = re.sub(r"[^\w]", " ", text_2025).split()

In [None]:
contador_2023 = Counter(lista_de_palabras_2023)
contador_2024 = Counter(lista_de_palabras_2024)
contador_2025 = Counter(lista_de_palabras_2025)

In [None]:
# CONTAMOS REPETICION DE PALABRAS PARA CADA TEXTO
print(contador_2023)

In [None]:
len(contador_2023)

In [None]:
# CONTAMOS REPETICION DE PALABRAS PARA CADA TEXTO
print(contador_2024)

In [None]:
len(contador_2024)

In [None]:
# CONTAMOS REPETICION DE PALABRAS PARA CADA TEXTO
print(contador_2025)

In [None]:
len(contador_2025)

## 2.- Implementación de "NLTK"

### NLTK (Natural Language Toolkit) es una biblioteca de Python para el procesamiento del lenguaje natural (PLN). Proporciona herramientas y datos para realizar tareas como tokenización, análisis sintáctico, etiquetado de palabras, y más. Es ampliamente utilizada en investigación, desarrollo de aplicaciones de PLN, y análisis de texto. 

In [None]:
# IMPORTAMOS LAS LIBRERIAS
import nltk # LIBRERIA PARA PROCESAMIENTO DE LENGUAJE NATURAL
from nltk.corpus import stopwords # PALABRAS COMUNES DE UN IDIOMA QUE GENERALMENTE SE ELIMINAN DEL TEXTO A ANALIZAR ("el", "la", "de", "un", etc.) 

In [None]:
# DESCARGAMOS EL CORPUS DE PALABRAS EN ESPAÑOL DE NTLK
nltk.download('stopwords')
stopwords_es = set(stopwords.words('spanish'))

In [None]:
# VISUALIZAMOS EL CORPUS DE LAS STOP_WORDS EN ESPAÑOL
print(stopwords_es)

In [None]:
# DEFINIMOS UNA FUNCION PARA QUITAR LAS STOPWORDS
def limpiar_texto_sw(texto):
  # DEFINIMOS UNA LISTA VACIA QUE LUEGO CONTENERÁ LAS PALABRAS IMPORTANTES A ANALIZAR
  palabras_importantes = []
  # RECORREMOS LA LISTA DE PALABRAS Y AQUELLAS QUE NO ESTÉN EN "stopwords_es" LA AGREGAMOS A LA LISTA
  for palabra in texto:
    if palabra not in stopwords_es:
      palabras_importantes.append(palabra)
  return palabras_importantes

In [None]:
# VALIDAMOS EL TAMAÑO ANTES DE INVOCAR LA FUNCION QUE CONTIENE LA DEFINICIÓN DE STOPWORDS
print(f"TAMAÑO 2023:", len(lista_de_palabras_2023))
print(f"TAMAÑO 2024:", len(lista_de_palabras_2024))
print(f"TAMAÑO 2025:", len(lista_de_palabras_2025))
print(f"CONTADOR 2023:", len(contador_2023))
print(f"CONTADOR 2024:", len(contador_2024))
print(f"CONTADOR 2025:", len(contador_2025))

In [None]:
# APLICAMOS LA FUNCION DE LIMPIEZA QUE CONTIENE LAS STOPWORDS (ESPAÑOL)
lista_de_palabras_2023 = limpiar_texto_sw(lista_de_palabras_2023)
lista_de_palabras_2024 = limpiar_texto_sw(lista_de_palabras_2024)
lista_de_palabras_2025 = limpiar_texto_sw(lista_de_palabras_2025)

In [None]:
contador_2023 = Counter(lista_de_palabras_2023)
contador_2024 = Counter(lista_de_palabras_2024)
contador_2025 = Counter(lista_de_palabras_2025)

In [None]:
# VALIDAMOS EL TAMAÑO DESPUES DE INVOCAR LA FUNCION QUE CONTIENE LA DEFINICIÓN DE STOPWORDS
print(f"TAMAÑO 2023:", len(lista_de_palabras_2023))
print(f"TAMAÑO 2024:", len(lista_de_palabras_2024))
print(f"TAMAÑO 2025:", len(lista_de_palabras_2025))
print(f"CONTADOR 2023:", len(contador_2023))
print(f"CONTADOR 2024:", len(contador_2024))
print(f"CONTADOR 2025:", len(contador_2025))

In [None]:
# REDEFINIMOS LA FUNCION PARA LIMPIAR TEXTO #4
# *****************************************************************************************************
# NOTA: EN ESTA FUNCION AGREGAMOS UNA LISTA DE PALABRAS MANDATORIAS (DEFINIDAS POR NOSOTROS) A ELIMINAR
# *****************************************************************************************************
def limpiar_texto_swm(texto):
  # DEFINIMOS UNA LISTA DE PALABRAS PERSONALIZADAS A ELIMINAR (swm = STOPWORDS MEJORADO)
  palabras_a_eliminar = ['correo', 'electrónico', 'web', 'dijo', 'así', 'aunque', 'sino', 'luego', 'pues', 'mientras', 'después', 'antes', 'porque', 
                         'cuando', 'cómo', 'donde', 'cap', 'capítulo', 'verso', 'canto', 'á', 'ó', 'si', 'ser', 'bien', 'vez', 'juan', 'hs', 'dos',
                         'nombre', 'el', 'la', 'los', 'las', 'un', 'una', 'unos', 'unas', 'a', 'ante', 'bajo', 'cabe', 'con', 'contra', 'de', 'desde',
                         'en', 'entre', 'hacia', 'hasta', 'para', 'por', 'según', 'sin', 'so', 'sobre', 'tras', 'durante', 'mediante', 'y', 'o', 'u', 
                         'ni', 'que', 'como', 'cuando', 'donde', 'qué', 'cuál', 'cuáles', 'quién', 'quienes', 'cuyo', 'cuya', 'cuyos', 'cuyas', 'pero', 
                         'aunque', 'porque', 'si', 'no', 'sí', 'más', 'menos', 'también', 'ya', 'aún', 'solo', 'se', 'le', 'lo', 'la', 'me', 'te', 
                         'nos', 'os', 'su', 'sus', 'mi', 'mis', 'tu', 'tus', 'nuestro', 'nuestra', 'vuestro', 'vuestra', 
                         'Ana', 'María', 'Laura', 'Lucía', 'Carmen', 'Sofía', 'Isabella', 'Valentina', 'Paula', 'Gabriela',
                         'Andrea', 'Rocío', 'Daniela', 'Elena', 'Claudia', 'Julia', 'Carla', 'Sara', 'Ángela', 'Verónica',
                         'Natalia', 'Lorena', 'Alicia', 'Beatriz', 'Patricia', 'Silvia', 'Noelia', 'Marta', 'Bianca', 'Camila',
                         'Jimena', 'Eva', 'Florencia', 'Adriana', 'Victoria', 'Rosa', 'Manuela', 'Rebeca', 'Lourdes', 'Cristina',
                         'Milagros', 'Tamara', 'Marina', 'Pilar', 'Guadalupe', 'Montserrat', 'Inés', 'Leticia', 'Bárbara', 'Alejandra',
                         'Juan', 'Luis', 'Carlos', 'Pedro', 'José', 'Andrés', 'Miguel', 'Santiago', 'Mateo', 'Diego',
                         'Daniel', 'Pablo', 'Ángel', 'Fernando', 'Alberto', 'Rubén', 'Javier', 'Manuel', 'Antonio', 'Sergio',
                         'Jorge', 'Ricardo', 'Francisco', 'Lucas', 'Eduardo', 'Iván', 'Martín', 'David', 'Nicolás', 'Cristian',
                         'Tomás', 'Esteban', 'Gabriel', 'Adrián', 'Rodrigo', 'Agustín', 'Emilio', 'Rafael', 'Hugo', 'Bruno',
                          'Enrique', 'Salvador', 'Raúl', 'Sebastián', 'Gonzalo', 'Ignacio', 'Fabián', 'Joaquín', 'Vicente', 'Marco'                 
                        ]
  # DEFINIMOS UNA VARIABLE QUE UNIFICA LAS DOS LISTAS
  black_list = stopwords_es.union(palabras_a_eliminar)
  # DEFINIMOS UNA LISTA VACIA QUE LUEGO CONTENERÁ LAS PALABRAS IMPORTANTES A ANALIZAR
  palabras_importantes = []
  # RECORREMOS LA LISTA DE PALABRAS Y AQUELLAS QUE NO ESTÉN EN "black_list" LA AGREGAMOS A LA LISTA
  for palabra in texto:
    if palabra not in black_list:
      palabras_importantes.append(palabra)
  return palabras_importantes

In [None]:
lista_de_palabras_2023 = limpiar_texto_swm(lista_de_palabras_2023)
lista_de_palabras_2024 = limpiar_texto_swm(lista_de_palabras_2024)
lista_de_palabras_2025 = limpiar_texto_swm(lista_de_palabras_2025)
contador_2023 = Counter(lista_de_palabras_2023)
contador_2024 = Counter(lista_de_palabras_2024)
contador_2025 = Counter(lista_de_palabras_2025)

In [None]:
# VALIDAMOS EL TAMAÑO DESPUES DE INVOCAR LA FUNCION QUE CONTIENE LA DEFINICIÓN DE STOPWORDS
print(f"TAMAÑO 2023:", len(lista_de_palabras_2023))
print(f"TAMAÑO 2024:", len(lista_de_palabras_2024))
print(f"TAMAÑO 2025:", len(lista_de_palabras_2025))
print(f"CONTADOR 2023:", len(contador_2023))
print(f"CONTADOR 2024:", len(contador_2024))
print(f"CONTADOR 2025:", len(contador_2025))

In [None]:
# VISUALIZAMOS LA FRECUENCIA DE LAS PRIMERAS N PALABRAS
N = 20
palabras_mas_comunes_2023 = contador_2023.most_common(N)
palabras_mas_comunes_2024 = contador_2024.most_common(N)
palabras_mas_comunes_2025 = contador_2025.most_common(N)

In [None]:
# VISUALIZAMOS LAS PALABRAS MÁS REPETIDAS PARA CADA AÑO
print(f"PALABRAS CON MAYOR FRECUENCIA 2023: \n", palabras_mas_comunes_2023)
print(f"PALABRAS CON MAYOR FRECUENCIA 2024: \n", palabras_mas_comunes_2024)
print(f"PALABRAS CON MAYOR FRECUENCIA 2025: \n", palabras_mas_comunes_2025)

In [None]:
# IMPORTAMOS LA LIBRERIA QUE UTILIZAREMOS PARA HACER UNA NUBE CONTEO DE PALABRAS
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
# GENERAMOS EL WORDCLOUD CON LAS "PALABRAS MAS COMUNES"
wordcloud_generator = WordCloud(
    width=800,
    height=400,
    background_color='white',
    # Paleta de colores
    colormap='plasma', 
    # Mostrar máximo 50 palabras
    max_words=50,     
    # Ya filtramos stop words antes
    stopwords=None,  
    # Evitar que agrupe palabras (ej. "dióxido carbono")
    collocations=False  
).generate_from_frequencies(contador_2023) # <-- Usar las frecuencias calculadas

In [None]:
# GENERAMOS EL GRÁFICO
plt.figure(figsize=(10, 5)) # Tamaño de la figura donde se mostrará
plt.imshow(wordcloud_generator, interpolation='bilinear') # Mostrar la imagen generada
plt.axis("off") # No mostrar los ejes X e Y
plt.tight_layout(pad=0) # Ajustar para que no haya bordes extra
plt.show() # Mostrar la ventana con la nube

In [None]:
# GENERAMOS EL WORDCLOUD CON LAS "PALABRAS MAS COMUNES"
wordcloud_generator = WordCloud(
    width=800,
    height=400,
    background_color='white',
    # Paleta de colores
    colormap='plasma', 
    # Mostrar máximo 50 palabras
    max_words=50,     
    # Ya filtramos stop words antes
    stopwords=None,  
    # Evitar que agrupe palabras (ej. "dióxido carbono")
    collocations=False  
).generate_from_frequencies(contador_2024) # <-- Usar las frecuencias calculadas

In [None]:
# GENERAMOS EL GRÁFICO
plt.figure(figsize=(10, 5)) # Tamaño de la figura donde se mostrará
plt.imshow(wordcloud_generator, interpolation='bilinear') # Mostrar la imagen generada
plt.axis("off") # No mostrar los ejes X e Y
plt.tight_layout(pad=0) # Ajustar para que no haya bordes extra
plt.show() # Mostrar la ventana con la nube

In [None]:
# GENERAMOS EL WORDCLOUD CON LAS "PALABRAS MAS COMUNES"
wordcloud_generator = WordCloud(
    width=800,
    height=400,
    background_color='white',
    # Paleta de colores
    colormap='plasma', 
    # Mostrar máximo 50 palabras
    max_words=50,     
    # Ya filtramos stop words antes
    stopwords=None,  
    # Evitar que agrupe palabras (ej. "dióxido carbono")
    collocations=False  
).generate_from_frequencies(contador_2025) # <-- Usar las frecuencias calculadas

In [None]:
# GENERAMOS EL GRÁFICO
plt.figure(figsize=(10, 5)) # Tamaño de la figura donde se mostrará
plt.imshow(wordcloud_generator, interpolation='bilinear') # Mostrar la imagen generada
plt.axis("off") # No mostrar los ejes X e Y
plt.tight_layout(pad=0) # Ajustar para que no haya bordes extra
plt.show() # Mostrar la ventana con la nube

## 3.- Implementación de "SPACY"

### spaCy es una librería de procesamiento de lenguaje natural (PLN) de código abierto en Python, diseñada para realizar tareas avanzadas de procesamiento del lenguaje de forma eficiente. Es ideal para crear modelos y aplicaciones de producción que requieren análisis de textos, chatbots y otras funciones de análisis de texto. 

In [None]:
# IMPORTAMOS LAS LIBRERIAS
import spacy
from spacy import displacy

In [None]:
!python -m spacy download es_core_news_lg

In [None]:
import es_core_news_lg

In [None]:
# INSTANCIAMOS LA VARIABLE DEL MODELO (CREAMOS EL MODELO EN "nlp")
nlp = es_core_news_lg.load()

In [None]:
lista_de_palabras = lista_de_palabras_2023 + lista_de_palabras_2024 + lista_de_palabras_2025

In [None]:
texto = ' '.join(lista_de_palabras)

In [None]:
# print(len(texto))

In [None]:
# PROCESAMOS EL TEXTO CON SPACY
# nlp: Es el objeto del modelo (es_core_news_lg)
# texto_ejemplo: Es un string de texto.
# doc: Es el resultado del análisis. Un objeto tipo Doc de spaCy, que contiene tokens, etiquetas gramaticales, entidades nombradas, dependencias sintácticas, etc.
doc = nlp(texto)

In [None]:
# PROCESO DE TOKENIZACION
# RECORREMOS CON UN CICLO FOR EL TEXTO A PROCESAR CREANDO LA TOKENIZACIÓN DEL TEXTO EN CUESTION
tokens = [token.text for token in doc]
print(tokens)

In [None]:
# PROCESO DE LEMATIZACIÓN
# RECORREMOS LA LISTA ANTERIOR DE TOKENS PARA OBTENER LA LEMATIZACIÓN (FORMA BASE DE CADA TOKEN)
for token in doc:
    # SI EL VALOR QUE ESTAMOS ANALIZANDO NO ES PUNTUACION Y NO ES ESPACIO GENERAMOS EL LEMMA DE CADA PALABRA
    if not token.is_punct and not token.is_space:
        print(f"'{token.text}' -> '{token.lemma_}'")

In [None]:
# PROCESO DE ETIQUETADO GRAMATICAL
# token.text: El texto del token
# token.pos_: la categoría gramatical general (ej: NOUN, VERB, ADJ...).
# spacy.explain(token.pos_): Una descripción en texto de esa categoría.
# token.tag_: La etiqueta gramatical más específica (usualmente basada en corpus de entrenamiento).
for token in doc:
    if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE
        print(f"'{token.text}' -> {token.pos_} ({spacy.explain(token.pos_)}) -> {token.tag_}")

In [None]:
# PROCESO DE ANALISIS DE DEPENDENCIA SINTÁCTICA
# token.text: El texto del token (palabra actual)
# token.dep_: El tipo de dependencia gramatical (su función sintáctica en la oración: sujeto, objeto, raíz, etc.)
# spacy.explain(token.dep_): Una breve explicación textual de esa dependencia
# token.head.text: El término principal del que depende ese token (la "cabeza sintáctica")
for token in doc:
     if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE 
        print(f"'{token.text}' -> {token.dep_} ({spacy.explain(token.dep_)}) -> '{token.head.text}'")

In [None]:
# VISUALIZACION DE ENTIDADES
# Las entidades nombradas son cosas como: personas, lugares, organizaciones, fechas, cantidades, etc.
# ent.text: el texto de la entidad (ej. "España")
# ent.label_: la etiqueta de tipo de entidad (ej. LOC)
# spacy.explain(ent.label_): una descripción en texto del tipo (ej. "Geopolitical entity")
if doc.ents:
    print("Entidades encontradas:")
    print("Texto de la Entidad -> Etiqueta (Tipo)")
    for ent in doc.ents:
        print(f"'{ent.text}' -> {ent.label_} ({spacy.explain(ent.label_)})")
else:
    print("No se encontraron entidades nombradas en este texto.")

In [None]:
# VISUALIZACION DE ENTIDADES
displacy.render(doc,style='ent',jupyter=True,options={'distance':200})

In [None]:
# FILTRAMOS LAS ENTIDADES LOC Y ORG
entidades_loc = [ent.text for ent in doc.ents if ent.label_ in ['LOC']]
entidades_org = [ent.text for ent in doc.ents if ent.label_ in ['ORG']]
entidades_per = [ent.text for ent in doc.ents if ent.label_ in ['PER']]

In [None]:
# Unir todo como un solo texto para WordCloud
texto_entidades_loc = ' '.join(entidades_loc)
texto_entidades_org = ' '.join(entidades_org)
texto_entidades_per = ' '.join(entidades_per)

In [None]:
print(f"\033[1mENTIDADES TIPO LOC:\033[0m \n", texto_entidades_loc)
print(f"\033[1mENTIDADES TIPO ORG:\033[0m \n", texto_entidades_org)
print(f"\033[1mENTIDADES TIPO PER:\033[0m \n", texto_entidades_per)

In [None]:
# Reemplazar entidades compuestas por una sola palabra con guiones bajos
texto_entidades_loc = texto_entidades_loc.replace("san nicolás", "san_nicolás")
texto_entidades_loc = texto_entidades_loc.replace("ciudad rosario", "ciudad_rosario")
texto_entidades_loc = texto_entidades_loc.replace("carlos paz", "carlos_paz")
texto_entidades_loc = texto_entidades_loc.replace("mina clavero", "mina_clavero")
texto_entidades_loc = texto_entidades_loc.replace("buenos aires", "buenos_aires")

texto_entidades_org = texto_entidades_org.replace("federación rosarina", "federación_rosarina")
texto_entidades_org = texto_entidades_org.replace("yiya team", "yiya_team")

In [None]:
print(f"\033[1mENTIDADES TIPO LOC:\033[0m \n", texto_entidades_loc)
print(f"\033[1mENTIDADES TIPO ORG:\033[0m \n", texto_entidades_org)
print(f"\033[1mENTIDADES TIPO PER:\033[0m \n", texto_entidades_per)

In [None]:
# GENERAMOS Y MOSTRAMOS EL WORDCLOUD PARA LOC
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(texto_entidades_loc)
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
# GENERAMOS Y MOSTRAMOS EL WORDCLOUD PARA ORG
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(texto_entidades_org)
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

## 4.- Implementación de “BAG OF WORDS” (BoW)

### La bag of words (BoW; también llamada bolsa de palabras) es una técnica de extracción de características que modela datos de texto para su procesamiento en algoritmos de recuperación de información y machine learning.

In [None]:
# IMPORTAMOS LAS LIBRERIAS
from sklearn.feature_extraction.text import CountVectorizer # CREAMOS LA MATRIZ DE PALABRAS
import nltk
# CountVectorizer: Convierte un conjunto de textos en vectores numéricos, donde cada columna representa una palabra del vocabulario y cada fila 
# representa un texto. Es lo que se llama una bolsa de palabras (bag of words): solo cuenta cuántas veces aparece cada palabra en el texto 
# (sin importar el orden).

# NLTK es una libreria que ofrece herramientas para:
# * Tokenización (dividir texto en palabras, frases, oraciones)
# * Lematización y stemming
# * Etiquetado gramatical (POS tagging)
# * Extracción de entidades
# * Corpus integrados (textos de ejemplo)
# * Modelos de lenguaje sencillos

In [None]:
nltk.download('stopwords') # DESCARGAMOS EL MODULO "stopwords"
sw_espaniol = nltk.corpus.stopwords.words('spanish') # ASIGNAMOS LAS "stopwords" DEL ESPAÑOL

In [None]:
# VERIFICAMOS LAS STOPWORDS DEL ESPAÑOL
print(sw_espaniol)

In [None]:
# INSTANCIAMOS UNA VARIABLE DE TIPO "CountVectorizer" Y LE INDICAMOS QUE CUENTA AHORA CON UN "stop_words" DEFINIDO
count_vect = CountVectorizer(stop_words=sw_espaniol)

In [None]:
texto

In [None]:
# IMPORTAMOS LIBRERIAS
import pandas as pd

In [None]:
texto_a_procesar = texto.split()

In [None]:
print(type(texto_a_procesar))

In [None]:
texto_a_procesar_df = pd.DataFrame(texto_a_procesar, columns=['transcript'])

In [None]:
texto_a_procesar_df

In [None]:
# TRANSFORMAMOS EL TEXTO EN DATOS NUMÉRICOS USANDO "CountVectorizer" PARA CONVERTIR LOS TEXTOS EN UNA MATRIZ.
data_cv = count_vect.fit_transform(texto_a_procesar_df.transcript)

In [None]:
print(type(data_cv))

In [None]:
# CREAMOS UN DATAFRAME TRANSFORMANDO CON LA MATRIZ QUE GENERAMOS ANTES DONDE:
# 1.- LAS COLUMNAS SON LAS PALABRAS
# 2.- LAS FILAS SON LOS DOCUMENTOS
# DTM: DATA EN FORMATO DATAFRAME
data_dtf = pd.DataFrame(data_cv.toarray(), columns=count_vect.get_feature_names_out())

In [None]:
print(type(data_dtf))

In [None]:
# VISUALIZAMOS LA MATRIZ EN FORMATO DATAFRAME
data_dtf.head(15)

In [None]:
len(count_vect.vocabulary_)

## 5.- Análisis Exploratorio

#### 5.1.- CARGAMOS EL DATAFRAME

In [None]:
data_dtf.head(10)

In [None]:
# TRANSPONEMOS LA MATRIZ PARA TENER UNA EN FORMATO "terminosXdocumentos"
data_dtf = data_dtf.transpose()

In [None]:
# MOSTRAMOS LOS PRIMEROS 10 REGISTROS
# AHORA CONTAMOS CON LAS PALABRAS DEL TEXTO EN LAS FILAS Y LAS OCURRENCIAS EN LA COLUMNA
data_dtf.head(10)

#### 5.2.- BUSCAMOS LAS PALABRAS MAS USADAS

In [None]:
# SUMAMOS LA CANTIDAD DE 1 DE CADA FILA
suma_filas = data_dtf.sum(axis=1)
# CREAMOS UN NUEVO DATAFRAME CON DOS COLUMNAS "PALABRA" Y "TOTAL"
nuevo_data_dtf = pd.DataFrame({
    'palabra': suma_filas.index,
    'total': suma_filas.values
})
# BUSCAMOS VER SOLO LAS PRIMERAS 50 FILAS (CON EL MAYOR NUMERO DE PALABRAS)
top_50_df = nuevo_data_dtf.sort_values(by='total', ascending=False).head(50)
# VISUALIZAMOS EL DATAFRAME CREADO
print(top_50_df)

In [None]:
print(top_50_df.columns)

In [None]:
# IMPORTAMOS LAS LIBRERIAS
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
# Creo el objeto WordCloud con determinados parametros y utilizando nuestra lista de stopwords
wc = WordCloud(stopwords=sw_espaniol, background_color="white", colormap="Dark2", max_font_size=150, random_state=42)

In [None]:
# Suponiendo que tenés 'palabra' y 'total' como columnas
# GENERAMOS UN DICCIONARIO CON LA FRECUENCIA DE CADA PALABRA
# KEY: PALABRA
# VALUE: TOTAL
frecuencias = dict(zip(top_50_df['palabra'], top_50_df['total']))

# DEFINIMOS EL FORMATO DEL WORDPLOUD
wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(frecuencias)

# GENERAMOS EL GRÁFICO A VISUALIZAR
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()