## Procesamiento del Lenguaje Natural - 2025

### Trabajo Práctico

Arce, Sofía.

## Preparación de entorno

In [22]:
# Clonamos el reposotorio y el directorio de los datos
import os

REPO_NAME = "NLP-2025"
if REPO_NAME not in os.getcwd():
  if not os.path.exists(REPO_NAME):
    !git clone https://github.com/itssofiarce/{REPO_NAME}.git
  os.chdir(REPO_NAME)

### Pre analísis de la información .txt

In [23]:
# Texto mas extenso
longitud = {}
informacion = os.listdir('/content/NLP-2025/NLP_CASCADIA/datos/información')

for texto in informacion:
  contenido = open(f'/content/NLP-2025/NLP_CASCADIA/datos/información/{texto}', 'r')
  # Cuento solo las palabras

  longitud[texto] = len(contenido.read().split())

print(longitud)


{'whatboardgame_review.txt': 2288, 'board_game_co_uk_guide.txt': 127, 'flatout_games.txt': 298, 'boardgamereview_review.txt': 2606, 'cascadia_manual.txt': 6734, 'bluehighwaygames_description.txt': 908, 'oneboardfamily_review.txt': 1592}


En base al output de arriba el texto mas extenso es el manual de cascadia con 6734 palabras.



Para facilitar el desarrollo del Trabajo Práctico crearé la clase "TextoParaAnalizar" con los metodós necesarios para completar los enunciados.

In [24]:
import pandas as pd

In [26]:
# Funciones adicionales
def entorno_modelo(tipo_embedding):
  if tipo_embedding == "CountVectorizer":

    from sklearn.feature_extraction.text import CountVectorizer
    model = CountVectorizer()

  elif tipo_embedding == "sentencetransformer":
    !pip install -U sentence-transformers
    from sentence_transformers import SentenceTransformer
    model = SentenceTransformer('all-MiniLM-L6-v2')

  return model


In [27]:
class TextoParaAnalizar:

  def __init__(self, text):
    # Validar path del archivo
    if not os.path.exists(text):
      raise Exception('El archivo no existe')
    self.text = text

  def __str__(self):
    """ Devuelve el contenido del texto """
    with open(self.text, 'r') as f:
      return f.read()

  def fragmentos(self, fragmento="palabra"):
    """ Devuelve una lista de fragmentos del texto.
      - "Fragmento: oracion"
      - "Fragmento: palabra"
    """
    import re
    texto_limpio = re.sub(r'[().!]', '', self.__str__())
    if fragmento == "oracion":
      texto_limpio =[line for line in texto_limpio.splitlines() if line.strip()]
      return texto_limpio
    return texto_limpio.split()


  def vectorizar(self, tipo: str = "sentencetransformer"):
    """ Vectoriza los fragmentos y los devuelve en un dataset. Por default usa ul modelo ContextDependent como word2vec.
        tipo:
        - "ContextDependent: CountVectorizer"
        - "ContextIndependent: "" sentencetransformer """
    import pandas as pd
    modelo = entorno_modelo(tipo)
    oraciones = self.fragmentos("oracion")
    embeddings = []

    if tipo == "CountVectorizer":
      X = modelo.fit_transform(oraciones)
      response_new = pd.DataFrame(X.toarray(), columns=modelo.get_feature_names_out())

    elif tipo == "sentencetransformer":
      response_new = modelo.encode(oraciones)

    return response_new, modelo

## EJERCICIO 2
Apoyándose en la sección de información. Separa en fragmentos un texto extenso extraído y vectoriza cada fragmento con alguno de los modelos de embedding vistos en clases.

In [28]:
texto_extenso = TextoParaAnalizar('/content/NLP-2025/NLP_CASCADIA/datos/información/cascadia_manual.txt')

En el bloque de codigo de arriba, dataframe es un diccionario que almacena en forma de lista, las palabras de las oraciones, esto el permite a word2vec aprender mejor el contexto de las mismas. Luego entrenamos el modelo y lo guardamos.

Las palabras "rules" y "games" tienen una similitud cerca de uno por lo que significa que son palabras cuyos embeddings estan cerca en el espacio y por lo tanto, estan relacionadas en cuanto a significado. Ahora entrenaré otro modelo para probarlo con frases.

In [None]:
# Separo en palabras y vectorizo
dataframe, model = texto_extenso.vectorizar("CountVectorizer")

In [None]:
# Separo en frases
dataframe, model = texto_extenso.vectorizar("sentencetransformer")

Luego realiza un análisis de similitud de texto ingresando varias frases a buscar semánticamente, compare distintas técnicas de distancias vistas en clases, elija la mejor y justifique la razón por la que esa técnica se ajusta para este tipo de búsquedas.



In [37]:
# Calcular la similutid del coseno entre las frases_ejemplo y todo el texto.
from sentence_transformers import util
frases_ejemplo=["Casadia is a game", "There are only 3 types of Wildlife cards", "Casadia ia a geographic region"]
frases_ejemplo_vectorizadas = model.encode(frases_ejemplo)

In [74]:
to_plot_coincidencias=[]
to_plot_coincidencias_vectorizadas=[]

In [75]:
for i, frase in enumerate(frases_ejemplo):
    similitudes = util.cos_sim(frases_ejemplo_vectorizadas[i], dataframe)
    print(f"\nFrase ejemplo: '{frase}'")
    # Mostrar las frases del texto más similares a esta
    resultados_ordenados = similitudes[0].argsort(descending=True)
    for idx in resultados_ordenados[:3]:  # Top 3 resultados
        # Busco por idx la oracion original
        to_plot_coincidencias.append(texto_extenso.fragmentos("oracion")[idx])
        to_plot_coincidencias_vectorizadas.append(dataframe[idx])
        oracion_similar = texto_extenso.fragmentos("oracion")[idx.item()]
        print(f" → {oracion_similar} (Similitud: {similitudes[0][idx]:.4f})")


Frase ejemplo: 'Casadia is a game'
 → Set up and play a multi-player game of Cascadia using the  (Similitud: 0.5859)
 → Set up and play a multi-player game of Cascadia following  (Similitud: 0.5751)
 → The Flatout Games CoLab for Cascadia is: (Similitud: 0.5627)

Frase ejemplo: 'There are only 3 types of Wildlife cards'
 → Only have 3 types of Wildlife (Similitud: 0.7758)
 → 1 Wildlife Scoring Cards (Similitud: 0.7268)
 → 1 Wildlife Scoring Cards (Similitud: 0.7268)

Frase ejemplo: 'Casadia ia a geographic region'
 → About the Region (Similitud: 0.5014)
 → landmarks in the region (Similitud: 0.4970)
 → wild places wherever you may be, or consider paying Cascadia a visit (Similitud: 0.4175)


In [41]:
# Similitud de Jaccard
def jaccard_similarity(str1, str2):
    set1 = set(str1.lower().split())
    set2 = set(str2.lower().split())
    return len(set1 & set2) / len(set1 | set2) if set1 | set2 else 0

In [46]:
from sentence_transformers import util

frases_ejemplo = ["Casadia is a game", "There are only 3 types of Wildlife cards", "Casadia ia a geographic region"]

for i, frase in enumerate(frases_ejemplo):
    print(f"\nFrase ejemplo: '{frase}'")

    # Calculate Jaccard similarity for each fragment in the text
    similitudes_jaccard = [jaccard_similarity(frase, oracion) for oracion in texto_extenso.fragmentos("oracion")]

    # Get the indices of the top 3 most similar sentences
    resultados_ordenados_jaccard = sorted(range(len(similitudes_jaccard)), key=lambda i: similitudes_jaccard[i], reverse=True)[:3]

    # Print the top 3 most similar sentences and their Jaccard similarities
    for idx in resultados_ordenados_jaccard:
        oracion_similar = texto_extenso.fragmentos("oracion")[idx]
        print(f" → {oracion_similar} (Similitud Jaccard: {similitudes_jaccard[idx]:.4f})")


Frase ejemplo: 'Casadia is a game'
 → This tile is a Keystone  (Similitud Jaccard: 0.2857)
 → A (Similitud Jaccard: 0.2500)
 → A (Similitud Jaccard: 0.2500)

Frase ejemplo: 'There are only 3 types of Wildlife cards'
 → Only have 3 types of Wildlife (Similitud Jaccard: 0.5556)
 → If 3 of the available Wildlife Tokens are the same, then  (Similitud Jaccard: 0.2857)
 → Overpopulation: 3 of the same Wildlife Token (Similitud Jaccard: 0.2500)

Frase ejemplo: 'Casadia ia a geographic region'
 → A (Similitud Jaccard: 0.2000)
 → A (Similitud Jaccard: 0.2000)
 → A (Similitud Jaccard: 0.2000)


OPCIONAL: Visualizar en 3D aplicando PCA o t-SNE la ubicación de los fragmentos y la query ingresada vectorizada en el espacio. Realizar una observación sobre la visualización.


In [None]:
!pip install plotly

In [85]:
import plotly.graph_objects as go
from sklearn.decomposition import PCA
import numpy as np

# Initialize lists to store all data points for PCA
all_vectores = []
all_oraciones = []
all_colores = []

for i, frase in enumerate(frases_ejemplo):
    similitudes = util.cos_sim(frases_ejemplo_vectorizadas[i], dataframe)
    print(f"\nFrase ejemplo: '{frase}'")

    resultados_ordenados = similitudes[0].argsort(descending=True)

    # Store data for current phrase
    all_oraciones.append(frase)  # include the example phrase
    all_vectores.append(frases_ejemplo_vectorizadas[i])
    all_colores.append('red')

    for idx in resultados_ordenados[:3]:
        oracion_similar = texto_extenso.fragmentos("oracion")[idx.item()]
        print(f" → {oracion_similar} (Similitud: {similitudes[0][idx]:.4f})")

        # Store data for similar sentences
        all_oraciones.append(oracion_similar)
        all_vectores.append(dataframe[idx.item()])
        all_colores.append('blue')


# Apply PCA to all collected data points
pca = PCA(n_components=3)
vectores_3d = pca.fit_transform(np.array(all_vectores))
x, y, z = vectores_3d[:, 0], vectores_3d[:, 1], vectores_3d[:, 2]
hover_text = [f"{j}: {sent}" for j, sent in enumerate(all_oraciones)]

# Create a single plot with all data points
fig = go.Figure()
fig.add_trace(go.Scatter3d(
    x=x,
    y=y,
    z=z,
    mode='markers+text',
    marker=dict(
        size=6,
        color=all_colores,
        opacity=0.8
    ),
    text=[str(j) for j in range(len(all_oraciones))],
    hovertext=hover_text,
    hoverinfo='text'
))

fig.update_layout(
    title='Visualización de Frases Ejemplo y Similares',
    scene=dict(
        xaxis_title='PC 1',
        yaxis_title='PC 2',
        zaxis_title='PC 3'
    ),
    showlegend=False
)

fig.show()


Frase ejemplo: 'Casadia is a game'
 → Set up and play a multi-player game of Cascadia using the  (Similitud: 0.5859)
 → Set up and play a multi-player game of Cascadia following  (Similitud: 0.5751)
 → The Flatout Games CoLab for Cascadia is: (Similitud: 0.5627)

Frase ejemplo: 'There are only 3 types of Wildlife cards'
 → Only have 3 types of Wildlife (Similitud: 0.7758)
 → 1 Wildlife Scoring Cards (Similitud: 0.7268)
 → 1 Wildlife Scoring Cards (Similitud: 0.7268)

Frase ejemplo: 'Casadia ia a geographic region'
 → About the Region (Similitud: 0.5014)
 → landmarks in the region (Similitud: 0.4970)
 → wild places wherever you may be, or consider paying Cascadia a visit (Similitud: 0.4175)


de la teoria:: Los métodos Count Vectorizer y TF-IDF capturan la aparición o frecuencia de palabras. Si bien admiten el uso
de similitud de coseno, la cercanía estará dada por las similitudes en cuanto a la presencia o cuenta de las
mismas palabras, y no por su similitud semántica o de contexto, como en el caso de los modelos de
embeddings.


## EJERCICIO 3
Apoyándose nuevamente en la sección de información. Recoge un texto extenso extraído, divídelos en fragmentos, luego realiza extracciones de sustantivos (POS) y categoriza estos sustantivos (NER), a continuación realiza una búsqueda de similitud filtrando por sustantivos, compara las distintas técnicas de distancias vistas en clases, elija la mejor y justifique la razón por la que esta técnica se ajusta para este tipo de búsquedas.


## EJERCICIO 4
Mediante detección de idioma, separar los archivos en distintos lenguajes y guardar esa
información en un dataframe.


##EJERCICIO 5
En el caso de las reseñas realizadas por usuarios, utiliza análisis de sentimientos con modelos pre entrenados y guarda la clasificación predecida de cada reseña.

Luego, crea un sistema de búsquedas por similitud semántica y que permita filtrar por sentimiento para obtener.


## EJERCICIO 6
Crea un set de datos de consultas (más de 300 preguntas en total) y categorizalas entre la
fuente de datos que pueda llegar a responder esa pregunta entre estadísticas,
información y relaciones.
Por ejemplo:
- ¿Cómo gano en el ajedrez? -> Información
- ¿Quién trabajó para el ta-te-ti? -> Relaciones
- ¿Qué puntaje tienen las damas? -> Estadística
A continuación, transforma esas consultas en vectores y entrena un modelo de clasificación
(a gusto del estudiante) en donde pueda predecir la categoría a través de la consulta
ingresada.
Agregar métricas y análisis durante todo el desarrollo, trabaje en varios modelos y
comparelos.