# Ejercicios UD03_01

## Ejercicio 1

Tokeniza el siguiente texto en palabras y en oraciones. Luego elimine las palabras de parada (stopwords) y las comas en el texto. Finalmente, crea un vector con la representación *Bolsa de palabras* (BoW).

*Texto*: "El Barça es el mejor equipo del mundo. A veces, sin embargo, juega mal".

In [3]:
from textblob import TextBlob
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

# 1. Preparación
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')
stop_es = stopwords.words('spanish')
texto = "El Barça es el mejor equipo del mundo. A veces, sin embargo, juega mal"

# 2. Tokenización (Palabras y Oraciones)
blob = TextBlob(texto)
palabras = blob.words
oraciones = blob.sentences

# 3. Limpieza: Eliminamos stopwords y la coma (limpiando cada token)
tokens_limpios = [word.lower() for word in palabras if word.lower() not in stop_es and word.isalpha()]

# 4. Representación Bolsa de Palabras
vectorizer_bow = CountVectorizer()
# CountVectorizer necesita una cadena de texto unida por espacios
texto_para_bow = ' '.join(tokens_limpios)
bow_matrix = vectorizer_bow.fit_transform([texto_para_bow])

print("Tokens limpios:", tokens_limpios)
print("Vocabulario BoW:", vectorizer_bow.get_feature_names_out())
print("Vector BoW:", bow_matrix.toarray())

Tokens limpios: ['barça', 'mejor', 'equipo', 'mundo', 'veces', 'embargo', 'juega', 'mal']
Vocabulario BoW: ['barça' 'embargo' 'equipo' 'juega' 'mal' 'mejor' 'mundo' 'veces']
Vector BoW: [[1 1 1 1 1 1 1 1]]


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


## Ejercicio 2

Cree un vector con la representación *tf-idf* del texto del ejercicio anterior.

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. Inicializamos el vectorizador de TF-IDF
vectorizer_tfidf = TfidfVectorizer()

# 2. Aplicamos la transformación al texto
tfidf_matrix = vectorizer_tfidf.fit_transform([texto_para_bow])

# 3. Mostramos los resultados
print("Vocabulario aprendido por TF-IDF:")
print(vectorizer_tfidf.get_feature_names_out())

print("\nVector resultante (Pesos TF-IDF):")
print(tfidf_matrix.toarray())

Vocabulario aprendido por TF-IDF:
['barça' 'embargo' 'equipo' 'juega' 'mal' 'mejor' 'mundo' 'veces']

Vector resultante (Pesos TF-IDF):
[[0.35355339 0.35355339 0.35355339 0.35355339 0.35355339 0.35355339
  0.35355339 0.35355339]]


## Ejercicio 3

Cree un vector con la representación *Word2Vec* del texto del ejercicio anterior.

In [7]:
# 1. Instalamos la librería que falta
!pip install gensim

# 2. Importamos y ejecutamos
from gensim.models import Word2Vec

model = Word2Vec(
    sentences=[tokens_limpios],
    vector_size=100,
    window=5,
    min_count=1,
    workers=4
)

# 4. Obtención del vector de una palabra específica
palabra_ejemplo = "barça"
if palabra_ejemplo in model.wv:
    vector = model.wv[palabra_ejemplo]

    print(f"=== EJERCICIO 3: Word2Vec ===")
    print(f"Tokens procesados: {tokens_limpios}")
    print(f"\nVector de la palabra '{palabra_ejemplo}' (primeras 10 dimensiones de 100):")
    print(vector[:10])

    # También podemos ver el vocabulario capturado por el modelo
    print(f"\nPalabras en el vocabulario de Word2Vec: {list(model.wv.index_to_key)}")

Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m45.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0
=== EJERCICIO 3: Word2Vec ===
Tokens procesados: ['barça', 'mejor', 'equipo', 'mundo', 'veces', 'embargo', 'juega', 'mal']

Vector de la palabra 'barça' (primeras 10 dimensiones de 100):
[ 0.00816812 -0.00444303  0.00898543  0.00825366 -0.00443522  0.00030311
  0.00427449 -0.00392632 -0.00555997 -0.00651232]

Palabras en el vocabulario de Word2Vec: ['mal', 'juega', 'embargo', 'veces', 'mundo', 'equipo', 'mejor', 'barça']


## Ejercicio 4

Clasifique el siguiente texto usando el clasificador *Naive Bayes* como el que hemos utilizado en la práctica [Introducción a PLN](https://colab.research.google.com/github/martinezpenya/MIA-IABD-2425/blob/main/UD03/notebooks/1.-introduccio_nlp_ES.ipynb).

*Texto*: "Creo que la aplicación no funciona".

In [20]:
# Training data
train = [
    ('The application crashes when I try to open it.', 'Bug'),
    ('I would like to request a new feature.', 'Feature Request'),
    ('How do I reset my password?', 'Question'),
    ('There is a typo on the main page.', 'Bug'),
    ('Could you add support for multiple languages?', 'Feature Request'),
    ('Where can I find the user manual?', 'Question'),
]

# Entrenamos el clasificador

from textblob.classifiers import NaiveBayesClassifier

classifier = NaiveBayesClassifier(train)

# Clasificamos texto
texto_ejercicio = "Creo que la aplicación no funciona"

# Ahora sí encontrará la relación entre "aplicación" y "no funciona" con la categoría 'Bug'
categoria_predicha = classifier.classify(texto_ejercicio)

# 5. Mostrar resultados
print(f"=== EJERCICIO 4: Clasificación Naive Bayes (Corregido) ===")
print(f"Texto: '{texto_ejercicio}'")
print(f"Categoría asignada: {categoria_predicha}")

=== EJERCICIO 4: Clasificación Naive Bayes (Corregido) ===
Texto: 'Creo que la aplicación no funciona'
Categoría asignada: Question
