# Clase 14 - Representación vectorial del texto y modelos clásicos
## ¿Por qué vectorizar el texto?

Los algoritmos de Machine Learning no entienden texto directamente.
Por ello, el texto debe convertirse en vectores numéricos que capturen información semántica o estadística.


## Bag of Words (BoW)
El modelo Bolsa de Palabras representa un texto como un vector de conteos de palabras, ignorando el orden.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'el nlp es interesante',
    'el procesamiento de lenguaje natural es complejo',
    'nlp y machine learning trabajn juntos'
]

vectorizer = CountVectorizer()
x = vectorizer.fit_transform(corpus)

x.toarray(), vectorizer.get_feature_names_out()


(array([[0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0],
        [1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0],
        [0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1]]),
 array(['complejo', 'de', 'el', 'es', 'interesante', 'juntos', 'learning',
        'lenguaje', 'machine', 'natural', 'nlp', 'procesamiento',
        'trabajn'], dtype=object))

## TF-IDF (Term Frequency – Inverse Document Frequency)
TF-IDF pondera palabras según:

* frecuencia en el documento
* rareza en el corpus
* Reduce el peso de palabras comunes y resalta términos importantes.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(corpus)

x.toarray(), vectorizer.get_feature_names_out()

(array([[0.        , 0.        , 0.45985353, 0.45985353, 0.60465213,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.45985353, 0.        , 0.        ],
        [0.40301621, 0.40301621, 0.30650422, 0.30650422, 0.        ,
         0.        , 0.        , 0.40301621, 0.        , 0.40301621,
         0.        , 0.40301621, 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.46735098, 0.46735098, 0.        , 0.46735098, 0.        ,
         0.35543247, 0.        , 0.46735098]]),
 array(['complejo', 'de', 'el', 'es', 'interesante', 'juntos', 'learning',
        'lenguaje', 'machine', 'natural', 'nlp', 'procesamiento',
        'trabajn'], dtype=object))

## N-grams
Los n-gramas capturan secuencias de palabras consecutivas.


```
bigrama: machine learning

trigrama: procesamiento de lenguaje natural
```


In [None]:
vectorizer = CountVectorizer(ngram_range=(1,2))
x = vectorizer.fit_transform(corpus)

vectorizer.get_feature_names_out()

array(['complejo', 'de', 'de lenguaje', 'el', 'el nlp',
       'el procesamiento', 'es', 'es complejo', 'es interesante',
       'interesante', 'juntos', 'learning', 'learning trabajn',
       'lenguaje', 'lenguaje natural', 'machine', 'machine learning',
       'natural', 'natural es', 'nlp', 'nlp es', 'nlp machine',
       'procesamiento', 'procesamiento de', 'trabajn', 'trabajn juntos'],
      dtype=object)

## Modelos Clásicos para NLP

Una vez vectorizado el texto, se pueden entrenar modelos de ML tradicionales.

**Clasificador de Texto**

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

textos = [
    'me encanta este producto',
    'odio este producto',
    'muy buen servicio',
    'lo recomiendo',
    'nunca volveré a comprar aquí'
]

etiquetas = [1, 0, 1, 1, 0]

x = TfidfVectorizer().fit_transform(textos)
x_train, x_test, y_train, y_test = train_test_split(x, etiquetas, test_size=0.2, random_state=42)

modelo = MultinomialNB()
modelo.fit(x_train, y_train)
modelo.predict(x_test)

#modelo.score(x_test, y_test)

array([1])

In [None]:
y_test

[0]

## Word Embeddings
Los embeddings representan palabras como vectores densos que capturan relaciones semánticas.

Ejemplo clásico:

`rey - hombre + mujer ≈ reina`

In [None]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m29.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
nlp = spacy.load('es_core_news_sm')

doc = nlp('perro tijeras gato veterinario')

for token in doc:
  print(token.text, token.vector[:5])


perro [ 0.33787465 -0.529732    1.0501668  -5.0766463   0.3385839 ]
tijeras [ 0.37337202  1.3906447  -2.328543   -2.7364414   1.0993222 ]
gato [ 3.8799098   0.81480527 -1.454298    0.06635606  2.7632985 ]
veterinario [ 0.9434247   1.3979921  -2.0738053  -0.34742498  4.5999537 ]


In [None]:
doc1 = nlp('perro')
doc2 = nlp('gato')

doc1.similarity(doc2)

  doc1.similarity(doc2)


0.5870431661605835

## ¿Por qué Deep Learning en NLP?

Los métodos clásicos (BoW, TF-IDF) no capturan bien:

* Contexto
* Dependencias largas
* Significado semántico profundo

### Word Embeddings con Word2Vec
Es un modelo que aprende vectores densos para palabras, donde palabras con significado similar tienen vectores cercanos.

In [None]:
# Instalación de dependencias
!pip install gensim

Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m42.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0


In [None]:
# Importar
from gensim.models import Word2Vec

sentences = [
    ['el', 'nlp', 'es', 'interesante'],
    ['machine', 'learning', 'y', 'nlp'],
    ['deep', 'learning', 'en', 'nlp']
]

modelo = Word2Vec(sentences, vector_size=50, window=3, min_count=1)

modelo.wv['learning'][:10]


array([-0.01631583,  0.0089916 , -0.00827415,  0.00164907,  0.01699724,
       -0.00892435,  0.009035  , -0.01357392, -0.00709698,  0.01879702],
      dtype=float32)

## Aplicaciones


### Análisis de sentimientos
El análisis de sentimientos busca identificar la carga emocional de un texto:

* Positiva
* Negativa
* Neutral

En NLTK, una de las herramientas más usadas es VADER, diseñada para textos cortos y lenguaje natural.

VADER (Valence Aware Dictionary and sEntiment Reasoner) es:

* Un enfoque basado en léxico
* No requiere entrenamiento

In [None]:
import nltk
from nltk.sentiment import SentimentIntensityAnalyzer

nltk.download('vader_lexicon')

sia = SentimentIntensityAnalyzer()

texto = 'I love this product.'

# compund >= 0.05 -> positivo
# compund <= -0.05 -> negativo
# compund  entre 0.05 y -0.05 -> neutro
sia.polarity_scores(texto)

[nltk_data] Downloading package vader_lexicon to /root/nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


{'neg': 0.0, 'neu': 0.323, 'pos': 0.677, 'compound': 0.6369}

### Named Entity Recognition (NER)
Identifica y clasifica entidades con nombre dentro de un texto, como:

* Personas
* Organizaciones
* Fechas
* Lugares
* Cantidades

In [None]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m56.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

nlp = spacy.load('es_core_news_sm')

texto = 'Microsoft proporciona un excelente servicio, fue fundada en 1979 en Nuevo Mexico, Estados Unidos'
doc = nlp(texto)

for ent in doc.ents:
  print(ent.text, ent.label_)


Microsoft ORG
Nuevo Mexico LOC
Estados Unidos LOC


In [None]:
nlp2 = spacy.load("en_core_web_sm")

text = 'Microsoft was founded in 1975 by Bill Gates and Paul Allen to revolutionize personal computing.'
doc = nlp2(text)

for ent in doc.ents:
  print(ent.text, ent.label_)

Microsoft ORG
1975 DATE
Bill Gates PERSON
Paul Allen PERSON


### Part-of-Speech Tagging (POS)

Asigna a cada palabra su categoría gramatical:

* Sustantivo
* Verbo
* Adjetivo
* Adverbio, etc.

Es clave para:
* análisis sintáctico
* extracción de información
* traducción automática

In [None]:
from nltk.tokenize import word_tokenize
from nltk import pos_tag

nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)

pos_tags

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


[('Microsoft', 'NNP'),
 ('was', 'VBD'),
 ('founded', 'VBN'),
 ('in', 'IN'),
 ('1975', 'CD'),
 ('by', 'IN'),
 ('Bill', 'NNP'),
 ('Gates', 'NNP'),
 ('and', 'CC'),
 ('Paul', 'NNP'),
 ('Allen', 'NNP'),
 ('to', 'TO'),
 ('revolutionize', 'VB'),
 ('personal', 'JJ'),
 ('computing', 'NN'),
 ('.', '.')]