# Processament de llenguatge natural amb models pre-entrenats

En l'exemple anterior hem vist com utilitzar llibreries com Nltk i TextBlob per processar text. Encara que son eficients i fàcils d'utilitzar, no sempre són les millors opcions per processar text en llenguatges diferents a l'anglès.

Els models pre-entrenats són models que han estat entrenats amb grans quantitats de dades i que poden ser utilitzats per processar text en diferents idiomes. Aquests models requereixen més dades i temps de computació per ser entrenats, però una vegada entrenats si son eficients.

El seu entrenament també és menys manual i facilita la seva utilització en diferents idiomes.

En aquesta pràctica veurem com utilitzar models pre-entrenats per processar text en diferents idiomes.

Utilitzarem els models pre-entrenats de la llibreria `flair` pero podriem utilitzar altres coleccions de models com `spaCy`.

## Inicialització de l'entorn

En primer lloc haurem d'instal·lar la llibreria `flair`.

In [1]:
!pip install flair

[0mCollecting flair
  Downloading flair-0.15.1-py3-none-any.whl.metadata (12 kB)
Collecting boto3>=1.20.27 (from flair)
  Downloading boto3-1.36.22-py3-none-any.whl.metadata (6.7 kB)
Collecting conllu<5.0.0,>=4.0 (from flair)
  Downloading conllu-4.5.3-py2.py3-none-any.whl.metadata (19 kB)
Collecting deprecated>=1.2.13 (from flair)
  Downloading Deprecated-1.2.18-py2.py3-none-any.whl.metadata (5.7 kB)
Collecting ftfy>=6.1.0 (from flair)
  Downloading ftfy-6.3.1-py3-none-any.whl.metadata (7.3 kB)
Collecting gdown>=4.4.0 (from flair)
  Downloading gdown-5.2.0-py3-none-any.whl.metadata (5.8 kB)
Collecting langdetect>=1.0.9 (from flair)
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting lxml>=4.8.0 (from flair)
  Downloading lxml-5.3.1-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (3.7 kB)
Collecting mpl

## Tokenització

Per tokenitzar amb spacy simplement creem una `Sentence` amb el text que volem processar. Aquesta `sentence` la farem servir per gran part de les operacions.

In [36]:
from flair.data import Sentence

sentence = Sentence('Els dilluns a la tarda són molt llargs.')

sentence

Sentence[9]: "Els dilluns a la tarda són molt llargs."

La sortida ens indica que hi ha 9 tokens a la frase.

Per accedir als tokens podem recorrer l'objecte `Sentence` com si fos una llista.

In [37]:
for token in sentence:
    print(token)

Token[0]: "Els"
Token[1]: "dilluns"
Token[2]: "a"
Token[3]: "la"
Token[4]: "tarda"
Token[5]: "són"
Token[6]: "molt"
Token[7]: "llargs"
Token[8]: "."


Si solament volem els tokens podem utilitzar el métode `text` de cada token.

In [38]:
for token in sentence:
    print(token.text)

Els
dilluns
a
la
tarda
són
molt
llargs
.


Una de les funcions més interessants d'Spacy és que ens permet obtenir la categoria gramatical de cada paraula. Per fer-ho, crearem un classificador de text amb el model pre-entrenat `pos-multi`.

In [34]:
from flair.nn import Classifier

tagger = Classifier.load('pos-multi')
tagger.predict(sentence)

# Mostrem els tags de cada paraula
for token in sentence:
    print(token)

2025-02-17 23:45:54,740 SequenceTagger predicts: Dictionary with 17 tags: NOUN, PUNCT, ADP, VERB, ADJ, DET, PROPN, ADV, PRON, AUX, CCONJ, NUM, SCONJ, PART, X, SYM, INTJ
Token[0]: "Els" → DET (0.9979)
Token[1]: "dilluns" → NOUN (0.9716)
Token[2]: "a" → ADP (0.9995)
Token[3]: "la" → DET (0.9998)
Token[4]: "tarda" → NOUN (0.9897)
Token[5]: "són" → AUX (0.4685)
Token[6]: "molt" → ADV (0.6738)
Token[7]: "llargs" → ADJ (0.5771)
Token[8]: "." → PUNCT (1.0000)


Les categories gramaticals es poden consultar a: https://huggingface.co/flair/upos-multi/.

### Tokenització de frases

En alguns casos, també és necessari tokenitzar el text en frases. Per fer-ho, crearem un `Splitter` de tipus `SegtokSentenceSplitter` i utilitzarem el mètode `split` per obtenir les frases.

Flair pot utilitzar molts altres splitters; utilitzem `SegtokSentenceSplitter` per ser simple i eficient.

In [35]:
from flair.splitter import SegtokSentenceSplitter

# Tokenitzem el text en frases

splitter = SegtokSentenceSplitter()

text = "El Barça és el millor equip del món. De vegades."
sentences = splitter.split(text)

for sentence in sentences:
    print(sentence)

Sentence[9]: "El Barça és el millor equip del món."
Sentence[3]: "De vegades."


## Stopwords i signes de puntuació

Les *stopwords* són paraules que no aporten informació rellevant per a la tasca que estem realitzant. Per exemple, en la tasca de classificació de text, les *stopwords* no aporten informació per a la classificació.

Per tant, en molts casos, és recomanable eliminar les *stopwords* del text abans d'aplicar qualsevol tècnica de processament de llenguatge natural.

 Per eliminar les *stopwords* del text, utilitzarem la llista de *stopwords* que té NLTK.

In [None]:
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
stop = stopwords.words('catalan')

[nltk_data] Downloading package stopwords to /home/carles/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [44]:

text = "El Barça és el millor equip del món. De vegades."
sentence = Sentence(text)
tagger.predict(sentence)

tokens = [token.text for token in sentence if token.text not in stop]
tokens

sentence

Sentence[12]: "El Barça és el millor equip del món. De vegades." → ["El"/DET, "Barça"/PROPN, "és"/AUX, "el"/DET, "millor"/NOUN, "equip"/NOUN, "del"/X, "món"/NOUN, "."/PUNCT, "De"/ADP, "vegades"/PROPN, "."/PUNCT]

També podem veure com, junt als stopwords, també podem llevar els signes de puntuació.

In [43]:
tokens = [token.text for token in sentence if token.text not in stop and not token.tag == 'PUNCT']
tokens

['El', 'Barça', 'millor', 'equip', 'món', 'De', 'vegades']

## Lematització i stemming

La lematització és el procés de convertir una paraula a la seva forma base. Per exemple, la paraula *està* es converteix en *estar*. L'stemming, en canvi, consisteix en eliminar els afixos de les paraules. Per exemple, la paraula *està* es converteix en *est*.

Ambdues tècniques ens permeten reduir el vocabulari del text i, per tant, reduir la dimensionalitat dels vectors de paraules; cosa que ens pot ajudar a millorar el rendiment dels nostres models.

Spacy no inclou un mètode per fer stemming, però si que inclou un mètode per fer lematització. Per fer-ho, accedim a l'atribut `lemma_` de cada paraula.

La raó per la qual Spacy no inclou un mètode per fer stemming és perquè la lematització és més precisa que el stemming i spacy està dissenyat per a tasques de producció on la precisió és més important que la velocitat.

In [46]:
# Lematitzem i stemitzem un text

text = "Series un bon cantant, si no fora per la veu."
doc = nlp(text)

# Lematitzem
lemmas = [token.lemma_ for token in doc]

lemmas

['seria',
 'un',
 'bo',
 'cantant',
 ',',
 'si',
 'no',
 'fora',
 'per',
 'el',
 'veu',
 '.']

## Representació del text

Un cop hem pre-processat el text, hem de representar-lo en un format que pugui ser entès per l'ordinador. 

Com ja hem comentat Spacy està centrat en tasques de producció i, per tant inclou els métodes més comuns actualment; especialment els basats en vectors de característiques.

### Embeddings

Spacy inclou un mètode per obtenir els embeddings del document i de la paraula. Aquests embeddings són vectors de característiques que representen el document o la paraula.

Els embeddings són útils per a tasques de classificació de text, agrupació de text, etc.

Com estem utilitzant el model petit (`ca_core_news_sm`), els embeddings son menys precisos i solament a nivell de document i no a nivell de paraula. Així i tot, ens poden ser útils per a tasques senzilles.

Si necessitem embeddings més precisos, podem utilitzar els models mitjà (`ca_core_news_md`) o gran (`ca_core_news_lg`).

In [47]:
doc.vector

array([ 1.7305475 , -0.12840228, -0.5396843 , -0.83717424, -1.3100742 ,
        0.17650956, -0.1620681 ,  0.48682687,  0.06764957,  0.18184917,
        0.8215378 , -0.40531054,  0.25735107,  0.93934184, -0.06517167,
        0.04939266, -0.4045429 ,  0.24763483,  1.0905582 ,  0.6970573 ,
       -0.31526443,  1.4649282 , -0.23816238, -0.4865251 , -0.09747415,
       -0.28767216,  0.5814107 , -0.7125825 ,  0.49832496,  0.8188111 ,
       -0.15080123,  0.1994148 ,  0.2723398 ,  0.8346703 , -0.7402689 ,
       -1.4915727 , -0.9905634 ,  0.42298186,  0.6075589 ,  0.29053253,
       -0.00331459, -1.3474356 , -0.58441734, -0.7741163 ,  0.05676066,
       -0.17020352,  0.40141544,  0.6308312 , -0.40938064,  0.6958816 ,
        0.3174107 ,  1.168798  , -0.04763202,  0.19581653,  0.08472364,
       -0.01598583,  0.00706673, -0.8146202 , -0.65326816, -0.6593003 ,
       -1.0186236 , -1.1242762 ,  0.1646251 ,  0.07394195, -0.7488492 ,
       -0.5852267 , -0.8377841 , -0.47709122,  0.6825135 ,  0.55

## Similaritat de text

Aprofitant els embeddings, Spacy ens permet calcular la similitud entre dos documents o dos paraules. Aquesta similitud es calcula utilitzant la similitud del cosinus entre els vectors de característiques.

Podem aprofiar aquesta funcionalitat per a buscar sinònims, per a recomanadors, etc.

Ens caldrà carregar el model mitjà (`ca_core_news_md`) o gran (`ca_core_news_lg`) per a poder calcular el vector de característiques de les paraules i per buscar similituds entre vectors.

### Exemple de sinònims

In [54]:
# Carreguem un model de paraules

spacy.cli.download("ca_core_news_md")
nlp = spacy.load("ca_core_news_md")

[0m

Collecting ca-core-news-md==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/ca_core_news_md-3.8.0/ca_core_news_md-3.8.0-py3-none-any.whl (49.2 MB)


[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ca_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [62]:
def most_similar(word, topn=5):
    ms = nlp.vocab.vectors.most_similar(
        nlp(word).vector.reshape(1, nlp(word).vector.shape[0]), n=topn
    )
    words = [nlp.vocab.strings[w] for w in ms[0][0]]
    distances = ms[2]
    return words, distances


doc = nlp("Els dilluns a la tarda són molt llargs.")

for token in doc:
    print(token.text, most_similar(token.text, topn=3))

Els (['2.-Els', 'Fels', 'Algúns'], array([[1.    , 0.7737, 0.7637]], dtype=float32))
dilluns (['dillun', '-dimarts', 'dimartts'], array([[1.    , 0.9662, 0.9593]], dtype=float32))
a (['a', 'al', 'podrar'], array([[1.    , 0.343 , 0.3332]], dtype=float32))
la (['deLa', 'PLa', 'ceva'], array([[1.    , 0.708 , 0.6945]], dtype=float32))
tarda (['latarda', 'vespri', 'matí-migdia'], array([[1.    , 0.8403, 0.8243]], dtype=float32))
són (['són.', 'Sóu', 'Arien'], array([[1.    , 0.8283, 0.7558]], dtype=float32))
molt (['skolt', '-bastant', 'cagaire'], array([[1.    , 0.879 , 0.8005]], dtype=float32))
llargs (['llargs-', 'hurts', 'camesllargues'], array([[1.    , 0.7822, 0.7382]], dtype=float32))
. (['.', '</s>', 'i'], array([[1.    , 0.9258, 0.5367]], dtype=float32))


# Conclusions

En aquesta pràctica hem vist com pre-processar text i com representar-lo en un format que pugui ser entès per l'ordinador. A més, hem vist com utilitzar algunes de les funcionalitats de TextBlob i llibreries relacionades.

TextBlob, però, està basat en NLTK, una llibreria que es fonamenta en regles i, com hem vist a teoria, aquestes llibreries no sempre funcionen bé. Per tant, en la següent pràctica veurem com utilitzar eines basades en xarxes neuronals per pre-processar text i classificar-lo.