# Llibreria `spaCy`
En aquesta pràctica usarem la llibreria de NLP spaCy. En Anaconda es pot instal·lar amb:\
```conda install -c conda-forge spacy```

In [1]:
#importamos librerías necesarias
import spacy
import pandas as pd

# Introducció a spaCy

En aquest apartat veurem els conceptes més importants de spaCy i com començar a usar-lo.

### L'objecte nlp

```python
# Importa la clase de lenguaje "Spanish"
from spacy.lang.es import Spanish

# Crea el objeto nlp
nlp = Spanish()
```

- conté el pipeline de processament
- inclou les regles específiques del seu llenguatge per a tokenizar, etc.

En el centre de spaCy està l'objecte que conté el <abbr title="Un pipeline és una sèrie d'accions que s'executen en seqüència. Cada pas depén de l'anterior usant el seu resultat.">pipeline</abbr> de processament. Normalment anomenem "nlp" a aquesta variable.

Per exemple, per a crear un objecte `nlp` d'espanyol pots importar la classe de llenguatge `Spanish` de `spacy.lang.es` i crear un <abbr title="És un exemplar d'una classe, a vegades referit incorrectament com a instància.">instance</abbr>. Pots usar l'objecte nlp com una funció per a analitzar el text.

Conté tots els components diferents d'un pipeline.

També inclou les regles específiques del seu llenguatge usades per a convertir el text en tokens amb paraules i puntuació. spaCy ofereix suport per a diversos llenguatges que estan disponibles en `spacy.lang`.

### L'objecte Doc

```python
# Creado procesando un string de texto con el objeto nlp
doc = nlp("¡Hola Mundo!")

# Itera sobre los tokens en un Doc
for token in doc:
    print(token.text)
```

```out
¡
Hola
Mundo
!
```

Quan processes un <abbr title="El tipus de dada de Python per a text.">string</abbr> de text amb l'objecte `nlp`, spaCy crea un objecte `Doc` - de "document".
El Doc et permet accedir a la informació sobre el text en una forma estructurada i sense perdre informació.

El Doc es comporta com una seqüència normal de Python i et permet iterar sobre els seus tokens o obtindre un token amb el seu índex. Més endavant parlarem més d'això.

### L'objecte Token

<img src="P3_materiales/doc.png" alt="Illustration of a Doc object containing four tokens" width="50%" />

```python
doc = nlp("¡Hola Mundo!")

# Usa el índice del Doc para obtener un solo Token
token = doc[2]

# Obtén el texto del token a través del atributo .text
print(token.text)
```

```out
Mundo
```

Els objectes `Token` representen als tokens en un document. Per exemple, una paraula o un signe de puntuació.

Per a obtindre el token en una posició específica pots usar l'índex del doc.

Els objectes `Token` també proveeixen diversos atributs que et permeten accedir a més informació sobre els tokens. Per exemple, l'atribut `.text` retorna el text del token.

---

### L'objecte Span

<img src="P3_materiales/doc_span.png" width="50%" alt="Illustration of a Doc object containing four tokens and three of them wrapped in a Span" />

```python
doc = nlp("¡Hola Mundo!")

# Un slice de un Doc en un objeto Span
span = doc[2:4]

# Obtén el texto del span a través del atributo .text
print(span.text)
```

```out
Mundo!
```

Un objecte `Span` és un <abbr title="Un slice és un subconjunt d'elements dins d'una seqüència de dades com una llista o un objecte Doc.">slice</abbr> d'un document compost per un o més tokens. És només un <abbr title="En espanyol: representació o vista.">view</abbr> d'un `Doc` i no conté les dades en si.

Per a crear un span pots usar la notació de slice de Python. Per exemple, `2:4` crea un slice que comença en el token en la posició 2 fins a - però no incloent! - el token en la posició 4.

### Atributs lèxics

```python
doc = nlp("Eso cuesta €5.")
```

```python
print("Index:   ", [token.i for token in doc])
print("Text:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])
print("is_punct:", [token.is_punct for token in doc])
print("like_num:", [token.like_num for token in doc])
```

```out
Index:    [0, 1, 2, 3, 4]
Text:     ['Eso', 'cuesta', '€', '5', '.']

is_alpha: [True, True, False, False, False]
is_punct: [False, False, False, False, True]
like_num: [False, False, False, True, False]
```

Ací pots veure alguns dels atributs disponibles dels tokens:

`i` és l'índex del token dins del document pare.

`text` retorna el text del token.

`is_alpha`, `is_punct` i `like_num` retornen valors booleans que indiquen si un token està compost per caràcters alfabètics, si és puntuació, o si _sembla_ un número. Per exemple, el token "10" - un, zero - o la paraula "diez" - D, I, E, Z.

Aquests atributs també es diuen atributs lèxics: es refereixen a una entrada en el vocabulari i no depenen del context del token.

## Documents, spans i tokens

Quan anomenes `nlp` sobre un string, spaCy primer genera tokens del text i
crea un objecte de document. En aquest exercici aprendràs més sobre el `Doc`,
així com dels seus
<abbr title="En espanyol: representacions o vistes.">views</abbr> `Token` i
`Span`.

### Pas 1

- Importa la classe de llenguatge `Spanish` i crea l'objecte `nlp`.
- Processa el text i genera un
 <abbr title="En espanyol: exemplar, a vegades referit incorrectament com a instància.">instance</abbr>
 d'un objecte `Doc` en la variable `doc`.
- Selecciona el primer token de `Doc` i imprimeix en pantalla la seua `text`.

In [2]:
# Importa la clase de lenguaje "Spanish" y crea el objeto nlp
from spacy.lang.es import Spanish

nlp = Spanish()

# Procesa el texto
doc = nlp("Me gustan las panteras negras y los leones.")

# Selecciona el primer token
first_token = doc[0]

# Imprime en pantalla el texto del token
print(first_token.text)

Me


### Pas 2

- Importa la classe de llenguatge `Spanish` i crea l'objecte `nlp`.
- Processa el text i genera un
 <abbr title="En espanyol: exemplar, a vegades referit incorrectament com a instància.">instance</abbr>
 d'un objecte `Doc` en la variable `doc`.
- Crea un slice de `Doc` per als tokens "panteras negras" i "panteras negras y los leones".

In [3]:
# Importa la clase de lenguaje "Spanish" y crea el objeto nlp
from spacy.lang.es import Spanish

nlp = Spanish()

# Procesa el texto
doc = nlp("Me gustan las panteras negras y los leones.")

# Un slice del Doc para "panteras negras"
panteras_negras = doc[3:5]
print(panteras_negras.text)

# Un slice del Doc para "panteras negras y los leones" (sin el ".")
panteras_negras_y_leones = doc[3:8]
print(panteras_negras_y_leones.text)

panteras negras
panteras negras y los leones


## Atributs lèxics

En aquest exemple usaràs els objectes `Doc` i `Token` de spaCy i els atributs
lèxics per a trobar percentatges en el text. Estaràs buscant dos tokens
subseqüents: un número i un símbol de percentatge.

- Usa l'atribut `like_num` del token per a revisar si un token en el `doc`
 sembla un número.
- Presa el token que segueix al token actual en el document. L'índex del
 següent token en el `doc` és `token.i + 1`.
- Revisa si l'atribut `text` del següent token és un símbol de percentatge
 "%".



In [4]:
from spacy.lang.es import Spanish

nlp = Spanish()

# Procesa el texto
doc = nlp(
    "En 1990, más del 60 % de las personas en Asia del Este se encontraban "
    "en extrema pobreza. Ahora, menos del 4 % lo están."
)

# Itera sobre los tokens en el doc
for token in doc:
    # Revisa si el token parece un número
    if token.like_num:
        # Obtén el próximo token en el documento
        next_token = doc[token.i + 1]
        # Revisa si el texto del siguiente token es igual a '%'
        if next_token.text == "%":
            print("Porcentaje encontrado::", token.text)

Porcentaje encontrado:: 60
Porcentaje encontrado:: 4


# Models estadístics
En aquest apartat veiem els models estadístics de spaCy.

### Què són els models estadístics?

Algunes de les coses més interessants que pots analitzar són específiques al context: per exemple, si una paraula és un verb o si un span de text és el nom d'una persona.

- Li permeten a spaCy predir atributs lingüístics _en context_
 - Part-of-speech tags
 - Dependències sintàctiques
 - Entitats nomenades
- Entrenats amb textos d'exemple anotats
- Poden ser actualitzats amb més exemples per a afinar les prediccions

### Paquets de models

spaCy proveeix diversos paquets de models pre-entrenats que pots descarregar usant el comando `spacy download`. Per exemple, el paquet "és_core_news_sm" és un model xicotet d'espanyol que proveeix suport per a totes les capacitats centrals i està entrenat usant textos de notícies.

El mètode `spacy.load` càrrega el paquet de model pel seu nom i retorna un objecte `nlp`.

El paquet proveeix els <abbr title="En anglés: en un context de Machine Learning, coneguts com binary weights.">paràmetres binaris</abbr> que li permeten a spaCy fer prediccions.

També inclou el vocabulari i la metadata perquè spaCy sàpia quin classe de llenguatge usar i com configurar el pipeline de processament.

### Predient part-of-speech tags

En aquest exemple estem usant spaCy per a predir part-of-speech tags, els tipus de paraules en el context.

```python
import spacy

# Carga el modelo pequeño de español
nlp = spacy.load("es_core_news_sm")

# Procesa un texto
doc = nlp("Ella comió pizza")

# Itera sobre los tokens
for token in doc:
    # Imprime en pantalla el texto y el part-of-speech tag predicho
    print(token.text, token.pos_)
```

```out
Ella PRON
comió VERB
pizza NOUN
```

Primer, carreguem el model xicotet d'espanyol i rebem un objecte `nlp`.

Després, processem el text "Ella va menjar pizza".

Per a cada token en el Doc podem imprimir en pantalla el text i el part-of-speech tag predit usant l'atribut `.post_`.

En spaCy, els atributs que retornen un string normalment acaben amb un guió baix (`_`). mentre que atributs sense un guió baix retornen un valor ANEU de tipus <abbr title="En anglés: integer, un nombre enter sense part decimal.">sencer</abbr>.

Ací el model va predir correctament "va menjar" com el verb i "pizza" com el substantiu.

### Predient dependències sintàctiques

```python
for token in doc:
    print(token.text, token.pos_, token.dep_, token.head.text)
```

```out
Ella PRON nsubj comió
comió VERB ROOT comió
pizza NOUN obj comió
```

A més dels part-of-speech tags, també podem predir les relacions entre les paraules. Per exemple, si una paraula és el subjecte o l'objecte d'una oració.

L'atribut `.dep_` retorna el dependency label predit.

L'atribut `.head` retorna el token <abbr title="En anglés: head.">cap</abbr> sintàctic. Una altra manera de pensar-ho és com el token pare al qual aquesta paraula està lligada.

### Esquema de dependency label

<img src="P3_materiales/dep_example_es.png" alt="Visualization of the dependency graph for 'Ella comió la pizza'" />

| Label     | Descripción             | Ejemplo |
| --------- | ----------------------- | ------- |
| nsubj | sujeto nominal          | Ella    |
| obj   | objeto                  | pizza   |

spaCy usa un esquema de <abbr title="En espanyol es coneixen com a etiquetes, però per a mantindre la diferenciació entre label i tag, les usem en anglés.">labels</abbr> estàndard per a descriure dependències sintàctiques. Ací veuràs un exemple d'algunes labels comunes:

El pronom "Ella" és un subjecte nominal unit al verb - en aquest cas, a "va menjar".

El substantiu "pizza" és un objecte unit al verb "va menjar". Està sent menjat pel subjecte "ella".

### Predient entitats nomenades

<img src="P3_materiales/ner_example_es.png" alt="Visualization of the named entities in 'Apple es la marca que más satisfacción genera en EE.UU.; pero el iPhone, fue superado por el Galaxy Note 9'" width="80%" />

```python
# Procesa un texto
doc = nlp(
    "Apple es la marca que más satisfacción genera en EE.UU., "
    "pero el iPhone, fue superado por el Galaxy Note 9"
)

# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto y el label de la entidad
    print(ent.text, ent.label_)
```

```out
Apple ORG
EE.UU LOC
iPhone MISC
Galaxy Note 9 MISC
```

Les entitats nomenades són "objectes de la vida real" que tenen un nom assignat. Per exemple, una persona, una organització o un país.

La propietat `doc.ents` et permet accedir a les entitats nomenades predites pel model.

Retorna un iterador d'objectes `Span`, així que podem imprimir en pantalla el text i el label de l'entitat usant l'atribut `.label_`.

En aquest cas, el model va predir correctament "Apple" com una organització, "els EUA" com un lloc, "iPhone" i "Galaxy Note 9" amb la categoria miscelanea.

### Truc: el mètode spacy.explain

Per a obtindre definicions dels tags i labels més comuns pots usar la funció assistent `spacy.explain`.

```python
spacy.explain("LOC")
```

```out
'Name of politically or geographically defined location'
```

```python
spacy.explain("NNP")
```

```out
'noun, proper singular'
```

```python
spacy.explain("MISC")
```

```out
'Miscellaneous entities, e.g. events, nationalities, products or works of art'
```

## Models de spaCy

Per a usar un model de `spaCy` és necessari instal·lar-lo primer. Per a
obtindre més detalls sobre els models estadístics de spaCy i com instal·lar-los
en la teua màquina revisa [la documentació](https://spacy.io/usage/models).

- Usa `spacy.load` per a carregar el model xicotet d'espanyol `"es_core_news_sm"`.
- Processa el text i imprimeix en pantalla el text del document.

In [5]:
import spacy

# Carga el modelo "es_core_news_sm"
nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

# Imprime en pantalla el texto del documento
print(doc.text)

De acuerdo con la revista Fortune, Apple fue la empresa más admirada en el mundo entre 2008 y 2012.


## Predient anotacions lingüístiques
Ara provarem un dels paquets de models pre-entrenats de spaCy i veure
les seues prediccions en acció. Per a
esbrinar el que cada tag o label significa pots cridar a `spacy.explain` en
el
<abbr title="En espanyol: bucle, un bloc de codi que es repeteix.">loop</abbr>.
Per exemple, `spacy.explain("PROPN")` o `spacy.explain("GPE")`.

### Part 1

- Processa el text de l'objecte `nlp` i crea un `doc`.
- Per a cada token imprimeix en pantalla el seu text, el seu `.post_` (part-of-speech tag)
 i el seu `.dep_` (dependency label).

In [6]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

for token in doc:
    # Obtén el texto del token, el part-of-speech tag y el dependency label
    token_text = token.text
    token_pos = token.i
    token_dep = token.dep_
    # Esto es solo por formato
    print("{:<12}{:<10}{:<10}".format(token_text, token_pos, token_dep))

De          0         case      
acuerdo     1         fixed     
con         2         fixed     
la          3         det       
revista     4         obl       
Fortune     5         appos     
,           6         punct     
Apple       7         nsubj     
fue         8         cop       
la          9         det       
empresa     10        ROOT      
más         11        advmod    
admirada    12        amod      
en          13        case      
el          14        det       
mundo       15        obl       
entre       16        case      
2008        17        obl       
y           18        cc        
2012        19        conj      
.           20        punct     


### Part 2

- Processa el text i crea un objecte `doc`.
- Itera sobre els `doc.ents` i imprimeix en pantalla el text de l'entitat i l'atribut
 `label_`.

<codeblock id="01_08_02">

Per a crear un `doc` diu l'objecte `nlp` en un string de text. Recorda que
necessites usar els noms dels atributs dels tokens amb un guió baix
(`_`) per a obtindre el valor del string.

In [7]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su label
    print(ent.text, ent.label_)

Fortune ORG
Apple ORG


## Predient entitats nomenades en context

Els models són estadístics i no són _sempre_ correctes. La correcció de les seues
prediccions depén de les dades d'entrenament i del text que estàs
processant. Vegem un exemple.

- Processa el text amb l'objecte `doc`.
- Itera sobre les entitats i imprimeix en pantalla el text de l'entitat i el
 label.
- Sembla ser que el model no va predir "adidas zx". Crea un span per a aqueixos tokens
 manualment.

In [8]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "Los Olímpicos de Tokio 2020 son la inspiración para la nueva "
    "colección de zapatillas adidas zx."
)

# Procesa el texto
doc = nlp(text)

# Itera sobre las entidades
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su label
    print(ent.text, ent.label_)

# Obtén el span para "adidas zx"
adidas_zx = doc[14:16]

# Imprime en pantalla el texto del span
print("Entidad faltante:", adidas_zx.text)

Olímpicos de Tokio 2020 MISC
zx ORG
Entidad faltante: adidas zx


# Trobant patrons basats en regles

En aquest apartat veurem el matcher de spaCy, que et permet escriure
regles per a trobar paraules i frases en el text.

### Per què no simplement expressions regulars?

- Matching en objectes `Doc`, no solament en strings
- Matching en tokens i atributs de tokens
- Usa les prediccions del model
- Exemple: "aranya" (verb) vs. "aranya" (substantiu)

### Match patterns

Els match patterns són llestes de diccionaris. Cada diccionari descriu
un token. Els keys són els noms dels atributs del token, mapatges als seus
valors esperats.

En aquest exemple, estem buscant dos tokens amb el text "iPhone" i "X".

```python
[{"TEXT": "iPhone"}, {"TEXT": "X"}]
```

També podem usar altres atributs dels tokens per a trobar el que
busquem. Ací estem buscant dos tokens que en minúscules són iguals a
"iphone" i "x".

```python
[{"LOWER": "iphone"}, {"LOWER": "x"}]
```

També podem escriure patrons que usen els atributs predits pel
model. Ací estem buscant un token amb el lemma "comprar", més un substantiu. El
lemma és la forma bàsica, així que aquest patró trobaria frases com "comprando
leche" o "compré flores".

```python
[{"LEMMA": "comprar"}, {"POS": "NOUN"}]
```

### Usando el Matcher

```python
import spacy

# Importa el Matcher
from spacy.matcher import Matcher

# Carga el modelo y crea un objeto nlp
nlp = spacy.load("es_core_news_sm")

# Inicializa el matcher con el vocabulario compartido
matcher = Matcher(nlp.vocab)

# Añade el patrón al matcher
pattern = [{"TEXT": "adidas"}, {"TEXT": "zx"}]
matcher.add("ADIDAS_PATTERN", [pattern])

# Procesa un texto
doc = nlp("Nuevos diseños de zapatillas en la colección adidas zx")

# Llama al matcher sobre el doc
matches = matcher(doc)

# Llama al matcher sobre el doc
doc = nlp("Nuevos diseños de zapatillas en la colección adidas zx")
matches = matcher(doc)

# Itera sobre los resultados
for match_id, start, end in matches:
    # Obtén el span resultante
    matched_span = doc[start:end]
    print(matched_span.text)
```

```out
adidas zx
```

- `match_id`: valor hash del nombre del patrón
- `start`: índice de inicio del span resultante
- `end`: índice del final del span resultante

Notes: Quan anomenes el matcher sobre un doc, aquest retorna una llista de <abbr title="En espanyol: tuplas, un tuple és un tipus de dada que conté una seqüència fixa d'ítems, com una llista, però que no es pot modificar.">tuples</abbr>.

Cada tuple consisteix de tres valors: el ID del resultat, l'índex d'inici i
l'índex del final del span resultant.

Això significa que podem iterar sobre els resultats i crear un objecte `Span`:
un slice del doc que comença en l'índex d'inici i acaba en l'índex del
final.

### Trobant per atributs lèxics

Ací tenim un exemple d'un patró més complex usant atributs
lèxics.

```python
pattern = [
    {"IS_DIGIT": True},
    {"LOWER": "copa"},
    {"LOWER": "mundial"},
    {"LOWER": "fifa"},
    {"IS_PUNCT": True}
]
```

```python
doc = nlp("2014 Copa Mundial FIFA: Alemania ganó!")
```

```out
2014 Copa Mundial FIFA:
```

### Trobant per altres atributs del token

```python
pattern = [
    {"LEMMA": "comer", "POS": "VERB"},
    {"POS": "NOUN"}
]
```

```python
doc = nlp("Camila prefería comer tacos. Pero ahora está comiendo pasta.")
```

```out
comer tacos
comiendo pasta
```

### Usant operadors i quantificadors

```python
pattern = [
    {"LEMMA": "comprar"},
    {"POS": "DET", "OP": "?"},  # opcional: encuentra 0 o 1 veces
    {"POS": "NOUN"}
]
```

```python
doc = nlp("Me compré un smartphone. Ahora le estoy comprando aplicaciones.")
```

```out
compré un smartphone
comprando aplicaciones
```

Operadors i quantificadors et permeten definir amb quina freqüència un
token ha de ser trobat. Poden ser afegits amb el key "OP".

| Exemple | Descripció |
| ------------- | ------------------------------- |
| `{"OP": "!"}` | Negació: troba 0 vegades |
| `{"OP": "?"}` | Opcional: troba 0 o 1 vegades |
| `{"OP": "+"}` | Troba 1 o més vegades |
| `{"OP": "*"}` | Troba 0 o més vegades |

## Usant el Matcher
Usarem el `Matcher` basat en regles de spaCy. Prenent l'exemple de l'exercici
anterior escriu un patró que trobe la frase "adidas zx" en
el text.

- Importa el `Matcher` des de `spacy.matcher`.
- Inicialitza-ho amb el `vocab` compartit de l'objecte `nlp`.
- Crea un patró que trobe els valors `"TEXT"` de dos tokens: `"adidas"` i
 `"zx"`.
- Usa el mètode `matcher.add` per a afegir el patró al matcher.
- Crida al matcher en el `doc` i guarda el resultat en la variable `matches`.
- Itera sobre els resultats i obtingues el span resultant des de l'índex `start`
 fins a l'índex `end`.

In [9]:
import spacy

# Importa el Matcher
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
doc = nlp(
    "Los Olímpicos de Tokio 2020 son la inspiración para la nueva "
    "colección de zapatillas adidas zx."
)

# Inicializa el matcher con el vocabulario compartido
matcher = Matcher(nlp.vocab)

# Crea un patrón que encuentre dos tokens: "adidas" y "zx"
pattern = [{"TEXT": "adidas"}, {"TEXT": "zx"}]

# Añade el patrón al matcher
matcher.add("ADIDAS_ZX_PATTERN", [pattern])

# Usa al matcher sobre el doc
matches = matcher(doc)
print("Resultados:", [doc[start:end].text for match_id, start, end in matches])

Resultados: ['adidas zx']


## Escrivint patrons

En aquest exercici practicaràs escriure patrons més complexos usant diferents
atributs dels tokens i operadors.

### Part 1

- Escriu __un__ patró que únicament trobe esments de les versions
 _senceres_ de iOS: "iOS 7", "iOS 11" i "iOS 10".


In [10]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "Después de hacer la actualización de iOS no notarás un rediseño "
    "radical del sistema: no se compara con los cambios estéticos que "
    "tuvimos con el iOS 7. La mayoría de las funcionalidades del iOS 11 "
    "siguen iguales en el iOS 10."
)

# Escribe un patrón para las versiones de iOS enteras
# ("iOS 7", "iOS 11", "iOS 10")
pattern = [{"TEXT": "iOS"}, {"IS_DIGIT": True}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("IOS_VERSION_PATTERN", [pattern])
matches = matcher(doc)
print("Total matches found:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Total matches found: 3
Match found: iOS 7
Match found: iOS 11
Match found: iOS 10


### Part 2

- Escriu un patró que únicament trobe maneres de "descargar" (tokens
 amb el lemma "descargar") seguit per un token que tinga el part-of-speech tag
 `"PROPN"` (<abbr title="En castellà: nom propi.">proper noun</abbr>).

In [11]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "descargué Fortnite en mi computadora, pero no puedo abrir el juego. "
    "Ayuda? Cuando estaba descargando Minecraft, conseguí la versión de Windows "
    "donde tiene una carpeta '.zip' y usé el programa por defecto para "
    "descomprimirlo…así que también tengo que descargar Winzip?"
)

# Escribe un patrón que encuentre una forma de "descargar" más un nombre propio
pattern = [{"LEMMA": "descargar"}, {"POS": "PROPN"}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("DOWNLOAD_THINGS_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

Total de resultados encontrados: 3
Resultado encontrado: descargué Fortnite
Resultado encontrado: descargando Minecraft
Resultado encontrado: descargar Winzip


### Part 3

- Escriu __un__ patró que trobe un substantiu `"NOUN"` seguit d'un o
 dos adjectius `"ADJ"`(un adjectiu i un adjectiu opcional).

In [12]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "El gigante tecnológico IBM está ofreciendo lecciones virtuales "
    "sobre tecnologías avanzadas gratuitas en español."
)

# Escribe un patrón para un sustantivo más uno o dos adjetivos
pattern = [{"POS": "NOUN"}, {"POS": "ADJ"}, {"POS": "ADJ", "OP": "?"}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("NOUN_ADJ_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

Total de resultados encontrados: 4
Resultado encontrado: gigante tecnológico
Resultado encontrado: lecciones virtuales
Resultado encontrado: tecnologías avanzadas
Resultado encontrado: tecnologías avanzadas gratuitas


# Estructures de dades

En aquest apartat veurem el vocabulari compartit i la manera en la qual spaCy
maneja els strings.

### Vocabulari compartit i string store (1)

spaCy guarda totes les dades compartides a través de múltiples documents en un vocabulari, el `Vocab`.

Aquest inclou paraules, però també els esquemes de labels per a tags i
entitats.

Per a usar menys memòria, tots els strings són codificats a hash IDs. Si una
paraula ocorre múltiples vegades, no hem de guardar-la cada vegada.

En canvi, spaCy usa una funció hash per a generar un ANEU i guarda el string una
vegada en el `StringStore`. El string store està disponible com `nlp.vocab.strings`

És una <abbr title="En espanyol: taula de consulta, com un diccionari.">lookup table</abbr> que
funciona en totes dues direccions. Pots buscar un string i obtindre el seu hash, així com
 pots buscar un hash per a obtindre el seu valor string. Internament spaCy només
es comunica en hash IDs.

```python
cafe_hash = nlp.vocab.strings["café"]
cafe_string = nlp.vocab.strings[cafe_hash]
```

Els hash IDs no es poden revertir. Si una paraula no està en el vocabulari no
hi ha manera d'obtindre la seua string. És per això que sempre hem de passar el
vocabulari compartit.

```python
# Arroja un error si no hemos visto el string antes
string = nlp.vocab.strings[32833993555699147]
```

- Per a obtindre el hash d'un string podem buscar-ho en
`nlp.vocab.strings`.

- Per a obtindre el string que representa a un hash podem buscar amb el hash.

```python
doc = nlp("Ines toma café")
print("hash value:", nlp.vocab.strings["café"])
print("string value:", nlp.vocab.strings[32833993555699147])
```

```out
hash value: 32833993555699147
string value: café
```

- El `doc` també exposa el seu vocabulari i strings

```python
doc = nlp("Ines toma café")
print("hash value:", doc.vocab.strings["café"])
```

```out
hash value: 32833993555699147
```

### Lexemes: entrades en el vocabulari

- Un objecte `Lexeme` és una entrada en el vocabulari

```python
doc = nlp("Ines toma café")
lexeme = nlp.vocab["café"]

# Imprime en pantalla los atributos léxicos
print(lexeme.text, lexeme.orth, lexeme.is_alpha)
```

```out
café 32833993555699147 True
```

- Conté la informació sobre una paraula, __independent del context__
 - Text de la paraula: `lexeme.text` i `lexeme.orth` (el hash)
 - Atributs lèxics com `lexeme.is_alpha`
 - __No__ part-of-speech tags, dependencies o entity labels dependents del
 context

### Vocabulari, hashes i lexemes

<img src="P3_materiales/vocab_stringstore_es.png" width="70%" alt="Illustration of the words 'Ines', 'toma' and 'café' across the Doc, Vocab and StringStore" />

El `Doc` conté paraules en context - en aquest cas, els tokens "Ines", "toma" i
"café" amb els seus part-of-speech tags i dependencies.

Cada token es refereix a un lexema, que coneix el hash ID de la paraula. Per a
obtindre la representació en string de la paraula, spaCy cerca el hash en el
string store.

## De strings a hashes

### Part 1

- Cerca el string "gat" en `nlp.vocab.strings` per a obtindre el hash.
- Cerca el hash per a obtindre el string.

In [13]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Yo tengo un gato")

# Busca el hash para la palabra "gato"
gato_hash = nlp.vocab.strings["gato"]
print(gato_hash)

# Busca el gato_hash para obtener el string
gato_string = nlp.vocab.strings[gato_hash]
print(gato_string)

9565357104409163886
gato


### Part 2

- Cerca el label del string "PER" en `nlp.vocab.strings` per a obtindre el hash.
- Cerca el hash per a obtindre el string.

In [14]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("David Bowie tiene el label PER")

# Busca el hash para el label del string "PER"
person_hash = nlp.vocab.strings["PER"]
print(person_hash)

# Busca el person_hash para obtener el string
person_string = nlp.vocab.strings[person_hash]
print(person_string)

4317129024397789502
PER


# Estructures de dades: Doc, Span i Token

Ara que ho saps tot sobre el vocabulari i el string store podem
estudiar les estructures de dades més importants: el `Doc` i els seus views el
`Token` i el `Span`.

### L'objecte Doc

El `Doc` és una de les estructures de dades centrals de spaCy. És creat
automàticament quan processes un text amb l'objecte `nlp`. Però també
pots crear un instance manualment.

Després de crear l'objecte `nlp` podem importar la classe `Doc` des de
`spacy.tokens`.

```python
# Importa la clase Doc
from spacy.tokens import Doc
```

Com a exemple, creguem un doc a partir de tres paraules. Els espais són una
llista de valors booleans que indiquen si una paraula està seguida per un
espai. Cada token inclou aqueixa informació - inclusivament l'últim!

```python
# Importa la clase Doc
from spacy.tokens import Doc

# Las palabras y espacios que usaremos para crear el doc
words = ["¡", "Hola", "Mundo", "!"]
spaces = [False, True, False, False]
```

La classe `Doc` rep tres arguments: el vocabulari compartit, les paraules i
els espais.

```python
# Crea un doc manualmente
doc = Doc(nlp.vocab, words=words, spaces=spaces)
```

### El objete Span

<img src="P3_materiales/span_indices.png" width="65%" alt="Illustration of a Span object within a Doc with token indices" />

Un `Span` és un slice d'un Doc que està format per un o més tokens. El
`Span` rep almenys tres arguments: el doc al qual es refereix, l'índex d'inici
i l'índex del final del span. Recorda que l'índex del final és
excloent!

Per a crear un `Span` manualment també podem importar la classe des de
`spacy.tokens`. Podem crear un instance amb el doc i els índexs d'inici i
final, així com un argument opcional de label.

Els `doc.ents` són escribibles així que podem afegir entitats manualment
sobreescrivint-los amb una llista de spans.

```python
# Importa las clases Doc y Span
from spacy.tokens import Doc, Span

# Las palabras y espacios que usaremos para crear el doc
words = ["¡", "Hola", "Mundo", "!"]
spaces = [False, True, False, False]

# Crea un doc manualmente
doc = Doc(nlp.vocab, words=words, spaces=spaces)

# Crea un span manualmente
span = Span(doc, 1, 3)

# Crea un span con un label
span_with_label = Span(doc, 1, 3, label="GREETING")

# Añade el span a los doc.ents
doc.ents = [span_with_label]
```
### Bones pràctiques

- `Doc` i `Span` són molt poderosos i contenen referències i relacions de
 paraules i frases
 - __Convertir el resultat a strings a més tardar possible__
 - __Usar els atributs dels tokens si estan disponibles__ – per exemple,
 `token.i` per a l'índex del token
- No oblides passar el `vocab` compartit

## Docs, spans i entitats des de zero

En aquest exercici crearàs els objectes `Doc` i `Span` manualment i actualitzaràs
les entitats nomenades - igual que ho fa spaCy darrere de cambres. Un objecte
`nlp` compartit ja va ser creat.

- Importa les classes `Doc` i `Span` des de `spacy.tokens`.
- Usa la classe `Doc` directament per a crear un `doc` a partir de paraules i
 espais.
- Crea un `Span` per a "David Bowie" des del `doc` i assigna-ho al label `"PER"`.
- Sobreescriu els `doc.ents` amb una llista d'una entitat, el `Span` "David
 Bowie".

In [15]:
from spacy.lang.es import Spanish

nlp = Spanish()

# Importa las clases Doc y Span
from spacy.tokens import Doc, Span

words = ["Me", "gusta", "David", "Bowie"]
spaces = [True, True, True, False]

# Crea un doc a partir de las palabras y los espacios
doc = Doc(nlp.vocab, words=words, spaces=spaces)
print(doc.text)

# Crea un span para "David Bowie" a partir del doc y asígnalo al label "PERSON"
span = Span(doc, 2, 4, label="PERSON")
print(span.text, span.label_)

# Añade el span a las entidades del doc
doc.ents = [span]

# Imprime en pantalla el texto y los labels de las entidades
print([(ent.text, ent.label_) for ent in doc.ents])

Me gusta David Bowie
David Bowie PERSON
[('David Bowie', 'PERSON')]


### Trobant frases eficientment, 'phrase matching'

A vegades és més eficient buscar els strings exactes en comptes d'escriure els
patrons descrivint els tokens individuals. Això és especialment cert per a
coses que tenen categories finites - com tots els països del món. Ací
tenim una llista de països, així que usem-los com a base per al nostre script
per a extraure informació. La llista de noms en strings està disponible en la
variable `COUNTRIES`.

- Importa el `PhraseMatcher` i inicialitza-ho amb el `vocab` compartit com la
 variable `matcher`.
- Afig els patrons de frases i crida al matcher sobre el `doc`.



In [16]:
import json
from spacy.lang.es import Spanish

with open("P3_materiales/countries.json", encoding="utf8") as f:
    COUNTRIES = json.loads(f.read())

nlp = Spanish()
doc = nlp(
    "La Unión Europea fue fundada por seis países de Europa occidental "
    "(Francia, Alemania, Italia, Bélgica, Países Bajos, y Luxemburgo) y "
    "se amplió en seis ocasiones."
)

# Importa el PhraseMatcher e inicialízalo
from spacy.matcher import PhraseMatcher

matcher = PhraseMatcher(nlp.vocab)

# Crea objetos Doc patrón y añádelos al matcher
# Esta es una versión más rápida de: [nlp(country) for country in COUNTRIES]
patterns = list(nlp.pipe(COUNTRIES))
matcher.add("COUNTRY", None, *patterns)

# Llama al matcher sobre el documento de prueba e imprime el 
# resultado en pantalla
matches = matcher(doc)
print([doc[start:end] for match_id, start, end in matches])

[Francia, Alemania, Italia, Bélgica, Países Bajos, Luxemburgo]


### Extraient països i relacions

En l'exercici anterior vas escriure un script usant el `PhraseMatcher` de spaCy
per a trobar noms de països en un text. Usem aqueix cercador de països en
un text més llarg. Analitza la sintaxi i actualitza les entitats del document
amb els països resultants.

- Itera sobre els resultats i crea un `Span` amb el label `"LOC"` (Noms d'ubicacions
 definides política o geogràficament).
- Sobreescriu les entitats en el `doc.ents` i afig el span resultant.
- Obtingues el token cap de l'arrel del span.
- Imprimeix en pantalla el text del token cap i el span.

In [17]:
import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span
import json

with open("P3_materiales/countries.json", encoding="utf8") as f:
    COUNTRIES = json.loads(f.read())
with open("P3_materiales/country_text.txt", encoding="utf8") as f:
    TEXT = f.read()

nlp = spacy.load("es_core_news_sm")
matcher = PhraseMatcher(nlp.vocab)
patterns = list(nlp.pipe(COUNTRIES))
matcher.add("COUNTRY", None, *patterns)

# Crea un doc y restablece las entidades existentes
doc = nlp(TEXT)
doc.ents = []

# Itera sobre los resultados
for match_id, start, end in matcher(doc):
    # Crea un Span con el label para "LOC"
    span = Span(doc, start, end, label="LOC")

    # Sobrescribe el doc.ents y añade el span
    doc.ents = list(doc.ents) + [span]

    # Obtén el token cabeza de la raíz del span
    span_root_head = span.root.head
    # Imprime en pantalla el texto del token cabeza de
    # la raíz del span y el texto del span
    print(span_root_head.text, "-->", span.text)

# Imprime en pantalla las entidades del documento
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == "LOC"])

Brasil --> Brasil
Brasil --> Alemania
Brasil --> India
Brasil --> Japón
segundos --> Japón
Japón --> Alemania
dos --> Brasil
Brasil --> India
incluir --> Brasil
Brasil --> Alemania
Brasil --> India
Brasil --> Japón
habitualmente --> Egipto
Egipto --> Nigeria
apoyado --> Estados Unidos
membresía --> Japón
apoyo --> India
apoyan --> Reino Unido
Reino --> Francia
acceso --> Alemania
Alemania --> Brasil
Alemania --> India
Alemania --> Japón
apoyado --> China
membresía --> Japón
puja --> India
apoyo --> Francia
Francia --> Rusia
Francia --> Reino Unido
Francia --> Estados Unidos
adquirido --> India
expresó --> China
expresado --> China
candidatura --> India
revoca --> India
[('Brasil', 'LOC'), ('Alemania', 'LOC'), ('India', 'LOC'), ('Japón', 'LOC'), ('Japón', 'LOC'), ('Alemania', 'LOC'), ('Brasil', 'LOC'), ('India', 'LOC'), ('Brasil', 'LOC'), ('Alemania', 'LOC'), ('India', 'LOC'), ('Japón', 'LOC'), ('Egipto', 'LOC'), ('Nigeria', 'LOC'), ('Estados Unidos', 'LOC'), ('Japón', 'LOC'), ('India',

# Pipelines de processament

Explicarem els pipelines de
processament: una sèrie de funcions que s'apliquen a un doc per a afegir
atributs com part-of-speech tags, dependency labels o entitats nomenades.

En aquest apartat veurem els components del pipeline proveït per spaCy
i què succeeix darrere de cambres quan anomenes a un objecte `nlp` sobre un string
de text.

Ja hem descrit això bastants vegades: li passes un string de text a l'objecte
`nlp` i reps un objecte `Doc`.

Però, què fa l'objecte `nlp` _realment_?

Primer, s'aplica el tokenizer per a convertir el string de text a un objecte
`Doc`. A continuació, una sèrie de components del pipeline s'apliquen al doc en
ordre. En aquest cas, el tagger, després el parser, després el
<abbr title="És el component que identifica les entitats nomenades d'un text.">entity
recognizer</abbr> . Finalment, el doc processament és retornat perquè pugues
treballar amb ell.

### Components inclosos en el pipeline

| Nom | Descripció | Crea |
| ----------- | :---------------------- | :-------------------------------------------------------- |
| __tagger__  | Part-of-speech tagger   | `Token.tag`, `Token.pos`                                  |
| __parser__  | Dependency parser       | `Token.dep`, `Token.head`, `Doc.sents`, `Doc.noun_chunks` |
| __ner__     | Named entity recognizer | `Doc.ents`, `Token.ent_iob`, `Token.ent_type`             |
| __textcat__ | Text classifier         | `Doc.cats`                                                |

spaCy ve amb els següents components inclosos en el seu pipeline.

El part-of-speech tagger afig els atributs `token.tag` i `token.post`.

El dependency parser afig els atributs `token.dep` i `token.head` i és
responsable de detectar frases i els
<abbr title="En espanyol: frases nominals.">base noun phrases</abbr>, també
coneguts com "noun chunks".

El named entity recognizer afig les entitats detectades a la propietat
`doc.ents`. També escriu els atributs del tipus d'entitat en els tokens, la qual cosa
 indica si un token és part d'una entitat o no.

Finalment, el <abbr title="En espanyol: classificador de text.">text classifier</abbr> escriu les labels de categoria que apliquen a
tot el text i les afig a la propietat `doc.cats`.

Pel fet que les categories de text són sempre molt específiques, el text
classifier no està inclòs en els models pre-entrenats per defecte. Però ho
pots usar per a entrenar el teu propi sistema.

Tots els models que pots carregar en spaCy inclouen diversos arxius i
un `meta.json`.

El meta defineix coses com el llenguatge i el pipeline. Això li deixa saber a spaCy
quins són els components als quals els ha de fer un instance.

Els components inclosos que fan prediccions també necessiten dades
binàries. Les dades s'inclouen en el paquet del model i es carreguen al
component quan càrregues el model.

### Atributs del pipeline

- `nlp.pipe_names`: una llista de noms de components del pipeline

```python
print(nlp.pipe_names)
```

```out
['tagger', 'parser', 'ner']
```

- `nlp.pipeline`: una lista de tuples de `(name, component)`

```python
print(nlp.pipeline)
```

```out
[('tagger', <spacy.pipeline.Tagger>),
 ('parser', <spacy.pipeline.DependencyParser>),
 ('ner', <spacy.pipeline.EntityRecognizer>)]
```

Per a veure els noms dels components del pipeline que estan en l'objecte
`nlp` actual pots usar l'atribut `nlp.pipe_names`.

Per a una llista de tuples amb els noms i funcions de cada component usa l'atribut
`nlp.pipeline`.

Les funcions dels components són aquelles funcions que s'apliquen al doc
per a processar-ho i afegir atributs - per exemple, part-of-speech tags o
entitats nomenades.

## Inspeccionant el pipeline"

Inspeccionem el pipeline del model xicotet d'espanyol!

- Càrrega el model `es_core_news_sm` i crea l'objecte `nlp`.
- Imprimeix en pantalla els noms dels components del pipeline usant
 `nlp.pipe_names`.
- Imprimeix en pantalla el pipeline sencer de tuples `(name, component)` usant
 `nlp.pipeline`.

In [18]:
import spacy

# Carga el modelo es_core_news_sm
nlp = spacy.load("es_core_news_sm")

# Imprime en pantalla los nombres de los componentes del pipeline 
print(nlp.pipe_names)

# Imprime en pantalla el pipeline entero de tuples (name, component)
print(nlp.pipeline)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x0000014C6B72B280>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x0000014C6B728BE0>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x0000014C68ADA7A0>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x0000014C69145880>), ('lemmatizer', <spacy.lang.es.lemmatizer.SpanishLemmatizer object at 0x0000014C68AB3D80>), ('ner', <spacy.pipeline.ner.EntityRecognizer object at 0x0000014C68ADA490>)]


# Components personalitzats del pipeline

Ara que saps com funciona el pipeline de spaCy explorem una altra característica molt poderosa: els components personalitzats per al pipeline.

Els components personalitzats del pipeline et permeten afegir la teua pròpia funció al pipeline de spaCy que s'executa quan anomenes a l'objecte `nlp` sobre un text - per exemple, per a modificar el doc i afegir-li més dades.

Després que el text és convertit en tokens i un objecte `Doc` ha sigut creat, els components del pipeline s'apliquen en ordre. spaCy ofereix suport per a un rang de components inclosos, però també et permet definir els teus.

Els components personalitzats s'executen automàticament quan anomenes a l'objecte `nlp` sobre un text.

Són especialment útils per a afegir les teues pròpies metadades als documents i als tokens.

També pots usar-los per a actualitzar els atributs inclosos, com els spans de les entitats nomenades.

### Anatomia d'un component

- Funcions que prenen un `doc`, ho modifiquen i ho retornen
- Poden ser afegits usant el mètode `nlp.add_pipe`

```python
def custom_component(doc):
    # Haz algo con el doc aquí
    return doc

nlp.add_pipe(custom_component)
```

Fonamentalment, un component del pipeline és una funció o un <abbr title="Alguna cosa que pot ser anomenat o executat, així com una funció o una classe.">callable</abbr> que presa a un doc, ho modifica i ho retorna perquè puga ser processat pel pròxim component en el pipeline.

Els components poden ser afegits al pipeline usant el mètode `nlp.add_pipe`. Primer cal registrar la funció del component amb un decorador, i després cridar a `nlp.add_pipe`. Aquest presa almenys un argument: el nom de la funció del component.


| Argumente | Descripció | Exemple |
| -------- | -------------------- | ----------------------------------------- |
| `last` | Si és `True`, ho posa d'últim | `nlp.add_pipe('component', last=True)` |
| `first` | Si és `True`, ho posa primer | `nlp.add_pipe('component', first=True)` |
| `before` | Ho afig abans del component | `nlp.add_pipe('component', before="ner")` |
| `after` | Ho afig després del component | `nlp.add_pipe('component', after="tagger")` |

Per a especificar _on_ afegir el component en el pipeline, pots usar un dels següents arguments keyword:

Si fas que el valor de `last` siga `True`, s'afegirà el component en l'últim lloc del pipeline. Aquest és el comportament per defecte.

Si fas que el valor de `first` siga `True`, s'afegirà en el primer lloc del pipeline just després del tokenizer.

Els arguments `before` i `after` et permeten definir el nom d'un component existent al qual li pots afegir el nou component abans o després. Per exemple, `before="ner"` afegirà el nou component abans del named entity recognizer.

No obstant això, l'altre component al qual se li afegirà un nou component abans o després ha d'existir. Si no, spaCy llançarà un error.

### Exemple: un component simple

```python
from spacy.language import Language

# Crea el objeto nlp
nlp = spacy.load("es_core_news_sm")

# Define un componente personalizado
@Language.component('custom_component')
def custom_component(doc):
    # Imprime la longitud del doc en pantalla
    print("longitud del Doc:", len(doc))
    # Devuelve el objeto doc
    return doc

# Añade el componente al primer lugar del pipeline
nlp.add_pipe('custom_component', first=True)

# Imprime los nombres de los componentes del pipeline
print("Pipeline:", nlp.pipe_names)
```

```out
Pipeline: ['custom_component', 'tagger', 'parser', 'ner']
```

```python
# Procesa un texto
doc = nlp("¡Hola Mundo!")
```

```out
longitud del Doc: 4
```

Ací tenim un exemple d'un component simple del pipeline.

Comencem amb el model xicotet d'espanyol.

Després definim el component - una funció que pren un objecte `Doc` i després el retorna.

Fem una cosa simple i imprimim en pantalla la longitud del document que passa pel pipeline.

No oblides retornar el doc perquè puga ser processat pel pròxim component en el pipeline! El doc creat pel tokenizer passa per tots els components, així que és important que tots retornen el doc modificat.

Ara podem afegir el component al pipeline. Ho afegirem en el primer lloc, just després del tokenizer. Ho fem definint `first=True`.

Quan imprimim en pantalla els noms dels components el nou apareix al principi. Això significa que serà aplicat quan processem un doc.

Ara, quan processem un text usant l'objecte `nlp`, el component personalitzat serà aplicat al doc i la longitud del document serà impresa en pantalla.



## Components simples

L'exemple mostra un component personalitzat que imprimeix la longitud d'un
document. Pots completar-ho?

- Completa la funció del component amb la longitud del `doc`.
- Afig el `length_component` al pipeline existent com el __primer__
 component.
- Prova el nou pipeline i processa qualsevol text amb l'objecte `nlp` - per exemple
 , "Això és una frase."

In [19]:
import spacy
from spacy.language import Language

# Define el componente personalizado
@Language.component('length_component')
def length_component(doc):
    # Obtén la longitud del doc
    doc_length = len(doc)
    print(f"Este documento tiene {doc_length} tokens.")
    # Devuelve el doc
    return doc


# Carga el modelo pequeño de español
nlp = spacy.load("es_core_news_sm")

# Añade el componente en el primer lugar del pipeline e imprime
# los nombres de los pipes en pantalla
nlp.add_pipe('length_component')
print(nlp.pipe_names)

# Procesa un texto
doc = nlp("Esto es una frase")

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner', 'length_component']
Este documento tiene 4 tokens.


## Components complexos

En aquest exercici escriuràs un component personalitzat que use el
`PhraseMatcher` per a trobar noms d'animals en el document i afija els
spans resultants als `doc.ents`. En la variable `matcher` ja es va crear un
`PhraseMatcher` amb els patrons d'animals.

- Defineix el component personalitzat i aplica el `matcher` al `doc`.
- Crea un `Span` per a cada resultat, assigna-li el label ID per a `"ANIMAL"` i
 sobreescriu els `doc.ents` amb els nous spans.
- Afig el nou component al pipeline _després_ del component `"ner"`.
- Processa el text i imprimeix en pantalla el text de l'entitat i els entity
 labels de les entitats en `doc.ents`.



In [20]:
import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span
from spacy.language import Language

nlp = spacy.load("es_core_news_sm")
animals = ["labrador dorado", "gato", "tortuga", "oso de anteojos"]
animal_patterns = list(nlp.pipe(animals))
print("animal_patterns:", animal_patterns)
matcher = PhraseMatcher(nlp.vocab)
matcher.add("ANIMAL", None, *animal_patterns)

# Define el componente personalizado
@Language.component('animal_component')
def animal_component(doc):
    # Aplica el matcher al doc
    matches = matcher(doc)
    # Crea un Span para cada resultado y asígnales el label "ANIMAL"
    spans = [Span(doc, start, end, label="ANIMAL") for match_id, start, end in matches]
    # Sobrescribe los doc.ents con los spans resultantes
    doc.ents = spans
    return doc


# Añade el componente al pipeline después del componente "ner"
nlp.add_pipe('animal_component')
print(nlp.pipe_names)

# Procesa el texto e imprime en pantalla el texto y el label
# de los doc.ents
doc = nlp("Hoy vimos una tortuga y un oso de anteojos en nuestra caminata")
print([(ent.text, ent.label_) for ent in doc.ents])

animal_patterns: [labrador dorado, gato, tortuga, oso de anteojos]
['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner', 'animal_component']
[('tortuga', 'ANIMAL'), ('oso de anteojos', 'ANIMAL')]


# Extensió d'atributs

En aquest apartat aprendràs com afegir atributs personalitzats per als objectes `Doc`,
`Token` i `Span` per a guardar dades específiques a les teues necessitats.

### Afegint atributs personalitzats

- Afig metadades personalitzades a documents, tokens i spans
- Accessible a través de la propietat `._`

```python
doc._.title = "El meu document"
token._.is_color = True
span._.has_color = False
```

- Es registren en els `Doc`, `Token` o `Span` globals usant el mètode `set_extension`

```python
# Importa las clases globales
from spacy.tokens import Doc, Token, Span

# Añade extensiones para el Doc, Token y Span
Doc.set_extension("title", default=None)
Token.set_extension("is_color", default=False)
Span.set_extension("has_color", default=False)
```

Els atributs personalitzats et permeten afegir metadades als docs, tokens i spans. Les dades poden ser afegits una vegada, o calculats dinàmicament.

Els atributs personalitzats estan disponibles a través de la propietat `._` (punt i guió baix). Aquesta notació fa que siga clar que van ser agregats per l'usuari i no estan integrats en spaCy com `token.text`.

Els atributs han de ser registrats en les classes `Doc`, `Token` i `Span` globals que pots importar des de `spacy.tokens`. Ja vas treballar amb elles en els capítols anteriors. Per a registrar un atribut personalitzat en els `Doc`, `Token` i `Span`, pots usar el mètode `set_extension`.

El primer argument és el nom de l'atribut. Els arguments keyword et permeten definir com ha de ser calculat el valor. En aquest cas, té un valor per defecte i pot ser sobreescrit.

Hi ha tres tipus d'extensió: extensió d'atributs, extensió de propietats i extensió de mètodes.

### Extensió d'atributs

- Afegir un valor per defecte que pot ser sobreescrit

```python
from spacy.tokens import Token

# Añade una extensión en el Token con un valor por defecto
Token.set_extension("is_color", default=False)

doc = nlp("El cielo es azul.")

# Sobrescribe el valor de la extensión de atributo
doc[3]._.is_color = True
```

Les extensions d'atribut afigen un valor per defecte que pot ser sobreescrit.

Per exemple, un atribut personalitzat del token, anomenat `is_color`, que té per defecte el valor `False`.

En tokens individuals el seu valor pot ser canviat quan se sobreescriu - en aquest cas, `True` per al token "azul".

### Extensió de propietats

- Defineix una funció getter i una funció setter opcional
- La funció getter només és anomenada quan _es consulta_ el valor de l'atribut

```python
from spacy.tokens import Token

# Define la función getter
def get_is_color(token):
    colors = ["rojo", "amarillo", "azul"]
    return token.text in colors

# Añade una extensión en el Token con getter
Token.set_extension("is_color", getter=get_is_color)

doc = nlp("El cielo es azul.")
print(doc[3]._.is_color, "-", doc[3].text)
```

```out
True - azul
```

Les extensions de propietats funcionen com les propietats de Python: poden definir una funció <abbr title="En espanyol: obtenedor. Una funció que obté i retorna un valor i que Python executa automàticament quan s'accedeix a un atribut especial d'un objecte.">getter</abbr> i una funció <abbr title="En espanyol: establecedor. Una funció que d'alguna forma estableix un valor i que Python executa automàticament quan s'assigna un valor a un atribut especial d'un objecte.">setter</abbr> opcional.

La funció getter només és anomenada quan consultes l'atribut. Això et permet calcular el valor dinàmicament, i inclusivament pot tindre en compte altres atributs personalitzats.

Les funcions getter prenen un argument: l'objecte, en aquest cas el token. En aquest exemple, la funció retorna si el text d'un token es troba en la nostra llista de colors.

Podem proveir la funció mitjançant l'argument keyword `getter` quan registrem l'extensió.

El token "azul" ara retorna `True` per a `._.is_color`.

- Les extensions de `Span` quasi sempre haurien d'usar un getter

```python
from spacy.tokens import Span

# Define la función getter
def get_has_color(span):
    colors = ["rojo", "amarillo", "azul"]
    return any(token.text in colors for token in span)

# Añade una extensión en el Span con getter
Span.set_extension("has_color", getter=get_has_color)

doc = nlp("El cielo es azul.")
print(doc[1:4]._.has_color, "-", doc[1:4].text)
print(doc[0:2]._.has_color, "-", doc[0:2].text)
```

```out
True - cielo es azul
False - El cielo
```

Si vols afegir extensions d'atributs en un span, quasi sempre has d'usar una extensió de propietats amb un getter. D'una altra manera, hauries d'actualitzar a mà _cadascun dels spans possibles_ per a afegir tots els valors.

En aquest exemple, la funció `get_has_color` pren el span i retorna si el text d'algun dels tokens està en la llista de colors.

Després d'haver processat el doc, podem revisar els diferents slices del doc i la propietat personalitzada `._.has_color` ens retornarà un resultat sobre si el span conté un token de color o no.

### Extensió de mètodes

- Assigna una __funció__ que passa a estar disponible com a mètode d'un objecte
- Et permet passar __arguments__ a la funció d'extensió

```python
from spacy.tokens import Doc

# Define un método con argumentos
def has_token(doc, token_text):
    in_doc = token_text in [token.text for token in doc]
    return in_doc

# Añade una extensión en el Doc con el método
Doc.set_extension("has_token", method=has_token)

doc = nlp("El cielo es azul.")
print(doc._.has_token("azul"), "- azul")
print(doc._.has_token("nube"), "- nube")
```

```out
True - azul
False - nube
```

L'extensió de mètodes fa que l'extensió de l'atribut siga un mètode que pot ser anomenat.

Pots passar-li un o més arguments i calcular els valors de l'atribut de manera dinàmica - per exemple, basats en un cert argument o configuració.

En aquest exemple, la funció del mètode revisa si el doc conté un token amb un text donat. El primer argument del mètode és sempre l'objecte en si - en aquest cas, el doc. Es passa automàticament quan es diu al mètode.
Tots els altres arguments de la funció seran arguments en l'extensió del mètode. En aquest cas, `token_text`.

Ací el mètode personalitzat, `._.has_token`, retorna `True` per a la paraula "azul" i `False` per a la paraula "nube".



## Afegint extensions d'atributs (1)

Practicarem afegint algunes extensions d'atributs.

### Pas 1

- Usa `Token.set_extension` per a registrar `"is_country"` (per defecte `False`).
- Actualitza-ho per a `"España"` i imprimeix-ho en pantalla per a tots els tokens.

In [21]:
from spacy.lang.es import Spanish
from spacy.tokens import Token

nlp = Spanish()

# Registra la extensión de atributo del Token, "is_country",
# con el valor por defecto False 
Token.set_extension("is_country", default=False)

# Procesa el texto y pon True para el atributo "is_country"
# para el token "España"
doc = nlp("Vivo en España.")
doc[2]._.is_country = True

# Imprime en pantalla el texto del token y el atributo "is_country"
# para todos los tokens
print([(token.text, token._.is_country) for token in doc])

[('Vivo', False), ('en', False), ('España', True), ('.', False)]


### Pas 2

- Usa `Token.set_extension` per a registrar `"reversed"` (funció getter
 `get_reversed`).
- Imprimeix en pantalla el seu valor per cada token.

In [22]:
from spacy.lang.es import Spanish
from spacy.tokens import Token

nlp = Spanish()

# Define la función getter que toma un token y devuelve su texto al revés
def get_reversed(token):
    return token.text[::-1]


# Registra la extensión de propiedad del Token, "reversed", con
# el getter get_reversed
Token.set_extension("reversed", getter=get_reversed)

# Procesa el texto e imprime en pantalla el atributo "reversed"
# para cada token
doc = nlp("Todas las generalizaciones son falsas, incluyendo esta.")
for token in doc:
    print("invertido:", token._.reversed)

invertido: sadoT
invertido: sal
invertido: senoicazilareneg
invertido: nos
invertido: saslaf
invertido: ,
invertido: odneyulcni
invertido: atse
invertido: .


## Afegint extensions d'atributs (2)

Intentem afegir alguns atributs més complexos usant getters i extensions
de mètodes.

### Part 1

- Completa la funció `get_has_number`.
- Usa `Doc.set_extension` per a registrar `"has_number"` (getter
 `get_has_number`) i imprimir el seu valor en pantalla.

In [23]:
from spacy.lang.es import Spanish
from spacy.tokens import Doc

nlp = Spanish()

# Define la función getter
def get_has_number(doc):
    # Devuelve si alguno de los tokens en el doc devuelve True
    # para token.like_num
    return any(token.is_digit for token in doc)


# Registra la extensión de propiedad del Doc, "has_number",
# con el getter get_has_number
doc.set_extension("has_number", getter=get_has_number)

# Procesa el texto y revisa el atributo personalizado "has_number"
doc = nlp("El museo cerró por cinco años en el 2012.")
print("has_number:", doc._.has_number)

has_number: True


### Part 2

- Usa `Span.set_extension` per a registrar `"to_HTML"` (mètode `to_HTML`).
- Crida-ho sobre `doc[0:2]` amb el tag `"strong"`.

In [24]:
from spacy.lang.es import Spanish
from spacy.tokens import Span

nlp = Spanish()

# Define el método
def to_html(span, tag):
    # Envuelve el texto del span en un HTML tag y devuélvelo
    return f"<{tag}>{span.text}</{tag}>"


# Registra la extensión de propiedad del Span, "to_html",
# con el método "to_html"
Span.set_extension("to_html", method=to_html)

# Procesa el texto y llama el método "to_html"en el span
# con el nombre de tag "strong"
doc = nlp("Hola mundo, esto es una frase.")
span = doc[0:2]
print(span._.to_html("strong"))

<strong>Hola mundo</strong>


## Entitats i extensions

En aquest exercici combinaràs l'extensió d'atributs personalitzats amb les
prediccions del model i crearàs un getter d'atribut que retorna una URL de
cerca de Wikipedia si el span és una persona, organització o lloc.

- Completa el getter `get_wikipedia_url` perquè només retorne la URL si el
 label del span està en la llista de labels.
- Afig l'extensió del `Span`, `"wikipedia_url"`, usant el getter
 `get_wikipedia_url`.
- Itera sobre les entitats en el `doc` i retorna els seus URLs de Wikipedia.

In [25]:
import spacy
from spacy.tokens import Span

nlp = spacy.load("es_core_news_sm")


def get_wikipedia_url(span):
    # Obtén la URL de Wikipedia si el span tiene uno de los siguientes labels
    if span.label_ in ("PER", "ORG", "LOC"):
        entity_text = span.text.replace(" ", "_")
        return "https://es.wikipedia.org/w/index.php?search=" + entity_text


# Añade la extensión del Span, wikipedia_url, usando el getter get_wikipedia_url
Span.set_extension("wikipedia_url", getter=get_wikipedia_url)

doc = nlp(
    "Antes de finalizar 1976, el interés de David Bowie en la "
    "floreciente escena musical alemana, le llevó a mudarse a "
    "Alemania para revitalizar su carrera."
)
for ent in doc.ents:
    # Imprime en pantalla el texto y la URL de Wikipedia de la entidad
    print(ent.text, ent._.wikipedia_url)

David Bowie https://es.wikipedia.org/w/index.php?search=David_Bowie
Alemania https://es.wikipedia.org/w/index.php?search=Alemania


## Components amb extensions

L'extensió d'atributs és especialment poderosa si és combinada amb els
components personalitzats del pipeline. En aquest exercici escriuràs un
component del pipeline que troba noms de països i una extensió d'atribut
personalitzada que retorna la ciutat capital del país si està
disponible.

Un patró de frases amb tots els països està disponible com la variable
`matcher`. Un diccionari de països relacionats amb les seues ciutats capitals està
disponible com la variable `CAPITALS`.

- Completa el `countries_component` i crea un `Span` amb el label `"LOC"` per a
 tots els resultats.
- Afig el component al pipeline.
- Registra l'extensió de l'atribut del Span, `"capital"`, amb el getter
 `get_capital`.
- Processa el text i imprimeix en pantalla el text de l'entitat, el label i la
 capital de l'entitat per a cada span que conté una entitat en `doc.ents`.

In [26]:
import json
from spacy.lang.es import Spanish
from spacy.tokens import Span
from spacy.matcher import PhraseMatcher
from spacy.language import Language

with open("P3_materiales/countries.json", encoding="utf8") as f:
    COUNTRIES = json.loads(f.read())

with open("P3_materiales/capitals.json", encoding="utf8") as f:
    CAPITALS = json.loads(f.read())

nlp = Spanish()
matcher = PhraseMatcher(nlp.vocab)
matcher.add("COUNTRY", None, *list(nlp.pipe(COUNTRIES)))

@Language.component('countries_component')
def countries_component(doc):
    # Crea un Span de entidades con el label "LOC" para todos los resultados
    matches = matcher(doc)
    doc.ents = [Span(doc, start, end, label="LOC") for match_id, start, end in matches]
    return doc


# Añade el componente al pipeline
nlp.add_pipe("countries_component")
print(nlp.pipe_names)

# El getter que busca el texto del span en un diccionario de ciudades 
# capitales de países
get_capital = lambda span: CAPITALS.get(span.text)

# Registra la extensión de atributo del Span, "capital", con el 
# getter get_capital
Span.set_extension("capital", getter=get_capital)

# Procesa el texto e imprime en pantalla el texto de la entidad,
# el label y los atributos "capital"
doc = nlp(
    "La República Checa podría ayudar a la República Eslovaca "
    "a proteger su espacio aéreo"
)
print([(ent.text, ent.label_, ent._.capital) for ent in doc.ents])

['countries_component']
[('República Checa', 'LOC', 'Prague'), ('República Eslovaca', 'LOC', 'Bratislava')]
