# Tutorial SPacy
Link al curso -> [NLP avanzado con spaCy](https://course.spacy.io/es/)

# Capitulo 1

## Introducción a spaCy

In [1]:
# Importa la clase de lenguaje "Spanish"
from spacy.lang.es import Spanish

# Crea el objeto nlp
nlp =  Spanish()

In [2]:

# Creado procesado un string de texto con nlp
doc = nlp("¡Hola Mundo!")

# Itera sobre los tokens de doc
for token in doc:
    print(token.text) 

¡
Hola
Mundo
!


In [3]:
#
print(type(doc[1]))

<class 'spacy.tokens.token.Token'>


In [4]:
doc2 = nlp("Eso cuesta €5.")
# Atributos de los tokenes
print("Index: ", [token.i for token in doc2])
print("Text: ", [token.text for token in doc2])

print("is_alpha: ", [token.is_alpha for token in doc2])
print("is_punct: ", [token.is_punct for token in doc2])
print("like_num: ", [token.like_num for token in doc2])

Index:  [0, 1, 2, 3, 4]
Text:  ['Eso', 'cuesta', '€', '5', '.']
is_alpha:  [True, True, False, False, False]
is_punct:  [False, False, False, False, True]
like_num:  [False, False, False, True, False]


## Modelos Estadísticos

In [1]:
import spacy

# Carga el modelo pequeño de español
nlp = spacy.load("es_core_news_sm")

# Procesa un texto
doc = nlp("Ella comió pizza")

# Itera sobre los tokens
for token in doc:
    # Imprime en pantalla el texto y el part-of-speech tag prediction
    print(token.text, token.pos_, token.dep_, token.head.text)
    # Imprime 
    


Ella PRON nsubj comió
comió VERB ROOT comió
pizza NOUN obj comió


In [9]:
# Procesa un texto
doc = nlp(
    "Apple es la marca que más satisfacción genera en EE.UU., "
    "pero el iPhone, fue supera por el Galaxy Note 9"
)

# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto y el label de la entidad
    print(ent.text, ent.label_)


Apple ORG
EE.UU. LOC
iPhone MISC
Galaxy Note MISC


Obtén definiciones rápidas de los tags y labels más comunes.

In [11]:
print(spacy.explain("LOC"))
print("-"*20)
print(spacy.explain("NNP"))
print("-"*20)
print(spacy.explain("MISC"))

Non-GPE locations, mountain ranges, bodies of water
--------------------
noun, proper singular
--------------------
Miscellaneous entities, e.g. events, nationalities, products or works of art


In [12]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "De acuerdo con la revista Fortune, Apple fue la empresa "
    "más admirada en el mundo entre 2008 y 2012."
)

# Procesa el texto
doc = nlp(text)

for token in doc:
    # Obtén el texto del token, el part-of-speech tag y el dependency label
    token_text = token.text
    token_pos = token.pos_
    token_dep = token.dep_
    # Esto es solo por formato
    print("{:<12}{:<10}{:<10}".format(token_text, token_pos, token_dep))

De          ADP       case      
acuerdo     NOUN      fixed     
con         ADP       fixed     
la          DET       det       
revista     NOUN      obl       
Fortune     PROPN     appos     
,           PUNCT     punct     
Apple       PROPN     nsubj     
fue         AUX       cop       
la          DET       det       
empresa     NOUN      ROOT      
más         ADV       advmod    
admirada    ADJ       amod      
en          ADP       case      
el          DET       det       
mundo       NOUN      obl       
entre       ADP       case      
2008        NOUN      obl       
y           CCONJ     cc        
2012        NOUN      conj      
.           PUNCT     punct     


In [13]:
# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su label
    print(ent.text, ent.label_)

revista Fortune ORG
Apple ORG


In [19]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = (
    "Los Olímpicos de Tokio 2020 son la inspiración para la nueva "
    "colección de zapatillas adidas zx."
)

# Procesa el texto
doc = nlp(text)

# Itera sobre las entidades
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su label
    print(ent.text, ent.label_)

# Obtén el span para "adidas zx"
adidas_zx = doc[-3:-1]

# Imprime en pantalla el texto del span
print("Entidad faltante:", adidas_zx.text)

Olímpicos LOC
Tokio LOC
Entidad faltante: adidas zx


## Encontrando patrones basados en reglas

In [25]:
import spacy

# Importa el Matcher
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")

# Inicializa el matcher con el vocubalorio compartido
matcher = Matcher(nlp.vocab)

# Añade el patrón al matcher
pattern = [{"TEXT": "adidas"}, {"TEXT": "zx"}]
matcher.add("ADIDAS PATTERN", [pattern])

# Procesa un texto
doc = nlp("Nuevos diseños de zapatillas en la colección adidas zx")

# Llama al matcher sobre el doc
matches = matcher(doc)
print(matches)

[(12542628451813468933, 7, 9)]


In [30]:
# Itera sobre los resultados
for matched_id, start, end in matches:
    # Obtén el span resultante
    matcher_span = doc[start:end]
    print(matcher_span.text)

adidas zx


In [34]:
pattern = [
    {"IS_DIGIT": True},
    {"LOWER": "copa"},
    {"LOWER": "mundial"},
    {"LOWER": "fifa"},
    {"IS_PUNCT": True}
]
doc = nlp("2014 Copa Mundial FIFA: Alemania ganó!")

matcher = Matcher(nlp.vocab)
matcher.add("FIFA PATTERN", [pattern])
matches = matcher(doc)
print(matches)

for matched_id, start, end in matches:
    # Obtén el span resultante
    matcher_span = doc[start:end]
    print(matcher_span.text)

[(12634997056414607316, 0, 5)]
2014 Copa Mundial FIFA:


In [42]:
pattern = [
    {"LEMMA": "comer", "POS": "VERB"},
    {"POS": "NOUN"}
]
doc = nlp("Camila prefería comer tacos. Pero ahora está comiendo pasta.")

matcher = Matcher(nlp.vocab)
matcher.add("COMER PATTERN", [pattern])
matches = matcher(doc)


for matched_id, start, end in matches:
    # Obtén el span resultante
    matcher_span = doc[start:end]
    print(matcher_span.text)

In [41]:
pattern = [
    {"LEMMA": "comprar"},
    {"POS": "DET", "OP":"?"}, # opcional: encuentra 0 o 1 veces
    {"POS": "NOUN"}
]
doc = nlp("Me compré un smartphone. Ahora le estoy comprando aplicaciones.")

matcher = Matcher(nlp.vocab)
matcher.add("COMPRAR PATTERN", [pattern])
matches = matcher(doc)

for matched_id, start, end in matches:
    # Obtén el span resultante
    matcher_span = doc[start:end]
    print(matcher_span.text)

compré un smartphone
comprando aplicaciones


{"OP": "!"}    Negación: encuentra 0 veces

{"OP": "?"}    Opcional: encuentra 0 o 1 veces

{"OP": "+"}    Encuentra: 1 o más veces

{"OP": "*"}    Encuentra 0 o más veces

## Escribiendo patrones

Escribe un patrón que únicamente encuentre menciones de las versiones enteras de iOS: “iOS 7”, “iOS 11” and “iOS 10”.

In [None]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "Después de hacer la actualización de iOS no notarás un rediseño "
    "radical del sistema: no se compara con los cambios estéticos que "
    "tuvimos con el iOS 7. La mayoría de las funcionalidades del iOS 11 "
    "siguen iguales en el iOS 10."
)

# Escribe un patrón para las versiones de iOS enteras
# ("iOS 7", "iOS 11", "iOS 10")
pattern = [{"TEXT": "iOS"}, {"IS_DIGIT": True}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("IOS_VERSION_PATTERN", None, pattern)
matches = matcher(doc)
print("Total matches found:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Escribe un patrón que únicamente encuentre formas de “descargar” (tokens con el lemma “descargar”) seguido por un token que tenga el part-of-speech tag "PROPN" (proper noun).