# Textacy & Spacy

Librerías de procesado de NLP.

## Instalación

Ejecutar la instalación habitual:

```sh
!pip install spacy textacy
!python -m spacy download en_core_web_lg
!python -m spacy download es_core_news_lg
```

Después hay que reiniciar el entorno de ejecución. Para siguientes ejecuciones, solo ejecutar esto y reiniciar después el entorno.

# Spacy
https://spacy.io/

NOTA: Recuerda reiniciar el entorno de ejecucion despues de la instalacion

In [1]:
import spacy

nlp = spacy.load('en_core_web_lg')

## Text basics
Veamos como trabajar cn estos primeros ejemplos con la libreria ´spacy´. Cosas que podemos hacer:
1. Tokenizar en frases
2. Tokenizar en palabras
3. Acceder a los atributos de cada token
4. Acceder a las entidades del texto
5. Visualizar las entidades del texto

In [3]:
# The text we want to examine
text = """
London is the capital and most populous city of England and 
the United Kingdom.  Standing on the River Thames in the south east 
of the island of Great Britain, London has been a major settlement 
for two millennia. It was founded by the Romans, who named it Londinium.
"""

doc = nlp(text)

print(doc)



London is the capital and most populous city of England and 
the United Kingdom.  Standing on the River Thames in the south east 
of the island of Great Britain, London has been a major settlement 
for two millennia. It was founded by the Romans, who named it Londinium.



In [5]:
for num, sentence in enumerate(doc.sents):
  print(num, " : ", sentence)

0  :  
London is the capital and most populous city of England and 
the United Kingdom.  
1  :  Standing on the River Thames in the south east 
of the island of Great Britain, London has been a major settlement 
for two millennia.
2  :  It was founded by the Romans, who named it Londinium.



In [6]:
for word in doc[:20]:
  print(word.text, word.lemma_, word.pos_, word.is_stop)


 
 SPACE False
London London PROPN False
is be AUX True
the the DET True
capital capital NOUN False
and and CCONJ True
most most ADV True
populous populous ADJ False
city city NOUN False
of of ADP True
England England PROPN False
and and CCONJ True

 
 SPACE False
the the DET True
United United PROPN False
Kingdom Kingdom PROPN False
. . PUNCT False
    SPACE False
Standing stand VERB False
on on ADP True


In [7]:
type(doc)

spacy.tokens.doc.Doc

## Syntactic analysis

El análisis sintáctico de una frase es algo que siempre sa dolores de cabeza. Gracias a Spacy podemos obtenerlo de manera automatizada.

In [8]:
from spacy import displacy

doc2 = nlp("London is the capital and most populous city of England and the United Kingdom")
displacy.render(doc2, jupyter=True, style="dep")

## Entidades

Podemos buscar entidades dentro del texto (nombres propios, países, etc. )

In [9]:
for entity in doc.ents:
  print(entity.text, entity.label_, spacy.explain(entity.label_))

London GPE Countries, cities, states
England GPE Countries, cities, states
the United Kingdom GPE Countries, cities, states
the River Thames LOC Non-GPE locations, mountain ranges, bodies of water
south east LOC Non-GPE locations, mountain ranges, bodies of water
Great Britain GPE Countries, cities, states
London GPE Countries, cities, states
two millennia DATE Absolute or relative dates or periods
Romans NORP Nationalities or religious or political groups
Londinium GPE Countries, cities, states


Si tenemos dudas podemos consultar categorías concretas.

In [13]:
# Doubts with labels
spacy.explain('ORG')

'Companies, agencies, institutions, etc.'

In [14]:
displacy.render(doc, style='ent', jupyter=True)

## Reemplazando nombres

Ocultamos nombres para aumentar cumplimiento del Reglamento General de Protección de Datos (no será suficiente pero ayuda).

In [16]:
# Replace a token with "REDACTED" if it is a name
def replace_name_with_placeholder(token):
    if token.ent_iob != 0 and token.ent_type_ == "PERSON":
        return "HIDDEN"
    else:
        return token.text

# Loop through all the entities in a document and check if they are names
def scrub(text):
    doc = nlp(text)
    with doc.retokenize() as retokenizer:
        for ent in doc.ents:
            retokenizer.merge(ent)
    tokens = map(replace_name_with_placeholder, doc)
    return " ".join(tokens)

s = """
In 1950, Alan Turing published his famous article "Computing Machinery and Intelligence". In 1957, Noam Chomsky’s 
Syntactic Structures revolutionized Linguistics with 'universal grammar', a rule based system of syntactic structures.
"""

print(scrub(s))


 In 1950 , HIDDEN published his famous article " Computing Machinery and Intelligence " . In 1957 , HIDDEN ’s 
 Syntactic Structures revolutionized Linguistics with ' universal grammar ' , a rule based system of syntactic structures . 



## Lematización

In [17]:
for w in doc:
  print(w.text, w.lemma_, w.pos_)


 
 SPACE
London London PROPN
is be AUX
the the DET
capital capital NOUN
and and CCONJ
most most ADV
populous populous ADJ
city city NOUN
of of ADP
England England PROPN
and and CCONJ

 
 SPACE
the the DET
United United PROPN
Kingdom Kingdom PROPN
. . PUNCT
    SPACE
Standing stand VERB
on on ADP
the the DET
River River PROPN
Thames Thames PROPN
in in ADP
the the DET
south south PROPN
east east PROPN

 
 SPACE
of of ADP
the the DET
island island NOUN
of of ADP
Great Great PROPN
Britain Britain PROPN
, , PUNCT
London London PROPN
has have AUX
been be AUX
a a DET
major major ADJ
settlement settlement NOUN

 
 SPACE
for for ADP
two two NUM
millennia millennium NOUN
. . PUNCT
It it PRON
was be AUX
founded found VERB
by by ADP
the the DET
Romans Romans PROPN
, , PUNCT
who who PRON
named name VERB
it it PRON
Londinium Londinium PROPN
. . PUNCT

 
 SPACE


## Stopwords

In [18]:
from spacy.lang.en.stop_words import STOP_WORDS

print(list(STOP_WORDS)[:20])

['also', 'thru', 'should', 'same', 'moreover', 'except', 'often', 'two', 'am', 'hereupon', 'n’t', 'whereupon', 'will', 'out', 'ten', 'such', 'via', 'here', 'cannot', 're']


In [19]:
lista_clean = [palabra for palabra in doc if not palabra.is_stop and not palabra.is_punct]
print(lista_clean)

[
, London, capital, populous, city, England, 
, United, Kingdom,  , Standing, River, Thames, south, east, 
, island, Great, Britain, London, major, settlement, 
, millennia, founded, Romans, named, Londinium, 
]


# En Español, please

In [20]:
nlp_es = spacy.load('es_core_news_lg')

text = '''Londres (en inglés, London, pronunciado /ˈlʌndən/ ( escuchar)) es la capital y mayor ciudad de Inglaterra y del Reino Unido.2​3​ Situada a orillas del río Támesis, Londres es un importante asentamiento humano desde que fue fundada por los romanos con el nombre de Londinium hace casi dos milenios.4​ El núcleo antiguo de la urbe, la City de Londres, conserva básicamente su perímetro medieval de una milla cuadrada. Desde el siglo XIX el nombre «Londres» también hace referencia a toda la metrópolis desarrollada alrededor de este núcleo.5​ El grueso de esta conurbación forma la región de Londres y el área administrativa del Gran Londres,6​ gobernado por el alcalde y la asamblea de Londres.7​
Londres es una ciudad global, uno de los centros neurálgicos en el ámbito de las artes, el comercio, la educación, el entretenimiento, la moda, las finanzas, los medios de comunicación, la investigación, el turismo o el transporte.8​ Es el principal centro financiero del mundo9​10​11​ y una de las áreas metropolitanas con mayor PIB.12​13​ Londres es también una capital cultural mundial,14​15​16​17​ la ciudad más visitada considerando el número de visitas internacionales18​ y tiene el mayor sistema aeroportuario del mundo según el tráfico de pasajeros.19​ Asimismo, las 43 universidades de la ciudad conforman la mayor concentración de centros de estudios superiores de toda Europa.20​ En el año 2012 Londres se convirtió en la única ciudad en albergar la celebración de tres Juegos Olímpicos de Verano.21​
En esta ciudad multirracial convive gente de un gran número de culturas que hablan más de trescientos idiomas distintos.22​ La Autoridad del Gran Londres estima que en 2015 la ciudad tiene 8,63 millones de habitantes,23​ que supone el 12,5 % del total de habitantes del Reino Unido.24​ El área urbana del Gran Londres, con 10 470 00025​ habitantes, es la segunda más grande de Europa, pero su área metropolitana, con una población estimada de entre 12 y 14 millones,26​27​ es la mayor del continente. Desde 1831 a 1925 Londres, como capital del Imperio británico, fue la ciudad más poblada del mundo.'''
doc = nlp_es(text)

# Para ver las entidades que ha detectado
for entity in doc.ents:
    print(f"{entity.text} ({entity.label_})")

Londres (LOC)
London (LOC)
Inglaterra (LOC)
Reino Unido.2​3​ Situada (LOC)
Támesis (LOC)
Londres (LOC)
Londinium (LOC)
City de Londres (LOC)
Londres (LOC)
Londres (LOC)
Gran Londres,6​ (LOC)
Londres (LOC)
mundo9​10​11​ (LOC)
Londres (LOC)
Londres (LOC)
Juegos Olímpicos de Verano.21​
En esta ciudad multirracial (MISC)
La Autoridad del Gran Londres (MISC)
Reino Unido.24​ El área urbana del (LOC)
Gran Londres (LOC)
Europa (LOC)
millones,26​27​ (PER)
Londres (LOC)
Imperio británico (LOC)


In [21]:
# Doubts with labels
spacy.explain('MISC')

'Miscellaneous entities, e.g. events, nationalities, products or works of art'

## Palabras frecuentes

Podemos probar con información de la Wikipedia. Para ello necesitaremos... una librería :D

In [23]:
# !pip install wikipedia

In [24]:
from spacy.lang.es.stop_words import STOP_WORDS

list(STOP_WORDS)[:20]

['todo',
 'estado',
 'vaya',
 'aproximadamente',
 'alguno',
 'aquella',
 'cuatro',
 'dia',
 'toda',
 'verdadera',
 'habia',
 'pesar',
 'informo',
 'ciertas',
 'al',
 'tanto',
 'embargo',
 'posible',
 'sino',
 'estados']

In [27]:
import wikipedia
wikipedia.set_lang("es")

katalin = wikipedia.page(title="Katalin Kariko")
text = katalin.content
text[0:1000]

'Katalin Karikó (en húngaro: Karikó Katalin; Szolnok, 17 de enero de 1955)[1]\u200b es una bioquímica húngara especializada en mecanismos mediadores de ARN. Su investigación ha sido el desarrollo de ARNm transcrito in vitro para terapias de proteínas. Es vicepresidenta sénior de BioNTech RNA Pharmaceuticals. \nEl trabajo de Karikó incluye la investigación científica de la activación inmune mediada por ARN que resulta en el co-descubrimiento con Drew Weissman de las modificaciones de nucleósidos que suprimen la inmunogenicidad del ARN.[2]\u200b[3]\u200b Se considera que esto permite el uso terapéutico del ARNm.[4]\u200b Junto a Weissman recibió el Premio Nobel de Medicina en 2023 y es titular de patentes concedidas en los Estados Unidos para la aplicación de ARN no inmunogénico modificado por nucleósidos. Esta tecnología ha sido licenciada por BioNTech y Moderna para desarrollar las vacunas COVID-19.[5]\u200b Fue cofundadora y CEO de RNARx de 2006 a 2013.[6]\u200b Karikó es la madre de 

In [28]:
nombres = [w.text for w in nlp(text) if ((not w.is_stop) and (not w.is_punct) and (w.pos_ == 'NOUN'))]
nombres[:10]

['investigación',
 'vicepresidenta',
 'con',
 'considera',
 'recibió',
 'patentes',
 'cofundadora',
 'veces',
 'continuó',
 'enfermedades']

In [29]:
from collections import Counter
word_freq = Counter(nombres)

word_freq.most_common(10)[1:]

[('vicepresidenta', 1),
 ('con', 1),
 ('considera', 1),
 ('recibió', 1),
 ('patentes', 1),
 ('cofundadora', 1),
 ('veces', 1),
 ('continuó', 1),
 ('enfermedades', 1)]

In [30]:
nombres = [w.lemma_ for w in nlp_es(text) if ((not w.is_stop) and (not w.is_punct) and (w.pos_ == 'VERB'))]
nombres[:10]

['incluir',
 'resultar',
 'suprimir',
 'permitir',
 'recibir',
 'licenciar',
 'desarrollar',
 'crecer',
 'asistir',
 'obtener']

In [31]:
from collections import Counter
word_freq = Counter(nombres)

word_freq.most_common(10)[1:]

[('permitir', 3),
 ('desarrollar', 3),
 ('producir', 3),
 ('comprender', 3),
 ('incluir', 2),
 ('licenciar', 2),
 ('tratar', 2),
 ('reducir', 2),
 ('fundar', 2)]

## Textacy London

Textacy ofrece una capa simplificada por encima de SpaCy de manera que es más sencillo interactuar y preguntar al texto: https://textacy.readthedocs.io/en/latest/

In [42]:
# import spacy
import textacy.extract

# The text we want to examine
text = """London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. London was founded by the Romans, 
who named it Londinium. London is a huge city. London has a lot of cute restaurants.
"""

doc = nlp(text)
statements = textacy.extract.semistructured_statements(doc, entity="London", cue='be')

# Print the results
print("Here are the things I know about London:")

for statement in statements:
    subject, verb, fact = statement
    print(f" - {fact}")


Here are the things I know about London:
 - [the, capital, and, most, populous, city, of, England, and, the, United, Kingdom]
 - [a, major, settlement, for, two, millennia]
 - [a, huge, city]


## Textacy + Wikipedia API

Con la API de Wikipedia

In [46]:
wikipedia.set_lang("en")
london = wikipedia.page("London")
text = london.content

In [47]:
doc = nlp(text)

# Extract semi-structured statements
statements = textacy.extract.semistructured_statements(doc, entity="London Underground", cue='be')

# Print the results
print("Here are the things I know about London:")

for statement in statements:
    subject, verb, fact = statement
    print(f" - {fact}")

Here are the things I know about London:
 - [the, world, 's, oldest, rapid, transit, system]
 - [the, oldest, and, third, longest, metro, system, in, the, world]
