# Textacy & Spacy
Librerias de procesado de NLP

Pero primero! ¡Un vídeo! https://www.youtube.com/watch?v=Tg1MjMIVArc&ab_channel=DotCSV

In [None]:
'''
Versiones compatibles
Despues hay que reiniciar el entorno de ejecución
'''
#!pip install spacy
#!pip install textacy

# # Para siguientes ejecuciones, solo ejecutar esto y reiniciar despues el entorno
!python -m spacy download en_core_web_lg
!python -m spacy download es_core_news_lg


# Spacy
https://spacy.io/

NOTA: Recuerda reiniciar el entorno de ejecucion despues de la instalacion

In [None]:
import spacy

nlp = spacy.load('en_core_web_lg')

## Text basics
Veamos como trabajar cn estos primeros ejemplos con la libreria ´spacy´. Cosas que podemos hacer:
1. Tokenizar en frases
2. Tokenizar en palabras
3. Acceder a los atributos de cada token
4. Acceder a las entidades del texto
5. Visualizar las entidades del texto

Hablemos de los componentes: https://spacy.io/usage/linguistic-features

In [None]:
# The text we want to examine
text = """
London is the capital and most populous city of England and 
the United Kingdom.  Standing on the River Thames in the south east 
of the island of Great Britain, London has been a major settlement 
for two millennia. It was founded by the Romans, who named it Londinium.
"""

doc = nlp(text)

print(doc)

for num, sentence in enumerate(doc.sents):
  print(num, sentence)


In [None]:
for word in doc[:20]:
  print(word.text, word.lemma_, word.pos_, word.is_stop)

In [None]:
type(doc)

## Syntactic analysis
Hacer los deberes del colegio

In [None]:
from spacy import displacy

doc2 = nlp("London is the capital and most populous city of England and the United Kingdom")
displacy.render(doc2, jupyter=True, style="dep")

## Entities en el texto

In [None]:
for entity in doc.ents:
  print(entity.text, entity.label_)

In [None]:
# Doubts with labels
spacy.explain('GPE')

In [None]:
displacy.render(doc, style='ent', jupyter=True)

## Reenplazar nombres
Ocultar nombres para cumplir normativas como la GDPR

In [None]:
# Replace a token with "REDACTED" if it is a name
def replace_name_with_placeholder(token):
    if token.ent_iob != 0 and token.ent_type_ == "PERSON":
        return "GDPR"
    else:
        return token.text

# Loop through all the entities in a document and check if they are names
def scrub(text):
    doc = nlp(text)
    with doc.retokenize() as retokenizer:
        for ent in doc.ents:
            retokenizer.merge(ent)
    tokens = map(replace_name_with_placeholder, doc)
    return " ".join(tokens)

s = """
In 1950, Alan Turing published his famous article "Computing Machinery and Intelligence". In 1957, Noam Chomsky’s 
Syntactic Structures revolutionized Linguistics with 'universal grammar', a rule based system of syntactic structures.
"""

print(scrub(s))

## Lematize

In [None]:
for w in doc:
  print(w.text, w.lemma_, w.pos_)

## Stopwords

In [None]:
from spacy.lang.en.stop_words import STOP_WORDS

print(list(STOP_WORDS)[:39])

In [None]:
lista_clean = [palabra for palabra in doc if not palabra.is_stop and not palabra.is_punct]
print(lista_clean)

# Spanish
## Spacy  y entities

In [None]:
nlp_es = spacy.load('es_core_news_lg')

text = '''Londres (en inglés, London, pronunciado /ˈlʌndən/ ( escuchar)) es la capital y mayor ciudad de Inglaterra y del Reino Unido.2​3​ Situada a orillas del río Támesis, Londres es un importante asentamiento humano desde que fue fundada por los romanos con el nombre de Londinium hace casi dos milenios.4​ El núcleo antiguo de la urbe, la City de Londres, conserva básicamente su perímetro medieval de una milla cuadrada. Desde el siglo XIX el nombre «Londres» también hace referencia a toda la metrópolis desarrollada alrededor de este núcleo.5​ El grueso de esta conurbación forma la región de Londres y el área administrativa del Gran Londres,6​ gobernado por el alcalde y la asamblea de Londres.7​
Londres es una ciudad global, uno de los centros neurálgicos en el ámbito de las artes, el comercio, la educación, el entretenimiento, la moda, las finanzas, los medios de comunicación, la investigación, el turismo o el transporte.8​ Es el principal centro financiero del mundo9​10​11​ y una de las áreas metropolitanas con mayor PIB.12​13​ Londres es también una capital cultural mundial,14​15​16​17​ la ciudad más visitada considerando el número de visitas internacionales18​ y tiene el mayor sistema aeroportuario del mundo según el tráfico de pasajeros.19​ Asimismo, las 43 universidades de la ciudad conforman la mayor concentración de centros de estudios superiores de toda Europa.20​ En el año 2012 Londres se convirtió en la única ciudad en albergar la celebración de tres Juegos Olímpicos de Verano.21​
En esta ciudad multirracial convive gente de un gran número de culturas que hablan más de trescientos idiomas distintos.22​ La Autoridad del Gran Londres estima que en 2015 la ciudad tiene 8,63 millones de habitantes,23​ que supone el 12,5 % del total de habitantes del Reino Unido.24​ El área urbana del Gran Londres, con 10 470 00025​ habitantes, es la segunda más grande de Europa, pero su área metropolitana, con una población estimada de entre 12 y 14 millones,26​27​ es la mayor del continente. Desde 1831 a 1925 Londres, como capital del Imperio británico, fue la ciudad más poblada del mundo.'''
doc = nlp_es(text)

# Para ver las entidades que ha detectado
for entity in doc.ents:
    print(f"{entity.text} ({entity.label_})")


In [None]:
# Doubts with labels
spacy.explain('MISC')

## Palabras más frecuentes
En una página de Wikipedia

In [None]:
# !pip install wikipedia

In [None]:
from spacy.lang.es.stop_words import STOP_WORDS

In [None]:
import wikipedia
wikipedia.set_lang("en")
karim = wikipedia.page(title="Karim Benzema")
text = karim.content
text[0:1000]

In [None]:
nombres = [w.text for w in nlp(text) if not w.is_stop and not w.is_punct and w.pos_ == 'VERB']
nombres[:10]

In [None]:
from collections import Counter
word_freq = Counter(nombres)

word_freq.most_common(10)[1:]

## Textacy London text
Ahora queremos saber cosas sobre Londres, de nuestro texto anterior

In [None]:
import spacy
import textacy.extract

#### CODE ####

# The text we want to examine
text = """London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. London was founded by the Romans, 
who named it Londinium. London is a huge city. London has a lot of cute restaurants. Jaimito is my best friend.
"""

doc = nlp(text)
statements = textacy.extract.semistructured_statements(doc, entity="Jaimito", cue='be')

# Print the results
print("Here are the things I know about Jaimito:")

for statement in statements:
    subject, verb, fact = statement
    print(f" - {fact}")


In [None]:
# nlp_es = spacy.load('es_core_news_lg')

doc = nlp(karim.content)

statements = textacy.extract.semistructured_statements(doc, entity="Benzema", cue='be')

# Print the results
print("Here are the things I know about Karim:")

for statement in statements:
    subject, verb, fact = statement
    print(f" - {fact}")


## Textacy con Wikipedia API
No queremos las palabras más frecuentes, queremos frases sobre Londres

In [None]:
wikipedia.set_lang("en")
london = wikipedia.page("London")
text = london.content

In [None]:
doc = nlp(text)

# Extract semi-structured statements
statements = textacy.extract.semistructured_statements(doc, entity="London Underground", cue='be')

# Print the results
print("Here are the things I know about London:")

for statement in statements:
    subject, verb, fact = statement
    print(f" - {fact}")