# SpaCy

In [1]:
import spacy

In [2]:
nlp = spacy.load('es_core_news_sm') #es_core_news_sm este modelo hay que instalarlo para trabajar en español

In [3]:
type(nlp)

spacy.lang.es.Spanish

In [4]:
texto = """ En un pueblo de la Mancha,
de cuyo nombre no quiero acordarme,
vivió no hace mucho tiempo un hidalgo.
Nuestro hidalgo se llamaba Alonso Quijano.
Tenía muchos años y era muy delgado.
Don Alonso poseía un caballo flaco,
unas tierras y una casa muy grande.
El hidalgo vivía con su joven sobrina
y una criada. 
"""

In [5]:
print(texto)

 En un pueblo de la Mancha,
de cuyo nombre no quiero acordarme,
vivió no hace mucho tiempo un hidalgo.
Nuestro hidalgo se llamaba Alonso Quijano.
Tenía muchos años y era muy delgado.
Don Alonso poseía un caballo flaco,
unas tierras y una casa muy grande.
El hidalgo vivía con su joven sobrina
y una criada. 



In [6]:
documento = nlp(texto)

In [7]:
type(documento)

spacy.tokens.doc.Doc

In [8]:
for i in documento:
    print(i)

 
En
un
pueblo
de
la
Mancha
,


de
cuyo
nombre
no
quiero
acordarme
,


vivió
no
hace
mucho
tiempo
un
hidalgo
.


Nuestro
hidalgo
se
llamaba
Alonso
Quijano
.


Tenía
muchos
años
y
era
muy
delgado
.


Don
Alonso
poseía
un
caballo
flaco
,


unas
tierras
y
una
casa
muy
grande
.


El
hidalgo
vivía
con
su
joven
sobrina


y
una
criada
.




In [9]:
# Indica qué tipo de palabra es cada elemento de texto
for i in documento:
    print(i,i.pos_)

  SPACE
En ADP
un DET
pueblo NOUN
de ADP
la DET
Mancha PROPN
, PUNCT

 SPACE
de ADP
cuyo PRON
nombre NOUN
no ADV
quiero VERB
acordarme PROPN
, PUNCT

 SPACE
vivió VERB
no ADV
hace VERB
mucho DET
tiempo NOUN
un DET
hidalgo NOUN
. PUNCT

 SPACE
Nuestro DET
hidalgo NOUN
se PRON
llamaba VERB
Alonso PROPN
Quijano PROPN
. PUNCT

 SPACE
Tenía VERB
muchos DET
años NOUN
y CCONJ
era AUX
muy ADV
delgado ADJ
. PUNCT

 SPACE
Don PROPN
Alonso PROPN
poseía VERB
un DET
caballo NOUN
flaco ADJ
, PUNCT

 SPACE
unas DET
tierras NOUN
y CCONJ
una DET
casa NOUN
muy ADV
grande ADJ
. PUNCT

 SPACE
El DET
hidalgo NOUN
vivía VERB
con ADP
su DET
joven NOUN
sobrina NOUN

 SPACE
y CCONJ
una DET
criada NOUN
. PUNCT

 SPACE


In [10]:
# Si no sabemos que significa algo podemos usar el método 'spacy.explain'

print(spacy.explain('PROPN'))
print(spacy.explain('NOUN'))
print(spacy.explain('PUNCT'))
print(spacy.explain('NUM'))
print(spacy.explain('ADJ'))
print(spacy.explain('VERB'))


proper noun
noun
punctuation
numeral
adjective
verb


In [11]:
# Separa las oraciones del texto.
for oracion in documento.sents:
    print(oracion)
    print('-')

 
-
En un pueblo de la Mancha,
de cuyo nombre no quiero acordarme,
vivió no hace mucho tiempo un hidalgo.

-
Nuestro hidalgo se llamaba Alonso Quijano.

-
Tenía muchos años y era muy delgado.

-
Don Alonso poseía un caballo flaco,
unas tierras y una casa muy grande.

-
El hidalgo vivía con su joven sobrina
y una criada. 

-


---
# Tokenización

In [12]:
import spacy

In [13]:
nlp = spacy.load('es_core_news_sm') #es_core_news_sm este modelo hay que instalarlo para trabajar en español

In [14]:
texto = 'Un pasaje de avión, sin escalas, desde Uruguay hacia EE.UU. cuesta $471,88.'
documento = nlp(texto)
print(documento)

Un pasaje de avión, sin escalas, desde Uruguay hacia EE.UU. cuesta $471,88.


In [15]:
for i in documento:
    print(i)

Un
pasaje
de
avión
,
sin
escalas
,
desde
Uruguay
hacia
EE.UU.
cuesta
$
471,88
.


In [16]:
print(type(i)) #son objetos token

<class 'spacy.tokens.token.Token'>


In [17]:
# Probamos diferentes métodos:

for i in documento:
    print(i.is_currency) # Te dice si i es una moneda

False
False
False
False
False
False
False
False
False
False
False
False
False
True
False
False


In [18]:
for i in documento:
    print(i.lower_) # Si hay una letra en mayúscula, la pone en minúscula

un
pasaje
de
avión
,
sin
escalas
,
desde
uruguay
hacia
ee.uu.
cuesta
$
471,88
.


In [19]:
for i in documento:
    print(i.is_punct) # Te dice si i es un signo de puntuación

False
False
False
False
True
False
False
True
False
False
False
False
False
False
False
True


In [20]:
for i in documento:
    if i.is_stop: # Te muentra solo las palabras que son conectores
        print(i) 

Un
de
sin
desde
hacia


In [21]:
for i in documento:
    if i.is_stop == False: # Te muentra las palabras que NO son conectores
        print(i) 

pasaje
avión
,
escalas
,
Uruguay
EE.UU.
cuesta
$
471,88
.


In [22]:
len(documento)

16

In [23]:
documento[0:7]

Un pasaje de avión, sin escalas

In [24]:
documento[9]

Uruguay

In [25]:
# documento[9] = 'URUGUAY'

# Esto daría error porque esta clase de objeto no permite asignar valores

---

# Lematización

In [26]:
import spacy
import pandas as pd
nlp = spacy.load('es_core_news_sm') #es_core_news_sm este modelo hay que instalarlo para trabajar en español

In [27]:
texto = """ Los estudiosos aman estudiar, es por eso que son felices estudiando.
su estudio es su felicidad.
Por eso estudian felizmente sus estudios."""
documento= nlp(texto)

In [28]:
# Revisa los signos de puntuación, si es un conecto o espacio y si uno de estos es verdadero pasamos al siguiente. Y si no, nos lo muestra por panatlla con su lema

for i in documento:
    if i.is_punct or i.is_stop or i.is_space:
        continue
    print(i)
    print(i.lemma_)
    print('-')

estudiosos
estudioso
-
aman
amar
-
estudiar
estudiar
-
felices
feliz
-
estudiando
estudiar
-
estudio
estudio
-
felicidad
felicidad
-
estudian
estudiar
-
felizmente
felizmente
-
estudios
estudio
-


In [29]:
quijote = '''
Don Alonso necesitaba
también un buen caballo.
Un caballo joven y fuerte.
Don Alonso se acercó a la cuadra.
Allí estaba su caballo.
Aunque era flaco y enfermizo,
a don Alonso le pareció el mejor caballo.
Quiso ponerle un nombre sonoro.
Tardó 4 días en encontrar
un nombre para el animal. 
'''

In [30]:
doc_quijote = nlp(quijote)

lista_tokens_lemmas = []

for i in doc_quijote:
    if i.is_punct or i.is_stop or i.is_space:
        continue
    lista_tokens_lemmas.append([i.lower_,i.lemma_.lower()]) #Si no es puntuación, conector y espacio lo añade a la lista en minúscula y con su lemma

In [31]:
tokens_lemmas_df = pd.DataFrame(lista_tokens_lemmas, columns=['Token','Lemma'])
tokens_lemmas_df.head(10)

Unnamed: 0,Token,Lemma
0,don,don
1,alonso,alonso
2,necesitaba,necesitar
3,caballo,caballo
4,caballo,caballo
5,joven,joven
6,fuerte,fuerte
7,don,don
8,alonso,alonso
9,acercó,acercar


In [32]:
# Las palabras que más se repiten en el texto según el token

agrupado = tokens_lemmas_df.groupby('Token')['Token'].count()
agrupado.sort_values(ascending=False,inplace=True)
agrupado.head(10)

Token
caballo    4
alonso     3
don        3
nombre     2
4          1
joven      1
sonoro     1
quiso      1
ponerle    1
pareció    1
Name: Token, dtype: int64

In [33]:
# Las palabras que más se repiten en el texto según el lemma

agrupado = tokens_lemmas_df.groupby('Lemma')['Lemma'].count()
agrupado.sort_values(ascending=False,inplace=True)
agrupado.head(10)

Lemma
caballo     4
alonso      3
don         3
nombre      2
4           1
joven       1
sonoro      1
querer      1
poner él    1
parecer     1
Name: Lemma, dtype: int64

----

# Reconocimiento de entidades (NER)

Usamos este modelo: es_core_news_lg

In [34]:
import spacy
nlp = spacy.load('es_core_news_lg')

In [35]:
texto = 'Steve Jobs fue uno de los cofundadores de la empresa Apple'
documento = nlp(texto)

In [36]:
print(len(documento))

11


In [37]:
# Localiza que elemen
for i in documento.ents:
    print(i.text, i.label_)


Steve Jobs PER
Apple ORG


In [38]:
print(spacy.explain('PER'))
print(spacy.explain('ORG'))

Named person or family.
Companies, agencies, institutions, etc.


In [39]:
print(type(documento.ents))

<class 'tuple'>


In [40]:
print(type(documento.ents[0]))

<class 'spacy.tokens.span.Span'>


In [41]:
texto = 'María está deseando merendar una tostada con crema de chocolate de la marca Nutella'
documento = nlp(texto)
for i in documento.ents:
    print(i.text, i.label_)

María PER
Nutella MISC


In [42]:
print(spacy.explain('MISC'))

Miscellaneous entities, e.g. events, nationalities, products or works of art


In [43]:
texto = 'Sevilla es una ciudad muy bonita, pero no es ideal visitarla en verano'
documento = nlp(texto)
for i in documento.ents:
    print(i.text, i.label_)

Sevilla LOC


In [44]:
print(spacy.explain('LOC'))

Non-GPE locations, mountain ranges, bodies of water


In [45]:
texto = '''1- Usain Bolt - 100m lisos (Londres 2012)
El corredor jamaicano voló en los Juegos Olímpicos de Londres con un 9,63 en la prueba de los 100 lisos que estuvo cerca de superar incluso su récord del mundo. Es una de sus actuaciones más memorables y de las más desafiantes para los próximos tiempos.

2- Florence Griffith Joyner - 200m lisos (Seúl 1988)
Este récord, además de Olímpico, es mundial. La velocista norteamericana voló en los Juegos Olímpicos de Seúl para dejar un 21,34 apoteósico, que se mantiene 32 años más tarde como mejor marca olímpica de la distancia.

3- David Rudisha - 800m lisos (Londres 2012)
El atleta keniata literalmente 'voló' en el 800 de Londres rebajando en un segundo la anterior marca de la distancia. Una portentosa exhibición que le dejó en bandeja la medalla de oro y que a día de hoy, su 1:40,91, que también es el récord del mundo parezca insuperable.

4- Nadia Comaneci - Gimnasia (Montreal 1976)
Su '10' en las Olimpiadas del 76 (fueron varios) se convertía en las primeras veces que alguien lograba un ejercicio perfecto en la disciplina. Obviamente la marca es insuperable pero la actuación de la gimnasta rumana fue todo una revolución en el mundo de la gimnasia.

5- Kenenisa Bekele - 10.000m lisos (Pekín 2008)
Una de las actuaciones más portentosas de uno de los mejores atletas de todos los tiempos. El etíope dejó un sensacional 27:01,17 en Pekín y de momento, nadie ha corrido más rápido en unos juegos. Histórico.

6 - Michael Phelps - 200m mariposa (Pekín 2008)
Ponemos 200m mariposa pero el nadador con más medallas de la historia de los juegos se llevo el récord olímpico en el 200 libre, 200 mariposa, 200 estilos, 400 estilos, 4x100 y 4 x 200. Una auténtica locura solo al alcance de don Michael Phelps.

7 - Yelena Isinbáyeva - Salto con pértiga (Pekín 2008)
5,05 saltó Isinbáyeva en China en la mejor actuación olímpica de su carrera. La saltadora rusa dejó la marca en esa edición de los Juegos como guinda a una trayectoria tiránica en la que dominó a placer la disciplina.

8 - Jamaica - 4x100m lisos (Londres 2012)
Un equipo de ensueño que pulverizó el récord olímpico y el mundial (36,84 s). Carter, Frater, Blake y el mismísimo Usain Bolt fueron los encargados de llevar a cabo la hazaña y marcar un tiempo que durará años como intocable.

9 - Bob Beamon - Salto de Longitud (México 1968)
Es el récord olímpico más antiguo del atletismo en la actualidad. Nadie ha saltado más que el americano desde México (8,90) y da miedo pensar qué podría haber hecho este hombre con los métodos de entrenamiento y mejoras de rendimiento que se utilizan en la actualidad. ¡Han pasado casi 60 años!

10 - Estados Unidos - Baloncesto (Londres 2012)
Cambiando un poco el tercio, volvemos a Londres en lo que fue una noche mágica para la historia del baloncesto olímpico. El 'Team USA' le endosó 156 puntos a Nigeria marcando la anotación más alta vista en cualquier partido de estos torneos. 37 puntos de un estelar Carmelo Anthony (¡Con 10 triples!) rubricaron la gran victoria estadounidense.'''
documento = nlp(texto)

In [46]:
print(len(documento))
print(len(documento.ents))

629
48


In [47]:
for i in documento.ents:
    if i.label_ == 'PER':
        print(i)

Usain Bolt
Florence Griffith Joyner
David Rudisha
Nadia Comaneci
Kenenisa Bekele
Michael Phelps
Michael Phelps
Yelena Isinbáyeva
Carter
Frater
Blake
Usain Bolt
Bob Beamon
Carmelo Anthony


In [49]:
text = open('text.txt', encoding='utf-8').read()

In [50]:
nlp = spacy.load('en_core_web_md')
document = nlp(text)

In [51]:
print(len(document))

217


In [52]:
print(len(document.ents))

1


In [53]:
for i in document.ents:
    if i.label_ == 'ORG':
        print(i)

No hay ninguna organización en el texto.

---

# Patrones (Matching)

In [54]:
import spacy
from spacy.matcher import Matcher

In [56]:
nlp = spacy.load('es_core_news_lg')

In [57]:
texto = '''
La Copa Mundial de Fútbol es un evento deportivo que se celebra cada 4 años. Se celebró por primera vez en Uruguay en el año 1930. En la última edición participaron 32 equipos.
'''

In [58]:
documento = nlp(texto)

In [59]:
matcher = Matcher(nlp.vocab) # Pasar todo el vocabulario del modelo es_core_news_lg

In [60]:
patron_1 = [{'LEMMA':'celebrar'}] # definimos el patrón que busque todos los tokens que tengan como lemma 'celebrar'. Lo hacemos definiendo un diccionario.

In [61]:
matcher.add('celebrar',[patron_1])

In [62]:
resultados = matcher(documento)

In [63]:
print(type(resultados))

<class 'list'>


In [64]:
for i in resultados:
    print(i)

(4170701316898965175, 12, 13)
(4170701316898965175, 18, 19)


Genera 2 tuplas con 3 elementos:
- Primer elemento: codigo hash
- Segundo elemento: donde comienza ese resultado
- Tercer elemento: donde finaliza

In [65]:
for codigo_hash, comienzo, fin in resultados:
    print( '<<< Nuevo match >>>')
    print('--- Lemma')
    print(nlp.vocab.strings[codigo_hash])
    print('--- Palabra encontrada')
    print(documento[comienzo:fin])

<<< Nuevo match >>>
--- Lemma
celebrar
--- Palabra encontrada
celebra
<<< Nuevo match >>>
--- Lemma
celebrar
--- Palabra encontrada
celebró


In [66]:
matcher = Matcher(nlp.vocab)
matcher.add('celebrar', [patron_1])
resultados = matcher(documento, as_spans=True)

for i in resultados:
    print(type(i))
    print(i)

<class 'spacy.tokens.span.Span'>
celebra
<class 'spacy.tokens.span.Span'>
celebró


In [67]:
patron_2 = [{'IS_DIGIT':True}]
matcher.add('num',[patron_2])
resultados = matcher(documento, as_spans=True)
for i in resultados:
    print(i)

celebra
4
celebró
1930
32


In [68]:
matcher.remove('celebrar')
resultados = matcher(documento, as_spans=True)
for i in resultados:
    print(i)

4
1930
32


In [69]:
texto = """
El índice Standard & Poor's 500 (Standard & Poor's 500 Index), también conocido como S&P 500, es uno de los índices bursátiles más importantes de Estados Unidos. Al S&P 500 se le considera el índice más representativo de la situación real del mercado.3​

El índice se basa en la capitalización bursátil de 500 grandes empresas que poseen acciones que cotizan en las bolsas NYSE o NASDAQ, y captura aproximadamente el 80% de toda la capitalización de mercado en Estados Unidos. Los componentes del índice S&P 500 y su ponderación son determinados por S&P Dow Jones Indices. Se diferencia de otros índices de mercados financieros de Estados Unidos, tales como el Dow Jones Industrial Average o el índice Nasdaq Composite, en la diversidad de los rubros que lo conforman y en su metodología de ponderación. Es uno de los índices de valores más seguidos, y muchas personas lo consideran el más representativo del mercado de acciones de Estados Unidos, y el marcador de tendencias de la economía norteamericana.3​ El National Bureau of Economic Research ha clasificado a las acciones comunes como un indicador relevante de los ciclos de negocios.4​


"""

In [70]:
documento = nlp(texto)

In [71]:
for i in documento.sents: # recorre todas las horaciones del documento
    print(i)


El índice Standard & Poor's 500 (Standard & Poor's 500 Index), también conocido como S&P 500, es uno de los índices bursátiles más importantes de Estados Unidos.
Al S&P 500 se le considera el índice más representativo de la situación real del mercado.3​

El índice se basa en la capitalización bursátil de 500 grandes empresas que poseen acciones que cotizan en las bolsas NYSE o NASDAQ, y captura aproximadamente el 80% de toda la capitalización de mercado en Estados Unidos.
Los componentes del índice S&P 500 y su ponderación son determinados por S&P Dow Jones Indices.
Se diferencia de otros índices de mercados financieros de Estados Unidos, tales como el Dow Jones Industrial Average o el índice Nasdaq Composite, en la diversidad de los rubros que lo conforman y en su metodología de ponderación.
Es uno de los índices de valores más seguidos, y muchas personas lo consideran el más representativo del mercado de acciones de Estados Unidos, y el marcador de tendencias de la economía norteame

In [74]:
patron_0 = [{'LEMMA': 'índice'}]
matcher_0 = Matcher(nlp.vocab)
matcher_0.add('índice',[patron_0])
resultados = matcher_0(documento, as_spans=True)

for i in resultados:
    print(i)

índice
índices
índice
índice
índice
índices
índice
índices


In [77]:
patron_1 = [{'LEMMA': 'índice'}, {'LENGTH':6}] #busca un elemento que tenga el lemma índice y a continuación un elemento de patrón 6 de longitud

In [78]:
matcher_1 = Matcher(nlp.vocab)
matcher_1.add('índice',[patron_1])
resultados = matcher_1(documento, as_spans=True)

for i in resultados:
    print(i)

índice Nasdaq


Tiene el elemento índice + otro elemento de 6 de longitud

In [79]:
patron_2 = [{'LEMMA': 'índice'}, {'LENGTH': {">=": 5}}] 

In [80]:
matcher_2 = Matcher(nlp.vocab)
matcher_2.add('índice',[patron_2])
resultados = matcher_2(documento, as_spans=True)

for i in resultados:
    print(i)

índice Standard
índices bursátiles
índice Nasdaq


In [81]:
patron_3 = [{'LEMMA': 'índice'}, {'POS':'ADJ'}]  # A continuación de índice tiene que ser un adjetivo

In [82]:
matcher_3 = Matcher(nlp.vocab)
matcher_3.add('índice',[patron_3])
resultados = matcher_3(documento, as_spans=True)

for i in resultados:
    print(i)

índices bursátiles


In [85]:
patron_4 = [{'TEXT': {'REGEX': "[Nn][Aa][Ss][Dd][Aa][Qq]"}}]

In [86]:
matcher_4 = Matcher(nlp.vocab)
matcher_4.add('índice',[patron_4])
resultados = matcher_4(documento, as_spans=True)

for i in resultados:
    print(i)

NASDAQ
Nasdaq


In [87]:
patron_5 = [{'IS_PUNCT':False},
            {'IS_DIGIT':False},
            {'IS_DIGIT':False},
            {'IS_DIGIT': True}

]

In [88]:
matcher_5 = Matcher(nlp.vocab)
matcher_5.add('índice',[patron_5])
resultados = matcher_5(documento, as_spans=True)

for i in resultados:
    print(i)

Standard & Poor's 500
Standard & Poor's 500
conocido como S&P 500
capitalización bursátil de 500
del índice S&P 500
