# Introduccion --> Español

In [1]:
#instalamos la libreria
#!pip3 install spacy

In [2]:
# instalamos la dependencia de ingles
# !python3 -m spacy download en_core_web_sm

In [3]:
# instalamos la dependencia de español
# !python3 -m spacy download es_core_news_sm

'es_core_news_md'
'es_core_news_lg'
'es_dep_news_trf'

In [4]:
# importamos la libreria
import spacy

In [5]:
# Cargamos un modelo pre-entrenado 
nlp = spacy.load('es_core_news_sm')

In [6]:
# Hacemos un documento de prueba
text = 'LA Electronics esta buscando nuevos empleados en la cuidad de Barranqquilla C.O. para contratarlos por $1 Millón pesos. Poder ampliar la cantidad de proyecto en los que puede trabajar. Ahí estan Felipe y Melissa lo cuales empezaron a trabajar en el año 2020'

In [7]:
# lo hacemos un objeto de spacy
doc = nlp(text)

# Tokenozation

In [8]:
# imprimimos las palabras en doc
for word in doc:
    print(word.text)

LA
Electronics
esta
buscando
nuevos
empleados
en
la
cuidad
de
Barranqquilla
C.O.
para
contratarlos
por
$
1
Millón
pesos
.
Poder
ampliar
la
cantidad
de
proyecto
en
los
que
puede
trabajar
.
Ahí
estan
Felipe
y
Melissa
lo
cuales
empezaron
a
trabajar
en
el
año
2020


In [9]:
tokenizer = nlp.tokenizer

In [10]:
tokens = tokenizer(text)
len(tokens)

46

# Parts of Speech [POS] Tagging

In [11]:
doc

LA Electronics esta buscando nuevos empleados en la cuidad de Barranqquilla C.O. para contratarlos por $1 Millón pesos. Poder ampliar la cantidad de proyecto en los que puede trabajar. Ahí estan Felipe y Melissa lo cuales empezaron a trabajar en el año 2020

In [12]:
for token in doc:
    print(f'{token.text:13} : {token.pos_}')

LA            : DET
Electronics   : PROPN
esta          : DET
buscando      : VERB
nuevos        : ADJ
empleados     : NOUN
en            : ADP
la            : DET
cuidad        : NOUN
de            : ADP
Barranqquilla : PROPN
C.O.          : PROPN
para          : ADP
contratarlos  : VERB
por           : ADP
$             : PROPN
1             : NUM
Millón        : PROPN
pesos         : NOUN
.             : PUNCT
Poder         : AUX
ampliar       : VERB
la            : DET
cantidad      : NOUN
de            : ADP
proyecto      : NOUN
en            : ADP
los           : DET
que           : PRON
puede         : AUX
trabajar      : VERB
.             : PUNCT
Ahí           : ADV
estan         : VERB
Felipe        : PROPN
y             : CCONJ
Melissa       : PROPN
lo            : PRON
cuales        : PRON
empezaron     : VERB
a             : ADP
trabajar      : VERB
en            : ADP
el            : DET
año           : NOUN
2020          : NUM


# Visualizacion

In [13]:
from spacy import displacy

In [14]:
displacy.render(doc,
                style='dep',
                options={'distance':100,
                        'compact':True})

# Name Entity Recognition [NER]

In [15]:
for ent in doc.ents:
    print(f'{ent.text:18} : {ent.label_}')

LA Electronics     : MISC
Barranqquilla C.O. : LOC
Millón             : MISC
Poder              : PER
Ahí                : MISC
Felipe             : PER
Melissa            : PER


In [16]:
displacy.render(doc, style='ent')
# no reconoce la fecha

# Sentence segmentation

In [17]:
for sent in doc.sents:
    print(sent)
    print(' ')

LA Electronics esta buscando nuevos empleados en la cuidad de Barranqquilla C.O. para contratarlos por $1 Millón pesos.
 
Poder ampliar la cantidad de proyecto en los que puede trabajar.
 
Ahí estan Felipe y Melissa lo cuales empezaron a trabajar en el año 2020
 


# Phrase Matching

In [83]:
text2 = "Hello,World es un pequeño programa llamado 'hello world' en el que el programador imprime la palabra hello world , es una tradicion"

In [84]:
from spacy.matcher import Matcher
from spacy.tokens import Span

In [85]:
doc2 = nlp(text2)

In [92]:
# creamos un patron de reconocimiento 
pattern = [{'LOWER':'hello'},{'IS_PUNCT':True, 'OP':'?'},{'LOWER':'world'}]

In [93]:
matcher = Matcher(nlp.vocab)

In [94]:
# creamos el Id del matcher
matcher.add('hw', [pattern])

In [95]:
matches = matcher(doc2)

In [96]:
matches

[(17790654416186116455, 0, 3),
 (17790654416186116455, 9, 11),
 (17790654416186116455, 20, 22)]

In [97]:
for id,start,end in matches:
    span = doc2[start:end]
    print(f'{id} : {start:3} - {end:3} :{span.text}')

17790654416186116455 :   0 -   3 :Hello,World
17790654416186116455 :   9 -  11 :hello world
17790654416186116455 :  20 -  22 :hello world


# Regular expresion

In [None]:
# secuencia de caracteres que definen un patron

In [98]:
text3 = 'Mi numero es CELULAR ES 01234 y la cedula es 56789 '

In [99]:
# importamos la libreia
import re

In [113]:
# encontrar el primer grupo de 5 numeros
re.search(r'\d{5}',text3)

<re.Match object; span=(24, 29), match='01234'>

In [107]:
re.search(r'\d{3}',text3)
# encontrar el primer grupo de 3 numeros

<re.Match object; span=(24, 27), match='012'>

In [116]:
# encontrar todos los digitos que esten en grupos de 1 o hasta el 10
re.findall(r'\d{1,10}',text3)

['01234', '56789']

In [111]:
# encontrar todos los grupos de numeros individuales
re.findall(r'\d',text3)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [117]:
# encontrar todos los numeros agrupados
re.findall(r'\d+',text3)

['01234', '56789']

In [125]:
# encontrar todas las palabras
re.findall(r'\w+',text3)

['Mi',
 'numero',
 'es',
 'CELULAR',
 'ES',
 '01234',
 'y',
 'la',
 'cedula',
 'es',
 '56789']

In [132]:
# encontrar todo lo que comience con u, tres espacios depues
re.findall(r'u...',text3)

['umer', 'ula ']

In [142]:
# encontrar todo lo que tenga u<lo_que_sea>a
print(re.findall(r'e.u',text3))
print(re.findall(r'E.U',text3))

['edu']
['ELU']


In [146]:
# todo menos los numeros
re.findall(r'[^\d]+',text3)

['Mi numero es CELULAR ES ', ' y la cedula es ', ' ']

In [147]:
# todo menos letras
re.findall(r'[^\D]+',text3)

['01234', '56789']