# Etapas/Actividades comunes en NLP

___________________________________________

In [29]:
try:
    import nltk
    print("Libreria: 'nltk' esta instalada y se cargo correctamente")
except ModuleNotFoundError:
    print("Libreria: 'nltk' no esta instalada, se debe instalar")
    !(pip install nltk)
    import nltk

Libreria: 'nltk' esta instalada y se cargo correctamente


In [30]:
try:
    import spacy
    print("Libreria: 'spacy' esta instalada y se cargo correctamente")
except ModuleNotFoundError:
    print("Libreria: 'spacy' no esta instalada, se debe instalar")
    !(pip install spacy)
    import spacy

Libreria: 'spacy' esta instalada y se cargo correctamente


### Tokens

In [31]:
oracion = """Hello World. Have a nice day."""

In [32]:
sentencias = nltk.sent_tokenize(oracion)

In [33]:
for sen in sentencias: 
    print(sen)

Hello World.
Have a nice day.


In [34]:
token_espanol = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [35]:
oracion = """Hola mundo. Que tengas un dia hermoso."""

In [36]:
sentencias = token_espanol.tokenize(oracion)

In [37]:
for sen in sentencias: 
    print(sen)

Hola mundo.
Que tengas un dia hermoso.


______________________________

In [38]:
tokens_palabras = nltk.word_tokenize(oracion)

In [39]:
for palabra in tokens_palabras: 
    print(palabra)

Hola
mundo
.
Que
tengas
un
dia
hermoso
.


In [40]:
tokens_regexp = nltk.tokenize.regexp_tokenize(oracion, "[\w']+")

In [41]:
for palabra in tokens_regexp: 
    print(palabra)

Hola
mundo
Que
tengas
un
dia
hermoso


_________________________

#### Stop Words

In [42]:
sw_espanol = set( nltk.corpus.stopwords.words('spanish'))

In [43]:
sw_espanol

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [44]:
sw_espanol.update(['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}'])

In [45]:
tokens_palabras = nltk.word_tokenize(oracion)

In [46]:
for palabra in tokens_palabras:
    if palabra.lower() not in sw_espanol:
        print("No es SW = " + palabra)

No es SW = Hola
No es SW = mundo
No es SW = dia
No es SW = hermoso


In [47]:
oracion = """La coleccion es buena pero me gustaria que se venda por Internet."""

In [48]:
tokens_palabras = nltk.word_tokenize(oracion)

In [49]:
for palabra in tokens_palabras:
    if palabra.lower() not in sw_espanol:
        print("No es SW = " + palabra)

No es SW = coleccion
No es SW = buena
No es SW = gustaria
No es SW = venda
No es SW = Internet


_____________________________

***Stemming:*** es transformar palabras a sus raíces, estas son la parte invariable de palabras.

In [50]:
from nltk import SnowballStemmer

In [51]:
stemmer_espanol=SnowballStemmer("spanish")

In [52]:
tokens_palabras = nltk.word_tokenize(oracion)

In [53]:
for palabra in tokens_palabras:
    print(stemmer_espanol.stem(palabra))

la
coleccion
es
buen
per
me
gustari
que
se
vend
por
internet
.


__________________

***Lematización:*** remplaza una palabra derivada por su version canónica

In [54]:
#Atencion: la instalacion por defecto de spacy no isntala la libreria en español, debe ser ejecutada manualmente.
nlp = spacy.load('./es_core_news_sm\es_core_news_sm-3.6.0')

In [55]:
lema = nlp(oracion)

In [56]:
for palabra in lema:
    print(palabra.lemma_.lower())


el
coleccion
ser
buen
pero
yo
gustariar
que
él
vendar
por
internet
.


________________________