## Procesamiento del lenguaje natural

#### Tokenizer

In [1]:
# Instalar usando conda install nltk o pip install nltk
import nltk
text="Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A."

In [2]:
from nltk.tokenize import sent_tokenize
sent_tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### PunkSentenceTokenizer

In [3]:
import nltk

tokenizer=nltk.data.load('tokenizers/punkt/spanish.pickle')

tokenizer.tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### WordTokenizer

In [4]:
import nltk
text=nltk.word_tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
print(text)

['Bienvenid', '@', 's', '!', 'En', 'este', 'módulo', 'vamos', 'a', 'aprender', 'sobre', 'nlp', '.', 'Usaremos', 'la', 'biblioteca', 'nltk', '.', 'A.C.A.M.I.C.A', '.']


In [5]:
from nltk.tokenize import WordPunctTokenizer # TreebankWordTokenizer
tokenizer=WordPunctTokenizer() # TreebankWordTokenizer
tokenizer.tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
   

['Bienvenid',
 '@',
 's',
 '!',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 '.',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 '.',
 'A',
 '.',
 'C',
 '.',
 'A',
 '.',
 'M',
 '.',
 'I',
 '.',
 'C',
 '.',
 'A',
 '.']

In [6]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
tokenizer.tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")

['Bienvenid',
 's',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 'A',
 'C',
 'A',
 'M',
 'I',
 'C',
 'A']

### Normalización

#### lowercase

In [7]:
text='ESTAmos ModIFICANDO lAS LETRas'
print(text.lower())
print(text.upper())


estamos modificando las letras
ESTAMOS MODIFICANDO LAS LETRAS


#### stopwords

In [8]:
import nltk
from nltk.corpus import stopwords
stops=set(stopwords.words('spanish'))


In [9]:
stops

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [10]:
text="Vamos al parque del sur?"
word_tokens = nltk.word_tokenize(text)
# Eliminamos las palabras que estén en las stopwords
[word for word in word_tokens if word not in stops]


['Vamos', 'parque', 'sur', '?']

In [11]:
stops

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

#### Frecuencia de palabras 

In [12]:
from bs4 import BeautifulSoup
import urllib.request
# Obtenemos el html de la página de acámica de Data Science
response = urllib.request.urlopen('https://www.acamica.com/data-science')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text()


In [13]:
# Tokenizamos el resultado
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
word_tokens = tokenizer.tokenize(text)
# Sacamos stopwords y convertimos en minúscula
text_tokens = [word.lower() for word in word_tokens if word not in stops]

In [14]:
# Calculamos la frecuencia de las palabras
freq = nltk.FreqDist(text_tokens)
sorted_by_value = sorted(freq.items(), key=lambda kv: kv[1], reverse=True)
for key,val in sorted_by_value:
    print (str(key) + ':' + str(val))

null:362
0:226
width:221
acamica:200
font:199
margin:160
https:149
height:145
0px:144
title:138
color:137
text:129
display:126
auto:121
flex:111
alt:110
20:110
url:107
link:98
background:97
prismic:95
io:95
padding:91
dimensions:90
copyright:90
size:86
border:84
16px:82
type:75
false:75
family:70
1:69
rubik:68
left:68
data:65
roboto:65
true:64
align:61
com:60
none:59
center:59
block:58
images:57
compress:57
format:57
arial:56
svg:55
position:53
weight:52
datos:51
top:49
description:49
tarjeta:48
qué:47
__typename:47
id:47
box:45
school:45
img:44
direction:43
helvetica:41
min:41
max:41
web:41
plan:41
ordersection:41
reference:41
ocultar:41
hide:41
bottom:40
mostrarlink:40
desarrollo:40
cdn:38
sans:37
serif:37
modelos:36
crédito:36
heading1:36
spans:36
voy:35
name:35
32px:34
png:34
science:33
rgba:32
line:32
media:32
solid:32
100:32
crear:32
forma:32
en:31
preguntas:31
analytics:31
sprint:30
2:29
500:29
transform:29
style:29
300:29
justify:28
content:28
method:28
proccessor:28
typeid:28


#### N-gramas

In [15]:
from nltk import ngrams
# Bigramas
n = 2
bigrams = ngrams(text_tokens, n)

for grams in bigrams:
    print(grams)

('body', 'margin')
('margin', '0')
('0', 'font')
('font', 'size')
('size', '16px')
('16px', 'important')
('important', 'overflow')
('overflow', 'x')
('x', 'hidden')
('hidden', 'overflow')
('overflow', 'auto')
('auto', 'programa')
('programa', 'intensivo')
('intensivo', 'data')
('data', 'science')
('science', 'acámica')
('acámica', 'muisvgicon')
('muisvgicon', 'root')
('root', 'fill')
('fill', 'currentcolor')
('currentcolor', 'width')
('width', '1em')
('1em', 'height')
('height', '1em')
('1em', 'display')
('display', 'inline')
('inline', 'block')
('block', 'font')
('font', 'size')
('size', '1')
('1', '5rem')
('5rem', 'transition')
('transition', 'fill')
('fill', '200ms')
('200ms', 'cubic')
('cubic', 'bezier')
('bezier', '0')
('0', '4')
('4', '0')
('0', '0')
('0', '2')
('2', '1')
('1', '0ms')
('0ms', 'flex')
('flex', 'shrink')
('shrink', '0')
('0', 'user')
('user', 'select')
('select', 'none')
('none', 'muisvgicon')
('muisvgicon', 'colorprimary')
('colorprimary', 'color')
('color', '5500

#### Stemmer 

In [16]:
# Busca las raíces de las palabras
from nltk import word_tokenize
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

In [17]:
# La raíz de correr es corr
stemmer.stem('correr')

'corr'

#### Lemmatizer

In [20]:
# Instalar pattern con pip install Pattern (necesita mysql como dependencia)
# Pattern.es -> español
from pattern.es import singularize, pluralize, conjugate

print(singularize('gatos'))
print(pluralize('gato'))
print(conjugate('soy')) #Devuelve el infinitivo


ModuleNotFoundError: No module named 'pattern'

In [21]:
from pattern.es import parsetree

pt = parsetree('Los perros se esconden debajo del sofá.', lemmata=True)
for sentence in pt: 
    for lemmata in sentence.lemmata: 
        print(lemmata)

ModuleNotFoundError: No module named 'pattern'

#### Bag of words

In [22]:
asterion_text = 'Cada nueve años entran en la casa nueve hombres \
para que yo los libere de todo mal. Oigo sus pasos o su voz en el \
fondo de las galerías de piedra y corro alegremente a buscarlos. \
La ceremonia dura pocos minutos. Uno tras otro caen sin que yo me \
ensantgriente las manos. Donde cayeron, quedan, y los cadáveres ayudan\
a distinguir una galería de las otras. Ignoro quiénes son, pero sé que \
uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría \
mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi \
redeentor y al fin se levantará sobre el polvo. Si mi oído alcanzara \
los rumores del mundo, yo percibiría sus pasos. Ojalá me lleve a un \
lugar con menos galerías y menos puertas. ¿Cómo será mi redentor?, me pregunto.\
¿Será un toro o un hombre? ¿Será tal vez un toro con cara de hombre? ¿O será como yo?'

In [23]:
corpus = sent_tokenize(asterion_text)

In [24]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(corpus).todense()[0])
print(vectorizer.vocabulary_)

[[0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0
  1 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
  0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1]]
{'cada': 7, 'nueve': 56, 'años': 5, 'entran': 30, 'en': 27, 'la': 39, 'casa': 11, 'hombres': 36, 'para': 62, 'que': 73, 'yo': 99, 'los': 45, 'libere': 42, 'de': 18, 'todo': 90, 'mal': 47, 'oigo': 57, 'sus': 87, 'pasos': 63, 'su': 86, 'voz': 98, 'el': 25, 'fondo': 32, 'las': 40, 'galerías': 34, 'piedra': 66, 'corro': 16, 'alegremente': 2, 'buscarlos': 6, 'ceremonia': 13, 'dura': 24, 'pocos': 67, 'minutos': 52, 'uno': 95, 'tras': 92, 'otro': 60, 'caen': 9, 'sin': 82, 'me': 49, 'ensantgriente': 28, 'manos': 48, 'donde': 22, 'cayeron': 12, 'quedan': 74, 'cadáveres': 8, 'ayudana': 4, 'distinguir': 21, 'una': 94, 'galería': 33, 'otras': 59, 'ignoro': 38, 'quiénes': 75, 'son': 85, 'pero': 65, 'sé': 88, 'ellos': 26, 'profetizó': 71, 'hora': 37, 'muerte': 53, 'alguna': 3, 'vez': 96, 'llegar

#### Tf-idf

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words=stops)
tfidf_matrix = vectorizer.fit_transform(corpus) 
print(tfidf_matrix.todense()[0])
print(vectorizer.vocabulary_)

#### Similitud

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[8], tfidf_matrix)

In [None]:
corpus[8]

In [None]:
corpus[0]