## Procesamiento del lenguaje natural

#### Tokenizer

In [1]:
# Instalar usando conda install nltk o pip install nltk
import nltk
text="Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A."

In [2]:
text

'Bienvenid@s! En este módulo vamos a aprender sobre nlp.       Usaremos la biblioteca nltk. A.C.A.M.I.C.A.'

In [3]:
from nltk.tokenize import sent_tokenize
sent_tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### PunkSentenceTokenizer

<p>utilizo distintos idiomas</p>

In [4]:
import nltk

tokenizer=nltk.data.load('tokenizers/punkt/spanish.pickle')

tokenizer.tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### WordTokenizer

In [5]:
import nltk
text=nltk.word_tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
print(text)

['Bienvenid', '@', 's', '!', 'En', 'este', 'módulo', 'vamos', 'a', 'aprender', 'sobre', 'nlp', '.', 'Usaremos', 'la', 'biblioteca', 'nltk', '.', 'A.C.A.M.I.C.A', '.']


In [6]:
from nltk.tokenize import WordPunctTokenizer # TreebankWordTokenizer
tokenizer=WordPunctTokenizer() # TreebankWordTokenizer
tokenizer.tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
   

['Bienvenid',
 '@',
 's',
 '!',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 '.',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 '.',
 'A',
 '.',
 'C',
 '.',
 'A',
 '.',
 'M',
 '.',
 'I',
 '.',
 'C',
 '.',
 'A',
 '.']

In [7]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+") # \w busca sólo palabras
tokenizer.tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")

['Bienvenid',
 's',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 'A',
 'C',
 'A',
 'M',
 'I',
 'C',
 'A']

### Normalización

#### lowercase

In [8]:
text='ESTAmos ModIFICANDO lAS LETRas'
print(text.lower())
print(text.upper())


estamos modificando las letras
ESTAMOS MODIFICANDO LAS LETRAS


#### stopwords

In [9]:
import nltk
from nltk.corpus import stopwords
stops=set(stopwords.words('spanish'))


In [10]:
stops

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [11]:
text="Vamos al parque del sur?"
word_tokens = nltk.word_tokenize(text)
[word for word in word_tokens if word not in stops]


['Vamos', 'parque', 'sur', '?']

#### Frecuencia de palabras 

In [13]:
from bs4 import BeautifulSoup
import urllib.request
#import urllib
# Obtenemos el html de la página de acámica de Data Science
response = urllib.request.urlopen('https://www.acamica.com/data-science')
#response = urllib.urlopen('https://www.acamica.com/data-science')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text()

In [14]:
text = text.encode('utf-8')

In [17]:
# Tokenizamos el resultado
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("\w")
word_tokens = tokenizer.tokenize(text.decode('utf-8'))
# Sacamos stopwords y convertimos en minúscula
text_tokens = [word.lower() for word in word_tokens if word not in stops]

In [18]:
# Calculamos la frecuencia de las palabras
freq = nltk.FreqDist(text_tokens)
sorted_by_value = sorted(freq.items(), key=lambda kv: kv[1], reverse=True)
for key,val in sorted_by_value:
    print (str(key) + ':' + str(val))

s:826
r:801
i:728
n:728
t:717
c:628
d:573
l:467
m:423
u:356
p:353
g:191
b:116
v:105
0:102
h:102
f:92
e:90
_:88
a:85
o:65
2:64
q:57
1:55
j:45
x:42
w:41
z:41
á:35
9:35
ó:34
é:32
5:32
3:31
k:30
4:25
8:24
í:22
6:13
7:12
ú:10
ñ:5
y:4


#### N-gramas

In [19]:
from nltk import ngrams

n = 2
bigrams = ngrams(text_tokens, n)

for grams in bigrams:
    print(grams)

('c', 'r')
('r', 'r')
('r', 'r')
('r', 'd')
('d', 't')
('t', 's')
('s', 'c')
('c', 'i')
('i', 'n')
('n', 'c')
('c', 'a')
('a', 'c')
('c', 'á')
('á', 'm')
('m', 'i')
('i', 'c')
('c', 'b')
('b', 'd')
('d', 'm')
('m', 'r')
('r', 'g')
('g', 'i')
('i', 'n')
('n', '0')
('0', 'c')
('c', 'u')
('u', 's')
('s', 't')
('t', 'm')
('m', 'e')
('e', 'm')
('m', 'p')
('p', 'r')
('r', 's')
('s', 's')
('s', 'm')
('m', 'n')
('n', 't')
('t', 'r')
('r', 's')
('s', 'e')
('e', 'q')
('q', 'u')
('u', 'i')
('i', 'p')
('p', 'c')
('c', 'r')
('r', 'r')
('r', 'r')
('r', 's')
('s', 'k')
('k', 'b')
('b', 'r')
('r', 'd')
('d', '_')
('_', 'r')
('r', 'r')
('r', 'w')
('w', '_')
('_', 'd')
('d', 'w')
('w', 'n')
('n', 'm')
('m', 'n')
('n', 'u')
('u', 'd')
('d', 's')
('s', 'r')
('r', 'r')
('r', 'l')
('l', 'l')
('l', 'w')
('w', 'b')
('b', 'f')
('f', 'u')
('u', 'l')
('l', 'l')
('l', 's')
('s', 't')
('t', 'c')
('c', 'k')
('k', 'd')
('d', 'i')
('i', 's')
('s', 'ñ')
('ñ', 'u')
('u', 'x')
('x', 'u')
('u', 'i')
('i', 'd')
('d', 't')

('u', 'n')
('n', 'q')
('q', 'u')
('u', 'i')
('i', 'p')
('p', 'd')
('d', 'm')
('m', 'n')
('n', 't')
('t', 'r')
('r', 's')
('s', 'a')
('a', 'p')
('p', 'r')
('r', 'n')
('n', 'd')
('d', 'n')
('n', 'c')
('c', 'l')
('l', 's')
('s', 's')
('s', 'i')
('i', 'n')
('n', 'n')
('n', 'v')
('v', 'd')
('d', 'r')
('r', 's')
('s', 'j')
('j', 'u')
('u', 'n')
('n', 't')
('t', 't')
('t', 'u')
('u', 's')
('s', 'c')
('c', 'm')
('m', 'p')
('p', 'ñ')
('ñ', 'r')
('r', 's')
('s', 'g')
('g', 'u')
('u', 'i')
('i', 'd')
('d', 's')
('s', 'p')
('p', 'r')
('r', 'n')
('n', 'u')
('u', 's')
('s', 't')
('t', 'r')
('r', 's')
('s', 'm')
('m', 'n')
('n', 't')
('t', 'r')
('r', 's')
('s', 'x')
('x', 'p')
('p', 'r')
('r', 't')
('t', 's')
('s', 'p')
('p', 'r')
('r', 'c')
('c', 't')
('t', 's')
('s', 'r')
('r', 'l')
('l', 's')
('s', 'd')
('d', 'l')
('l', 'm')
('m', 'n')
('n', 'd')
('d', 'x')
('x', 'p')
('p', 'r')
('r', 't')
('t', 's')
('s', 'r')
('r', 'l')
('l', 's')
('s', 'c')
('c', 'r')
('r', 'm')
('m', 's')
('s', 'q')
('q', 'u')

('m', 'b')
('b', 'i')
('i', 't')
('t', 'p')
('p', 'r')
('r', 'g')
('g', 'u')
('u', 'n')
('n', 't')
('t', 's')
('s', 'f')
('f', 'r')
('r', 'c')
('c', 'u')
('u', 'n')
('n', 't')
('t', 's')
('s', 'c')
('c', 'ó')
('ó', 'm')
('m', 'p')
('p', 'u')
('u', 'd')
('d', 'p')
('p', 'g')
('g', 'r')
('r', 'm')
('m', 'i')
('i', 'i')
('i', 'n')
('n', 's')
('s', 'c')
('c', 'r')
('r', 'i')
('i', 'p')
('p', 'c')
('c', 'i')
('i', 'ó')
('ó', 'n')
('n', 'y')
('y', 'l')
('l', 's')
('s', 'c')
('c', 'u')
('u', 't')
('t', 's')
('s', 's')
('s', 'g')
('g', 'ú')
('ú', 'n')
('n', 't')
('t', 'u')
('u', 'p')
('p', 'í')
('í', 's')
('s', 'd')
('d', 'r')
('r', 's')
('s', 'i')
('i', 'd')
('d', 'n')
('n', 'c')
('c', 'i')
('i', 'c')
('c', 'u')
('u', 'n')
('n', 't')
('t', 's')
('s', 'c')
('c', 'n')
('n', 'd')
('d', 'i')
('i', 's')
('s', 't')
('t', 'i')
('i', 'n')
('n', 't')
('t', 's')
('s', 'p')
('p', 'c')
('c', 'i')
('i', 'n')
('n', 's')
('s', 'a')
('a', 'r')
('r', 'g')
('g', 'n')
('n', 't')
('t', 'i')
('i', 'n')
('n', 't')

('1', '9')
('9', '0')
('0', '4')
('4', '1')
('1', '6')
('6', 's')
('s', 'c')
('c', 'h')
('h', 'd')
('d', 'u')
('u', 'l')
('l', '_')
('_', 'd')
('d', 's')
('s', 'm')
('m', 'r')
('r', 't')
('t', 's')
('s', 'j')
('j', 'u')
('u', 'v')
('v', 's')
('s', 's')
('s', 'c')
('c', 'h')
('h', 'd')
('d', 'u')
('u', 'l')
('l', '_')
('_', 't')
('t', 'i')
('i', 'm')
('m', '1')
('1', '9')
('9', '2')
('2', '2')
('2', 'h')
('h', 's')
('s', 'l')
('l', 's')
('s', 't')
('t', '_')
('_', 'p')
('p', 'l')
('l', 'c')
('c', 's')
('s', 'f')
('f', 'l')
('l', 's')
('s', 'p')
('p', 'r')
('r', 'i')
('i', 'c')
('c', 'a')
('a', 'r')
('r', '5')
('5', '9')
('9', '9')
('9', '0')
('0', 'm')
('m', 'd')
('d', 'b')
('b', 'l')
('l', 'n')
('n', 'd')
('d', 'd')
('d', 'c')
('c', 'i')
('i', 't')
('t', 'o')
('o', 'n')
('n', 'l')
('l', 'i')
('i', 'n')
('n', 'e')
('e', 'c')
('c', 'd')
('d', 'm')
('m', 'd')
('d', 'q')
('q', 'n')
('n', 'm')
('m', 'm')
('m', 'r')
('r', 'd')
('d', 'l')
('l', 'p')
('p', 'l')
('l', 't')
('t', 'p')
('p', 'r')

('u', 'l')
('l', 'l')
('l', 'c')
('c', 't')
('t', 'g')
('g', 'r')
('r', 'd')
('d', 'p')
('p', 'r')
('r', 't')
('t', 'u')
('u', 't')
('t', 'h')
('h', 'r')
('r', 'n')
('n', 'm')
('m', 'b')
('b', 'r')
('r', 'i')
('i', 'n')
('n', 'l')
('l', 's')
('s', 't')
('t', 'n')
('n', 'm')
('m', 'l')
('l', 'i')
('i', 't')
('t', 'w')
('w', 'k')
('k', 'b')
('b', 'i')
('i', 'd')
('d', 't')
('t', 's')
('s', 'c')
('c', 'i')
('i', 'n')
('n', 't')
('t', 'i')
('i', 's')
('s', 't')
('t', 'n')
('n', 's')
('s', 'i')
('i', 'i')
('i', 's')
('s', 'n')
('n', 'u')
('u', 'm')
('m', 'b')
('b', 'r')
('r', '3')
('3', 'q')
('q', 'u')
('u', 't')
('t', 'h')
('h', 'p')
('p', 'd')
('d', 'm')
('m', 's')
('s', 'c')
('c', 'n')
('n', 't')
('t', 'r')
('r', 'i')
('i', 'b')
('b', 'u')
('u', 'i')
('i', 'r')
('r', 'm')
('m', 'j')
('j', 'r')
('r', 'r')
('r', 'l')
('l', 'd')
('d', 'i')
('i', 'g')
('g', 'n')
('n', 'ó')
('ó', 's')
('s', 't')
('t', 'i')
('i', 'c')
('c', 'm')
('m', 'é')
('é', 'd')
('d', 'i')
('i', 'c')
('c', 't')
('t', 'r')

#### Stemmer 

In [20]:
from nltk import word_tokenize
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

In [21]:
stemmer.stem('correr')

'corr'

#### Lemmatizer

In [24]:
# Instalar pattern con pip install Pattern (necesita mysql como dependencia)
from pattern.es import singularize, pluralize, conjugate

#from pattern import *#, pluralize, conjugate

print(singularize('gatos'))
print(pluralize('gato'))
print(conjugate('soy'))


gato
gatos
ser


In [35]:
from pattern.es import parsetree

pt = parsetree('Los perros se esconden debajo del sofa.', lemmata=True)
for sentence in pt: 
    for lemmata in sentence.lemmata: 
        print(lemmata)        

        

el
perro
se
esconder
debajo
del
sofa
.


#### Bag of words

In [36]:
asterion_text = 'Cada nueve años entran en la casa nueve hombres \
para que yo los libere de todo mal. Oigo sus pasos o su voz en el \
fondo de las galerías de piedra y corro alegremente a buscarlos. \
La ceremonia dura pocos minutos. Uno tras otro caen sin que yo me \
ensantgriente las manos. Donde cayeron, quedan, y los cadáveres ayudan\
a distinguir una galería de las otras. Ignoro quiénes son, pero sé que \
uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría \
mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi \
redeentor y al fin se levantará sobre el polvo. Si mi oído alcanzara \
los rumores del mundo, yo percibiría sus pasos. Ojalá me lleve a un \
lugar con menos galerías y menos puertas. ¿Cómo será mi redentor?, me pregunto.\
¿Será un toro o un hombre? ¿Será tal vez un toro con cara de hombre? ¿O será como yo?'

In [38]:
corpus = sent_tokenize(asterion_text)

In [39]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(corpus).todense()[0])
print(vectorizer.vocabulary_)

[[0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0
  1 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
  0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1]]
{'cada': 7, 'nueve': 56, 'años': 5, 'entran': 30, 'en': 27, 'la': 39, 'casa': 11, 'hombres': 36, 'para': 62, 'que': 73, 'yo': 99, 'los': 45, 'libere': 42, 'de': 18, 'todo': 90, 'mal': 47, 'oigo': 57, 'sus': 87, 'pasos': 63, 'su': 86, 'voz': 98, 'el': 25, 'fondo': 32, 'las': 40, 'galerías': 34, 'piedra': 66, 'corro': 16, 'alegremente': 2, 'buscarlos': 6, 'ceremonia': 13, 'dura': 24, 'pocos': 67, 'minutos': 52, 'uno': 95, 'tras': 92, 'otro': 60, 'caen': 9, 'sin': 82, 'me': 49, 'ensantgriente': 28, 'manos': 48, 'donde': 22, 'cayeron': 12, 'quedan': 74, 'cadáveres': 8, 'ayudana': 4, 'distinguir': 21, 'una': 94, 'galería': 33, 'otras': 59, 'ignoro': 38, 'quiénes': 75, 'son': 85, 'pero': 65, 'sé': 88, 'ellos': 26, 'profetizó': 71, 'hora': 37, 'muerte': 53, 'alguna': 3, 'vez': 96, 'llegar

#### Tf-idf

In [40]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words=stops)
tfidf_matrix = vectorizer.fit_transform(corpus) 
print(tfidf_matrix.todense()[0])
print(vectorizer.vocabulary_)

[[0.         0.         0.         0.         0.30151134 0.
  0.30151134 0.         0.         0.         0.30151134 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.30151134 0.         0.         0.
  0.         0.         0.30151134 0.         0.         0.
  0.30151134 0.         0.         0.         0.30151134 0.
  0.         0.         0.         0.         0.60302269 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]]
{'cada': 6, 'nueve': 40, 'años': 4, 'entran': 20, 'casa': 10, 'hombres': 26, 'libere': 30, 'mal': 34, 'oigo': 41, 'pasos': 44, 'voz': 65, 'fondo': 22, 'galerías': 24, 'piedra': 46, 'corro': 13, 'alegremente': 1, 'buscarlos': 5, 'ceremonia': 12, 'dura': 17, 'pocos': 47, 'minutos': 37, 'tras': 62, 'caen': 8, 'ensantgriente': 18, '

#### Similitud

In [41]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[8], tfidf_matrix)

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.0788901 , 0.        , 0.        , 1.        , 0.34859007,
        0.        ]])

In [42]:
corpus[8]

'¿Cómo será mi redentor?, me pregunto.¿Será un toro o un hombre?'

In [43]:
corpus[0]

'Cada nueve años entran en la casa nueve hombres para que yo los libere de todo mal.'