## Procesamiento del lenguaje natural

#### Tokenizer

In [1]:
# Instalar usando conda install nltk o pip install nltk
import nltk
text="Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A."

In [2]:
from nltk.tokenize import sent_tokenize
sent_tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### PunkSentenceTokenizer

In [3]:
import nltk

tokenizer=nltk.data.load('tokenizers/punkt/spanish.pickle')

tokenizer.tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### WordTokenizer

In [4]:
import nltk
text=nltk.word_tokenize("Bienvenid@s! En este módulo, vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
print(text)

['Bienvenid', '@', 's', '!', 'En', 'este', 'módulo', ',', 'vamos', 'a', 'aprender', 'sobre', 'nlp', '.', 'Usaremos', 'la', 'biblioteca', 'nltk', '.', 'A.C.A.M.I.C.A', '.']


In [5]:
from nltk.tokenize import WordPunctTokenizer # TreebankWordTokenizer
tokenizer=WordPunctTokenizer() # TreebankWordTokenizer
tokenizer.tokenize("Bienvenid@s! En este módulo, vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
   

['Bienvenid',
 '@',
 's',
 '!',
 'En',
 'este',
 'módulo',
 ',',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 '.',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 '.',
 'A',
 '.',
 'C',
 '.',
 'A',
 '.',
 'M',
 '.',
 'I',
 '.',
 'C',
 '.',
 'A',
 '.']

In [6]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
tokenizer.tokenize("Bienvenid@s! En este módulo, vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")

['Bienvenid',
 's',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 'A',
 'C',
 'A',
 'M',
 'I',
 'C',
 'A']

### Normalización

#### lowercase

In [7]:
text='ESTAmos ModIFICANDO lAS LETRas'
print(text.lower())
print(text.upper())


estamos modificando las letras
ESTAMOS MODIFICANDO LAS LETRAS


#### stopwords

In [8]:
import nltk
from nltk.corpus import stopwords
stops=set(stopwords.words('spanish'))


In [9]:
#stops

In [10]:
text="Vamos al parque del sur?"
word_tokens = nltk.word_tokenize(text)
[word for word in word_tokens if word not in stops]


['Vamos', 'parque', 'sur', '?']

In [11]:
#stops

#### Frecuencia de palabras 

In [12]:
from bs4 import BeautifulSoup
import urllib.request
# Obtenemos el html de la página de acámica de Data Science
response = urllib.request.urlopen('https://www.acamica.com/data-science')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text()


In [13]:
# Tokenizamos el resultado
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
word_tokens = tokenizer.tokenize(text)
# Sacamos stopwords y convertimos en minúscula
text_tokens = [word.lower() for word in word_tokens if word not in stops]

In [14]:
# Calculamos la frecuencia de las palabras
freq = nltk.FreqDist(text_tokens)
sorted_by_value = sorted(freq.items(), key=lambda kv: kv[1], reverse=True)
for key,val in sorted_by_value:
    print (str(key) + ':' + str(val))

0:432
00:378
null:335
width:316
online:311
font:233
margin:218
auto:203
color:189
0px:188
000z:186
height:176
flex:174
display:168
2020:168
alt:145
1:130
acamica:130
text:125
padding:124
https:122
background:118
size:117
border:115
url:114
ar:109
ds:104
co:102
prismic:100
io:100
country:99
name:98
title:96
dimensions:95
copyright:95
images:95
compress:95
format:95
startdate:93
mode:93
enddate:93
city:93
last_places:93
schedule_days:93
schedule_times:93
price:93
currency:93
extrainfo:93
extradata:93
countryprice:93
remarkprice:93
installmentsnumber:93
16px:92
mx:91
150:90
position:89
align:89
img:87
2:85
top:85
family:81
roboto:81
none:79
left:79
min:78
rubik:78
s:78
datos:76
block:74
max:71
arial:69
transform:69
center:65
12:65
direction:63
7:61
32px:58
media:58
box:57
rgba:56
6pm:56
7pm:56
weight:55
100:54
30:53
bottom:52
500:52
helvetica:51
sans:50
serif:50
lunes:50
miércoles:50
description:50
proyectos:45
subtitle:45
11:44
martes:43
jueves:43
relative:42
aprendizaje:40
256:40
false:

#### N-gramas

In [15]:
from nltk import ngrams

n = 2
bigrams = ngrams(text_tokens, n)

for grams in bigrams:
    print(grams)

('body', 'margin')
('margin', '0')
('0', 'font')
('font', 'size')
('size', '16px')
('16px', 'important')
('important', 'custom')
('custom', 'carrera')
('carrera', 'data')
('data', 'science')
('science', 'acámica')
('acámica', 'muisvgicon')
('muisvgicon', 'root')
('root', 'fill')
('fill', 'currentcolor')
('currentcolor', 'width')
('width', '1em')
('1em', 'height')
('height', '1em')
('1em', 'display')
('display', 'inline')
('inline', 'block')
('block', 'font')
('font', 'size')
('size', '1')
('1', '5rem')
('5rem', 'transition')
('transition', 'fill')
('fill', '200ms')
('200ms', 'cubic')
('cubic', 'bezier')
('bezier', '0')
('0', '4')
('4', '0')
('0', '0')
('0', '2')
('2', '1')
('1', '0ms')
('0ms', 'flex')
('flex', 'shrink')
('shrink', '0')
('0', 'user')
('user', 'select')
('select', 'none')
('none', 'muisvgicon')
('muisvgicon', 'colorprimary')
('colorprimary', 'color')
('color', '5500ff')
('5500ff', 'muisvgicon')
('muisvgicon', 'colorsecondary')
('colorsecondary', 'color')
('color', 'rgba'

#### Stemmer 

In [16]:
from nltk import word_tokenize
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

In [17]:
stemmer.stem('correr')

'corr'

#### Lemmatizer

In [18]:
# Instalar pattern con pip install Pattern (necesita mysql como dependencia)
from pattern.es import singularize, pluralize, conjugate

print(singularize('gatos'))
print(pluralize('gato'))
print(conjugate('soy'))


gato
gatos


RuntimeError: generator raised StopIteration

In [19]:
from pattern.es import parsetree

pt = parsetree('Los perros se esconden debajo del sofá.', lemmata=True)
for sentence in pt: 
    for lemmata in sentence.lemmata: 
        print(lemmata)

RuntimeError: generator raised StopIteration

#### Bag of words

In [None]:
asterion_text = 'Cada nueve años entran en la casa nueve hombres \
para que yo los libere de todo mal. Oigo sus pasos o su voz en el \
fondo de las galerías de piedra y corro alegremente a buscarlos. \
La ceremonia dura pocos minutos. Uno tras otro caen sin que yo me \
ensantgriente las manos. Donde cayeron, quedan, y los cadáveres ayudan\
a distinguir una galería de las otras. Ignoro quiénes son, pero sé que \
uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría \
mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi \
redeentor y al fin se levantará sobre el polvo. Si mi oído alcanzara \
los rumores del mundo, yo percibiría sus pasos. Ojalá me lleve a un \
lugar con menos galerías y menos puertas. ¿Cómo será mi redentor?, me pregunto.\
¿Será un toro o un hombre? ¿Será tal vez un toro con cara de hombre? ¿O será como yo?'

In [None]:
corpus = sent_tokenize(asterion_text)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(corpus).todense()[0])
print(vectorizer.vocabulary_)

#### Tf-idf

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words=stops)
tfidf_matrix = vectorizer.fit_transform(corpus) 
print(tfidf_matrix.todense()[0])
print(vectorizer.vocabulary_)

#### Similitud

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[8], tfidf_matrix)

In [None]:
corpus[8]

In [None]:
corpus[0]