In [1]:
import nltk
from nltk.tokenize import sent_tokenize

### sent_tokenize permite realizar la tokenización por frases

**En este caso nltk es capaz de procesar _A.C.A.M.I.C.A_ como una palabra completa, a pesar de estar separada por puntos** 

In [2]:
texto = 'Bienvenid@s! Este es el curso de ciencia de datos!. Aquí vas a aprender lo básico de nltk. Usando los videos de A.C.A.M.I.C.A'
sent_tokenize(texto)

['Bienvenid@s!',
 'Este es el curso de ciencia de datos!.',
 'Aquí vas a aprender lo básico de nltk.',
 'Usando los videos de A.C.A.M.I.C.A']

## PunkSentenceTokenizer

**Permite cargar un tokenizador para un lenguaje específico, de nuevo interpreta _A.C.A.M.I.C.A_ como una sola palabra**

In [3]:
tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')
tokenizer.tokenize(texto)

['Bienvenid@s!',
 'Este es el curso de ciencia de datos!.',
 'Aquí vas a aprender lo básico de nltk.',
 'Usando los videos de A.C.A.M.I.C.A']

## WordTokenizer
**Tokeniza por palabras, en este caso vemos que los signos de puntuación y carácteres especiales son tratados como palabras.**

**Una vez más _A.C.A.M.I.C.A_ es interpretada como una palabra**

In [4]:
palabras = nltk.word_tokenize(texto)
print(palabras)

['Bienvenid', '@', 's', '!', 'Este', 'es', 'el', 'curso', 'de', 'ciencia', 'de', 'datos', '!', '.', 'Aquí', 'vas', 'a', 'aprender', 'lo', 'básico', 'de', 'nltk', '.', 'Usando', 'los', 'videos', 'de', 'A.C.A.M.I.C.A']


## WordPunctTokenizer

**Tokeniza por signos de puntuación**

In [5]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
tokenizer.tokenize(texto)

['Bienvenid',
 '@',
 's',
 '!',
 'Este',
 'es',
 'el',
 'curso',
 'de',
 'ciencia',
 'de',
 'datos',
 '!.',
 'Aquí',
 'vas',
 'a',
 'aprender',
 'lo',
 'básico',
 'de',
 'nltk',
 '.',
 'Usando',
 'los',
 'videos',
 'de',
 'A',
 '.',
 'C',
 '.',
 'A',
 '.',
 'M',
 '.',
 'I',
 '.',
 'C',
 '.',
 'A']

## RegexpTokenizer (expresiones regulares)

In [6]:
from nltk.tokenize import RegexpTokenizer
# Le expresión regular tendrá en cuenta solo las palabras
tokenizer = RegexpTokenizer('[\w]+')
tokenizer.tokenize(texto)

['Bienvenid',
 's',
 'Este',
 'es',
 'el',
 'curso',
 'de',
 'ciencia',
 'de',
 'datos',
 'Aquí',
 'vas',
 'a',
 'aprender',
 'lo',
 'básico',
 'de',
 'nltk',
 'Usando',
 'los',
 'videos',
 'de',
 'A',
 'C',
 'A',
 'M',
 'I',
 'C',
 'A']

In [91]:
import warnings
warnings.filterwarnings('ignore')

## Stopwords (palabras como prefijos, sufijos, preposiciones ..etc)

In [94]:
nltk.download('stopwords')
from nltk.corpus import stopwords
stops = set(stopwords.words('spanish'))
#stops

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\diego.nieto\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
texto = 'vamos al parque del sur?'
words = nltk.word_tokenize(texto)
[word for word in words if word not in stops]

['vamos', 'parque', 'sur', '?']

## Frecuencia de las palabras

In [10]:
from bs4 import BeautifulSoup
import urllib.request

In [35]:
response = urllib.request.urlopen('https://www.acamica.com/data-science')
html = response.read()
soup = BeautifulSoup(html, 'html5lib')
text = soup.get_text()
#text

In [96]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('[\w]+')
tokens = tokenizer.tokenize(text)
words = [word.lower() for word in tokens if word not in stops]
#words

### Calcular la frecuencia de las palabras


**_Signature: sorted(iterable, /, *, key=None, reverse=False)_**

Docstring:

**Return a new list containing all items from the iterable in ascending order.**

A custom key function can be supplied to customize the sort order, and the
**reverse flag can be set to request the result in descending order**.

**freq.items():**
 ... dict_items([('carrera', 4), ('data', 6), ('science', 4), ('acámicabody', 1)...

In [36]:
freq = nltk.FreqDist(words)
freq.items()
sorted_by_value = sorted(freq.items(), key= lambda kv: kv[1], reverse=True)
#mostrar los primeros 10 resultados
sorted_by_value = sorted_by_value[:10]

for key,value in sorted_by_value:
    print(str(key) + ' : ' + str(value))

00 : 87
online : 30
null : 26
2019 : 25
000z : 24
18 : 23
ds : 23
analytics : 21
ar : 20
name : 15


## n-gramas

In [43]:
from nltk import ngrams
bigrams = ngrams(words, 2)

i = 0
for gram in bigrams:
    print(gram)

('carrera', 'data')
('data', 'science')
('science', 'acámicabody')
('acámicabody', 'margin')
('margin', '0')
('0', 'custom')
('custom', 'empresasmentoresequipocarreras')
('empresasmentoresequipocarreras', 'keyboard_arrow_downmenudesarrollo')
('keyboard_arrow_downmenudesarrollo', 'web')
('web', 'full')
('full', 'stackdiseño')
('stackdiseño', 'ux')
('ux', 'uidata')
('uidata', 'sciencereact')
('sciencereact', 'empresasmentoresequipoestudiantesestudiantescarreradata')
('empresasmentoresequipoestudiantesestudiantescarreradata', 'scienceaprendé')
('scienceaprendé', 'manipular')
('manipular', 'infinita')
('infinita', 'cantidad')
('cantidad', 'datos')
('datos', 'alcance')
('alcance', 'crear')
('crear', 'impacto')
('impacto', 'aplica')
('aplica', 'ahoraen')
('ahoraen', 'colaboración')
('colaboración', 'conclosedata')
('conclosedata', 'sciencecaracterísticasplan')
('sciencecaracterísticasplan', 'estudioqué')
('estudioqué', 'vas')
('vas', 'aprenderexperienciapróximas')
('aprenderexperienciapróxim

# Stemmer

### Morfemas

**LEXEMA:** unidad con significado léxico, es decir, aporta a la palabra una idea comprensible para los hablantes. 
**Son ejemplos de lexemas:**
 - panadero: pan-
 - destornillador: tornill-
 
**MORFEMA:** unidad con significado gramatical, es decir, complementa al lexema en género, número, aumentativo, diminutivo y otras terminaciones. 

**Son ejemplos de morfemas:**
 - casita: -ita
 - destapar: des- -ar
 - inaguantable: in- -able

Un buen sistema para descomponer en lexemas y morfemas una palabra es compararla con otras de su misma familia. Normalmente, la parte que se repite es el lexema. 

Observa:

 - **librería:** libro, librero, librito. **Lexema: libr-**
 - **deshacer:** hacer, deshacía, haces. **Lexema: hac-**

In [51]:
from nltk import word_tokenize
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

print(stemmer.stem('corriendo'))
print(stemmer.stem('correr'))
print(stemmer.stem('corrió'))
print('\n')
print(stemmer.stem('libro'))
print(stemmer.stem('librero'))
print(stemmer.stem('librito'))

corr
corr
corr


libr
librer
librit


# Lemmatizer

In [57]:
from pattern.es import singularize, pluralize, conjugate

print(singularize('perros'))
print(pluralize('perrito'))
print(conjugate('estaré'))

perro
perritos
estar


In [62]:
from pattern.es import parsetree

pt = parsetree('los perros se esconden bajo el sofá mientras comen.', lemmata=True)
for sentence in pt:
    for lemmata in sentence.lemmata:
        print(lemmata)

el
perro
se
esconder
bajo
el
sofá
mientras
comer
.


# Bag of words

In [75]:
asterion_text = 'Cada nueve años entran en la casa nueve hombres \
para que yo los libere de todo mal. Oigo sus pasos o su voz en el \
fondo de las galerías de piedra y corro alegremente a buscarlos. \
La ceremonia dura pocos minutos. Uno tras otro caen sin que yo me \
ensantgriente las manos. Donde cayeron, quedan, y los cadáveres ayudan\
a distinguir una galería de las otras. Ignoro quiénes son, pero sé que \
uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría \
mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi \
redeentor y al fin se levantará sobre el polvo. Si mi oído alcanzara \
los rumores del mundo, yo percibiría sus pasos. Ojalá me lleve a un \
lugar con menos galerías y menos puertas. ¿Cómo será mi redentor?, me pregunto.\
¿Será un toro o un hombre? ¿Será tal vez un toro con cara de hombre? ¿O será como yo?'

In [76]:
from nltk.tokenize import sent_tokenize
# tokenizador por frases
corpus = sent_tokenize(asterion_text)

In [77]:
corpus

['Cada nueve años entran en la casa nueve hombres para que yo los libere de todo mal.',
 'Oigo sus pasos o su voz en el fondo de las galerías de piedra y corro alegremente a buscarlos.',
 'La ceremonia dura pocos minutos.',
 'Uno tras otro caen sin que yo me ensantgriente las manos.',
 'Donde cayeron, quedan, y los cadáveres ayudana distinguir una galería de las otras.',
 'Ignoro quiénes son, pero sé que uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi redeentor y al fin se levantará sobre el polvo.',
 'Si mi oído alcanzara los rumores del mundo, yo percibiría sus pasos.',
 'Ojalá me lleve a un lugar con menos galerías y menos puertas.',
 '¿Cómo será mi redentor?, me pregunto.¿Será un toro o un hombre?',
 '¿Será tal vez un toro con cara de hombre?',
 '¿O será como yo?']

In [78]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

print(vectorizer.fit_transform(corpus).todense()[0])

[[0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0
  1 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
  0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1]]


In [79]:
print(vectorizer.vocabulary_)

{'cada': 7, 'nueve': 56, 'años': 5, 'entran': 30, 'en': 27, 'la': 39, 'casa': 11, 'hombres': 36, 'para': 62, 'que': 73, 'yo': 99, 'los': 45, 'libere': 42, 'de': 18, 'todo': 90, 'mal': 47, 'oigo': 57, 'sus': 87, 'pasos': 63, 'su': 86, 'voz': 98, 'el': 25, 'fondo': 32, 'las': 40, 'galerías': 34, 'piedra': 66, 'corro': 16, 'alegremente': 2, 'buscarlos': 6, 'ceremonia': 13, 'dura': 24, 'pocos': 67, 'minutos': 52, 'uno': 95, 'tras': 92, 'otro': 60, 'caen': 9, 'sin': 82, 'me': 49, 'ensantgriente': 28, 'manos': 48, 'donde': 22, 'cayeron': 12, 'quedan': 74, 'cadáveres': 8, 'ayudana': 4, 'distinguir': 21, 'una': 94, 'galería': 33, 'otras': 59, 'ignoro': 38, 'quiénes': 75, 'son': 85, 'pero': 65, 'sé': 88, 'ellos': 26, 'profetizó': 71, 'hora': 37, 'muerte': 53, 'alguna': 3, 'vez': 96, 'llegaría': 43, 'mi': 51, 'redentor': 77, 'desde': 20, 'entonces': 29, 'no': 55, 'duele': 23, 'soledad': 84, 'porque': 69, 'vive': 97, 'redeentor': 76, 'al': 0, 'fin': 31, 'se': 79, 'levantará': 41, 'sobre': 83, 'po

In [82]:
vectorizer = CountVectorizer(ngram_range=(2,3), stop_words=stops)
print(vectorizer.fit_transform(corpus).todense()[0])
print(vectorizer.vocabulary_)

[[0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
  0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0]]
{'cada nueve': 9, 'nueve años': 65, 'años entran': 7, 'entran casa': 34, 'casa nueve': 16, 'nueve hombres': 67, 'hombres libere': 44, 'libere mal': 51, 'cada nueve años': 10, 'nueve años entran': 66, 'años entran casa': 8, 'entran casa nueve': 35, 'casa nueve hombres': 17, 'nueve hombres libere': 68, 'hombres libere mal': 45, 'oigo pasos': 69, 'pasos voz': 75, 'voz fondo': 118, 'fondo galerías': 38, 'galerías piedra': 42, 'piedra corro': 78, 'corro alegremente': 22, 'alegremente buscarlos': 2, 'oigo pasos voz': 70, 'pasos voz fondo': 76, 'voz fondo galerías': 119, 'fondo galerías piedra': 39, 'galerías piedra corro': 43, 'piedra corro alegremente': 79, 'corro alegremente buscarlos': 23, 'ceremonia dura': 20, 'dura pocos': 29, 'pocos minutos

# Term Frequency Inverse Document Frequency - TFidf

**Muestra la relevancia de las palabras en un documento (en este caso las frases del texto de asterion serán los documentos)
si una palabra se encuentra varias veces en varios documentos, es probable que esa palabra sea una _stop word_ o su relevancia sea menor
comparada con una palabra que posee un número menor de ocurrencias**

In [84]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words=stops)
tfidf_matrix = vectorizer.fit_transform(corpus)
print(tfidf_matrix.todense()[0])
print(vectorizer.vocabulary_)

[[0.         0.         0.         0.         0.30151134 0.
  0.30151134 0.         0.         0.         0.30151134 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.30151134 0.         0.         0.
  0.         0.         0.30151134 0.         0.         0.
  0.30151134 0.         0.         0.         0.30151134 0.
  0.         0.         0.         0.         0.60302269 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]]
{'cada': 6, 'nueve': 40, 'años': 4, 'entran': 20, 'casa': 10, 'hombres': 26, 'libere': 30, 'mal': 34, 'oigo': 41, 'pasos': 44, 'voz': 65, 'fondo': 22, 'galerías': 24, 'piedra': 46, 'corro': 13, 'alegremente': 1, 'buscarlos': 5, 'ceremonia': 12, 'dura': 17, 'pocos': 47, 'minutos': 37, 'tras': 62, 'caen': 8, 'ensantgriente': 18, '

# Similitud

**Se evalua la distancia/similaridad del coseno, una vez los documentos han sido representados en forma numérica, podrán ser expresados como
vectores, dichos vectores si se comparan van a formar un águlo entre ellos, la distancia del coseno de ese ángulo, muestra el grado de similitud entre los vectores**

In [87]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[8], tfidf_matrix)

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.0788901 , 0.        , 0.        , 1.        , 0.34859007,
        0.        ]])

**Los valores indican el grado de similitud calculado, con los diferentes documentos del corpus (texto dividido en frases usando sent_token)
a simple vista se ve una similitud entre los documentos 8 y 9. Y una leve similitud con el documento 5**

In [88]:
corpus[8]

'¿Cómo será mi redentor?, me pregunto.¿Será un toro o un hombre?'

In [89]:
corpus[9]

'¿Será tal vez un toro con cara de hombre?'

In [90]:
corpus[5]

'Ignoro quiénes son, pero sé que uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi redeentor y al fin se levantará sobre el polvo.'