## Procesamiento del lenguaje natural

#### Tokenizer

In [1]:
# Instalar usando conda install nltk o pip install nltk
import nltk
text="Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A."

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/missPanda/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from nltk.tokenize import sent_tokenize
sent_tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### PunkSentenceTokenizer

In [4]:
import nltk

tokenizer=nltk.data.load('tokenizers/punkt/spanish.pickle')

tokenizer.tokenize(text)


['Bienvenid@s!',
 'En este módulo vamos a aprender sobre nlp.',
 'Usaremos la biblioteca nltk.',
 'A.C.A.M.I.C.A.']

#### WordTokenizer

In [5]:
import nltk
text=nltk.word_tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
      Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
print(text)

['Bienvenid', '@', 's', '!', 'En', 'este', 'módulo', 'vamos', 'a', 'aprender', 'sobre', 'nlp', '.', 'Usaremos', 'la', 'biblioteca', 'nltk', '.', 'A.C.A.M.I.C.A', '.']


In [6]:
from nltk.tokenize import WordPunctTokenizer # TreebankWordTokenizer
tokenizer=WordPunctTokenizer() # TreebankWordTokenizer
tokenizer.tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")
   

['Bienvenid',
 '@',
 's',
 '!',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 '.',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 '.',
 'A',
 '.',
 'C',
 '.',
 'A',
 '.',
 'M',
 '.',
 'I',
 '.',
 'C',
 '.',
 'A',
 '.']

In [7]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
tokenizer.tokenize("Bienvenid@s! En este módulo vamos a aprender sobre nlp. \
                    Usaremos la biblioteca nltk. A.C.A.M.I.C.A.")

['Bienvenid',
 's',
 'En',
 'este',
 'módulo',
 'vamos',
 'a',
 'aprender',
 'sobre',
 'nlp',
 'Usaremos',
 'la',
 'biblioteca',
 'nltk',
 'A',
 'C',
 'A',
 'M',
 'I',
 'C',
 'A']

### Normalización

#### lowercase

In [8]:
text='ESTAmos ModIFICANDO lAS LETRas'
print(text.lower())
print(text.upper())


estamos modificando las letras
ESTAMOS MODIFICANDO LAS LETRAS


#### stopwords

In [9]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stops=set(stopwords.words('spanish'))


[nltk_data] Downloading package stopwords to
[nltk_data]     /home/missPanda/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [10]:
stops

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [11]:
len(stops)

313

In [12]:
text="Vamos al parque del sur?"
word_tokens = nltk.word_tokenize(text)
[word for word in word_tokens if word not in stops]


['Vamos', 'parque', 'sur', '?']

#### Frecuencia de palabras 

In [13]:
from bs4 import BeautifulSoup
import urllib.request
# Obtenemos el html de la página de acámica de Data Science
response = urllib.request.urlopen('https://www.acamica.com/data-science')
response

<http.client.HTTPResponse at 0x7f19376ae240>

In [14]:
html = response.read()
html


b'<!DOCTYPE html><html lang="es"><head><meta charSet="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="description" content="Aprend\xc3\xa9 a manipular la infinita cantidad de datos a nuestro alcance para crear impacto."/><link href="/static/font/css_family=Source+Sans+Pro:400,600|Material+Icons|Rubik:300,400,500,700.css" type="text/css" rel="stylesheet"/><link rel="preconnect" href="https://api.segment.io"/><link rel="preconnect" href="https://cdn.segment.com"/><link rel="preconnect" href="https://js.hs-analytics.net"/><link rel="preconnect" href="https://js.hs-scripts.com"/><link rel="preconnect" href="https://connect.facebook.net"/><link rel="preconnect" href="https://www.facebook.com"/><link rel="preconnect" href="https://track.hubspot.com"/><link rel="apple-touch-icon" href="https://sc.acamica.com/icons/1j7w9h/apple-touch-icon.png"/><link rel="icon" type="image/png

In [16]:
soup = BeautifulSoup(html,"html.parser")
soup

<!DOCTYPE html>
<html lang="es"><head><meta charset="utf-8"/><meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/><meta content="width=device-width,initial-scale=1,maximum-scale=1" name="viewport"/><meta content="Aprendé a manipular la infinita cantidad de datos a nuestro alcance para crear impacto." name="description"/><link href="/static/font/css_family=Source+Sans+Pro:400,600|Material+Icons|Rubik:300,400,500,700.css" rel="stylesheet" type="text/css"/><link href="https://api.segment.io" rel="preconnect"/><link href="https://cdn.segment.com" rel="preconnect"/><link href="https://js.hs-analytics.net" rel="preconnect"/><link href="https://js.hs-scripts.com" rel="preconnect"/><link href="https://connect.facebook.net" rel="preconnect"/><link href="https://www.facebook.com" rel="preconnect"/><link href="https://track.hubspot.com" rel="preconnect"/><link href="https://sc.acamica.com/icons/1j7w9h/apple-touch-icon.png" rel="apple-touch-icon"/><link href="https://sc.acamica.com/icons

In [17]:
text = soup.get_text()
text

'body { margin: 0; font-size: 16px !important; } /* custom! */Carrera Data Science - Acámica.MuiSvgIcon-root {\n  fill: currentColor;\n  width: 1em;\n  height: 1em;\n  display: inline-block;\n  font-size: 1.5rem;\n  transition: fill 200ms cubic-bezier(0.4, 0, 0.2, 1) 0ms;\n  flex-shrink: 0;\n  user-select: none;\n}\n.MuiSvgIcon-colorPrimary {\n  color: #5500ff;\n}\n.MuiSvgIcon-colorSecondary {\n  color: rgba(0,0,0,.4);\n}\n.MuiSvgIcon-colorAction {\n  color: rgba(0, 0, 0, 0.54);\n}\n.MuiSvgIcon-colorError {\n  color: #f44336;\n}\n.MuiSvgIcon-colorDisabled {\n  color: rgba(0, 0, 0, 0.26);\n}\n.MuiSvgIcon-fontSizeInherit {\n  font-size: inherit;\n}\n.MuiSvgIcon-fontSizeSmall {\n  font-size: 1.25rem;\n}\n.MuiSvgIcon-fontSizeLarge {\n  font-size: 2.1875rem;\n}\n.MuiPopover-paper {\n  outline: 0;\n  position: absolute;\n  max-width: calc(100% - 32px);\n  min-width: 16px;\n  max-height: calc(100% - 32px);\n  min-height: 16px;\n  overflow-x: hidden;\n  overflow-y: auto;\n}\n.MuiInputBase-root

In [18]:
# Tokenizamos el resultado
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
word_tokens = tokenizer.tokenize(text)
# Sacamos stopwords y convertimos en minúscula
text_tokens = [word.lower() for word in word_tokens if word not in stops]

In [19]:
text_tokens

['body',
 'margin',
 '0',
 'font',
 'size',
 '16px',
 'important',
 'custom',
 'carrera',
 'data',
 'science',
 'acámica',
 'muisvgicon',
 'root',
 'fill',
 'currentcolor',
 'width',
 '1em',
 'height',
 '1em',
 'display',
 'inline',
 'block',
 'font',
 'size',
 '1',
 '5rem',
 'transition',
 'fill',
 '200ms',
 'cubic',
 'bezier',
 '0',
 '4',
 '0',
 '0',
 '2',
 '1',
 '0ms',
 'flex',
 'shrink',
 '0',
 'user',
 'select',
 'none',
 'muisvgicon',
 'colorprimary',
 'color',
 '5500ff',
 'muisvgicon',
 'colorsecondary',
 'color',
 'rgba',
 '0',
 '0',
 '0',
 '4',
 'muisvgicon',
 'coloraction',
 'color',
 'rgba',
 '0',
 '0',
 '0',
 '0',
 '54',
 'muisvgicon',
 'colorerror',
 'color',
 'f44336',
 'muisvgicon',
 'colordisabled',
 'color',
 'rgba',
 '0',
 '0',
 '0',
 '0',
 '26',
 'muisvgicon',
 'fontsizeinherit',
 'font',
 'size',
 'inherit',
 'muisvgicon',
 'fontsizesmall',
 'font',
 'size',
 '1',
 '25rem',
 'muisvgicon',
 'fontsizelarge',
 'font',
 'size',
 '2',
 '1875rem',
 'muipopover',
 'paper',

In [20]:
# Calculamos la frecuencia de las palabras
freq = nltk.FreqDist(text_tokens)
freq

FreqDist({'0': 384, 'width': 304, 'font': 233, 'null': 223, 'margin': 217, 'auto': 191, 'color': 189, '0px': 188, 'flex': 174, 'height': 165, ...})

In [21]:
freq.items()

dict_items([('body', 4), ('margin', 217), ('0', 384), ('font', 233), ('size', 116), ('16px', 92), ('important', 5), ('custom', 1), ('carrera', 21), ('data', 20), ('science', 11), ('acámica', 11), ('muisvgicon', 9), ('root', 10), ('fill', 6), ('currentcolor', 6), ('width', 304), ('1em', 27), ('height', 165), ('display', 164), ('inline', 21), ('block', 72), ('1', 120), ('5rem', 1), ('transition', 21), ('200ms', 9), ('cubic', 12), ('bezier', 12), ('4', 19), ('2', 40), ('0ms', 9), ('flex', 174), ('shrink', 13), ('user', 2), ('select', 9), ('none', 77), ('colorprimary', 1), ('color', 189), ('5500ff', 19), ('colorsecondary', 1), ('rgba', 56), ('coloraction', 1), ('54', 3), ('colorerror', 1), ('f44336', 4), ('colordisabled', 1), ('26', 1), ('fontsizeinherit', 1), ('inherit', 4), ('fontsizesmall', 1), ('25rem', 1), ('fontsizelarge', 1), ('1875rem', 1), ('muipopover', 1), ('paper', 2), ('outline', 3), ('position', 89), ('absolute', 24), ('max', 71), ('calc', 4), ('100', 54), ('32px', 58), ('min

In [22]:
sorted_by_value = sorted(freq.items(), key=lambda kv: kv[1], reverse=True)
for key,val in sorted_by_value:
    print (str(key) + ':' + str(val))

0:384
width:304
font:233
null:223
margin:217
auto:191
color:189
0px:188
flex:174
height:165
display:164
alt:132
padding:124
1:120
background:118
size:116
acamica:116
border:115
https:110
url:102
text:101
16px:92
position:89
align:89
prismic:88
io:88
00:86
top:85
title:85
dimensions:84
copyright:84
images:84
compress:84
format:84
family:81
roboto:81
img:81
left:79
online:79
min:78
rubik:78
none:77
block:72
max:71
arial:69
transform:69
center:65
direction:63
32px:58
box:57
media:57
rgba:56
svg:56
weight:55
100:54
bottom:52
helvetica:51
sans:50
serif:50
500:48
description:48
relative:42
proyectos:42
000z:42
40:41
2:40
content:38
fff:37
2020:37
subtitle:36
muiinputbase:35
justify:35
datos:35
line:34
8px:34
solid:33
column:33
row:33
right:32
radius:32
input:31
scale:31
jpg:30
ds:30
mentores:28
aprendizaje:28
1em:27
5px:27
ar:27
hover:26
country:26
space:25
50:25
inteligencia:25
artificial:25
name:25
co:25
absolute:24
20px:24
items:23
opacity:23
style:23
com:23
clases:23
sizing:22
2px:22
car

#### N-gramas

In [23]:
from nltk import ngrams

n = 2
bigrams = ngrams(text_tokens, n)

for grams in bigrams:
    print(grams)

('body', 'margin')
('margin', '0')
('0', 'font')
('font', 'size')
('size', '16px')
('16px', 'important')
('important', 'custom')
('custom', 'carrera')
('carrera', 'data')
('data', 'science')
('science', 'acámica')
('acámica', 'muisvgicon')
('muisvgicon', 'root')
('root', 'fill')
('fill', 'currentcolor')
('currentcolor', 'width')
('width', '1em')
('1em', 'height')
('height', '1em')
('1em', 'display')
('display', 'inline')
('inline', 'block')
('block', 'font')
('font', 'size')
('size', '1')
('1', '5rem')
('5rem', 'transition')
('transition', 'fill')
('fill', '200ms')
('200ms', 'cubic')
('cubic', 'bezier')
('bezier', '0')
('0', '4')
('4', '0')
('0', '0')
('0', '2')
('2', '1')
('1', '0ms')
('0ms', 'flex')
('flex', 'shrink')
('shrink', '0')
('0', 'user')
('user', 'select')
('select', 'none')
('none', 'muisvgicon')
('muisvgicon', 'colorprimary')
('colorprimary', 'color')
('color', '5500ff')
('5500ff', 'muisvgicon')
('muisvgicon', 'colorsecondary')
('colorsecondary', 'color')
('color', 'rgba'

('left', 'font')
('font', 'family')
('family', 'rubik')
('rubik', 'roboto')
('roboto', 'helvetica')
('helvetica', 'arial')
('arial', 'font')
('font', 'weight')
('weight', '500')
('500', 'line')
('line', 'height')
('height', '1')
('1', '25')
('25', 'border')
('border', 'radius')
('radius', '2px')
('2px', 'text')
('text', 'transform')
('transform', 'uppercase')
('uppercase', 'jss143')
('jss143', 'background')
('background', 'color')
('color', '24a9ff')
('24a9ff', 'jss144')
('jss144', 'background')
('background', 'color')
('color', '5dd0f0')
('5dd0f0', 'jss145')
('jss145', 'background')
('background', 'color')
('color', '83c341')
('83c341', 'jss146')
('jss146', 'background')
('background', 'color')
('color', 'ff4a6e')
('ff4a6e', 'media')
('media', 'min')
('min', 'width')
('width', '0px')
('0px', 'jss157')
('jss157', 'img')
('img', 'height')
('height', '30px')
('30px', 'margin')
('margin', '0')
('0', 'display')
('display', 'block')
('block', 'opacity')
('opacity', '8')
('8', 'max')
('max',

('jss189', 'color')
('color', '5500ff')
('5500ff', 'jss190')
('jss190', 'width')
('width', '100')
('100', 'margin')
('margin', 'bottom')
('bottom', '36px')
('36px', 'jss191')
('jss191', 'display')
('display', 'flex')
('flex', 'flex')
('flex', 'direction')
('direction', 'column')
('column', 'jss191')
('jss191', 'margin')
('margin', 'bottom')
('bottom', '16px')
('16px', 'media')
('media', 'min')
('min', 'width')
('width', '960px')
('960px', 'jss191')
('jss191', 'display')
('display', 'flex')
('flex', 'flex')
('flex', 'direction')
('direction', 'row')
('row', 'justify')
('justify', 'content')
('content', 'center')
('center', 'media')
('media', 'min')
('min', 'width')
('width', '0px')
('0px', 'jss1')
('jss1', 'margin')
('margin', 'auto')
('auto', 'padding')
('padding', '32px')
('32px', 'box')
('box', 'sizig')
('sizig', 'borderbox')
('borderbox', 'max')
('max', 'width')
('width', '768px')
('768px', 'text')
('text', 'align')
('align', 'center')
('center', 'border')
('border', 'radius')
('rad

('relative', 'max')
('max', 'width')
('width', '1040px')
('1040px', 'jss92')
('jss92', 'display')
('display', 'none')
('none', 'jss32')
('jss32', 'margin')
('margin', 'auto')
('auto', 'display')
('display', 'block')
('block', 'padding')
('padding', '32px')
('32px', 'position')
('position', 'relative')
('relative', 'transform')
('transform', 'scale')
('scale', '8')
('8', 'margin')
('margin', 'top')
('top', '80px')
('80px', 'text')
('text', 'align')
('align', 'center')
('center', 'jss32')
('jss32', 'div')
('div', 'overflow')
('overflow', 'hidden')
('hidden', 'position')
('position', 'absolute')
('absolute', 'transition')
('transition', 'all')
('all', '0')
('0', '2s')
('2s', 'jss32')
('jss32', 'div')
('div', 'hover')
('hover', 'transform')
('transform', 'scale')
('scale', '1')
('1', '1')
('1', 'jss32')
('jss32', 'div')
('div', 'hover')
('hover', 'div')
('div', 'left')
('left', '16px')
('16px', 'color')
('color', 'fff')
('fff', 'bottom')
('bottom', '16px')
('16px', 'display')
('display', '

('ar', 'country')
('country', 'argentina')
('argentina', 'price')
('price', '8999')
('8999', 'currency')
('currency', 'ars')
('ars', 'extrainfo')
('extrainfo', 'extradata')
('extradata', 'countryprice')
('countryprice', 'ar')
('ar', 'name')
('name', 'ds')
('ds', 'med')
('med', '3')
('3', 'startdate')
('startdate', '2020')
('2020', '01')
('01', '15t03')
('15t03', '00')
('00', '00')
('00', '000z')
('000z', 'mode')
('mode', 'blended')
('blended', 'enddate')
('enddate', '2020')
('2020', '07')
('07', '15t03')
('15t03', '00')
('00', '00')
('00', '000z')
('000z', 'city')
('city', 'medellín')
('medellín', 'last_places')
('last_places', 'null')
('null', 'schedule_days')
('schedule_days', 'lunes')
('lunes', 'miércoles')
('miércoles', 'schedule_times')
('schedule_times', '6')
('6', '30')
('30', '9')
('9', '30')
('30', 'pm')
('pm', 'country')
('country', 'colombia')
('colombia', 'price')
('price', '639000')
('639000', 'currency')
('currency', 'cop')
('cop', 'extrainfo')
('extrainfo', 'null')
('nul

('null', 'subtitle_header')
('subtitle_header', 'aprendé')
('aprendé', 'manipular')
('manipular', 'infinita')
('infinita', 'cantidad')
('cantidad', 'datos')
('datos', 'alcance')
('alcance', 'crear')
('crear', 'impacto')
('impacto', 'title_collaborators')
('title_collaborators', 'en')
('en', 'colaboración')
('colaboración', 'careerlongname')
('careerlongname', 'data')
('data', 'science')
('science', 'collaborators_images')
('collaborators_images', 'partner_img')
('partner_img', 'dimensions')
('dimensions', 'width')
('width', '300')
('300', 'height')
('height', '32')
('32', 'alt')
('alt', 'null')
('null', 'copyright')
('copyright', 'null')
('null', 'url')
('url', 'https')
('https', 'images')
('images', 'prismic')
('prismic', 'io')
('io', 'acamica')
('acamica', '2f5bd2a240')
('2f5bd2a240', '9e29')
('9e29', '49f6')
('49f6', 'a9e4')
('a9e4', '5ff035a6ec57_companies')
('5ff035a6ec57_companies', 'ds')
('ds', 'white')
('white', 'svg')
('svg', 'auto')
('auto', 'compress')
('compress', 'format')

('title', 'aprendizaje')
('aprendizaje', 'híbrido')
('híbrido', 'subtitle')
('subtitle', 'una')
('una', 'experiencia')
('experiencia', 'moderna')
('moderna', 'diseñada')
('diseñada', 'expertos')
('expertos', 'clases')
('clases', 'presenciales')
('presenciales', 'distancia')
('distancia', 'contenidos')
('contenidos', 'online')
('online', 'avances')
('avances', 'aprendas')
('aprendas', 'flexibilidad')
('flexibilidad', 'title')
('title', 'certificación')
('certificación', 'empresas')
('empresas', 'subtitle')
('subtitle', 'confía')
('confía', 'progreso')
('progreso', 'esfuerzo')
('esfuerzo', 'va')
('va', 'mano')
('mano', 'necesidades')
('necesidades', 'industria')
('industria', 'validación')
('validación', 'gigantes')
('gigantes', 'tecnológicos')
('tecnológicos', 'title')
('title', 'mentoría')
('mentoría', 'personalizada')
('personalizada', 'subtitle')
('subtitle', 'aprende')
('aprende', 'grupos')
('grupos', 'reducidos')
('reducidos', 'guía')
('guía', 'mentores')
('mentores', 'evacuar')
('

#### Stemmer 

In [24]:
from nltk import word_tokenize
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

In [25]:
stemmer.stem('correr')

'corr'

#### Lemmatizer

In [26]:
# Instalar pattern con pip install Pattern (necesita mysql como dependencia)
from pattern3.text.es import singularize, pluralize, conjugate




IndentationError: expected an indented block (tree.py, line 37)

In [27]:
from pattern3.text.es import (singularize)

IndentationError: expected an indented block (tree.py, line 37)

In [29]:
from pattern3.es import parsetree

pt = parsetree('Los perros se esconden debajo del sofá.', lemmata=True)
for sentence in pt: 
    for lemmata in sentence.lemmata: 
        print(lemmata)

IndentationError: expected an indented block (tree.py, line 37)

#### Bag of words

In [30]:
asterion_text = 'Cada nueve años entran en la casa nueve hombres \
para que yo los libere de todo mal. Oigo sus pasos o su voz en el \
fondo de las galerías de piedra y corro alegremente a buscarlos. \
La ceremonia dura pocos minutos. Uno tras otro caen sin que yo me \
ensantgriente las manos. Donde cayeron, quedan, y los cadáveres ayudan\
a distinguir una galería de las otras. Ignoro quiénes son, pero sé que \
uno de ellos profetizó, en la hora de su muerte, que alguna vez llegaría \
mi redentor, Desde entonces no me duele la soledad, porque sé que vive mi \
redeentor y al fin se levantará sobre el polvo. Si mi oído alcanzara \
los rumores del mundo, yo percibiría sus pasos. Ojalá me lleve a un \
lugar con menos galerías y menos puertas. ¿Cómo será mi redentor?, me pregunto.\
¿Será un toro o un hombre? ¿Será tal vez un toro con cara de hombre? ¿O será como yo?'

In [31]:
corpus = sent_tokenize(asterion_text)

In [32]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(corpus).todense()[0])
print(vectorizer.vocabulary_)

[[0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0
  1 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
  0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1]]
{'cada': 7, 'nueve': 56, 'años': 5, 'entran': 30, 'en': 27, 'la': 39, 'casa': 11, 'hombres': 36, 'para': 62, 'que': 73, 'yo': 99, 'los': 45, 'libere': 42, 'de': 18, 'todo': 90, 'mal': 47, 'oigo': 57, 'sus': 87, 'pasos': 63, 'su': 86, 'voz': 98, 'el': 25, 'fondo': 32, 'las': 40, 'galerías': 34, 'piedra': 66, 'corro': 16, 'alegremente': 2, 'buscarlos': 6, 'ceremonia': 13, 'dura': 24, 'pocos': 67, 'minutos': 52, 'uno': 95, 'tras': 92, 'otro': 60, 'caen': 9, 'sin': 82, 'me': 49, 'ensantgriente': 28, 'manos': 48, 'donde': 22, 'cayeron': 12, 'quedan': 74, 'cadáveres': 8, 'ayudana': 4, 'distinguir': 21, 'una': 94, 'galería': 33, 'otras': 59, 'ignoro': 38, 'quiénes': 75, 'son': 85, 'pero': 65, 'sé': 88, 'ellos': 26, 'profetizó': 71, 'hora': 37, 'muerte': 53, 'alguna': 3, 'vez': 96, 'llegar

#### Tf-idf

In [34]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words=stops)
tfidf_matrix = vectorizer.fit_transform(corpus) 
print(tfidf_matrix.todense()[0])
print(vectorizer.vocabulary_)

[[0.         0.         0.         0.         0.30151134 0.
  0.30151134 0.         0.         0.         0.30151134 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.30151134 0.         0.         0.
  0.         0.         0.30151134 0.         0.         0.
  0.30151134 0.         0.         0.         0.30151134 0.
  0.         0.         0.         0.         0.60302269 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]]
{'cada': 6, 'nueve': 40, 'años': 4, 'entran': 20, 'casa': 10, 'hombres': 26, 'libere': 30, 'mal': 34, 'oigo': 41, 'pasos': 44, 'voz': 65, 'fondo': 22, 'galerías': 24, 'piedra': 46, 'corro': 13, 'alegremente': 1, 'buscarlos': 5, 'ceremonia': 12, 'dura': 17, 'pocos': 47, 'minutos': 37, 'tras': 62, 'caen': 8, 'ensantgriente': 18, '

#### Similitud

In [35]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[8], tfidf_matrix)

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.0788901 , 0.        , 0.        , 1.        , 0.34859007,
        0.        ]])

In [36]:
corpus[8]

'¿Cómo será mi redentor?, me pregunto.¿Será un toro o un hombre?'

In [37]:
corpus[0]

'Cada nueve años entran en la casa nueve hombres para que yo los libere de todo mal.'