# Tokenizer

In [7]:

sentences = ["Soy muy proclive a enroscarme en soluciones que no funcionan", "Tengo que cambiar eso"]


sentences[0].split()

['Soy',
 'muy',
 'proclive',
 'a',
 'enroscarme',
 'en',
 'soluciones',
 'que',
 'no',
 'funcionan']

In [2]:

from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

tokenizer.index_word
tokenizer.texts_to_sequences(sentences)

[[2, 3, 4, 5, 6, 7, 8, 1, 9, 10], [11, 1, 12, 13]]

In [3]:

tokenizer = Tokenizer(num_words=6, oov_token='')
tokenizer.fit_on_texts(sentences)
tokenizer.texts_to_sequences(sentences)

[[3, 4, 5, 1, 1, 1, 1, 2, 1, 1], [1, 2, 1, 1]]

# Padding

In [4]:
# prompt: un par de ejemplos cortos y faciles para ilustrar el padding de keras mostrando truncatin, padding, maxlen

from tensorflow.keras.preprocessing.sequence import pad_sequences

# Example with padding
padded_sentences = pad_sequences(tokenizer.texts_to_sequences(sentences))
print("Padding only:")
print(padded_sentences)

# Example with padding and maxlen
padded_sentences_maxlen = pad_sequences(tokenizer.texts_to_sequences(sentences), maxlen=10)
print("\nPadding and maxlen=10:")
print(padded_sentences_maxlen)

# Example with padding, maxlen, and truncating
padded_sentences_truncating = pad_sequences(tokenizer.texts_to_sequences(sentences), maxlen=5, truncating='post')
print("\nPadding, maxlen=5, and truncating='post':")
padded_sentences_truncating


Padding only:
[[3 4 5 1 1 1 1 2 1 1]
 [0 0 0 0 0 0 1 2 1 1]]

Padding and maxlen=10:
[[3 4 5 1 1 1 1 2 1 1]
 [0 0 0 0 0 0 1 2 1 1]]

Padding, maxlen=5, and truncating='post':


array([[3, 4, 5, 1, 1],
       [0, 1, 2, 1, 1]], dtype=int32)

# Lemma stemm stopwords

Stemming

In [10]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')

'soy muy proclive a enroscarme en soluciones que no funcion'

In [13]:
for s in sentences:
  for w in sentences[0].split():
      print(f"{w} --> {stemmer.stem(w)}")

Soy --> soy
muy --> muy
proclive --> procliv
a --> a
enroscarme --> enrosc
en --> en
soluciones --> solucion
que --> que
no --> no
funcionan --> funcion
Soy --> soy
muy --> muy
proclive --> procliv
a --> a
enroscarme --> enrosc
en --> en
soluciones --> solucion
que --> que
no --> no
funcionan --> funcion


Lemmatazing

In [15]:
!python -m spacy download es_core_news_sm

import spacy

nlp = spacy.load('es_core_news_sm')

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m77.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [17]:
doc = nlp(sentences[0])
type(doc)

spacy.tokens.doc.Doc

In [19]:
for s in sentences:
  for w in doc:
    lemma = w.lemma_
    print(f"{w} --> {lemma}")

Soy --> ser
muy --> mucho
proclive --> proclive
a --> a
enroscarme --> enroscar yo
en --> en
soluciones --> solución
que --> que
no --> no
funcionan --> funcionar
Soy --> ser
muy --> mucho
proclive --> proclive
a --> a
enroscarme --> enroscar yo
en --> en
soluciones --> solución
que --> que
no --> no
funcionan --> funcionar


Stopwords

In [21]:
stopwordlist = nlp.Defaults.stop_words
print(stopwordlist)

{'hay', 'cinco', 'mal', 'tampoco', 'cierto', 'aún', 'algo', 'vuestro', 'ha', 'quizas', 'mas', 'está', 'cada', 'sabemos', 'sabe', 'muy', 'tengo', 'cuantos', 'dado', 'entre', 'ti', 'si', 'para', 'fui', 'solas', 'alrededor', 'existen', 'estaba', 'detrás', 'podemos', 'va', 'haceis', 'algunas', 'decir', 'menos', 'sin', 'podeis', 'estais', 'mediante', 'así', 'durante', 'quienes', 'mi', 'lo', 'nosotros', 'en', 'habia', 'hoy', 'ninguno', 'otros', 'detras', 'cuantas', 'algún', 'tarde', 'éstos', 'primera', 'señaló', 'dos', 'bastante', 'partir', 'todos', 'aquello', 'cuales', 'cuál', 'ser', 'llegó', 'este', 'con', 'mio', 'todavía', 'unas', 'ademas', 'fueron', 'aun', 'he', 'solo', 'contra', 'nuestros', 'pueda', 'usa', 'proximo', 'tus', 'esos', 'tendrá', 'aquella', 'tienen', 'podriais', 'próximo', 'veces', 'eso', 'indicó', 'poner', 'ésta', 'mientras', 'demasiado', 'realizó', 'aquélla', 'hubo', 'primero', 'través', 'junto', 'aproximadamente', 'ellos', 'ir', 'dieron', 'temprano', 'nos', 'hasta', 'hace