In [48]:
import nltk
nltk.download("punkt")
nltk.download("wordnet")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Maxi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Maxi\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Maxi\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

### Sentence division

In [7]:
text = "El Dr. Sánchez es el director del hospital. Este es el más grande de Madrid. Tiene más de 1000 habitaciones, incluyendo baños."

sentences = nltk.sent_tokenize(text)

sentences

['El Dr. Sánchez es el director del hospital.',
 'Este es el más grande de Madrid.',
 'Tiene más de 1000 habitaciones, incluyendo baños.']

### Tokenization
Split into words and punctuation

In [9]:
text = "Ibex 35, principal índice bursátil, está por encima de los 9.300 puntos."
print(text.split())

['Ibex', '35,', 'principal', 'índice', 'bursátil,', 'está', 'por', 'encima', 'de', 'los', '9.300', 'puntos.']


In [11]:
tokens = nltk.word_tokenize(text)
print(tokens)

['Ibex', '35', ',', 'principal', 'índice', 'bursátil', ',', 'está', 'por', 'encima', 'de', 'los', '9.300', 'puntos', '.']


In [16]:
text = "Ibex 35!, O'Neil what a ride! I'm excited. You didn't like that"
tokens = nltk.word_tokenize(text)
print(tokens)

['Ibex', '35', '!', ',', "O'Neil", 'what', 'a', 'ride', '!', 'I', "'m", 'excited', '.', 'You', 'did', "n't", 'like', 'that']


### Lemmatization & Stemming

* **Lemmatization**:

Word's canonical shape: walks -> walk, walking -> walk, ...

In [18]:
text = "The women sang sons and stories about the thieves."
tokens = nltk.word_tokenize(text)

print(tokens)

['The', 'women', 'sang', 'sons', 'and', 'stories', 'about', 'the', 'thieves', '.']


In [27]:
from nltk.stem import WordNetLemmatizer

lematizer = WordNetLemmatizer()

for token in tokens:
    print(f"Token: {token:10} -> \tLema: {lematizer.lemmatize(token)}")

Token: The        -> 	Lema: The
Token: women      -> 	Lema: woman
Token: sang       -> 	Lema: sang
Token: sons       -> 	Lema: son
Token: and        -> 	Lema: and
Token: stories    -> 	Lema: story
Token: about      -> 	Lema: about
Token: the        -> 	Lema: the
Token: thieves    -> 	Lema: thief
Token: .          -> 	Lema: .


* **Stemming**:

Reduce words to their roots.

In [28]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()

for word in ["fish", "fishes", "fished", "fishing"]:
    print(word, ", stem = ", stemmer.stem(word))

fish , stem =  fish
fishes , stem =  fish
fished , stem =  fish
fishing , stem =  fish


In [35]:
for word in ["stories", "thieves", "horses", "does", "leaves"]:
    print(word, ", stem = ", stemmer.stem(word), ", lema = ", lematizer.lemmatize(word))

stories , stem =  stori , lema =  story
thieves , stem =  thiev , lema =  thief
horses , stem =  hors , lema =  horse
does , stem =  doe , lema =  doe
leaves , stem =  leav , lema =  leaf


In [37]:
print("(noun, verb)")
lematizer.lemmatize("leaves", "n"), lematizer.lemmatize("leaves", "v")

(noun, verb)


('leaf', 'leave')

In [41]:
lematizer.lemmatize("better", "a"), stemmer.stem("better")


('good', 'better')

In [47]:
from nltk.stem import SnowballStemmer

snow = SnowballStemmer("spanish")

for word in ["cantar", "cantaré", "cantaron", "canta"]:
    print(word, " = ", snow.stem(word))

cantar  =  cant
cantaré  =  cant
cantaron  =  cant
canta  =  cant


### Stopwords

Eliminate words that doesn't provide much meaning to the text (not so useful in some applications like translators)

In [54]:
from nltk.corpus import stopwords

print(sorted(stopwords.words("english")), len(stopwords.words("english")))

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', 'her', 'here', 'hers', 'herself', 'him', 'himself', 'his', 'how', 'i', 'if', 'in', 'into', 'is', 'isn', "isn't", 'it', "it's", 'its', 'itself', 'just', 'll', 'm', 'ma', 'me', 'mightn', "mightn't", 'more', 'most', 'mustn', "mustn't", 'my', 'myself', 'needn', "needn't", 'no', 'nor', 'not', 'now', 'o', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 're', 's', 'same', 'shan', "shan't", 'she', "she's", 'should', "should've", 'shouldn', "shouldn't", 'so', 'some',

In [55]:
print(sorted(stopwords.words("spanish")), len(stopwords.words("english")))

['a', 'al', 'algo', 'algunas', 'algunos', 'ante', 'antes', 'como', 'con', 'contra', 'cual', 'cuando', 'de', 'del', 'desde', 'donde', 'durante', 'e', 'el', 'ella', 'ellas', 'ellos', 'en', 'entre', 'era', 'erais', 'eran', 'eras', 'eres', 'es', 'esa', 'esas', 'ese', 'eso', 'esos', 'esta', 'estaba', 'estabais', 'estaban', 'estabas', 'estad', 'estada', 'estadas', 'estado', 'estados', 'estamos', 'estando', 'estar', 'estaremos', 'estará', 'estarán', 'estarás', 'estaré', 'estaréis', 'estaría', 'estaríais', 'estaríamos', 'estarían', 'estarías', 'estas', 'este', 'estemos', 'esto', 'estos', 'estoy', 'estuve', 'estuviera', 'estuvierais', 'estuvieran', 'estuvieras', 'estuvieron', 'estuviese', 'estuvieseis', 'estuviesen', 'estuvieses', 'estuvimos', 'estuviste', 'estuvisteis', 'estuviéramos', 'estuviésemos', 'estuvo', 'está', 'estábamos', 'estáis', 'están', 'estás', 'esté', 'estéis', 'estén', 'estés', 'fue', 'fuera', 'fuerais', 'fueran', 'fueras', 'fueron', 'fuese', 'fueseis', 'fuesen', 'fueses', 'fu

In [57]:
stop_words = sorted(stopwords.words("spanish"))

text = """La Universidad Carlos III de Madrid (UC3M) es una universidad pública con sede en Getafe, Comunidad de Madrid (España). Fue fundada por Gregorio Peces-Barba el 5 de mayo de 1989, en el marco de la Ley de Reforma Universitaria de 1983. La UC3M ofrece estudios universitarios de grado y postgrado en Ciencias Sociales y Jurídicas; Humanidades, Comunicación y Documentación; e Ingenierías, así como un grado en Ciencias. Ocupa el puesto 35 a nivel mundial y es la decimosegunda en Europa en el ranking QS de las 50 mejores universidades del mundo con menos de 50 años y está incluida en la clasificación académica de universidades del THE. La UC3M también destaca por la alta empleabilidad de las personas tituladas que alcanza el 90,6%."""
print(text)

La Universidad Carlos III de Madrid (UC3M) es una universidad pública con sede en Getafe, Comunidad de Madrid (España). Fue fundada por Gregorio Peces-Barba el 5 de mayo de 1989, en el marco de la Ley de Reforma Universitaria de 1983. La UC3M ofrece estudios universitarios de grado y postgrado en Ciencias Sociales y Jurídicas; Humanidades, Comunicación y Documentación; e Ingenierías, así como un grado en Ciencias. Ocupa el puesto 35 a nivel mundial y es la decimosegunda en Europa en el ranking QS de las 50 mejores universidades del mundo con menos de 50 años y está incluida en la clasificación académica de universidades del THE. La UC3M también destaca por la alta empleabilidad de las personas tituladas que alcanza el 90,6%.


In [62]:
tokens = nltk.word_tokenize(text)

print(len(tokens), tokens)

139 ['La', 'Universidad', 'Carlos', 'III', 'de', 'Madrid', '(', 'UC3M', ')', 'es', 'una', 'universidad', 'pública', 'con', 'sede', 'en', 'Getafe', ',', 'Comunidad', 'de', 'Madrid', '(', 'España', ')', '.', 'Fue', 'fundada', 'por', 'Gregorio', 'Peces-Barba', 'el', '5', 'de', 'mayo', 'de', '1989', ',', 'en', 'el', 'marco', 'de', 'la', 'Ley', 'de', 'Reforma', 'Universitaria', 'de', '1983', '.', 'La', 'UC3M', 'ofrece', 'estudios', 'universitarios', 'de', 'grado', 'y', 'postgrado', 'en', 'Ciencias', 'Sociales', 'y', 'Jurídicas', ';', 'Humanidades', ',', 'Comunicación', 'y', 'Documentación', ';', 'e', 'Ingenierías', ',', 'así', 'como', 'un', 'grado', 'en', 'Ciencias', '.', 'Ocupa', 'el', 'puesto', '35', 'a', 'nivel', 'mundial', 'y', 'es', 'la', 'decimosegunda', 'en', 'Europa', 'en', 'el', 'ranking', 'QS', 'de', 'las', '50', 'mejores', 'universidades', 'del', 'mundo', 'con', 'menos', 'de', '50', 'años', 'y', 'está', 'incluida', 'en', 'la', 'clasificación', 'académica', 'de', 'universidades', 

In [64]:
relevant_tokens = list(filter(lambda s: s.lower() not in stop_words, tokens))
print(len(relevant_tokens), relevant_tokens)

84 ['Universidad', 'Carlos', 'III', 'Madrid', '(', 'UC3M', ')', 'universidad', 'pública', 'sede', 'Getafe', ',', 'Comunidad', 'Madrid', '(', 'España', ')', '.', 'fundada', 'Gregorio', 'Peces-Barba', '5', 'mayo', '1989', ',', 'marco', 'Ley', 'Reforma', 'Universitaria', '1983', '.', 'UC3M', 'ofrece', 'estudios', 'universitarios', 'grado', 'postgrado', 'Ciencias', 'Sociales', 'Jurídicas', ';', 'Humanidades', ',', 'Comunicación', 'Documentación', ';', 'Ingenierías', ',', 'así', 'grado', 'Ciencias', '.', 'Ocupa', 'puesto', '35', 'nivel', 'mundial', 'decimosegunda', 'Europa', 'ranking', 'QS', '50', 'mejores', 'universidades', 'mundo', 'menos', '50', 'años', 'incluida', 'clasificación', 'académica', 'universidades', 'THE', '.', 'UC3M', 'destaca', 'alta', 'empleabilidad', 'personas', 'tituladas', 'alcanza', '90,6', '%', '.']
