# Exercise after class

The goal of this exercise is to explore the NLTK library using the manual or online tutorials (avoid AI usage). First, create one (or more) texts in spanish (just copy paste it somewhere). The use the NLTK library of pure Python to performe at least this action to the text(s). 

1. Case folding
2. Word normalization
3. Tokenization
4. Stemming
5. Lemmatization
6. Sentence segmentation
7. PoS Tagging
8. Named Entity Recognition (NER)

Just try to explore and understand the library. Check in the reference book and NLTK manual for the new concepts.

In [4]:
import re
import nltk
from nltk.tokenize import sent_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer

# Ensure NLTK resources are downloaded
nltk.download('punkt')
nltk.download('wordnet')

# Load.txt
with open('Avellaneda_Quijote.txt', 'r') as file:
    text = file.read()

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/carlotafernandez/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/carlotafernandez/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [5]:
# 1️ Case Folding (UPPERCASING) 
print("\n--- Case Folding ---")
pure_upper = text.upper()
print(pure_upper)


--- Case Folding ---
ALONSO FERNÁNDEZ DE AVELLANEDA
SEGUNDO TOMO DEL INGENIOSO HIDALGO DON QUIJOTE DE LA MANCHA, QUE CONTIENE SU TERCERA SALIDA, Y ES LA QUINTA PARTE DE SUS AVENTURAS

AL ALCALDE, REGIDORES Y HIDALGOS DE LA NOBLE VILLA DEL ARGAMESILLA DE LA MANCHA, PATRIA FELIZ DEL HIDALGO CABALLERO DON QUIJOTE, LUSTRE DE LOS PROFESORES DE LA CABALLERÍA ANDANTESCA
ANTIGUA ES LA COSTUMBRE DE DIRIGIRSE LOS LIBROS DE LAS EXCELENCIAS Y HAZAÑAS DE ALGÚN HOMBRE FAMOSO A LAS PATRIAS ILUSTRES, QUE COMO MADRES LOS CRIARON Y SACARON A LUZ, Y AUN COMPETIR MIL CIUDADES SOBRE CUÁL LO HABÍA DE SER DE UN BUEN INGENIO Y GRAVE PERSONAJE. Y COMO LO SEA TANTO EL HIDALGO CABALLERO DON QUIJOTE DE LA MANCHA (TAN CONOCIDO EN EL MUNDO POR SUS INAUDITAS PROEZAS), JUSTO ES PARA QUE LO SEA TAMBIÉN ESA VENTUROSA VILLA QUE VUESAS MERCEDES RIGEN, PATRIA SUYA Y DE SU FIDELÍSIMO ESCUDERO SANCHO PANZA, DIRIGIRLES ESTA SEGUNDA PARTE, QUE RELATA LAS VITORIAS DEL UNO Y BUENOS SERVICIOS DEL OTRO, NO MENOS INVIDIADOS QUE V

In [6]:
# 2️ Word Normalization (Removing Special Characters and Numbers)
print("\n--- Removing Special Characters ---")
pure_clean = re.sub(r'[^a-zA-Z\s]', '', pure_upper)  # Pure Python
print(pure_clean)


--- Removing Special Characters ---
ALONSO FERNNDEZ DE AVELLANEDA
SEGUNDO TOMO DEL INGENIOSO HIDALGO DON QUIJOTE DE LA MANCHA QUE CONTIENE SU TERCERA SALIDA Y ES LA QUINTA PARTE DE SUS AVENTURAS

AL ALCALDE REGIDORES Y HIDALGOS DE LA NOBLE VILLA DEL ARGAMESILLA DE LA MANCHA PATRIA FELIZ DEL HIDALGO CABALLERO DON QUIJOTE LUSTRE DE LOS PROFESORES DE LA CABALLERA ANDANTESCA
ANTIGUA ES LA COSTUMBRE DE DIRIGIRSE LOS LIBROS DE LAS EXCELENCIAS Y HAZAAS DE ALGN HOMBRE FAMOSO A LAS PATRIAS ILUSTRES QUE COMO MADRES LOS CRIARON Y SACARON A LUZ Y AUN COMPETIR MIL CIUDADES SOBRE CUL LO HABA DE SER DE UN BUEN INGENIO Y GRAVE PERSONAJE Y COMO LO SEA TANTO EL HIDALGO CABALLERO DON QUIJOTE DE LA MANCHA TAN CONOCIDO EN EL MUNDO POR SUS INAUDITAS PROEZAS JUSTO ES PARA QUE LO SEA TAMBIN ESA VENTUROSA VILLA QUE VUESAS MERCEDES RIGEN PATRIA SUYA Y DE SU FIDELSIMO ESCUDERO SANCHO PANZA DIRIGIRLES ESTA SEGUNDA PARTE QUE RELATA LAS VITORIAS DEL UNO Y BUENOS SERVICIOS DEL OTRO NO MENOS INVIDIADOS QUE VERDADERO

In [7]:
# 3️ Tokenization
print("\n--- Tokenization ---")
pure_tokens = pure_clean.split()  # Pure Python
nltk_tokens = nltk.word_tokenize(pure_clean)  # Using NLTK
print("Pure Python:", pure_tokens)
print("NLTK:", nltk_tokens)



--- Tokenization ---
Pure Python: ['ALONSO', 'FERNNDEZ', 'DE', 'AVELLANEDA', 'SEGUNDO', 'TOMO', 'DEL', 'INGENIOSO', 'HIDALGO', 'DON', 'QUIJOTE', 'DE', 'LA', 'MANCHA', 'QUE', 'CONTIENE', 'SU', 'TERCERA', 'SALIDA', 'Y', 'ES', 'LA', 'QUINTA', 'PARTE', 'DE', 'SUS', 'AVENTURAS', 'AL', 'ALCALDE', 'REGIDORES', 'Y', 'HIDALGOS', 'DE', 'LA', 'NOBLE', 'VILLA', 'DEL', 'ARGAMESILLA', 'DE', 'LA', 'MANCHA', 'PATRIA', 'FELIZ', 'DEL', 'HIDALGO', 'CABALLERO', 'DON', 'QUIJOTE', 'LUSTRE', 'DE', 'LOS', 'PROFESORES', 'DE', 'LA', 'CABALLERA', 'ANDANTESCA', 'ANTIGUA', 'ES', 'LA', 'COSTUMBRE', 'DE', 'DIRIGIRSE', 'LOS', 'LIBROS', 'DE', 'LAS', 'EXCELENCIAS', 'Y', 'HAZAAS', 'DE', 'ALGN', 'HOMBRE', 'FAMOSO', 'A', 'LAS', 'PATRIAS', 'ILUSTRES', 'QUE', 'COMO', 'MADRES', 'LOS', 'CRIARON', 'Y', 'SACARON', 'A', 'LUZ', 'Y', 'AUN', 'COMPETIR', 'MIL', 'CIUDADES', 'SOBRE', 'CUL', 'LO', 'HABA', 'DE', 'SER', 'DE', 'UN', 'BUEN', 'INGENIO', 'Y', 'GRAVE', 'PERSONAJE', 'Y', 'COMO', 'LO', 'SEA', 'TANTO', 'EL', 'HIDALGO', 'CABALLE

In [8]:
# 4️ Stemming
print("\n--- Stemming ---")
stemmer = PorterStemmer()
pure_stemmed = [word.rstrip("ing") for word in pure_tokens]  # Simple Pure Python Example
nltk_stemmed = [stemmer.stem(word) for word in nltk_tokens]  # Using NLTK
print("Pure Python:", pure_stemmed)
print("NLTK:", nltk_stemmed)


--- Stemming ---
Pure Python: ['ALONSO', 'FERNNDEZ', 'DE', 'AVELLANEDA', 'SEGUNDO', 'TOMO', 'DEL', 'INGENIOSO', 'HIDALGO', 'DON', 'QUIJOTE', 'DE', 'LA', 'MANCHA', 'QUE', 'CONTIENE', 'SU', 'TERCERA', 'SALIDA', 'Y', 'ES', 'LA', 'QUINTA', 'PARTE', 'DE', 'SUS', 'AVENTURAS', 'AL', 'ALCALDE', 'REGIDORES', 'Y', 'HIDALGOS', 'DE', 'LA', 'NOBLE', 'VILLA', 'DEL', 'ARGAMESILLA', 'DE', 'LA', 'MANCHA', 'PATRIA', 'FELIZ', 'DEL', 'HIDALGO', 'CABALLERO', 'DON', 'QUIJOTE', 'LUSTRE', 'DE', 'LOS', 'PROFESORES', 'DE', 'LA', 'CABALLERA', 'ANDANTESCA', 'ANTIGUA', 'ES', 'LA', 'COSTUMBRE', 'DE', 'DIRIGIRSE', 'LOS', 'LIBROS', 'DE', 'LAS', 'EXCELENCIAS', 'Y', 'HAZAAS', 'DE', 'ALGN', 'HOMBRE', 'FAMOSO', 'A', 'LAS', 'PATRIAS', 'ILUSTRES', 'QUE', 'COMO', 'MADRES', 'LOS', 'CRIARON', 'Y', 'SACARON', 'A', 'LUZ', 'Y', 'AUN', 'COMPETIR', 'MIL', 'CIUDADES', 'SOBRE', 'CUL', 'LO', 'HABA', 'DE', 'SER', 'DE', 'UN', 'BUEN', 'INGENIO', 'Y', 'GRAVE', 'PERSONAJE', 'Y', 'COMO', 'LO', 'SEA', 'TANTO', 'EL', 'HIDALGO', 'CABALLERO',

In [9]:
# 5️ Lemmatization
print("\n--- Lemmatization ---")
lemmatizer = WordNetLemmatizer()
nltk_lemmatized = [lemmatizer.lemmatize(word, pos="v") for word in nltk_tokens]  # NLTK has proper lemmatization
print("NLTK:", nltk_lemmatized)


--- Lemmatization ---
NLTK: ['ALONSO', 'FERNNDEZ', 'DE', 'AVELLANEDA', 'SEGUNDO', 'TOMO', 'DEL', 'INGENIOSO', 'HIDALGO', 'DON', 'QUIJOTE', 'DE', 'LA', 'MANCHA', 'QUE', 'CONTIENE', 'SU', 'TERCERA', 'SALIDA', 'Y', 'ES', 'LA', 'QUINTA', 'PARTE', 'DE', 'SUS', 'AVENTURAS', 'AL', 'ALCALDE', 'REGIDORES', 'Y', 'HIDALGOS', 'DE', 'LA', 'NOBLE', 'VILLA', 'DEL', 'ARGAMESILLA', 'DE', 'LA', 'MANCHA', 'PATRIA', 'FELIZ', 'DEL', 'HIDALGO', 'CABALLERO', 'DON', 'QUIJOTE', 'LUSTRE', 'DE', 'LOS', 'PROFESORES', 'DE', 'LA', 'CABALLERA', 'ANDANTESCA', 'ANTIGUA', 'ES', 'LA', 'COSTUMBRE', 'DE', 'DIRIGIRSE', 'LOS', 'LIBROS', 'DE', 'LAS', 'EXCELENCIAS', 'Y', 'HAZAAS', 'DE', 'ALGN', 'HOMBRE', 'FAMOSO', 'A', 'LAS', 'PATRIAS', 'ILUSTRES', 'QUE', 'COMO', 'MADRES', 'LOS', 'CRIARON', 'Y', 'SACARON', 'A', 'LUZ', 'Y', 'AUN', 'COMPETIR', 'MIL', 'CIUDADES', 'SOBRE', 'CUL', 'LO', 'HABA', 'DE', 'SER', 'DE', 'UN', 'BUEN', 'INGENIO', 'Y', 'GRAVE', 'PERSONAJE', 'Y', 'COMO', 'LO', 'SEA', 'TANTO', 'EL', 'HIDALGO', 'CABALLERO', '

In [10]:
# 6️ Sentence Segmentation
print("\n--- Sentence Segmentation ---")
pure_sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)  # Pure Python Regex Approach
nltk_sentences = sent_tokenize(text)  # Using NLTK
print("Pure Python:", pure_sentences)
print("NLTK:", nltk_sentences)


--- Sentence Segmentation ---
Pure Python: ['Alonso Fernández de Avellaneda\nSegundo tomo del ingenioso hidalgo Don Quijote de la Mancha, que contiene su tercera salida, y es la quinta parte de sus aventuras\n\nAl alcalde, regidores y hidalgos de la noble villa del Argamesilla de la Mancha, patria feliz del hidalgo caballero don Quijote, lustre de los profesores de la caballería andantesca\nAntigua es la costumbre de dirigirse los libros de las excelencias y hazañas de algún hombre famoso a las patrias ilustres, que como madres los criaron y sacaron a luz, y aun competir mil ciudades sobre cuál lo había de ser de un buen ingenio y grave personaje.', 'Y como lo sea tanto el hidalgo caballero don Quijote de la Mancha (tan conocido en el mundo por sus inauditas proezas), justo es para que lo sea también esa venturosa villa que vuesas mercedes rigen, patria suya y de su fidelísimo escudero Sancho Panza, dirigirles esta segunda parte, que relata las vitorias del uno y buenos servicios del 