# Exercise after class

The goal of this exercise is to explore the NLTK library using the manual or online tutorials (avoid AI usage). First, create one (or more) texts in spanish (just copy paste it somewhere). The use the NLTK library of pure Python to performe at least this action to the text(s). 

1. Case folding
2. Word normalization
3. Tokenization
4. Stemming
5. Lemmatization
6. Sentence segmentation
7. PoS Tagging
8. Named Entity Recognition (NER)

Just try to explore and understand the library. Check in the reference book and NLTK manual for the new concepts.

In [31]:
import re
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.tag import pos_tag
import es_core_news_sm

In [20]:
with open('S04_3_text.txt', 'r', encoding='utf-8-sig') as file:
        text = file.read()
print(text)

Alquiler de coche
Buenas tardes, soy Alba. He alquilado un coche para el próximo fin de semana y me gustaría saber dónde debo recogerlo. Yo vivo en Barcelona.
Buenas tardes Alba, muchas gracias por llamar. Yo vivo en un pueblo a 20 minutos de Barcelona. ¿Crees que podrías venir a recogerlo el viernes?
Depende de a qué hora ya que el viernes trabajo.
Me vendría bien entre las 17.00h y las 19.00h. ¿Cómo lo tienes?
Lo tengo complicado, acabo de trabajar a las 18.30 y creo que no me daría tiempo. ¿Cómo te iría el sábado a primera hora?
Si vinieses antes de las 9.00h me vendría bien.
Pues si te parece bien, te aviso cuando salga de Barcelona, sobre las 8.00h, así cuando llegues ya está todo listo.
Genial Alba, quedamos así, te espero el sábado antes de las 9.00h.


In [21]:
#1
casefolded_text = text.lower()
print(casefolded_text)

alquiler de coche
buenas tardes, soy alba. he alquilado un coche para el próximo fin de semana y me gustaría saber dónde debo recogerlo. yo vivo en barcelona.
buenas tardes alba, muchas gracias por llamar. yo vivo en un pueblo a 20 minutos de barcelona. ¿crees que podrías venir a recogerlo el viernes?
depende de a qué hora ya que el viernes trabajo.
me vendría bien entre las 17.00h y las 19.00h. ¿cómo lo tienes?
lo tengo complicado, acabo de trabajar a las 18.30 y creo que no me daría tiempo. ¿cómo te iría el sábado a primera hora?
si vinieses antes de las 9.00h me vendría bien.
pues si te parece bien, te aviso cuando salga de barcelona, sobre las 8.00h, así cuando llegues ya está todo listo.
genial alba, quedamos así, te espero el sábado antes de las 9.00h.


In [22]:
#2
clean_text = re.sub(r'[^a-zA-Z0-9]', ' ', casefolded_text)
print(clean_text)

alquiler de coche buenas tardes  soy alba  he alquilado un coche para el pr ximo fin de semana y me gustar a saber d nde debo recogerlo  yo vivo en barcelona  buenas tardes alba  muchas gracias por llamar  yo vivo en un pueblo a 20 minutos de barcelona   crees que podr as venir a recogerlo el viernes  depende de a qu  hora ya que el viernes trabajo  me vendr a bien entre las 17 00h y las 19 00h   c mo lo tienes  lo tengo complicado  acabo de trabajar a las 18 30 y creo que no me dar a tiempo   c mo te ir a el s bado a primera hora  si vinieses antes de las 9 00h me vendr a bien  pues si te parece bien  te aviso cuando salga de barcelona  sobre las 8 00h  as  cuando llegues ya est  todo listo  genial alba  quedamos as   te espero el s bado antes de las 9 00h 


In [23]:
#3
tokeniced_text = clean_text.split()
print(tokeniced_text)

['alquiler', 'de', 'coche', 'buenas', 'tardes', 'soy', 'alba', 'he', 'alquilado', 'un', 'coche', 'para', 'el', 'pr', 'ximo', 'fin', 'de', 'semana', 'y', 'me', 'gustar', 'a', 'saber', 'd', 'nde', 'debo', 'recogerlo', 'yo', 'vivo', 'en', 'barcelona', 'buenas', 'tardes', 'alba', 'muchas', 'gracias', 'por', 'llamar', 'yo', 'vivo', 'en', 'un', 'pueblo', 'a', '20', 'minutos', 'de', 'barcelona', 'crees', 'que', 'podr', 'as', 'venir', 'a', 'recogerlo', 'el', 'viernes', 'depende', 'de', 'a', 'qu', 'hora', 'ya', 'que', 'el', 'viernes', 'trabajo', 'me', 'vendr', 'a', 'bien', 'entre', 'las', '17', '00h', 'y', 'las', '19', '00h', 'c', 'mo', 'lo', 'tienes', 'lo', 'tengo', 'complicado', 'acabo', 'de', 'trabajar', 'a', 'las', '18', '30', 'y', 'creo', 'que', 'no', 'me', 'dar', 'a', 'tiempo', 'c', 'mo', 'te', 'ir', 'a', 'el', 's', 'bado', 'a', 'primera', 'hora', 'si', 'vinieses', 'antes', 'de', 'las', '9', '00h', 'me', 'vendr', 'a', 'bien', 'pues', 'si', 'te', 'parece', 'bien', 'te', 'aviso', 'cuando', 

In [24]:
#4
pure_stemmed = [word.rstrip("lo") for word in tokeniced_text]
print(pure_stemmed)
#?????????????????????????????????????????

['alquiler', 'de', 'coche', 'buenas', 'tardes', 'soy', 'alba', 'he', 'alquilad', 'un', 'coche', 'para', 'e', 'pr', 'xim', 'fin', 'de', 'semana', 'y', 'me', 'gustar', 'a', 'saber', 'd', 'nde', 'deb', 'recoger', 'y', 'viv', 'en', 'barcelona', 'buenas', 'tardes', 'alba', 'muchas', 'gracias', 'por', 'llamar', 'y', 'viv', 'en', 'un', 'pueb', 'a', '20', 'minutos', 'de', 'barcelona', 'crees', 'que', 'podr', 'as', 'venir', 'a', 'recoger', 'e', 'viernes', 'depende', 'de', 'a', 'qu', 'hora', 'ya', 'que', 'e', 'viernes', 'trabaj', 'me', 'vendr', 'a', 'bien', 'entre', 'las', '17', '00h', 'y', 'las', '19', '00h', 'c', 'm', '', 'tienes', '', 'teng', 'complicad', 'acab', 'de', 'trabajar', 'a', 'las', '18', '30', 'y', 'cre', 'que', 'n', 'me', 'dar', 'a', 'tiemp', 'c', 'm', 'te', 'ir', 'a', 'e', 's', 'bad', 'a', 'primera', 'hora', 'si', 'vinieses', 'antes', 'de', 'las', '9', '00h', 'me', 'vendr', 'a', 'bien', 'pues', 'si', 'te', 'parece', 'bien', 'te', 'avis', 'cuand', 'salga', 'de', 'barcelona', 'sobr

In [28]:
#5
lemmatizer = WordNetLemmatizer()
nltk_lemmatizingtext = [lemmatizer.lemmatize(word) for word in tokeniced_text]
print(nltk_lemmatizingtext)
#??????????????????????????????????????????

LookupError: 
**********************************************************************
  Resource [93mwordnet[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('wordnet')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mcorpora/wordnet[0m

  Searched in:
    - 'C:\\Users\\manue/nltk_data'
    - 'c:\\Users\\manue\\Anaconda\\nltk_data'
    - 'c:\\Users\\manue\\Anaconda\\share\\nltk_data'
    - 'c:\\Users\\manue\\Anaconda\\lib\\nltk_data'
    - 'C:\\Users\\manue\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************


In [None]:
#6
pure_sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
print(pure_sentences)

['Alquiler de coche\nBuenas tardes, soy Alba.', 'He alquilado un coche para el próximo fin de semana y me gustaría saber dónde debo recogerlo.', 'Yo vivo en Barcelona.', 'Buenas tardes Alba, muchas gracias por llamar.', 'Yo vivo en un pueblo a 20 minutos de Barcelona.', '¿Crees que podrías venir a recogerlo el viernes?', 'Depende de a qué hora ya que el viernes trabajo.', 'Me vendría bien entre las 17.00h y las 19.00h.', '¿Cómo lo tienes?', 'Lo tengo complicado, acabo de trabajar a las 18.30 y creo que no me daría tiempo.', '¿Cómo te iría el sábado a primera hora?', 'Si vinieses antes de las 9.00h me vendría bien.', 'Pues si te parece bien, te aviso cuando salga de Barcelona, sobre las 8.00h, así cuando llegues ya está todo listo.', 'Genial Alba, quedamos así, te espero el sábado antes de las 9.00h.']


In [32]:
#7
nlp = es_core_news_sm.load()
doc = nlp(text)
print([(w.text, w.pos_) for w in doc]) 

[('Alquiler', 'PROPN'), ('de', 'ADP'), ('coche', 'NOUN'), ('\n', 'SPACE'), ('Buenas', 'PROPN'), ('tardes', 'NOUN'), (',', 'PUNCT'), ('soy', 'AUX'), ('Alba', 'PROPN'), ('.', 'PUNCT'), ('He', 'AUX'), ('alquilado', 'VERB'), ('un', 'DET'), ('coche', 'NOUN'), ('para', 'ADP'), ('el', 'DET'), ('próximo', 'ADJ'), ('fin', 'NOUN'), ('de', 'ADP'), ('semana', 'NOUN'), ('y', 'CCONJ'), ('me', 'PRON'), ('gustaría', 'VERB'), ('saber', 'AUX'), ('dónde', 'PRON'), ('debo', 'AUX'), ('recogerlo', 'VERB'), ('.', 'PUNCT'), ('Yo', 'PRON'), ('vivo', 'VERB'), ('en', 'ADP'), ('Barcelona', 'PROPN'), ('.', 'PUNCT'), ('\n', 'SPACE'), ('Buenas', 'PROPN'), ('tardes', 'NOUN'), ('Alba', 'PROPN'), (',', 'PUNCT'), ('muchas', 'PRON'), ('gracias', 'NOUN'), ('por', 'ADP'), ('llamar', 'VERB'), ('.', 'PUNCT'), ('Yo', 'PRON'), ('vivo', 'VERB'), ('en', 'ADP'), ('un', 'DET'), ('pueblo', 'NOUN'), ('a', 'ADP'), ('20', 'NUM'), ('minutos', 'NOUN'), ('de', 'ADP'), ('Barcelona', 'PROPN'), ('.', 'PUNCT'), ('¿', 'PUNCT'), ('Crees', 'PRO