<a href="https://colab.research.google.com/github/crismunoz/TALLER-NLP/blob/main/Semana-1/Tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenización

### Instalación y Configuración Spacy

In [None]:
!pip install transformers
!pip install --upgrade spacy 
!python -m spacy download es_core_news_lg
import spacy
from spacy import displacy
nlp = spacy.load("es_core_news_lg")

### Texto ejemplo

In [2]:
text="""El presidente de la República Pedro Castillo anunció la creación del denominado \
Servicio Civil Agrario - Secigra, con la finalidad de que “miles de jóvenes universitarios \
recién egresados” vayan al campo para brindar apoyo técnico “a nuestros agricultores \
y agricultoras”. “Tenemos en preparación un programa de servicio civil agrario, al que llamamos \
Secigra-Agrario, por lo cual miles de jóvenes universitarios, recién egresados, saldrán al \
campo a apoyar técnicamente a nuestro agricultores”, expresó."""
text

'El presidente de la República Pedro Castillo anunció la creación del denominado Servicio Civil Agrario - Secigra, con la finalidad de que “miles de jóvenes universitarios recién egresados” vayan al campo para brindar apoyo técnico “a nuestros agricultores y agricultoras”. “Tenemos en preparación un programa de servicio civil agrario, al que llamamos Secigra-Agrario, por lo cual miles de jóvenes universitarios, recién egresados, saldrán al campo a apoyar técnicamente a nuestro agricultores”, expresó.'

### Tokenización por sentencia

In [3]:
doc = nlp(text)
for idx,sent in enumerate(doc.sents):
  print(f'sentencia {idx+1}: ', sent)
  print()

sentencia 1:  El presidente de la República Pedro Castillo anunció la creación del denominado Servicio Civil Agrario - Secigra, con la finalidad de que “miles de jóvenes universitarios recién egresados” vayan al campo para brindar apoyo técnico “a nuestros agricultores y agricultoras”.

sentencia 2:  “Tenemos en preparación un programa de servicio civil agrario, al que llamamos Secigra-Agrario, por lo cual miles de jóvenes universitarios, recién egresados, saldrán al campo a apoyar técnicamente a nuestro agricultores”, expresó.



### 1) Tokenización por espacio

In [4]:
print(text.split(' '))

['El', 'presidente', 'de', 'la', 'República', 'Pedro', 'Castillo', 'anunció', 'la', 'creación', 'del', 'denominado', 'Servicio', 'Civil', 'Agrario', '-', 'Secigra,', 'con', 'la', 'finalidad', 'de', 'que', '“miles', 'de', 'jóvenes', 'universitarios', 'recién', 'egresados”', 'vayan', 'al', 'campo', 'para', 'brindar', 'apoyo', 'técnico', '“a', 'nuestros', 'agricultores', 'y', 'agricultoras”.', '“Tenemos', 'en', 'preparación', 'un', 'programa', 'de', 'servicio', 'civil', 'agrario,', 'al', 'que', 'llamamos', 'Secigra-Agrario,', 'por', 'lo', 'cual', 'miles', 'de', 'jóvenes', 'universitarios,', 'recién', 'egresados,', 'saldrán', 'al', 'campo', 'a', 'apoyar', 'técnicamente', 'a', 'nuestro', 'agricultores”,', 'expresó.']


### 2) Tokenización basado en palabras

In [None]:
from spacy.tokenizer import Tokenizer
from spacy.lang.es import Spanish
nlp = Spanish()
tokens = nlp.tokenizer(text)
print(list(tokens))

[El, presidente, de, la, República, Pedro, Castillo, anunció, la, creación, del, denominado, Servicio, Civil, Agrario, -, Secigra, ,, con, la, finalidad, de, que, “, miles, de, jóvenes, universitarios, recién, egresados, ”, vayan, al, campo, para, brindar, apoyo, técnico, “, a, nuestros, agricultores, y, agricultoras, ”, ., “, Tenemos, en, preparación, un, programa, de, servicio, civil, agrario, ,, al, que, llamamos, Secigra-Agrario, ,, por, lo, cual, miles, de, jóvenes, universitarios, ,, recién, egresados, ,, saldrán, al, campo, a, apoyar, técnicamente, a, nuestro, agricultores, ”, ,, expresó, .]


### 3) Tokenización para sub-palabras

In [6]:
from transformers import BertTokenizer
#tz = BertTokenizer.from_pretrained("bert-base-cased")
tz = BertTokenizer.from_pretrained("bert-base-multilingual-cased")

Downloading:   0%|          | 0.00/972k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/625 [00:00<?, ?B/s]

In [7]:
tz.tokenize(text)

['El',
 'presidente',
 'de',
 'la',
 'República',
 'Pedro',
 'Castillo',
 'anunció',
 'la',
 'creación',
 'del',
 'denominado',
 'Servicio',
 'Civil',
 'A',
 '##gra',
 '##rio',
 '-',
 'Sec',
 '##ig',
 '##ra',
 ',',
 'con',
 'la',
 'finali',
 '##dad',
 'de',
 'que',
 '[UNK]',
 'miles',
 'de',
 'jóvenes',
 'universitario',
 '##s',
 'recién',
 'e',
 '##gres',
 '##ados',
 '[UNK]',
 'va',
 '##yan',
 'al',
 'campo',
 'para',
 'br',
 '##inda',
 '##r',
 'apoyo',
 'técnico',
 '[UNK]',
 'a',
 'nuestros',
 'ag',
 '##ricu',
 '##lto',
 '##res',
 'y',
 'ag',
 '##ricu',
 '##lto',
 '##ras',
 '[UNK]',
 '.',
 '[UNK]',
 'Ten',
 '##emos',
 'en',
 'preparación',
 'un',
 'programa',
 'de',
 'servicio',
 'civil',
 'ag',
 '##rar',
 '##io',
 ',',
 'al',
 'que',
 'llama',
 '##mos',
 'Sec',
 '##ig',
 '##ra',
 '-',
 'A',
 '##gra',
 '##rio',
 ',',
 'por',
 'lo',
 'cual',
 'miles',
 'de',
 'jóvenes',
 'universitario',
 '##s',
 ',',
 'recién',
 'e',
 '##gres',
 '##ados',
 ',',
 'sal',
 '##dr',
 '##án',
 'al',
 'camp