#Tokenización o segmentación por tokens

### Se puede separar un texto en oraciones, palabras, caracteres o algunos otros criterios.

### Usaremos NLTK en los siguientes ejemplos.

In [None]:
# Para instalarlo por primera vez:
#!pip install nltk

In [None]:
import nltk  # Python Natural Language Toolkit:  https://www.nltk.org/ 
nltk.download('punkt')      #  Punkt Sentence Tokenizer:   https://www.kite.com/python/docs/nltk.punkt 

In [None]:
#nltk.download()  # Cuando lo deees, puedes seleccionar el o los paquetes particulares que desees instalar.

In [None]:
f = open("arreola_guardagujas.txt", "r")

In [None]:
cuento = f.read()
cuento   # este es un string que contiene todo el documento (cuento) de Arreola.

In [None]:
len(cuento)  # Total de caracteres del cuento/documento.

14059

###**Tokenización por enunciados:** 

###Por default NLTK tokeniza texto en inglés, pero también puede tokenizar otros idiomas como Español.

In [None]:
# Podemos tokenizar nuestro corpus en oraciones usando el modelo predeterminado en Español ya integrado:
sent = nltk.sent_tokenize(text=cuento, language='spanish')   

In [None]:
sent[0:10]    # observa que la separación de las oraciones predeterminada no es por salto de página "\n".

In [None]:
senten = nltk.sent_tokenize(text=cuento, language='french')    # german, italian, french, portuguese...
senten[0:10]

Veamos si usando los modelos pre-entrenados con otros idiomas diferentes al español resulta "exactamente" la misma división de oraciones:

In [None]:
print(sent==senten)   # con algunos idiomas diferentes al del documento se pueden obtener diferentes tokenizaciones.

### En caso de tener un modelo personal pre-entrenado, lo podríamos utilizar también.

###El poder entrenar corpus con idiomas particulares ayuda a identificar mejor las partes de las oraciones, estructuras gramaticales, palabras o caracteres usuales con las que inicia o termina una oración, palbras que por lo general aparecen juntas, etc.

In [None]:
spanish_tokenizer = nltk.data.load(resource_url='tokenizers/punkt/spanish.pickle')

In [None]:
ss = spanish_tokenizer.tokenize(cuento.strip())

### **Tokenización por palabras:**

Una vez que tienes cada oración, podrás ahora separarlas por "palabras":

In [None]:
w = nltk.word_tokenize(ss[7], language='spanish')
print(w)

### Separemos todo el cuento de Arreola en palabras:

In [None]:
sent = nltk.sent_tokenize(text=cuento, language='spanish')   
tokens_words = [nltk.word_tokenize(s) for s in sent]

###Veamos como se lleva a cabo la separación de algunas contracciones en inglés: 

In [None]:
r = "haven't I'll ain't can't everyone's o'clock ol' 'tis"

In [None]:
print(nltk.word_tokenize(r, language='english'))

### **Usando el método split() de string** 

Cuando cargas o generas un documento separado por renglones de strings, también podrás seguir tokenizándolo bajo diferentes criterios. 

Veamos algunos ejemolos:

In [None]:
sent  # tenemos una lista de enunciados (strings) 

In [None]:
tks1 = []             
for linea in sent:
  x = str(linea).split('\n')   # separando por saltos de línea "\n"
  tks1.append(x)

In [None]:
tks2 = []             
for linea in sent:
  x = str(linea).split(' ')   # separando por espacios en blanco ... en dado caso puedes separar por ",", ".", etc...
  tks2.append(x)


In [None]:
tks3 = []             
for linea in sent:
  x = str(linea).split()   # en este caso separa por espacios en blanco y saltos de línea "\n"
  tks3.append(x)


In [None]:
print(len(sent))
print(len(tks1))
print(len(tks2))
print(len(tks3))
print(len(tks1[0]))
print(len(tks2[0]))
print(len(tks3[0]))

### Podemos concatenar también todos los enunciados para obtener un solo documento formado por una lista de tokens (palabras):

In [None]:
u=[]
for t in tks3:   # para el caso de una lista de enunciados formado por strings de palabras
  u += t
