# Tokenización
Suárez Pérez Juan Pablo

In [1]:
# Importamos las bibliotecas necesarias.
import re
import spacy

In [2]:
# Creación de Tokenizador. 
def tokenizador(texto):
    """
        Tokenizador de texto por palabras. 
        Entadas: texto.
        Salidas: tokens.
    """
    # Utilizamos una expresión regular para dividir el texto en tokens.
    tokens = re.split(r'(\W+)', texto)
    # Volvemos minúsculas.
    tokens = [token.lower() for token in tokens]
    # Eliminamos tokens vacíos y signos de puntuación solos.
    tokens = [token for token in tokens if token.strip()]
    # Retornamos los valores.
    return tokens

In [3]:
# Implementación del Tokenizador. 
texto = "¿¡Quién! eres?"
tokenizador(texto)

['¿¡', 'quién', '! ', 'eres', '?']

## Ejemplo con oración en inglés. 

In [4]:
# Inicialización del ambiente. 
nlp = spacy.load("en_core_web_sm")
interrogative_sentences = 'what is the weather like today?' 
declarative_sentence = 'The weather is sunny' 
complex_sentence = 'I went to the store, but they wew clased, so i had to go another store.'

In [5]:
# Obtención de los tokens. 
doc_1 = nlp(interrogative_sentences)
doc_2 = nlp(declarative_sentence)
doc_3 = nlp(complex_sentence)

# Generación de diccionario.
compil = {
    'Documento interrogativo:' : doc_1, 
    'Documento declarativo:' : doc_2, 
    'Oracion compleja:' : doc_3    
}

# Impresión de los tokens y tags. 
for doc in compil.keys():
    print(doc)
    # Imprimimos el analisis
    for token in compil[doc]:
        print(token.text, token.pos_)
    print()

Documento interrogativo:
what PRON
is AUX
the DET
weather NOUN
like ADP
today NOUN
? PUNCT

Documento declarativo:
The DET
weather NOUN
is AUX
sunny ADJ

Oracion compleja:
I PRON
went VERB
to ADP
the DET
store NOUN
, PUNCT
but CCONJ
they PRON
wew VERB
clased VERB
, PUNCT
so CCONJ
i PRON
had VERB
to PART
go VERB
another DET
store NOUN
. PUNCT



## Ejemplo con oración en español. 

In [6]:
# Inicialización del ambiente. 
nlp = spacy.load("es_core_news_sm")
interrogative_sentences = '¿Hace mucho calor?' 
declarative_sentence = 'El clima esta muy caliente.' 
complex_sentence = 'Fui a la tienda, pero estaba cerrada, así que tuve que ir a otra tienda.'

In [7]:
# Obtención de los tokens. 
doc_1 = nlp(interrogative_sentences)
doc_2 = nlp(declarative_sentence)
doc_3 = nlp(complex_sentence)

# Generación de diccionario.
compil = {
    'Documento interrogativo:' : doc_1, 
    'Documento declarativo:' : doc_2, 
    'Oracion compleja:' : doc_3    
}

# Impresión de los tokens y tags. 
for doc in compil.keys():
    print(doc)
    # Imprimimos el analisis
    for token in compil[doc]:
        print(token.text, token.pos_)
    print()

Documento interrogativo:
¿ PUNCT
Hace VERB
mucho DET
calor NOUN
? PUNCT

Documento declarativo:
El DET
clima NOUN
esta DET
muy ADV
caliente ADJ
. PUNCT

Oracion compleja:
Fui AUX
a ADP
la DET
tienda NOUN
, PUNCT
pero CCONJ
estaba AUX
cerrada ADJ
, PUNCT
así ADV
que SCONJ
tuve VERB
que SCONJ
ir VERB
a ADP
otra DET
tienda NOUN
. PUNCT

