# Como tokenizar texto
Un antes usaba expresiones regulares para separar, sin embargo, puedes usar spacy.blank para tokenizar con los espacios blancos

In [6]:
import spacy 
nlp=spacy.blank("en")
text="Mary, don't slap the green witch"
print([str(token) for token in nlp(text.lower())])

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


In [8]:
from nltk.tokenize import TweetTokenizer
tweet="Snow White and the Seven Degrees\n#MakeAMovieCold@midnight:-)" 
tokenizer =TweetTokenizer()
print(tokenizer.tokenize(tweet.lower()))
#Utiliza un modelo de NLP que tokeniza cosas comunes un twitter, como hastags, etiquetados y emojis

['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@midnight', ':-)']


## Los tipos
> Los tipos son tokens uniocs en un corpus, el conjunto de todos estos tipos en un corpus, es el denominado vocabulario o lexicon 
Las palabas pueden ser separadas como stopwords y como content words

# N grams
Son la longitud de tokens consecutivos en una secuencia de un texto. Un bigram contiene  2 tokens, unigram solo 1, y asi sucesivamente 
Se pueden generar n-grams con NLTK y spaCy

In [13]:
def n_grams(text,n):
    """
    Toma toknes de texto y retorma una lista de n-grams
    """
    return [text[i:i+n] for i in range(len(text)-n+1)]
original=["mary",",","n't","slap","green","witch","."]
print(f"Original: {original}")
ngr=n_grams(original,3)
print(f"por token {ngr}")

Original: ['mary', ',', "n't", 'slap', 'green', 'witch', '.']
por token [['mary', ',', "n't"], [',', "n't", 'slap'], ["n't", 'slap', 'green'], ['slap', 'green', 'witch'], ['green', 'witch', '.']]


> Esto puede ser particularmente util en casos donde la subpalabra de información, tal es el caso de nomenclatura quimica

## Lemmas y Stems
Los lemmas son la raíz de la palabra, en inglés, un ejemplo es flow, flew, flies,flown flowing, pero todos derivan de fly. Puede ser muy util para reducir la cantidad de tokens que se usa, para esta tarea usaremos el modelo completo, pero pequeño de spaCy

In [18]:
nlp_lemma=spacy.load("en_core_web_sm")
doc=nlp_lemma(u"he was running late")
for token in doc:
    print(f"{token}-----> {token.lemma_}")

he-----> he
was-----> be
running-----> run
late-----> late


# Stems
> La diferencia es que sua reglas predefinidad para acortar la palabra. Mientras que la lemmatización sabe la raíz de la palabra como por ejemplo, se puede ver el caso de la palabra amar. Amar,amo, amada,amado, dira que es de amar. La stemización solo dira que es am

# Categorizando palabras
Esta ha sido una de las tareas más primitas del NLP y comunees, consiste en etiquetar cierta cantidad de texto , como por ejemplo, topicos, identificacion del lenguaje y email pueden determinarse como problemas de este nicho 

In [25]:
nlp_tagger=spacy.load("en_core_web_sm")
doc=nlp_tagger(u"Mary slapped the green witch.")
for token in doc:
    print(f"{token}- {token.pos_}")

Mary- PROPN
slapped- VERB
the- DET
green- PROPN
witch- PROPN
.- PUNCT


> Esta forma de etiquetar, permite identificar cada una de los componentes de una oración, como por pronombres o personas, verbos, el determinante, sustantivos y signos de puntuación

In [30]:
nlp_categories=spacy.load("en_core_web_sm")
doc=nlp_categories(u"Mary slapped the green witch.")
for token in doc.noun_chunks:
    print(f"{token} - {token.label_}")

Mary - NP
the green witch - NP
