# Clase 12
Se utilizara la libreria nltk y se aprenderan distintos tokenizadores

In [1]:
from nltk.tokenize import RegexpTokenizer

In [3]:
sentence = 'Chile ganó la Copa América el año 2015 y el año 2016'
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

['Chile', 'ganó', 'la', 'Copa', 'América', 'el', 'año', '2015', 'y', 'el', 'año', '2016']


## TreeBankWordTokenizer
Es un tokenizador para el idioma inglés

In [4]:
from nltk.tokenize import TreebankWordTokenizer

In [5]:
sentence = """All in all, you're just another brick in the wall."""

tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)

['All',
 'in',
 'all',
 ',',
 'you',
 "'re",
 'just',
 'another',
 'brick',
 'in',
 'the',
 'wall',
 '.']

## Casual tokenize
Tokenizador para redes sociales

In [6]:
from nltk.tokenize.casual import casual_tokenize

In [9]:
message = """Estuvo muuuuuuy bueno el concierto!!!!! Grandeeee @PinkFloyd :")" """

print(casual_tokenize(message))

print(casual_tokenize(message, reduce_len=True, strip_handles=True))

['Estuvo', 'muuuuuuy', 'bueno', 'el', 'concierto', '!', '!', '!', 'Grandeeee', '@PinkFloyd', ':', '"', ')', '"']
['Estuvo', 'muuuy', 'bueno', 'el', 'concierto', '!', '!', '!', 'Grandeee', ':', '"', ')', '"']


## Tweet Tokenizer

In [3]:
from nltk.tokenize import TweetTokenizer
message = """Estuvo muuuuuuy bueno el concierto!!!!! Grandeeee @PinkFloyd pic.twitter.com:")" """

In [4]:
tweet_tokenizer = TweetTokenizer(strip_handles=True, reduce_len=True)
print(tweet_tokenizer.tokenize(message))

['Estuvo', 'muuuy', 'bueno', 'el', 'concierto', '!', '!', '!', 'Grandeee', 'pic.twitter.com', ':', '"', ')', '"']


## N-Gramas
Otra forma de analizar texto es utilizando N-gramas,
N-grama se define como una secuencia que contiene hasta N elementos que se han extraido desde otra secuencia.

Un N-grama de palabras es una secuencia de N palabras dentro de una frase

In [13]:
import re

In [16]:
sentence = """Led Zeppelin fue un grupo británico de hard rock, fundado en 1968."""
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)

tokens = [x for x in tokens if x and x  not in '- \t\n.,;!?']
print(tokens)

['Led', 'Zeppelin', 'fue', 'un', 'grupo', 'británico', 'de', 'hard', 'rock', 'fundado', 'en', '1968']


In [17]:
from nltk.util import ngrams

In [18]:
#Bigramas
X = list(ngrams(tokens, 2))
print(X)

[('Led', 'Zeppelin'), ('Zeppelin', 'fue'), ('fue', 'un'), ('un', 'grupo'), ('grupo', 'británico'), ('británico', 'de'), ('de', 'hard'), ('hard', 'rock'), ('rock', 'fundado'), ('fundado', 'en'), ('en', '1968')]


In [21]:
#Trigramas
X = list(ngrams(tokens, 3))
print(X)

[('Led', 'Zeppelin', 'fue'), ('Zeppelin', 'fue', 'un'), ('fue', 'un', 'grupo'), ('un', 'grupo', 'británico'), ('grupo', 'británico', 'de'), ('británico', 'de', 'hard'), ('de', 'hard', 'rock'), ('hard', 'rock', 'fundado'), ('rock', 'fundado', 'en'), ('fundado', 'en', '1968')]


In [22]:
#Juntar bigramas
two_grams = list(ngrams(tokens, 2))
Y = [" ".join(x) for x in two_grams]
print(Y)

['Led Zeppelin', 'Zeppelin fue', 'fue un', 'un grupo', 'grupo británico', 'británico de', 'de hard', 'hard rock', 'rock fundado', 'fundado en', 'en 1968']


Este enfoque intenta preservar algo de orden, aunque no completo.
Tiene el problema de que la primera y ultima palabra solo aparecerán una ves.
Tampoco es bueno para la clasificacion, sin embargo si es bueno para la recuperacion de informacion.

## Stop words
Las stop words son palabras de conexion, no llevan un significado real, por lo que es una buena practica eliminarlas

In [23]:
stop_words = ['a', 'am', 'the', 'on', 'off', 'this', 'is']
tokens = ['the', 'house', 'is', 'on', 'fire']
tokens_without_stopwords = [x for x in tokens if x not in stop_words]
print(tokens_without_stopwords)

['house', 'fire']


La libreria nltk posee una coleccion de stopwords para cada idioma

In [24]:
import nltk

nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words('english')
print(len(stop_words))
print(stop_words[:7])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours']


[nltk_data] Downloading package stopwords to
[nltk_data]     D:\Users\Memo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [30]:
# En el idioma español
stop_words = nltk.corpus.stopwords.words('spanish')
print(len(stop_words))
print(stop_words[:15])

313
['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con']


La librearia sklearn tambien posee stopwords

In [29]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words

print(len(sklearn_stop_words))

318


## Normalizacion
Convertir todas las letras a minusculas

In [32]:
tokens = ['CIENCIA', 'Ciencia', 'CiEnCiA']
normalized_tokens = [x.lower() for x in tokens]
print(normalized_tokens)

['ciencia', 'ciencia', 'ciencia']


## Stemming
Convierte caracteristicas o conjugaciones de una frase a su estado normal, como plural a singular, genero femenino a masculino y pertenecias(ingles)

In [37]:
def stem(phrase):
    return ' '.join([re.findall('^(.*ss|.*?)(s)?$', word)[0][0].strip("'") for word in phrase.lower().split()])

print(stem('casas'))
print(stem("Mis amigos viven en Padre Las Casas"))

casa
mi amigo viven en padre la casa


La libreria nltk posee "PorterStemmer", que convierte la "pertenecia" (del ingles) y la pluralidad

In [38]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()

' '.join([stemmer.stem(w).strip("'") for w in "dish washer's washed dishes".split()])

'dish washer wash dish'

Tambien posee "SnowballStemmer" que convierte el genero de las frases

In [39]:
from nltk import SnowballStemmer

stemmer = SnowballStemmer('spanish')

' '.join([stemmer.stem(w).strip("'") for w in "Entre mis amigos ella es mi mejor amiga".split()])

'entre mis amig ella es mi mejor amig'