# Processamento básico de texto
## Como identificar os tokens de um texto ?

In [None]:
import gzip
import re
import nltk

In [None]:
texto="""Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 "tiras" de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um "mosaico" que cobre uma área de cerca de um milhão de quilómetros quadrados.
"Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos", refere a ESA.
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra.
Ainda que a calote polar seja um "elemento permanente", durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma "capa extra" de até um metro de espessura."""

Quantas palavras diferentes podemos encontrar neste texto?

In [None]:
print(texto)

Claro que podemos eliminar as palavras repetidas

In [None]:
set(texto.split())

In [None]:
texto2 = re.sub(r"([\,\.\"])", r" \1 ", texto).lower()
texto2=re.sub(r"[\n\r]", "", texto2 )

In [None]:
set(texto2.split())

In [None]:
import collections
freq=collections.Counter(texto2.split())
freq

In [None]:
freq["que"]

## Agora usando o NLTK
Pode-se ver que alguns sinais de pontuação, tais como "." e "," são corretamente separados. No entanto, as aspas representam um problema. 

In [None]:
texto

In [None]:
palavras=nltk.word_tokenize(texto.lower())
set(palavras)

## Tokenização de Tweets

In [None]:
from nltk.tokenize import TweetTokenizer
mytkzr = TweetTokenizer()

tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
mytkzr.tokenize(tweet)

Outro exemplo ...

In [None]:
tweet = "Olá @iscte, a cadeira de #text-mining rulezzzz. :)"
mytkzr.tokenize(tweet)

## Exemplo de processamento de um ficheiro

In [None]:
import gzip
f=gzip.open("../data/pt/tsf.selecionado/not_4180883.gz", "rt", encoding="utf-8")
texto=f.readlines()
f.close()

In [None]:
t="\n".join(texto[2:])
print(t)

In [None]:
import nltk
palavras=nltk.word_tokenize(t)
print(" | ".join(palavras))

## Stemming

In [None]:
import nltk.stem as stem
sentence = "the flies died and denied their dead stating sensational lies"

stemmer = stem.porter.PorterStemmer()
res = [ stemmer.stem(w) for w in sentence.split()]
print(" ".join(res) )

Temos também `stemmers` mais sofisticados. Por exemplo, o SnowballStemmer também funciona para Português (apesar de ser mauzito) ...

In [None]:
print("Languages:", stem.snowball.SnowballStemmer.languages)

In [None]:
frase = "lindos são os prados verdes e com muita luz deste Portugal"
stemmer = stem.snowball.SnowballStemmer("portuguese")
res = [stemmer.stem(w) for w in frase.split()]
print(" ".join(res) )

## TextBlob for sentence segmentation
TextBlob is a new python natural language processing toolkit, which stands on the shoulders of giants like NLTK and Pattern, provides text mining, text analysis and text processing modules for python developers.<BR>
Material baseado em: http://textminingonline.com/getting-started-with-textblob

In [None]:
from textblob import TextBlob
from pprint import pprint

text = """Natural language processing (NLP) deals with the application of computational models to text or speech data.
Application areas within NLP include automatic (machine) translation between languages; dialogue systems, which allow a human to interact with a machine using natural language; and information extraction, where the goal is to transform unstructured text into structured (database) representations that can be searched and browsed in flexible ways."""

blob = TextBlob(text)
pprint(blob.sentences)

In [None]:
for frase in blob.sentences:
    print(frase)

In [None]:
frase.sentiment.polarity