# Processamento básico de texto

In [None]:
import gzip
import re
import nltk

Caso esteja a utilizar o google colab, deve seguir as instruções disponíveis no moodle
e correr a célula seguinte

In [None]:
if 'google.colab' in str(get_ipython()):
    nltk.download('punkt')

In [None]:
texto="""Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 "tiras" de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um "mosaico" que cobre uma área de cerca de um milhão de quilómetros quadrados.
"Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos", refere a ESA.
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra.
Ainda que a calote polar seja um "elemento permanente", durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma "capa extra" de até um metro de espessura."""

Quantas palavras diferentes podemos encontrar neste texto?

In [None]:
print(texto)

### Como identificar os *tokens* de um texto?

In [None]:
print(texto.split())

Verificamos que há tokens que fazem pouco sentido: e.g. `'"mosaico"'`, `'ESA.'`, ...

Uma forma de resolver o problema poderá envolver processamento do texto, por exemplo separando os carateres `"` e `.` das palavras à sua volta.

In [None]:
tmp = re.sub('([\.\"])', ' \\1 ', texto)
print(tmp)

In [None]:
texto2 = re.sub('([\.\"])', ' \\1 ', texto)
texto2 = re.sub(' +', ' ', texto2)
print(texto2)

Agora sim, já será possivel obter uma segmentação mais interessante...

In [None]:
print(texto2.split())

### Expressões regulares

As expresssões regulares têm inúmeras aplicações: filtragem, obtenção de padões, etc.

Options:
- `re.I`: perform case-insensitive matching
- `re.MULTILINE`: When specified, the pattern character '^' matches at the beginning of the string and at the beginning of each line (immediately following each newline)
- `re.DOTALL`: Make the '.' special character match any character at all, including a newline

In [None]:
matches = re.findall("[A-Z][a-z]+", texto2, re.MULTILINE)
print(matches)

Façamos agora algum pré-processamento básico inicial para juntar as várias frases numa única linha e transformar tudo em minúsculas

In [None]:
texto2 = re.sub(r'[\n\r]', "", texto2).lower()
print(texto2)

Depois do pré-processamento inicial, calcular a frequência de cada token

In [None]:
import collections
freq=collections.Counter(texto2.split())
print(freq)

In [None]:
freq["que"]

## Agora usando o NLTK
Observe que para além dos sinais de pontuação, tais como "." e ",", as aspas também podem representar um problema. 

In [None]:
print(texto)

In [None]:
palavras=nltk.word_tokenize(texto)
print(palavras)

### Tokenização de Tweets

O mesma solução não produz um bom resultado quando aplicada, por exemplo, a tweets

In [None]:
tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"

print(nltk.word_tokenize(tweet))

In [None]:
from nltk.tokenize import TweetTokenizer
mytkzr = TweetTokenizer()
print(mytkzr.tokenize(tweet))

Outro exemplo ...

In [None]:
tweet = "Olá @manuel_silva, a cadeira de #text-mining rulezzzz. :)"
print(mytkzr.tokenize(tweet))

## Exemplo de processamento de um ficheiro

In [None]:
if 'google.colab' in str(get_ipython()):
    from google.colab import drive
    drive.mount('/content/drive')
    %cd /content/drive/MyDrive/Iscte/TM/data

In [None]:
import gzip
f=gzip.open("../data/pt/tsf.selecionado/not_4180883.gz", "rt", encoding="utf-8")
doc=f.readlines()
f.close()
print(doc)

In [None]:
texto = "\n".join(doc)
print(texto)

In [None]:
import nltk
palavras=nltk.word_tokenize(texto)
print(" | ".join(palavras))