# Activity 1: Term extraction

Read the file corpus.txt and extract the term candidates for this corpus. For terms, we could obtain words that are most representativve in the domain of the text.

A very basic heuristic for term extraction consists in:

* Read and tokenize the text
* Extract only nouns and compute their frequency in the text
* Extract the best candidates based in a heuristic cut

In [1]:
from __future__ import unicode_literals
import codecs

# this could be done in a iterate way for performance in huge corpus
with codecs.open('../corpus.txt', encoding='utf8') as fp:
    corpus = fp.read()

In [2]:
len(corpus)

55177067

In [3]:
# corpus has 55 millions characters. I am going to use just 1 million to speed up a bit the things
corpus = corpus[:1000000]

In [4]:
# tokenization. NLTK is the state-of-art python package for portuguese tokenization
from nltk import word_tokenize
tokens = word_tokenize(corpus, language='portuguese')

In [5]:
# estes são os tokens mais frequentes
from collections import Counter
counter = Counter(tokens)
counter.most_common(50)

[(u',', 6958),
 (u'.', 6375),
 (u'de', 5580),
 (u'e', 3758),
 (u'De', 3551),
 (u'a', 2138),
 (u'do', 2013),
 (u'(', 1814),
 (u':', 1813),
 (u')', 1812),
 (u'o', 1641),
 (u'-', 1553),
 (u'E', 1460),
 (u'com', 1412),
 (u'para', 1390),
 (u'A', 1239),
 (u'que', 1215),
 (u'O', 1169),
 (u'as', 1073),
 (u'da', 1067),
 (u's\xe3o', 1067),
 (u'em', 1038),
 (u'Com', 943),
 (u'um', 833),
 (u'\xe9', 816),
 (u'Para', 793),
 (u'responsabilidade', 775),
 (u'divulgadas', 774),
 (u'informa\xe7\xf5es', 767),
 (u'os', 726),
 (u'mais', 669),
 (u'seu', 566),
 (u'Um', 555),
 (u'X', 553),
 (u'uma', 542),
 (u'Em', 530),
 (u'no', 524),
 (u'na', 518),
 (u'Ilustrativas', 489),
 (u'Meramente', 470),
 (u'Todas', 468),
 (u'voc\xea', 375),
 (u'sua', 372),
 (u'fabricante/fornecedor.Imagens', 371),
 (u'Do', 370),
 (u'Que', 370),
 (u'/', 369),
 (u'produto', 349),
 (u'1', 332),
 (u'Uma', 329)]

In [6]:
# For PoS tagging we have two options: train a POS tagger ou use the nlpnet
import nlpnet
nlpnet.set_data_dir(str('/usr/share/nlpnet_data/'))
tagger = nlpnet.POSTagger()

In [7]:
# nlpnet can also perform sentence and word tokenization
corpus_tagged = tagger.tag(corpus)

In [8]:
# nlpnet is trained on mac-morpho, thus use mac-morpho tagset
# http://nilc.icmc.usp.br/macmorpho/macmorpho-manual.pdf
corpus_tagged[0]

[(u'Kit', u'N'),
 (u'com', u'PREP'),
 (u'4', u'NUM'),
 (u'Pneus', u'NPROP'),
 (u'de', u'NPROP'),
 (u'Alta', u'NPROP'),
 (u'Performance', u'NPROP'),
 (u'Pirelli', u'NPROP'),
 (u'Aro', u'NPROP'),
 (u'16', u'NPROP'),
 (u'205/55R16', u'NPROP'),
 (u'Phantom', u'NPROP'),
 (u'Chegou', u'V'),
 (u'o', u'ART'),
 (u'kit', u'N'),
 (u'que', u'PRO-KS'),
 (u'junta', u'V'),
 (u'resist\xeancia', u'N'),
 (u'e', u'KC'),
 (u'conforto', u'N'),
 (u',', u'PU'),
 (u'al\xe9m', u'PREP'),
 (u'de', u'PREP'),
 (u'n\xedveis', u'N'),
 (u'm\xe1ximos', u'ADJ'),
 (u'de', u'PREP'),
 (u'seguran\xe7a', u'N'),
 (u'.', u'PU')]

In [16]:
# extracting only nouns and making the frequency list
freq_list = dict()
for sentence in corpus_tagged:
    for word, tag in sentence:
        if tag == 'N' or tag =='NPROP':
            freq_list[word.lower()] = freq_list.get(word.lower(), 0) + 1
            
from operator import itemgetter
sorted(freq_list.items(), key = itemgetter(1), reverse=True)

[(u'de', 3513),
 (u'e', 1308),
 (u'a', 854),
 (u'x', 817),
 (u'informa\xe7\xf5es', 803),
 (u'responsabilidade', 775),
 (u'o', 694),
 (u'para', 627),
 (u'com', 598),
 (u'unhas', 484),
 (u'produto', 457),
 (u'um', 406),
 (u'em', 387),
 (u'fabricante/fornecedor', 375),
 (u'da', 372),
 (u'fabricante/fornecedor.imagens', 371),
 (u'som', 368),
 (u'do', 359),
 (u'qualidade', 330),
 (u'sistema', 326),
 (u'caixa', 293),
 (u'uma', 291),
 (u'peso', 283),
 (u'que', 270),
 (u'imagens', 256),
 (u'pot\xeancia', 249),
 (u'1', 248),
 (u'mm', 231),
 (u'tecnologia', 230),
 (u'\xe1udio', 227),
 (u'dia', 222),
 (u'c\xe1psulas', 220),
 (u'\xf3leo', 216),
 (u'organismo', 209),
 (u'os', 208),
 (u'mais', 202),
 (u'componentes', 192),
 (u'8', 192),
 (u'resposta', 187),
 (u'power', 184),
 (u'imagem', 182),
 (u'home', 178),
 (u'-', 178),
 (u'db', 177),
 (u'frequ\xeancia', 172),
 (u'hz', 172),
 (u'rms', 172),
 (u'vitamina', 171),
 (u'dimens\xf5es', 169),
 (u'uso', 169),
 (u'alto-falante', 168),
 (u'graves', 167),


[(u'de', 3513),
 (u'e', 1308),
 (u'a', 854),
 (u'x', 817),
 (u'informa\xe7\xf5es', 803),
 (u'responsabilidade', 775),
 (u'o', 694),
 (u'para', 627),
 (u'com', 598),
 (u'unhas', 484),
 (u'produto', 457),
 (u'um', 406),
 (u'em', 387),
 (u'fabricante/fornecedor', 375),
 (u'da', 372),
 (u'fabricante/fornecedor.imagens', 371),
 (u'som', 368),
 (u'do', 359),
 (u'qualidade', 330),
 (u'sistema', 326),
 (u'caixa', 293),
 (u'uma', 291),
 (u'peso', 283),
 (u'que', 270),
 (u'imagens', 256),
 (u'pot\xeancia', 249),
 (u'1', 248),
 (u'mm', 231),
 (u'tecnologia', 230),
 (u'\xe1udio', 227),
 (u'dia', 222),
 (u'c\xe1psulas', 220),
 (u'\xf3leo', 216),
 (u'organismo', 209),
 (u'os', 208),
 (u'mais', 202),
 (u'componentes', 192),
 (u'8', 192),
 (u'resposta', 187),
 (u'power', 184),
 (u'imagem', 182),
 (u'home', 178),
 (u'-', 178),
 (u'db', 177),
 (u'frequ\xeancia', 172),
 (u'hz', 172),
 (u'rms', 172),
 (u'vitamina', 171),
 (u'dimens\xf5es', 169),
 (u'uso', 169),
 (u'alto-falante', 168),
 (u'graves', 167),


In [15]:
# chains of nouns are not taked into account
freq_list = dict()
for sentence in corpus_tagged:
    chunk = ''
    for word, tag in sentence:
        if tag == 'N' or tag =='NPROP':
            if chunk:
                chunk += '_' + word
            else:
                chunk = word
        else:
            if chunk:
                freq_list[chunk.lower()] = freq_list.get(chunk.lower(), 0) + 1

from operator import itemgetter
sorted(freq_list.items(), key = itemgetter(1), reverse=True)

[(u'informa\xe7\xf5es', 1125),
 (u'imagens', 662),
 (u'unhas', 580),
 (u'fabricantes_produto', 337),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es_utiliza\xe7\xe3o', 327),
 (u'informa\xe7\xf5es_responsabilidade', 318),
 (u'qualidade_brilho', 297),
 (u'imagem', 279),
 (u'informa\xe7\xf5es_responsabilidade_fabricante/fornecedor', 275),
 (u'qualidade', 195),
 (u'ebull', 182),
 (u'aplica\xe7\xe3o', 167),
 (u'cores', 165),
 (u'unhas_mulheres', 140),
 (u'unhas_autocolantes_resultado_sal\xe3o', 132),
 (u'design', 124),
 (u'produto', 112),
 (u'fabricantes_produto_componentes', 110),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es_utiliza\xe7\xe3o_recursos_funcionalidades',
  109),
 (u'fabricantes', 109),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es', 109),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es_utiliza\xe7\xe3o_recursos',
  109),
 (u'esmaltes_nail_plus_cores', 108),
 (u'material', 107),
 (u'condi\xe7\xf5es_armazenamento_produto', 103),
 (u'aplica\xe7\xe3o_hora

[(u'informa\xe7\xf5es', 1125),
 (u'imagens', 662),
 (u'unhas', 580),
 (u'fabricantes_produto', 337),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es_utiliza\xe7\xe3o', 327),
 (u'informa\xe7\xf5es_responsabilidade', 318),
 (u'qualidade_brilho', 297),
 (u'imagem', 279),
 (u'informa\xe7\xf5es_responsabilidade_fabricante/fornecedor', 275),
 (u'qualidade', 195),
 (u'ebull', 182),
 (u'aplica\xe7\xe3o', 167),
 (u'cores', 165),
 (u'unhas_mulheres', 140),
 (u'unhas_autocolantes_resultado_sal\xe3o', 132),
 (u'design', 124),
 (u'produto', 112),
 (u'fabricantes_produto_componentes', 110),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es_utiliza\xe7\xe3o_recursos_funcionalidades',
  109),
 (u'fabricantes', 109),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es', 109),
 (u'fabricantes_produto_componentes_limita\xe7\xf5es_utiliza\xe7\xe3o_recursos',
  109),
 (u'esmaltes_nail_plus_cores', 108),
 (u'material', 107),
 (u'condi\xe7\xf5es_armazenamento_produto', 103),
 (u'aplica\xe7\xe3o_hora

In [20]:
# check for only words that are correct checking a dictionary
import enchant
d = enchant.Dict("pt_BR")
import nltk
stopwords = nltk.corpus.stopwords.words('portuguese')

In [26]:
# extracting only nouns and making the frequency list
freq_list = dict()
for sentence in corpus_tagged:
    for word, tag in sentence:
        if tag == 'N' or tag =='NPROP':
            token = word.lower()
            if token not in stopwords and len(token) >= 3 and d.check(token):
                freq_list[word.lower()] = freq_list.get(word.lower(), 0) + 1
            
from operator import itemgetter
sorted(freq_list.items(), key = itemgetter(1), reverse=True)

[(u'informa\xe7\xf5es', 803),
 (u'responsabilidade', 775),
 (u'unhas', 484),
 (u'produto', 457),
 (u'som', 368),
 (u'qualidade', 330),
 (u'sistema', 326),
 (u'caixa', 293),
 (u'peso', 283),
 (u'imagens', 256),
 (u'pot\xeancia', 249),
 (u'tecnologia', 230),
 (u'\xe1udio', 227),
 (u'dia', 222),
 (u'c\xe1psulas', 220),
 (u'\xf3leo', 216),
 (u'organismo', 209),
 (u'componentes', 192),
 (u'resposta', 187),
 (u'imagem', 182),
 (u'frequ\xeancia', 172),
 (u'vitamina', 171),
 (u'uso', 169),
 (u'dimens\xf5es', 169),
 (u'alto-falante', 168),
 (u'graves', 167),
 (u'consumo', 165),
 (u'controle', 160),
 (u'design', 158),
 (u'esmalte', 157),
 (u'recursos', 156),
 (u'amplificador', 156),
 (u'brilho', 153),
 (u'alta', 149),
 (u'ohms', 149),
 (u'gorduras', 147),
 (u'utiliza\xe7\xe3o', 146),
 (u'cores', 143),
 (u'fabricantes', 138),
 (u'entrada', 137),
 (u'm\xe3os', 137),
 (u'sa\xfade', 135),
 (u'funcionalidades', 130),
 (u'limita\xe7\xf5es', 130),
 (u'watts', 129),
 (u'capa', 126),
 (u'polegadas', 125)

In [28]:
candidates = [word for word, freq in sorted(freq_list.items(), key = itemgetter(1), reverse=True)]
print 'Best terms: ' + ', '.join(candidates[:20])

Best terms: informações, responsabilidade, unhas, produto, som, qualidade, sistema, caixa, peso, imagens, potência, tecnologia, áudio, dia, cápsulas, óleo, organismo, componentes, resposta, imagem


## Other possibilities:

* [Rake](https://github.com/zelandiya/RAKE-tutorial)
* [Topia.TermExtract](https://pypi.python.org/pypi/topia.termextract/)