# Cálculo do TF-IDF para os termos dos textos descritivos

## Tokenização dos textos

In [1]:
# Imports
import nltk
import numpy as np
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize 

import pandas as pd

#import spacy
import string

In [2]:
## Extraindo frequencias de termos dos textos descritivos do dataset.

In [3]:
df = pd.read_json('data_files/merged_datasets.json', orient='split')

In [4]:
corpus = df['Text']

In [5]:
# Apagando a variável df porque não será mais utilizada.
del df

In [6]:
# Quebrando cada texto em uma lista de sentenças.
corpus_sent_tokenized = [sent_tokenize(texto) for texto in corpus]

In [7]:
# Apagando a variável corpus porque não será mais utilizada.
del corpus

In [8]:
# Quebrando as sentenças em palavras, de modo que cada sentença seja transformada em lista de palavras.
corpus_word_tokenized = [[word_tokenize(sent) for sent in text] for text in corpus_sent_tokenized]

In [9]:
# Apagando a variável corpus_sent_tokenized porque não será mais utilizada
del corpus_sent_tokenized

## Remoção das stopwords e pontuações

In [10]:
english_stops = set(stopwords.words('english'))

In [11]:
def remove_stopwords_e_pontuacao(lista_words):
    tokens_limpos = [word.lower() for word in lista_words if (word.lower() not in english_stops and word not in string.punctuation)]
    return tokens_limpos

In [12]:
corpus_limpo = [[remove_stopwords_e_pontuacao(sent) for sent in text] for text in corpus_word_tokenized]

In [13]:
# Apagando a variável corpus_word_tokenized porque não será mais utilizada.
del corpus_word_tokenized

In [15]:
# Faz-se necessário juntar todas as palavras de cada texto em uma lista única, para que seja feita a contagem
def abre_listas(lista_de_listas):
    lista_dummy = []
    for lista in lista_de_listas:
        for elemento in lista:
            lista_dummy.append(elemento)
    return lista_dummy

In [16]:
doc = abre_listas(corpus_limpo[0])

In [18]:
documentos = [abre_listas(doc) for doc in corpus_limpo]

In [19]:
# Apagando a variável corpus_word_tokenized porque não será mais utilizada.
del corpus_limpo

## Stemming e Lemmatization

### Stemming

In [20]:
from nltk.stem import PorterStemmer
from nltk.stem import RegexpStemmer

In [21]:
porter_stemmer = PorterStemmer()

In [22]:
porter_stemmer.stem('cooking')

'cook'

In [23]:
porter_stemmer.stem('cookery')

'cookeri'

In [24]:
regexp_stemmer = RegexpStemmer('ing')

In [25]:
porter_stemmer.stem(regexp_stemmer.stem('cooking'))

'cook'

In [26]:
porter_stemmer.stem(regexp_stemmer.stem('activation'))

'activ'

In [27]:
porter_stemmer.stem(regexp_stemmer.stem('activating'))

'activat'

In [28]:
# Aplicando stemming, isto é, retirada de sufixos, para cada palavra na lista de documentos
docs_stemmed = [[porter_stemmer.stem(regexp_stemmer.stem(word)) for word in doc] for doc in documentos]

In [29]:
len(docs_stemmed)

3321

### Lemmatization

In [31]:
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to /home/rafael/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [32]:
wordnet_lemmatizer = WordNetLemmatizer()

In [33]:
print(wordnet_lemmatizer.lemmatize('mice'))
print(wordnet_lemmatizer.lemmatize('cacti'))  # plural da palavra cactus - cactuses (inglês) ou cacti (latin)
print(wordnet_lemmatizer.lemmatize('horses'))
print(wordnet_lemmatizer.lemmatize('wolves'))

mouse
cactus
horse
wolf


In [34]:
# Aplicando lemmatization, isto é, a aglutinação das palavras com o mesmo radical comum.
docs_stemmed_lemmatized = [[wordnet_lemmatizer.lemmatize(word) for word in doc] for doc in documentos]

## Cálculo do TF-IDF

### Cálculo do TF

In [36]:
# Função para calcular Term-frequency (frequencia do termo)
def TermFreq(documento, palavra):
    doc_length = len(documento)
    ocorrencias = len([w for w in documento if w == palavra])
    return ocorrencias / doc_length

In [37]:
TermFreq(docs_stemmed_lemmatized[0], 'cyclin')

0.02197530864197531

In [38]:
TermFreq(docs_stemmed_lemmatized[0], 'cancer')

0.002962962962962963

In [39]:
palavras_corpus = abre_listas(docs_stemmed_lemmatized)

In [40]:
# Criação de uma lista única contendo todas as palavras dos documentos para contagem dos termos no corpus
set_palavras_corpus = set(palavras_corpus)

In [41]:
len(set_palavras_corpus)

276083

In [42]:
len(palavras_corpus)

21194984

### Estabelecendo um contador para apurar a frequência das palavras

In [43]:
from collections import Counter

In [44]:
%%time
contador = Counter(palavras_corpus)

CPU times: user 4.27 s, sys: 11.9 ms, total: 4.28 s
Wall time: 4.27 s


In [45]:
len(contador)

276083

In [47]:
contador['revealed']

12185

In [69]:
chaves = contador.keys()

In [72]:
'kinase' in chaves

True

In [48]:
# Versão 1 implementada totalmente em Python

# Criamos um corpus Bag of words
def cria_dict(set_palavras, lista_docs):
    output = {}
    for word in set_palavras:
        output[word] = 0
        for doc in lista_docs:
            if word in doc:
                output[word] += 1
    return output

In [57]:
lista_teste = docs_stemmed_lemmatized[0:10]

In [58]:
set_teste = set(abre_listas(lista_teste))

In [59]:
%%time
dict_1 = cria_dict(set_teste, lista_teste)

CPU times: user 3.39 s, sys: 4 ms, total: 3.4 s
Wall time: 3.4 s


In [73]:
lista_sets = [Counter(doc).keys() for doc in docs_stemmed_lemmatized]

In [78]:
lista_teste_2 = lista_sets[0:10]

In [77]:
# Versão 2 otimizada utilizando contadores.

# Criamos um corpus Bag of words
def cria_dict_2(set_palavras, lista_sets):
    output = {}
    for word in set_palavras:
        output[word] = 0
        for set in lista_sets:
            if word in set:
                output[word] += 1
    return output

In [79]:
%%time
dict_2 = cria_dict_2(set_teste, lista_teste_2)

CPU times: user 9.47 ms, sys: 9 µs, total: 9.48 ms
Wall time: 9.53 ms


A função cria_dict_2 apresentou desempenho 340x melhor do que a função cria_dict

In [83]:
%%time
# Criação do dicionário completo com todos os documentos do dataset
dict_completo = cria_dict_2(set_palavras_corpus, lista_sets)

CPU times: user 2min 23s, sys: 11.9 ms, total: 2min 23s
Wall time: 2min 24s


In [84]:
len(dict_completo)

276083

### Cálculo do IDF

In [86]:
# Função para calcular a Frequência Inversa de Documentos
def InverseDocumentFrequency(word):
    N = len(docs_stemmed_lemmatized)
    try:
        df = dict_completo[word] + 1
    except:
        df = 1
    return np.log(N/df)

In [87]:
InverseDocumentFrequency('human')

0.09467803999007461

In [88]:
InverseDocumentFrequency('mother')

2.543500814054053

In [90]:
InverseDocumentFrequency('data')

0.031195190077938376

### Cálculo do TF-IDF

In [91]:
# Função TF-IDF
def TFIDF(doc, word):
    tf = TermFreq(doc, word)
    idf = InverseDocumentFrequency(word)
    return tf * idf

In [96]:
TFIDF(docs_stemmed_lemmatized[0], 'cellular')

0.00029136573894505155

In [97]:
TFIDF(docs_stemmed_lemmatized[0], 'activating')

0.0002700738922698808

In [None]:
for word in set(docs_stemmed_lemmatized[0]):
    print(f'{word} - TF-IDF: {TFIDF(docs_stemmed_lemmatized[0], word)}')