# Cálculo do TF-IDF para os termos dos textos descritivos

## Tokenização dos textos

In [1]:
# Imports
import nltk
import numpy as np
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize 

import pandas as pd

#import spacy
import string

In [2]:
## Extraindo frequencias de termos dos textos descritivos do dataset.

In [3]:
df = pd.read_json('data_files/merged_datasets.json', orient='split')

In [4]:
corpus = df['Text']

In [5]:
# Apagando a variável df porque não será mais utilizada.
del df

In [6]:
# Quebrando cada texto em uma lista de sentenças.
corpus_sent_tokenized = [sent_tokenize(texto) for texto in corpus]

In [7]:
# Apagando a variável corpus porque não será mais utilizada.
del corpus

In [8]:
# Quebrando as sentenças em palavras, de modo que cada sentença seja transformada em lista de palavras.
corpus_word_tokenized = [[word_tokenize(sent) for sent in text] for text in corpus_sent_tokenized]

In [9]:
# Apagando a variável corpus_sent_tokenized porque não será mais utilizada
del corpus_sent_tokenized

## Remoção das stopwords e pontuações

In [10]:
english_stops = set(stopwords.words('english'))

In [11]:
def remove_stopwords_e_pontuacao(lista_words):
    tokens_limpos = [word.lower() for word in lista_words if (word.lower() not in english_stops and word not in string.punctuation)]
    return tokens_limpos

In [12]:
corpus_limpo = [[remove_stopwords_e_pontuacao(sent) for sent in text] for text in corpus_word_tokenized]

In [13]:
# Apagando a variável corpus_word_tokenized porque não será mais utilizada.
del corpus_word_tokenized

In [27]:
corpus_limpo[1]

[['abstract',
  'background',
  'non-small',
  'cell',
  'lung',
  'cancer',
  'nsclc',
  'heterogeneous',
  'group',
  'disorders',
  'number',
  'genetic',
  'proteomic',
  'alterations'],
 ['c-cbl',
  'e3',
  'ubiquitin',
  'ligase',
  'adaptor',
  'molecule',
  'important',
  'normal',
  'homeostasis',
  'cancer'],
 ['determined',
  'genetic',
  'variations',
  'c-cbl',
  'relationship',
  'receptor',
  'tyrosine',
  'kinases',
  'egfr',
  'met',
  'functionality',
  'nsclc'],
 ['methods',
  'findings',
  'using',
  'archival',
  'formalin-fixed',
  'paraffin',
  'embedded',
  'ffpe',
  'extracted',
  'genomic',
  'dna',
  'show',
  'c-cbl',
  'mutations',
  'occur',
  'somatic',
  'fashion',
  'lung',
  'cancers'],
 ['c-cbl',
  'mutations',
  'mutually',
  'exclusive',
  'met',
  'egfr',
  'mutations',
  'however',
  'independent',
  'p53',
  'kras',
  'mutations'],
 ['normal/tumor',
  'pairwise',
  'analysis',
  'significant',
  'loss',
  'heterozygosity',
  'loh',
  'c-cbl',
  '

In [37]:
# Faz-se necessário juntar todas as palavras de cada texto em uma lista única, para que seja feita a contagem
def abre_listas(lista_de_listas):
    lista_dummy = []
    for lista in lista_de_listas:
        for elemento in lista:
            lista_dummy.append(elemento)
    return lista_dummy

In [38]:
doc = abre_listas(corpus_limpo[0])

In [39]:
doc

['cyclin-dependent',
 'kinases',
 'cdks',
 'regulate',
 'variety',
 'fundamental',
 'cellular',
 'processes',
 'cdk10',
 'stands',
 'one',
 'last',
 'orphan',
 'cdks',
 'activating',
 'cyclin',
 'identified',
 'kinase',
 'activity',
 'revealed',
 'previous',
 'work',
 'shown',
 'cdk10',
 'silencing',
 'increases',
 'ets2',
 'v-ets',
 'erythroblastosis',
 'virus',
 'e26',
 'oncogene',
 'homolog',
 '2',
 '-driven',
 'activation',
 'mapk',
 'pathway',
 'confers',
 'tamoxifen',
 'resistance',
 'breast',
 'cancer',
 'cells',
 'precise',
 'mechanisms',
 'cdk10',
 'modulates',
 'ets2',
 'activity',
 'generally',
 'functions',
 'cdk10',
 'remain',
 'elusive',
 'demonstrate',
 'cdk10',
 'cyclin-dependent',
 'kinase',
 'identifying',
 'cyclin',
 'activating',
 'cyclin',
 'cyclin',
 'orphan',
 'cyclin',
 'product',
 'fam58a',
 'whose',
 'mutations',
 'cause',
 'star',
 'syndrome',
 'human',
 'developmental',
 'anomaly',
 'whose',
 'features',
 'include',
 'toe',
 'syndactyly',
 'telecanthus',
 'a

In [40]:
documentos = [abre_listas(doc) for doc in corpus_limpo]

In [44]:
# Apagando a variável corpus_word_tokenized porque não será mais utilizada.
del corpus_limpo

## Stemming e Lemmatization

### Stemming

In [56]:
from nltk.stem import PorterStemmer
from nltk.stem import RegexpStemmer

In [49]:
porter_stemmer = PorterStemmer()

In [50]:
porter_stemmer.stem('cooking')

'cook'

In [51]:
porter_stemmer.stem('cookery')

'cookeri'

In [57]:
regexp_stemmer = RegexpStemmer('ing')

In [60]:
porter_stemmer.stem(regexp_stemmer.stem('cooking'))

'cook'

In [62]:
# Aplicando stemming, isto é, retirada de sufixos, para cada palavra na lista de documentos
docs_stemmed = [[porter_stemmer.stem(regexp_stemmer.stem(word)) for word in doc] for doc in documentos]

In [63]:
len(docs_stemmed)

3321

In [64]:
docs_stemmed[0]

['cyclin-depend',
 'kinas',
 'cdk',
 'regul',
 'varieti',
 'fundament',
 'cellular',
 'process',
 'cdk10',
 'stand',
 'one',
 'last',
 'orphan',
 'cdk',
 'activat',
 'cyclin',
 'identifi',
 'kinas',
 'activ',
 'reveal',
 'previou',
 'work',
 'shown',
 'cdk10',
 'silenc',
 'increas',
 'ets2',
 'v-et',
 'erythroblastosi',
 'viru',
 'e26',
 'oncogen',
 'homolog',
 '2',
 '-driven',
 'activ',
 'mapk',
 'pathway',
 'confer',
 'tamoxifen',
 'resist',
 'breast',
 'cancer',
 'cell',
 'precis',
 'mechan',
 'cdk10',
 'modul',
 'ets2',
 'activ',
 'gener',
 'function',
 'cdk10',
 'remain',
 'elus',
 'demonstr',
 'cdk10',
 'cyclin-depend',
 'kinas',
 'identifi',
 'cyclin',
 'activat',
 'cyclin',
 'cyclin',
 'orphan',
 'cyclin',
 'product',
 'fam58a',
 'whose',
 'mutat',
 'caus',
 'star',
 'syndrom',
 'human',
 'development',
 'anomali',
 'whose',
 'featur',
 'includ',
 'toe',
 'syndactyli',
 'telecanthu',
 'anogenit',
 'renal',
 'malform',
 'show',
 'star',
 'syndrome-associ',
 'cyclin',
 'mutant',


### Lemmatization

In [70]:
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to /home/rafael/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [71]:
wordnet_lemmatizer = WordNetLemmatizer()

In [72]:
print(wordnet_lemmatizer.lemmatize('mice'))
print(wordnet_lemmatizer.lemmatize('cacti'))  # plural da palavra cactus - cactuses (inglês) ou cacti (latin)
print(wordnet_lemmatizer.lemmatize('horses'))
print(wordnet_lemmatizer.lemmatize('wolves'))

mouse
cactus
horse
wolf


In [75]:
# Aplicando lemmatization, isto é, retirada de sufixos, para cada palavra na lista de documentos
docs_stemmed_lemmatized = [[wordnet_lemmatizer.lemmatize(word) for word in doc] for doc in documentos]

## Cálculo do TF-IDF

In [20]:
# Função para calcular Term-frequency (frequencia do termo)
def TermFreq(documento, palavra):
    doc_length = len(documento)
    ocorrencias = len([w for w in documento if w == palavra])
    return ocorrencias / doc_length

In [45]:
TermFreq(documentos[0], 'cyclin')

0.02197530864197531

In [46]:
TermFreq(documentos[0], 'activating')

0.0004938271604938272