In [2]:
# -*- coding: utf-8 -*-
"""
@author: Lucas Ferro Antunes de Oliveira
"""

'''
This script transform the UNIFESP corpus tagset to Penn Treebank tagset (with some inflection tags)
'''

'\nCreated on Wed Mar 27 18:13:28 2018\n\n@author: Lucas Ferro\n'

In [3]:
#importing libraries

import matplotlib.pyplot as plt
import io
import collections
import unidecode


In [4]:
_PATH_CORPORA = ""

In [5]:
# Dictionaries to count words and tags in the corpus

dictTags = {}
dictTagsPostNormalization = {}

dictIN = {}
dictDT= {}
dictNN = {}
dictNNS = {}
dictCD = {}
dictJJ = {}
dictPRP = {}
dictNNP = {}
dictVB = {}
dictVBP = {}
dictVBG = {}
dictVBN = {}
dictRB = {}
dictCC = {}

In [6]:
dictTags2 = {}
dictTagsPostNormalization2 = {}

dictIN2 = {}
dictDT2= {}
dictNN2 = {}
dictNNS2 = {}
dictCD2 = {}
dictJJ2 = {}
dictPRP2 = {}
dictNNP2 = {}
dictVB2 = {}
dictVBP2 = {}
dictVBG2 = {}
dictVBN2 = {}
dictRB2 = {}
dictCC2 = {}

In [7]:
# Create a new corpus file with the adapted tagset
fw = io.open(_PATH_CORPORA + "UNIFESP-tagset-adapted-penntreebank-update.txt",'w',encoding='utf8')
fw.write("-DOCSTART- -X- -X- O\n")

21

In [8]:
# Create a new corpus file with the adapted tagset with no accents
fw2 = io.open(_PATH_CORPORA + "UNIFESP-tagset-adapted-penntreebank-no-accents.txt",'w',encoding='utf8')
fw2.write("-DOCSTART- -X- -X- O\n")

21

In [9]:
# Open corpus
with io.open(_PATH_CORPORA + "corpora/UNIFESP.txt", 'r', encoding='utf8') as f:
    
    # Get the text
    text = f.read()
    
    # Define replace lists
    # More on https://www.infoescola.com/portugues/pronomes/ and https://www.infoescola.com/portugues/adverbios/
    PRNtoDT = ["esta", "este", "estas", "estes", "isto", "isso", "aquilo", "aquele", "aquela", "aqueles", "aquelas", "meu", "minha", "meus", "minhas", "teu", "tua", "teus", "tuas", "sua", "seu", "suas", "seus", "nosso", "nossa", "nossos", "nossas", "vosso", "vossa", "vossos", "vossas", "cujo", "cuja", "cujos", "cujas", "demais", "os demais", "as demais", "todo", "todos", "qual","alguma","algum","algumas","alguns","outro","outra","outros","outras","mesmo","mesma","mesmos","mesmas","neste","nesta","nestes","nestas","tanto","cada", "quanto", "quantos", "quanta", "quantas"]
    PRNtoPRP = ["eu", "tu", "ele", "ela", "nós", "vós", "eles", "elas", "me", "mim", "comigo", "te", "ti", "contigo", "se", "si", "consigo", "o", "a", "lhe", "nos", "conosco", "vos", "convosco", "os", "as", "lhes", "lo", "la", "los", "las", "mim"]
    PRNtoPRPS = ["meu", "minha", "meus", "minhas", "teu", "tua","teus", "tuas", "nosso", "nossa", "nossos", "nossas", "vosso", "vossa", "vossos", "vossas", "seu", "sua", "seus", "suas"]
    
    #Iterate through sentences
    for s in text.split("\n"):
        
        fw.write("\n")
        
        #Iterate through tokens
        for t in s.split(" "):
            
            item = t.split("_")
             
            word = item[0]
            
            tag = item[1]
               
            dictTags[tag] = dictTags.get(tag, 0) + 1
            
            # Replace Rules
            
            # 1) PRP to IN (prepositions)
            if tag.upper() == "PRP":
                tag = tag.replace("PRP", "IN")
                dictIN[word] = dictIN.get(word, 0) + 1
            
            # 2) N and its inflections to NN and NNS (singular nouns and plural nouns)
            if tag.startswith("N"):
                
                # 2.1) NFS and NMS to NN (singular nouns)
                tag = tag.replace("NFS", "NN")
                tag = tag.replace("NMS", "NN")
                if tag.upper() == "NN":
                    dictNN[word] = dictNN.get(word, 0) + 1
                
                # 2.2) NMP and NFP to NNS (plural nouns)
                tag = tag.replace("NMP", "NN")
                tag = tag.replace("NFP", "NN")
                if tag.upper() == "NNS":
                    dictNN[word] = dictNN.get(word, 0) + 1
                
                # 2.3) NM to NN (singular nouns)
                tag = tag.replace("NM", "NN")
                dictNN[word] = dictNN.get(word, 0) + 1
            
            # 3) PROP to NNP (proper nouns)
            if tag.startswith("PROP"):
                tag = "NNP"
                dictNNP[word] = dictNNP.get(word, 0) + 1
            
            # 4) generic rule for verbs
            if tag.startswith("V"):
            
                # 4.1) VINF to VB (verbs in base form)
                if tag.upper() == "VINF":
                    tag = tag.replace("VINF", "VB")
                    dictVB[word] = dictVB.get(word, 0) + 1
                
                # 4.2) VFIN to VB (non-third person verbs, singular present)
                elif tag.upper() == "VFIN":
                    tag = tag.replace("VFIN", "VB")
                    dictVB[word] = dictVB.get(word, 0) + 1
                
                # 4.3) VGER to VB (gerund verbs)
                elif tag.upper() == "VGER":
                    tag = tag.replace("VGER", "VB")
                    dictVB[word] = dictVB.get(word, 0) + 1
                
                # 4.4) VPCP and its inflections to VB (past participle verb)  
                elif tag.startswith("VPCP"):
                    tag = tag.replace("VPCPMS", "VB")
                    tag = tag.replace("VPCPFS", "VB")
                    tag = tag.replace("VPCPMP", "VB")
                    tag = tag.replace("VPCPFP", "VB")
                    dictVB[word] = dictVB.get(word, 0) + 1
                    
                else:
                    tag = "VB"
                    dictVB[word] = dictVB.get(word, 0) + 1
            
            # 5) SPEC to DT (determiners)
            if tag.startswith("SPEC"):
                tag = "DT"
                dictDT[word] = dictDT.get(word, 0) + 1
            
            # 6) DET and its inflections to DT (determiners)
            if tag.startswith("DET"):
                tag = "DT"
                dictDT[word] = dictDT.get(word, 0) + 1
            
            # 7) PERS to PRP (personal pronouns)
            if tag.startswith("PERS"):
                tag = "PRP"
                dictPRP[word] = dictPRP.get(word, 0) + 1
            
            # 8) ADJ to JJ (adjetives)
            if tag.startswith("ADJ"):
                tag = "JJ"
                dictJJ[word] = dictJJ.get(word, 0) + 1
            
            # 9) NUM and its inflections to CD (cardinal numbers)
            if tag.startswith("NUM"):
                tag = "CD"
                dictCD[word] = dictCD.get(word, 0) + 1
            
            # 10) ADV to RB (adverbs)
            if tag.startswith("ADV"):
                tag = "RB"
                dictRB[word] = dictRB.get(word, 0) + 1
            
            # 11) KC to CC or IN (coordinating or subordinating conjunctions)
            if tag.upper() == "KC":
                if word.lower() == "e" or word.lower() == "ou":  
                    #e, ou (coordinating conjuctions)
                    tag = "CC" 
                    dictCC[word] = dictCC.get(word, 0) + 1
                else:
                    # "que", "se", "porque", etc (subordinating conjuctions)
                    tag = "IN"
                    dictIN[word] = dictIN.get(word, 0) + 1
            
            # 12) KS to IN (subordinating conjunctions)
            if tag.upper() == "KS":
                tag = "IN"
                dictIN[word] = dictIN.get(word, 0) + 1
            
            # Other corrections - Common errors
            # 13) If the word SUS is labelled as an interjection
            if word.lower() == "sus" and tag.upper() == "IN":
                word = "SUS"
                tag = "NNP"
                dictNNP[word] = dictNNP.get(word, 0) + 1
            
            # 14) Rule for 'finanças', probably tagged wrong
            if tag.upper() == "<NFP":
                tag = tag.replace("<NFP", "NN")
                dictNN[word] = dictNN.get(word, 0) + 1
            
            # 15) "SEM" is tagged as hyphen-separated and it's not. Switch to preposition
            if word.lower() == "sem" and tag.upper() == "EC":
                tag = tag.replace("EC", "IN")
                dictIN[word] = dictIN.get(word, 0) + 1
             
            # 16) "PRÉ" is tagged as hyphen-separated and it's not in the text. Switch to noun
            if word.lower() == "pré" and tag.upper() == "EC":
                tag = tag.replace("EC", "NN")
                dictNN[word] = dictNN.get(word, 0) + 1
            
            # 17) "MICRO" is tagged as hyphen-separated and it's not. Switch to noun
            if word.lower() == "micro" and tag.upper() == "EC":
                tag = tag.replace("EC", "NN")
                dictNN[word] = dictNN.get(word, 0) + 1
            
            ### Review word "Espontânea" - line 2972 - UNIFESP, with two tags for being spread out ###
            ### Review words of type "de=acordo" tagged with "PP" ###
            
            #TODO: If you find any other common error - put the correction here
            
            
            #Dict for post normalization tags analysis
            dictTagsPostNormalization[tag] = dictTagsPostNormalization.get(tag, 0) + 1
            
            # Write 
            fw.write(word + " " + tag + " " + "O - O" + "\n")
            
        # Close sentence
        fw.write("")
        


In [10]:
# Open corpus
with io.open(_PATH_CORPORA + "corpora/UNIFESP.txt", 'r', encoding='utf8') as f:
    
    # Get the text
    text = f.read()
    
    # Define replace lists
    # More on https://www.infoescola.com/portugues/pronomes/ and https://www.infoescola.com/portugues/adverbios/
    PRNtoDT = ["esta", "este", "estas", "estes", "isto", "isso", "aquilo", "aquele", "aquela", "aqueles", "aquelas", "meu", "minha", "meus", "minhas", "teu", "tua", "teus", "tuas", "sua", "seu", "suas", "seus", "nosso", "nossa", "nossos", "nossas", "vosso", "vossa", "vossos", "vossas", "cujo", "cuja", "cujos", "cujas", "demais", "os demais", "as demais", "todo", "todos", "qual","alguma","algum","algumas","alguns","outro","outra","outros","outras","mesmo","mesma","mesmos","mesmas","neste","nesta","nestes","nestas","tanto","cada", "quanto", "quantos", "quanta", "quantas"]
    PRNtoPRP = ["eu", "tu", "ele", "ela", "nós", "vós", "eles", "elas", "me", "mim", "comigo", "te", "ti", "contigo", "se", "si", "consigo", "o", "a", "lhe", "nos", "conosco", "vos", "convosco", "os", "as", "lhes", "lo", "la", "los", "las", "mim"]
    PRNtoPRPS = ["meu", "minha", "meus", "minhas", "teu", "tua","teus", "tuas", "nosso", "nossa", "nossos", "nossas", "vosso", "vossa", "vossos", "vossas", "seu", "sua", "seus", "suas"]
    ###PRNtoSPEC = ["que", "quem", "nada", "cada um", "as quais", "os quais", "a qual", "o qual", "onde", "todo o mundo"]
    
    #Iterate through sentences
    for s in text.split("\n"):
        
        fw2.write("\n")
        
        #Iterate through tokens
        for t in s.split(" "):
            
            item = t.split("_")
             
            wordNorm = item[0]#normalizar acentos e case
            
            for i in wordNorm:
                accented_word = wordNorm
                # accented_word is of type 'unicode'
            
                unaccented_word = unidecode.unidecode(accented_word)
                # unaccented_word contains 'Malaga'and is of type 'str'
                
            for i in unaccented_word:
                word2 = unaccented_word.lower()
            
            tag2 = item[1]
               
            dictTags2[tag2] = dictTags2.get(tag2, 0) + 1

            # Any DET Inflection -> DET
            # Any PROP Inflection -> PROP
            # Any ADJ Inflection -> ADJ
            
            # PRP to IN (prepositions)
            if tag2.upper() == "PRP":
                tag2 = tag2.replace("PRP", "IN")
                dictIN2[word2] = dictIN2.get(word2, 0) + 1
            
            # N and its inflections to NN and NNS (singular nouns and plural nouns)
            if tag2.startswith("N"):
                # NFS and NMS to NN (singular nouns)
                tag2 = tag2.replace("NFS", "NN")
                tag2 = tag2.replace("NMS", "NN")
                if tag2.upper() == "NN":
                    dictNN2[word2] = dictNN2.get(word2, 0) + 1
                
                # NMP and NFP to NNS (plural nouns)
                tag2 = tag2.replace("NMP", "NN")
                tag2 = tag2.replace("NFP", "NN")
                if tag2.upper() == "NN":
                    dictNN2[word2] = dictNN2.get(word2, 0) + 1
                
                # NM to NN (singular nouns)
                tag2 = tag2.replace("NM", "NN")
                dictNN2[word2] = dictNN2.get(word2, 0) + 1
            
            # PROP to NNP (proper nouns)
            if tag2.startswith("PROP"):
                tag2 = "NNP"
                dictNNP2[word2] = dictNNP2.get(word2, 0) + 1
            
            # generic rule for verbs
            if tag2.startswith("V"):
            
                # VINF to VB (verbs in base form)
                if tag2.upper() == "VINF":
                    tag2 = tag2.replace("VINF", "VB")
                    dictVB2[word2] = dictVB2.get(word2, 0) + 1
                
                # VFIN to VBP (non-third person verbs, singular present)         ### Rever regra
                elif tag2.upper() == "VFIN":
                    tag2 = tag2.replace("VFIN", "VB")
                    dictVB2[word2] = dictVB2.get(word2, 0) + 1
                
                elif tag2.upper() == "VGER":
                    tag2 = tag2.replace("VGER", "VB")
                    dictVB2[word2] = dictVB2.get(word2, 0) + 1
                
                # VPCP and its inflections to VNB (past participle verb)  
                elif tag2.startswith("VPCP"):
                    tag2 = tag2.replace("VPCPMS", "VB")
                    tag2 = tag2.replace("VPCPFS", "VB")
                    tag2 = tag2.replace("VPCPMP", "VB")
                    tag2 = tag2.replace("VPCPFP", "VB")
                    dictVB2[word2] = dictVB2.get(word2, 0) + 1
                
                # Rule for those others verb forms who nobody understards
                else:
                    tag2 = "VB"
                    dictVB2[word2] = dictVB2.get(word2, 0) + 1
            
            # SPEC to DT (determiners)
            if tag.startswith("SPEC"):
                tag = "DT"
                dictDT2[word] = dictDT2.get(word, 0) + 1
            
            # DET and its inflections to DT (determiners)
            if tag2.startswith("DET"):
                tag2 = "DT"
                dictDT2[word2] = dictDT2.get(word2, 0) + 1
            
            # PERS to PRP (personal pronouns)
            if tag2.startswith("PERS"):
                tag2 = "PRP"
                dictPRP2[word2] = dictPRP2.get(word2, 0) + 1
            
            # ADJ to JJ (adjetives)
            if tag2.startswith("ADJ"):
                tag2 = "JJ"
                dictJJ2[word2] = dictJJ2.get(word2, 0) + 1
            
            # NUM and its inflections to CD (cardinal numbers)
            if tag2.startswith("NUM"):
                tag2 = "CD"
                dictCD2[word2] = dictCD2.get(word2, 0) + 1
            
            # ADV to RB (adverbs)
            if tag2.startswith("ADV"):
                tag2 = "RB"
                dictRB2[word2] = dictRB2.get(word2, 0) + 1
            
            # KC to CC or IN (coordinating or subordinating conjunctions)
            if tag2.upper() == "KC":
                if word2.lower() == "e" or word2.lower() == "ou":  
                    #e, ou (coordinating conjuctions)
                    tag2 = "CC" 
                    dictCC2[word2] = dictCC2.get(word2, 0) + 1
                else:
                    # "que", "se", "porque", etc (subordinating conjuctions)
                    tag2 = "IN"
                    dictIN2[word2] = dictIN2.get(word2, 0) + 1
            
            # KS to IN (subordinating conjunctions)
            if tag2.upper() == "KS":
                tag2 = "IN"
                dictIN2[word2] = dictIN2.get(word2, 0) + 1
            
            # Other corrections - Common errors
            # If the word SUS is labelled as an interjection
            if word2.lower() == "sus" and tag2.upper() == "IN":
                word2 = "SUS"
                tag2 = "NNP"
                dictNNP2[word2] = dictNNP2.get(word2, 0) + 1
            
            #Rule for 'finanças', taggeada errado provavelmente
            if tag2.upper() == "<NFP":
                tag2 = tag2.replace("<NFP", "NN")
                dictNN2[word2] = dictNN2.get(word2, 0) + 1
            
            #"SEM" is tagged as hyphen-separated and it's not. Switch to preposition
            if word2.lower() == "sem" and tag2.upper() == "EC":
                tag2 = tag2.replace("EC", "IN")
                dictIN2[word2] = dictIN2.get(word2, 0) + 1
            
            #"PRÉ" is tagged as hyphen-separated and it's not in the text. Switch to noun
            if word2.lower() == "pré" and tag2.upper() == "EC":
                tag2 = tag2.replace("EC", "NN")
                dictNN2[word2] = dictNN2.get(word2, 0) + 1
            
            #"MICRO" is tagged as hyphen-separated and it's not. Switch to noun
            if word2.lower() == "micro" and tag2.upper() == "EC":
                tag2 = tag2.replace("EC", "NN")
                dictNN2[word2] = dictNN2.get(word2, 0) + 1
            
            
            ### Review word "Espontânea" - line 2972 - UNIFESP, with two tags for being spread out ###
            ### Review words of type "de=acordo" tagged with "PP" ###
            
            
            #TODO: If you find any other common error - put the correction here
            
            
            #Dict for analysis of tags post normalization
            dictTagsPostNormalization2[tag2] = dictTagsPostNormalization2.get(tag2, 0) + 1
            
            # Write 
            fw2.write(word2 + " " + tag2 + " " + "O - O" + "\n")
            
        # Close sentence
        fw2.write("")
        


In [11]:
fw.close()

In [12]:
fw2.close()

In [13]:
for key, value in sorted(dictTags.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

PRP = 64820
NFS = 36333
NMS = 27351
DETFS = 23940
, = 23772
VFIN = 23519
DETMS = 22435
NMP = 14675
ADV = 13240
KC = 12411
NFP = 12057
ADJM = 11675
. = 11472
DETMP = 8935
VINF = 7987
NUMM = 7558
DETFP = 7118
PROPM = 5025
ADJFS = 5007
ADJMS = 4822
PERSM = 4545
KS = 4079
SPECM = 3734
VGER = 3231
) = 3084
( = 3022
VPCPMS = 2940
ADJMP = 2779
NM = 2522
VPCPFS = 2475
ADJFP = 2424
VPCPMP = 2328
VPCPFP = 1940
: = 1131
; = 1060
PROPMS = 962
DETM = 932
PP = 923
SPECMS = 706
... = 440
[ = 418
] = 418
VINF3P = 343
NUMMS = 276
PERSM3SNOM = 252
PERSM3SACC = 236
PERSF3SNOM = 205
= = 205
PROPFS = 194
PERSM3PNOM = 190
NUMFS = 161
PERSM3PACC = 125
NUMFP = 125
PERSF3PNOM = 123
IN = 114
? = 114
PERSF3PACC = 97
PERSF3SACC = 97
SPECMP = 79
SPECFS = 78
! = 74
-L = 70
-R = 54
SPECFP = 45
" = 45
VPR3SINDVFIN = 31
\< = 29
PROPMP = 28
VPR3PINDVFIN = 22
EC = 22
VINF1P = 21
\> = 18
VPR1SINDVFIN = 18
VINF2S = 16
+ = 16
± = 15
' = 13
 = 11
® = 10
VIMPF3PINDVFIN = 8
SPEC = 8
VIMPF = 7
VFUT = 7
¶ = 6
VPS = 5
VPS3SINDVF

In [14]:
for key, value in sorted(dictTags2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

PRP = 64820
NFS = 36333
NMS = 27351
DETFS = 23940
, = 23772
VFIN = 23519
DETMS = 22435
NMP = 14675
ADV = 13240
KC = 12411
NFP = 12057
ADJM = 11675
. = 11472
DETMP = 8935
VINF = 7987
NUMM = 7558
DETFP = 7118
PROPM = 5025
ADJFS = 5007
ADJMS = 4822
PERSM = 4545
KS = 4079
SPECM = 3734
VGER = 3231
) = 3084
( = 3022
VPCPMS = 2940
ADJMP = 2779
NM = 2522
VPCPFS = 2475
ADJFP = 2424
VPCPMP = 2328
VPCPFP = 1940
: = 1131
; = 1060
PROPMS = 962
DETM = 932
PP = 923
SPECMS = 706
... = 440
[ = 418
] = 418
VINF3P = 343
NUMMS = 276
PERSM3SNOM = 252
PERSM3SACC = 236
PERSF3SNOM = 205
= = 205
PROPFS = 194
PERSM3PNOM = 190
NUMFS = 161
PERSM3PACC = 125
NUMFP = 125
PERSF3PNOM = 123
IN = 114
? = 114
PERSF3PACC = 97
PERSF3SACC = 97
SPECMP = 79
SPECFS = 78
! = 74
-L = 70
-R = 54
SPECFP = 45
" = 45
VPR3SINDVFIN = 31
\< = 29
PROPMP = 28
VPR3PINDVFIN = 22
EC = 22
VINF1P = 21
\> = 18
VPR1SINDVFIN = 18
VINF2S = 16
+ = 16
± = 15
' = 13
 = 11
® = 10
VIMPF3PINDVFIN = 8
SPEC = 8
VIMPF = 7
VFUT = 7
¶ = 6
VPS = 5
VPS3SINDVF

In [15]:
numberoftags = []
for key, value in sorted(dictTagsPostNormalization.items(), key=lambda x:-x[1]):
    numberoftags.append(value)
    
totalnumber = sum(numberoftags)
print(totalnumber)

393882


In [16]:
for key, value in sorted(dictTagsPostNormalization.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

NN = 92944
IN = 69726
DT = 68010
VB = 44916
JJ = 26707
, = 23772
RB = 13240
CC = 11680
. = 11472
CD = 8120
NNP = 6238
PRP = 5870
) = 3084
( = 3022
: = 1131
; = 1060
PP = 923
... = 440
[ = 418
] = 418
= = 205
? = 114
! = 74
-L = 70
-R = 54
" = 45
\< = 29
\> = 18
+ = 16
± = 15
' = 13
 = 11
® = 10
EC = 7
¶ = 6
´ = 1
* = 1
© = 1
` = 1


In [15]:
for key, value in sorted(dictTagsPostNormalization2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

NN = 92943
IN = 69726
DT = 63360
VB = 44916
JJ = 26707
, = 23772
RB = 13240
CC = 11680
. = 11472
CD = 8120
NNP = 6238
PRP = 5870
SPECM = 3734
) = 3084
( = 3022
: = 1131
; = 1060
PP = 923
SPECMS = 706
... = 440
[ = 418
] = 418
= = 205
? = 114
SPECMP = 79
SPECFS = 78
! = 74
-L = 70
-R = 54
SPECFP = 45
" = 45
\< = 29
\> = 18
+ = 16
± = 15
' = 13
 = 11
® = 10
SPEC = 8
EC = 8
¶ = 6
´ = 1
* = 1
© = 1
` = 1


In [16]:
for key, value in sorted(dictVB.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

é = 2115
foi = 1289
foram = 920
ser = 877
são = 697
pode = 566
tem = 463
sendo = 451
está = 289
podem = 265
ter = 246
realizado = 238
estão = 203
deve = 191
estar = 188
realizada = 175
há = 158
fazer = 154
cuidar = 152
era = 148
têm = 131
seja = 130
relacionados = 130
identificar = 125
sobrevida = 122
realizar = 121
relacionadas = 115
devem = 115
eram = 110
sido = 108
apresentam = 105
conhecer = 105
apresentaram = 100
possui = 94
faz = 94
considerando = 94
possuem = 93
realizados = 91
houve = 90
serem = 90
tendo = 87
apresenta = 85
teve = 84
trata- = 82
analisar = 81
ocorreu = 80
avaliar = 80
viver = 80
desenvolver = 80
observou- = 78
seguir = 77
representa = 77
vai = 76
realizadas = 75
ressaltar = 72
lidar = 70
relacionado = 69
compreender = 69
fazem = 69
utilizado = 69
estava = 68
pode- = 68
fizeram = 67
sejam = 67
torna- = 66
contribuir = 66
destaca- = 65
permite = 65
tiveram = 65
melhorar = 64
observa- = 64
considerado = 63
relataram = 63
possam = 63
tinham = 62
tenho = 62
ocorre =

curar = 3
voltava = 3
demonstrar = 3
interagindo = 3
procurava = 3
considere = 3
associando = 3
confirmam = 3
fixos = 3
estimadas = 3
traduzidas = 3
testadas = 3
encontrava- = 3
contraria = 3
ultimo = 3
acentuada = 3
colocada = 3
amamentaram = 3
relata- = 3
discute- = 3
menopausadas = 3
alcançou = 3
afirma- = 3
estudados = 3
observam- = 3
prolonga = 3
escrito = 3
contando = 3
designado = 3
comprometidos = 3
treinados = 3
solicitados = 3
preenchidos = 3
envolviam = 3
clinica = 3
constavam = 3
repetir = 3
evoluem = 3
atingem = 3
encaminhar = 3
retornaram = 3
registrada = 3
rastrear = 3
precisamos = 3
justificam = 3
agendada = 3
verificaram- = 3
conhecia = 3
precisavam = 3
formar = 3
seguiam = 3
estimulando = 3
abandonar = 3
residiu = 3
moraram = 3
reconhecido = 3
interpretado = 3
veem = 3
comparando = 3
discorrer = 3
abordem = 3
moravam = 3
respeitados = 3
facilitado = 3
referiam- = 3
têm- = 3
partindo = 3
preocupados = 3
encarada = 3
mostrado = 3
ingressam = 3
adaptados = 3
manifestadas

significam = 2
ajustar = 2
independe = 2
conquistar = 2
arrumei = 2
ouviu = 2
escuta = 2
chegamos = 2
discutirem = 2
preconizando = 2
isolar = 2
integrados = 2
respondendo = 2
transcrita = 2
depararem = 2
abarca = 2
chegava = 2
passava = 2
confrontar- = 2
atribuem = 2
impossibilitam = 2
cansada = 2
levanta = 2
sentiram = 2
fragilizada = 2
demandando = 2
considerar- = 2
queriam = 2
achando = 2
saí = 2
confiei = 2
agradeço = 2
incentivar- = 2
deixadas = 2
pego = 2
conferindo = 2
totalizamos = 2
ver- = 2
atingir- = 2
expressem = 2
unir = 2
reverter = 2
prepara = 2
estipulados = 2
construiu- = 2
selecionaram- = 2
reassumir = 2
assusta = 2
interferirá = 2
desempenhados = 2
vendendo = 2
optem = 2
entendeu = 2
chorou = 2
despertados = 2
acharem = 2
esforçar = 2
inchado = 2
pergunto = 2
aprofundando = 2
facilitem = 2
restrita = 2
retirando = 2
querido = 2
emergidos = 2
quantificadas = 2
parte = 2
constrói = 2
acompanharam = 2
devolvidas = 2
aprofundada = 2
sumindo = 2
pude = 2
engolindo = 2
ma

apropriem = 1
visarem = 1
calcula- = 1
repete = 1
acrescidos = 1
simbolizaram = 1
pensaram = 1
envolto = 1
chocado = 1
declara = 1
relevando = 1
reintegrar = 1
representava = 1
redescobrir = 1
recomeçar = 1
cederam = 1
recuperei = 1
desencadearam = 1
fumando = 1
vincula- = 1
complementando = 1
tirando- = 1
tranquilizem = 1
saíram = 1
ocupado = 1
desempenhar- = 1
desejam = 1
navega = 1
geraram = 1
fumava = 1
pito = 1
mastigar = 1
recorreram = 1
estabilizou = 1
compra = 1
lavei = 1
enraizadas = 1
adiar = 1
implicaria = 1
checar = 1
resistem = 1
pondo = 1
ganhou = 1
busquei = 1
quiser = 1
acentuou- = 1
conforma = 1
resiste = 1
vence = 1
arriscado = 1
confronta- = 1
retirar- = 1
abaixo = 1
vivia = 1
plantar = 1
entenderem = 1
trabalha- = 1
fica- = 1
limite = 1
depende- = 1
passa- = 1
demorando = 1
acabaram = 1
juntando = 1
segurando = 1
pagar = 1
gasta = 1
distanciassem = 1
deitado = 1
visito = 1
pressionados = 1
limitaram = 1
acolhidos = 1
finalizar = 1
abordavam = 1
influenciará = 1
ganh

coordenar = 1
autodefiniram- = 1
relacionava- = 1
incide = 1
intensifiquem = 1
instruem = 1
procedem = 1
providenciando = 1
monitoram = 1
estabilizaram = 1
induzidas = 1
associou = 1
usaram = 1
instruir- = 1
constitua = 1
revelam- = 1
originou- = 1
reafirmando = 1
modificar- = 1
planeje = 1
tocados = 1
estendem = 1
desfeitos = 1
reformulados = 1
vitimada = 1
falecer = 1
descontrolada = 1
desprender = 1
migrar = 1
dura = 1
desconsiderar = 1
atingidas = 1
localizam = 1
consolida = 1
codificado = 1
lidar- = 1
chateados = 1
adaptando = 1
deixar- = 1
abater = 1
considere- = 1
ouvimos = 1
dizerem = 1
tentaram = 1
sujeita = 1
sobrevém = 1
aguçado = 1
expressado = 1
angustie = 1
nascemos = 1
morremos = 1
vier = 1
prolongar = 1
incentiva = 1
ilustram = 1
morrido = 1
queríamos = 1
resolvia = 1
receba = 1
vizinha = 1
recusou = 1
unida = 1
éramos = 1
apegar = 1
desidratou = 1
efetua = 1
prestar- = 1
favorecendo- = 1
buscada = 1
emitidas = 1
interpretar- = 1
entenderão = 1
interajam = 1
aprimore = 

In [17]:
for key, value in sorted(dictVB2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

e = 2115
foi = 1289
foram = 920
ser = 877
sao = 697
tem = 594
pode = 571
sendo = 451
esta = 289
podem = 265
ter = 246
realizado = 238
estao = 203
deve = 191
estar = 188
realizada = 175
ha = 158
fazer = 154
cuidar = 152
era = 148
seja = 130
relacionados = 130
identificar = 125
sobrevida = 122
realizar = 121
relacionadas = 115
devem = 115
eram = 110
sido = 108
apresentam = 105
conhecer = 105
apresentaram = 100
possui = 94
faz = 94
considerando = 94
possuem = 93
realizados = 91
houve = 90
serem = 90
tendo = 87
apresenta = 85
teve = 84
trata- = 82
analisar = 81
ocorreu = 80
avaliar = 80
viver = 80
desenvolver = 80
observou- = 78
seguir = 77
representa = 77
vai = 76
realizadas = 75
pode- = 74
ressaltar = 72
lidar = 70
relacionado = 69
compreender = 69
vem = 69
fazem = 69
utilizado = 69
estava = 68
fizeram = 67
sejam = 67
torna- = 66
contribuir = 66
destaca- = 65
permite = 65
tiveram = 65
melhorar = 64
observa- = 64
considerado = 63
relataram = 63
possam = 63
tinham = 62
tenho = 62
ocorre = 

encaminhada = 7
verificando = 7
detectado = 7
submeteram = 7
estudada = 7
observa = 7
realizarem = 7
estima- = 7
apontadas = 7
apontada = 7
solicitado = 7
penso = 7
pautadas = 7
ficaram = 7
deixando = 7
ta = 7
apontado = 7
identificamos = 7
apresentam- = 7
afirmaram = 7
restrito = 7
entendida = 7
impostos = 7
elaborada = 7
relacionar- = 7
delimitado = 7
pudesse = 7
orientado = 7
disponibilizados = 7
incorporadas = 7
entrevistado = 7
propor = 7
apresentava = 7
dizendo = 7
determinando = 7
pautado = 7
sensibilizar = 7
impedem = 7
planejar = 7
curada = 7
remunerada = 7
confirmaram = 7
pactuados = 7
influenciada = 7
preconiza = 7
dependem = 7
correspondeu = 7
detectados = 7
abranger = 7
expor = 7
trouxeram = 7
tornou- = 7
vale = 7
sugeriu = 7
deixam = 7
compartilhadas = 7
atribuidas = 7
prover = 7
aceitando = 7
criado = 7
elaborados = 7
praticas = 7
permanecer = 7
orientada = 7
questionar = 7
aliviar = 7
querer = 7
entrei = 7
adequados = 7
dificultam = 7
agindo = 7
sinta = 7
achar = 7
tomo

fixos = 3
estimadas = 3
traduzidas = 3
testadas = 3
encontrava- = 3
contraria = 3
ultimo = 3
acentuada = 3
colocada = 3
amamentaram = 3
relata- = 3
discute- = 3
menopausadas = 3
alcancou = 3
afirma- = 3
estudados = 3
observam- = 3
prolonga = 3
escrito = 3
contando = 3
designado = 3
comprometidos = 3
treinados = 3
solicitados = 3
preenchidos = 3
envolviam = 3
clinica = 3
constavam = 3
repetir = 3
evoluem = 3
atingem = 3
encaminhar = 3
retornaram = 3
registrada = 3
rastrear = 3
precisamos = 3
justificam = 3
agendada = 3
verificaram- = 3
conhecia = 3
precisavam = 3
formar = 3
seguiam = 3
estimulando = 3
abandonar = 3
residiu = 3
moraram = 3
reconhecido = 3
interpretado = 3
comparando = 3
discorrer = 3
abordem = 3
moravam = 3
respeitados = 3
facilitado = 3
referiam- = 3
partindo = 3
preocupados = 3
encarada = 3
mostrado = 3
ingressam = 3
adaptados = 3
manifestadas = 3
gosta = 3
manifestada = 3
mencionada = 3
usava = 3
esperando = 3
achei = 3
escutar = 3
vivenciarem = 3
ficamos = 3
aproxima

gerenciadas = 2
exportadas = 2
aplicando- = 2
parte- = 2
usufruindo = 2
repetiam = 2
destroi = 2
acrescenta = 2
demonstrarem = 2
usufruir = 2
dando- = 2
acalmar = 2
vislumbra = 2
ensinando = 2
induzem = 2
continuado = 2
debilitadas = 2
compreende- = 2
envolver- = 2
valorizados = 2
compreendidos = 2
prolongados = 2
diferencia- = 2
permeado = 2
acompanhar- = 2
ampliem = 2
consubstanciado = 2
recorrem = 2
abandonada = 2
reorganizar- = 2
dormia = 2
alimentam- = 2
contratado = 2
gostariam = 2
entendo = 2
assumida = 2
corresponda = 2
frustrada = 2
dispensado = 2
submeter- = 2
advogar = 2
divide = 2
articulando- = 2
contornar = 2
afastar- = 2
privar- = 2
leva- = 2
avancarmos = 2
comprovados = 2
posto = 2
lavar = 2
guardar = 2
eleito = 2
n. = 2
continha = 2
confirmada = 2
formaram = 2
ilustrar = 2
exemplificar = 2
deixados = 2
retirados = 2
lancar = 2
destinados = 2
dedicado = 2
desconhecidas = 2
mostravam = 2
abordava = 2
respondiam = 2
afirmou = 2
manifesta = 2
adote = 2
visualizando = 2
foc

reordenar = 1
apreender- = 1
exijam = 1
equilibrarem = 1
disfarcado = 1
guardado = 1
transformado = 1
guardados = 1
diminua = 1
abra = 1
afastado = 1
foge = 1
cultivados = 1
disser = 1
machuca = 1
maltrata = 1
maltratado = 1
partilha = 1
enunciado = 1
recomendou- = 1
acrescentou- = 1
facilitaram = 1
nomeada = 1
especificado = 1
aprimoraria = 1
considerasse = 1
denominou- = 1
chamadas = 1
decididos = 1
preenchida = 1
nomeado = 1
circule = 1
acharam = 1
referia = 1
equivale = 1
trouxesse = 1
preenchiam = 1
decidiram = 1
causaria = 1
subentendido = 1
publicou = 1
deixado = 1
revisar = 1
ficariam = 1
reavaliado = 1
invertem = 1
facilitou = 1
enjoado = 1
facilitaria = 1
constrangidos = 1
comentada = 1
confundiu- = 1
referir- = 1
marcavam = 1
debilitados = 1
cansados = 1
prestassem = 1
realizarem- = 1
receberao = 1
omitidas = 1
padroniza = 1
coletaram = 1
informadoem = 1
idadee = 1
eh = 1
abastecem = 1
omitida = 1
embasar = 1
subsidiam = 1
recenterealizado = 1
reportados = 1
subindo = 1
amai

subsidiou = 1
incidir = 1
alcado = 1
estara- = 1
regulamentam = 1
contemplado = 1
utilizara- = 1
integravam = 1
manifeste = 1
decresce = 1
parasita = 1
manifestando- = 1
notificado = 1
distribuido = 1
edificar = 1
englobada = 1
explicitando- = 1
enfatizando- = 1
fomentadas = 1
consolidando = 1
embasa = 1
descaracteriza = 1
sociabilizar = 1
fomente = 1
desmistificando- = 1
tornara = 1
subtraindo = 1
desconhecam = 1
respeitar- = 1
asseveramos = 1
tera- = 1
programado = 1
carregam = 1
multiplicar- = 1
endurecidas = 1
difundidos = 1
previnem = 1
proibe = 1
ameacem = 1
rejeitar = 1
distribuem = 1
re-apresenta = 1
adentraremos = 1
forneceu- = 1
estimularam = 1
favoreciam = 1
socializado = 1
peguei = 1
atrapalhar = 1
dispersados = 1
tornarem = 1
dispersando = 1
armazenar = 1
secretar = 1
mutua = 1
tomado = 1
depararam- = 1
convergindo = 1
assimilada = 1
converteu- = 1
isolarem = 1
conheco = 1
converso = 1
acalmam = 1
desesperado = 1
corta = 1
demorei = 1
prejudicava = 1
prejudicou = 1
isolava

supor = 1
permitiria = 1
frequenta = 1
interfiram = 1
refletido = 1
pautar = 1
articulada = 1
tomando- = 1
alteram- = 1
contemplassem = 1
narrarem = 1
exigidas = 1
seguiram- = 1
possibilitavam = 1
experienciavam = 1
domicilio = 1
batendo = 1
pareca = 1
olhei = 1
prejudicadas = 1
fragmentados = 1
recebida = 1
sensibiliza- = 1
anseia = 1
oferecer- = 1
arrumar = 1
locomover = 1
subsidiar- = 1
incomoda = 1
demorado = 1
colocados = 1
enfraquecidos = 1
percorrer = 1
elaborando = 1
experienciar = 1
odeio = 1
perguntam = 1
virem = 1
interessasse = 1
acelerando = 1
arrumaram = 1
ensinaram = 1
estudava = 1
chamados = 1
reconhecia = 1
reconhecer- = 1
conectada = 1
resguardada = 1
preveem = 1
viabilizados = 1
explicito = 1
percorrida = 1
luta = 1
impactou = 1
acessado = 1
retratam = 1
subdivididas = 1
testados = 1
investigou- = 1
demandaram = 1
requeridas = 1
readequar = 1
pontuada = 1
impactar = 1
internar = 1
impoem- = 1
eleitos = 1
convencionados = 1
computadas = 1
compiladas = 1
compactada = 1

In [18]:
for key, value in sorted(dictVBP.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [19]:
for key, value in sorted(dictVBP2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [20]:
for key, value in sorted(dictVBG.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [21]:
for key, value in sorted(dictVBG2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [22]:
for key, value in sorted(dictVBN.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [23]:
for key, value in sorted(dictVBN2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [24]:
for key, value in sorted(dictNN.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

câncer = 3740
saúde = 3532
doença = 2150
estudo = 2126
tratamento = 1802
% = 1775
vida = 1488
enfermagem = 1318
família = 1264
cuidado = 1168
pesquisa = 1126
mulheres = 1034
mama = 938
risco = 920
prevenção = 896
diagnóstico = 850
processo = 824
exame = 822
forma = 800
anos = 757
população = 732
trabalho = 718
qualidade = 704
equipe = 650
criança = 644
pacientes = 636
período = 630
idade = 628
dados = 622
uso = 620
realização = 600
análise = 574
colo = 570
assistência = 544
conhecimento = 540
mulher = 532
atenção = 524
necessidade = 518
dor = 504
maioria = 504
desenvolvimento = 492
pessoa = 490
tempo = 488
tipo = 484
controle = 478
próstata = 464
mortalidade = 460
instrumento = 458
profissionais = 448
homem = 428
número = 416
grupo = 414
enfermeiro = 410
pessoas = 409
contexto = 404
apoio = 404
coleta = 404
avaliação = 396
importância = 388
relação = 386
estudos = 385
objetivo = 384
situação = 374
aumento = 370
fatores = 368
ano = 368
momento = 364
útero = 362
estado = 360
paciente = 3

reabilitação = 44
significados = 44
sinais = 44
continuidade = 44
aproximação = 44
consentimento = 44
semana = 44
probabilidade = 44
dado = 44
zona = 44
lado = 44
verificação = 44
mês = 44
roteiro = 44
b = 44
c = 44
morbidade = 44
adequação = 44
preconceito = 44
consciência = 44
produções = 44
atitude = 44
captação = 44
comportamentos = 44
sobrecarga = 44
extensão = 44
juízes = 44
terminalidade = 44
disfunção = 44
infarto = 44
mil = 43
usuárias = 43
evidências = 43
custos = 42
união = 42
estádio = 42
metástase = 42
diferenças = 42
predominância = 42
via = 42
retorno = 42
queixa = 42
estatística = 42
idioma = 42
publicação = 42
envolvimento = 42
déficit = 42
autor = 42
texto = 42
recuperação = 42
secreção = 42
hipertensos = 42
fases = 41
falas = 41
0 = 41
índices = 41
2006 = 41
mamas = 41
acidentes = 41
monitoramento = 40
trabalhos = 40
acolhimento = 40
pesquisadores = 40
coisas = 40
esposa = 40
saber = 40
anonimato = 40
intervalo = 40
significância = 40
agravo = 40
manipulação = 40
pre

transição = 12
avaliações = 12
negociação = 12
hélio = 12
beleza = 12
ereção = 12
desenho = 12
aborto = 12
preservação = 12
essência = 12
nervosismo = 12
turno = 12
colo-retal = 12
barganha = 12
jejum = 12
g = 12
intolerância = 12
comorbidade = 12
falência = 12
isquemia = 12
hipertenso = 12
especialista = 11
avanços = 11
estudantes = 11
soluções = 11
potencialidades = 11
42 = 11
33 = 11
remédios = 11
57 = 11
52 = 11
2000 = 11
definições = 11
vulnerabilidades = 11
planos = 11
enfermidades = 11
interesses = 11
horários = 11
38 = 11
realidades = 11
melhorias = 11
frutas = 11
adulto = 10
estreitamento = 10
documentação = 10
especialidade = 10
leito = 10
conteúdos = 10
técnico-científico = 10
especialização = 10
concretização = 10
parcerias = 10
reavaliação = 10
responsabilidades = 10
filosofia = 10
reinserção = 10
ajustes = 10
afecções = 10
núcleos = 10
ferramentas = 10
harmonia = 10
bexiga = 10
restabelecimento = 10
neta = 10
demonstração = 10
vão = 10
estruturas = 10
88 = 10
51 = 10
acré

inobservância = 4
infertilidade = 4
tontura = 4
ulceração = 4
intestino = 4
migração = 4
fígado = 4
balança = 4
dessincronização = 4
ritmos = 4
hipotálamo = 4
sincronizador = 4
escuridão = 4
marcador = 4
terceiro = 4
antioxidante = 4
regulação = 4
indenização = 4
carboidratos = 4
ventrículo = 4
eletrólitos = 4
4,5 = 4
ser-mãe = 4
veia = 4
ser-para-o-fim = 4
pós-diagnóstico = 4
posto = 4
corticoterapia = 4
56,6 = 4
não-utilização = 4
ideal = 4
45,5 = 4
dezesseis = 4
anticoncepcional = 4
microárea = 4
folículo = 4
orgulho = 4
cessação = 4
estigmatização = 4
toques = 4
homogeneidade = 4
tato = 4
descritivo-exploratório = 4
tabulados = 4
cautela = 4
hiperpigmentação = 4
intercorrência = 4
reeducação = 4
emblema = 4
desvio-padrão = 4
refeição = 4
couro = 4
lenço = 4
touca = 4
peruca = 4
disparidade = 4
federação = 4
auge = 4
micro = 4
autogerenciamento = 4
par = 4
cerveja = 4
discordância = 4
enviada = 4
metadona = 4
dobro = 4
42,3 = 4
entrecruzamento = 4
2,2 = 4
irregularidade = 4
pensão =

repetitividade = 2
caroço = 2
micose = 2
íngua = 2
dengue = 2
aperto = 2
3,19 = 2
unha = 2
empirismo = 2
situacionalidade = 2
autenticidade = 2
horizonte = 2
nuances = 2
remorso = 2
ser-para-a-morte = 2
modo-de-ser = 2
43,3 = 2
pneumococo = 2
pós-remissão = 2
técnico-gerencial = 2
engenharia=genética = 2
receituário = 2
breve = 2
interessado = 2
febre=amarela = 2
reatogenicidade = 2
2,10 = 2
hospedagem = 2
diretor = 2
fr = 2
anti-varicela = 2
reconstituição = 2
contraindicação = 2
explanação = 2
reestabelecimento = 2
detalhe = 2
beta-caroteno = 2
folato = 2
simplicidade = 2
h. = 2
200.000 = 2
incumbência = 2
teste-piloto = 2
22,7 = 2
59,1 = 2
36,4 = 2
27,3 = 2
causadores = 2
dramatização = 2
corroboração = 2
oriente = 2
multiplicação = 2
reparo = 2
namorado = 2
inconformação = 2
sorriso = 2
máscara = 2
enxerga = 2
falsidade = 2
fragmento = 2
rápido = 2
despersonalização = 2
rádio = 2
porto = 2
frieza = 2
pôr = 2
requisito = 2
convicções = 2
canal = 2
3: = 2
porvir = 2
tríade = 2
enferm

MG = 1
criadas = 1
pequenos = 1
tensões = 1
prostitutas = 1
alvos = 1
constantes = 1
vegetais = 1
leguminosas = 1
105.676 = 1
35.301 = 1
10=a=49 = 1
5621 = 1
duzentas=e=cinquenta = 1
250 = 1
lésbicas = 1
índias = 1
desgastes = 1
insumos = 1
partos = 1
abortos = 1
hepatites = 1
17:00 = 1
servidores = 1
catorze = 1
421 = 1
2000=a=2006 = 1
entre=15=e=19 = 1
contras = 1
uretrites = 1
cervicites = 1
verrugas = 1
transmissores = 1
elos = 1
abortamentos = 1
196/964 = 1
0207.0.045.000-10 = 1
1=a=17 = 1
graduações = 1
44,4 = 1
3.340 = 1
2.830 = 1
etilistas = 1
1/25.000 = 1
tratos = 1
40=a=76 = 1
desencadeadoras = 1
radicais = 1
indutores = 1
mucosites = 1
hemorragias = 1
23-25 = 1
papilas = 1
intervenientes = 1
1999=a=2009 = 1
2,4 = 1
formulações = 1
1999=a=14 = 1
atualidades = 1
titulações = 1
2000=a=2004 = 1
propagandas = 1
profissional-cliente = 1
sínteses = 1
similaridades = 1
1967 = 1
19-21 = 1
20,21 = 1
correntes = 1
24,25 = 1
24,26,27 = 1
19,22 = 1
19,22-24 = 1
21,26-28 = 1
22/09 = 1
int

In [25]:
for key, value in sorted(dictNN2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

cancer = 5610
saude = 5298
% = 3550
doenca = 3225
estudo = 3189
tratamento = 2703
vida = 2232
mulheres = 2068
enfermagem = 1977
familia = 1899
cuidado = 1752
pesquisa = 1689
anos = 1514
mama = 1407
risco = 1380
prevencao = 1344
diagnostico = 1275
dados = 1244
processo = 1236
exame = 1233
forma = 1200
populacao = 1098
trabalho = 1077
qualidade = 1056
equipe = 975
crianca = 966
periodo = 945
idade = 942
uso = 930
realizacao = 900
analise = 861
colo = 855
pessoas = 818
assistencia = 816
conhecimento = 810
mulher = 798
atencao = 786
necessidade = 777
estudos = 770
dor = 756
maioria = 756
desenvolvimento = 738
fatores = 736
pessoa = 735
tempo = 732
tipo = 726
controle = 717
cuidados = 696
prostata = 696
mortalidade = 690
instrumento = 687
acoes = 676
resultados = 666
homem = 642
pacientes = 636
homens = 630
numero = 627
grupo = 621
enfermeiro = 615
contexto = 606
apoio = 606
coleta = 606
doencas = 602
avaliacao = 594
servicos = 582
importancia = 582
relacao = 579
objetivo = 576
situacao = 5

obstrucao = 24
sonda = 24
vitalidade = 24
adolescencia = 24
agressividade = 24
supressao = 24
alternativa = 24
resposta=imunologica = 24
jornada = 24
humor = 24
hiperglicemia = 24
filtracao = 24
fistula = 24
energia = 24
microalbuminuria = 24
sete = 23
avancos = 22
solucoes = 22
potencialidades = 22
63 = 22
remedios = 22
70 = 22
circunstancias = 22
definicoes = 22
vulnerabilidades = 22
planos = 22
enfermidades = 22
interesses = 22
horarios = 22
acompanhantes = 22
realidades = 22
melhorias = 22
frutas = 22
composicao = 21
estruturacao = 21
colaboracao = 21
missao = 21
esfera = 21
medula=ossea = 21
invasao = 21
aprimoramento = 21
cm = 21
65 = 21
47 = 21
esquerda = 21
coluna = 21
tecnico = 21
exigencia = 21
melanoma = 21
introducao = 21
livro = 21
segmento = 21
sede = 21
minimo = 21
55 = 21
usuaria = 21
parto = 21
semelhanca = 21
t = 21
duvida = 21
midia = 21
convenio = 21
alerta = 21
empregada = 21
logica = 21
complementacao = 21
recepcao = 21
letra = 21
90 = 21
morbi-mortalidade = 21
am

monografia = 6
flor = 6
defeito = 6
protese = 6
olho = 6
autopunicao = 6
seguida = 6
fitas = 6
arquivo = 6
inferencia = 6
armazenamento = 6
ancoragem = 6
meninos = 6
tapete = 6
quebra = 6
afetividade = 6
lugares = 6
ilusao = 6
canais = 6
questionarios = 6
habilitacao = 6
linguistica = 6
system = 6
prisao=de=ventre = 6
dicionario = 6
adjetivo = 6
frase = 6
gradacao = 6
suspeicao = 6
requisicao = 6
omissoes = 6
ovario = 6
engajamento = 6
dupla = 6
desestrutura = 6
imersao = 6
patrao = 6
cadeiras = 6
diarias = 6
cheiro = 6
imprecisao = 6
insucesso = 6
cachorro = 6
banheiro = 6
crises = 6
adversidade = 6
ordens = 6
desamparo = 6
enfretamento = 6
ferias = 6
laranja = 6
branco = 6
causador = 6
detentora = 6
auto-estima = 6
tabu = 6
defesas = 6
controles = 6
linguagens = 6
luzes = 6
afirmativa = 6
02 = 6
roteiros = 6
dramaturgia = 6
generalizacao = 6
teatro = 6
vida=privada = 6
infidelidade = 6
salvacao = 6
bloqueio = 6
balanco = 6
genese = 6
simbologismo = 6
causadora = 6
desaparecimento = 6

gene = 3
claridade = 3
sincronizacao = 3
plato = 3
teto = 3
ganglio = 3
pineal = 3
digestao = 3
molecula = 3
invencao = 3
mesclagem = 3
previa = 3
amago = 3
iluminacao = 3
1,2 = 3
anti-aromatase = 3
ritmicidade = 3
carcinogenicidade = 3
seguro = 3
inativacao = 3
desacerto = 3
privacao = 3
ulcera=peptica = 3
apneia = 3
barulho = 3
cronotipo = 3
materia = 3
lotacao = 3
remanejamento = 3
sociofamiliar = 3
intuicao = 3
repetitividade = 3
caroco = 3
micose = 3
ingua = 3
dengue = 3
aperto = 3
unha = 3
empirismo = 3
situacionalidade = 3
autenticidade = 3
horizonte = 3
remorso = 3
ser-para-a-morte = 3
modo-de-ser = 3
pneumococo = 3
pos-remissao = 3
tecnico-gerencial = 3
engenharia=genetica = 3
receituario = 3
breve = 3
interessado = 3
febre=amarela = 3
reatogenicidade = 3
hospedagem = 3
diretor = 3
fr = 3
anti-varicela = 3
reconstituicao = 3
contraindicacao = 3
explanacao = 3
reestabelecimento = 3
detalhe = 3
beta-caroteno = 3
folato = 3
simplicidade = 3
h. = 3
incumbencia = 3
teste-piloto = 3

252 = 1
23,6 = 1
11,2 = 1
35,7 = 1
29,5 = 1
2005-2009 = 1
51,26 = 1
2,38 = 1
29,05 = 1
78,6 = 1
87,7 = 1
78,7 = 1
7,81 = 1
92,7 = 1
88,3 = 1
3,26 = 1
1,29-8,22 = 1
15,40 = 1
6,22-38,12 = 1
25,51 = 1
9,64-67,51 = 1
7,18 = 1
19,49 = 1
8,22 = 1
6,02 = 1
0,58 = 1
730 = 1
50,71/100.000 = 1
67/100.000 = 1
2970 = 1
56,7/100000 = 1
56,16 = 1
334 = 1
fumante = 1
4,68 = 1
5,81 = 1
entre=16=e=20 = 1
2,37 = 1
6,28 = 1
158 = 1
19,4 = 1
52,1 = 1
59,9 = 1
77,7 = 1
63,15 = 1
84,21 = 1
81,25 = 1
18,75 = 1
50,3 = 1
entre=20=e=60 = 1
1995 = 1
5,26 = 1
32,53 = 1
47,4 = 1
entre=10=e=13 = 1
13,31 = 1
62,8 = 1
aa = 1
18=a=83 = 1
30.121 = 1
2,6 = 1
51,4 = 1
1133 = 1
salva=vidas = 1
anestesiologistas = 1
1153 = 1
4,0 = 1
3.953 = 1
1943 = 1
3/4 = 1
28.144 = 1
ginecologistas = 1
27,7 = 1
0,15 = 1
969 = 1
12,7 = 1
577 = 1
0,7 = 1
18.680 = 1
166.897 = 1
8.4 = 1
vinte=e=dois = 1
dois=e=meio = 1
1404 = 1
entre=20=e=59 = 1
107.147 = 1
643 = 1
465 = 1
25=a=49 = 1
entre=25=e=59 = 1
entre=29=e=58 = 1
237 = 1
entre=12=e=

In [26]:
for key, value in sorted(dictNNS.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [27]:
for key, value in sorted(dictNNS2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

In [28]:
for key, value in sorted(dictNNP.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

Brasil = 281
DRC = 152
Deus = 76
Ministério=da=Saúde = 65
Comitê=de=Ética = 61
CCU = 51
São=Paulo = 49
HPV = 45
IRC = 43
Descritores = 41
HAS = 41
USF = 38
Termo=de=Consentimento=Livre = 37
ECE = 36
Santa=Catarina = 36
Rio=Grande=do=Sul = 34
Papanicolaou = 34
Sistema=Único=de=Saúde = 33
Rio=de=Janeiro = 33
Esclarecido = 32
OMS = 32
PNAISH = 31
DCNT = 31
DM = 30
SUS = 29
Enfermagem = 27
Cuiabá = 27
LILACS = 27
BDENF = 26
RS = 25
ESF = 25
ESAS-r = 25
PSA = 24
Conselho=Nacional=de=Saúde = 23
TCLE = 22
Sismama = 22
QV = 22
HPQ = 22
E1 = 21
Comitê=de=Especialistas = 20
E4 = 20
Sus = 19
DCNTSAP = 19
Papanicolau = 18
Mato=Grosso = 18
SMS = 18
MEDLINE = 18
TRH = 18
Diabetes = 18
Centro-Oeste = 17
Estados=Unidos = 16
Paraná = 16
Organização=Mundial=de=Saúde = 16
MS = 16
S1 = 16
CRIANES = 16
Francisco=Beltrão = 15
Universidade=Federal = 14
DST = 14
Saúde=do=Homem = 14
LPCCU = 14
BVS = 14
E2 = 14
E3 = 14
Insuficiência=Cardíaca = 14
Instituto=Nacional=de=Câncer = 13
CC = 13
SciELO = 13
E5 = 13
PA 

Pedro = 1
Linfoma = 1
Hélio = 1
Ser=Superior = 1
Masculinidades=E=A=Relação=Com=Câncer=De=Laringe = 1
Masculinidades = 1
Neoplasia=de=Laringe = 1
Literatura=de=Revisão = 1
Assunto = 1
Política=Nacional=de=Atenção=Integral=à=Saúde=do=Homem = 1
Diretrizes = 1
Biblioteca=Regional=de=Medicina = 1
Literatura=Latino=Americana = 1
Base=de=Dados=da=Enfermagem = 1
DECS = 1
Categorias=Temáticas = 1
Masculinidades=Esta = 1
Figueiredo = 1
Razão=de=Mortalidade=Proporcional = 1
Koifman = 1
PMR = 1
Marinha=do=Brasil = 1
RMPC = 1
Fernando=de=Noronha = 1
Sul=da=Europa = 1
Centro=de=Oncologia=Bucal = 1
Universidade=Estadual=Paulista = 1
Assistência=Primária = 1
Próstata=Para=O=Homem = 1
Enfermeiro=NA=Promoção = 1
FAP = 1
Universidade=Federal=do=Estado = 1
Zona=Sul = 1
Costa6 = 1
Coutinho7 = 1
Percepção=de=Obstáculos = 1
Princípios=do=Sus = 1
Integralidade = 1
Equidade = 1
Prevenção = 1
Saúde=Integral=da=Mulher = 1
Consulta=de=Enfermagem = 1
Unidade=de=Estratégia=de=Saúde=da=Família = 1
Mipibu-RN = 1
Pro

In [29]:
for key, value in sorted(dictNNP2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

brasil = 281
drc = 152
deus = 76
ministerio=da=saude = 65
comite=de=etica = 61
ccu = 51
sao=paulo = 49
hpv = 45
irc = 43
descritores = 42
has = 41
usf = 38
termo=de=consentimento=livre = 37
ece = 36
santa=catarina = 36
lilacs = 36
rio=grande=do=sul = 34
papanicolaou = 34
sistema=unico=de=saude = 33
rio=de=janeiro = 33
esclarecido = 32
oms = 32
pnaish = 31
dcnt = 31
dm = 30
SUS = 28
enfermagem = 27
cuiaba = 27
bdenf = 26
rs = 25
medline = 25
esf = 25
esas-r = 25
psa = 24
conselho=nacional=de=saude = 23
tcle = 22
sismama = 22
qv = 22
hpq = 22
e1 = 21
scielo = 21
sus = 20
comite=de=especialistas = 20
e4 = 20
dcntsap = 19
papanicolau = 18
mato=grosso = 18
sms = 18
trh = 18
diabetes = 18
centro-oeste = 17
estados=unidos = 16
parana = 16
organizacao=mundial=de=saude = 16
ms = 16
s1 = 16
crianes = 16
francisco=beltrao = 15
universidade=federal = 14
dst = 14
saude=do=homem = 14
lpccu = 14
bvs = 14
e2 = 14
e3 = 14
insuficiencia=cardiaca = 14
instituto=nacional=de=cancer = 13
cc = 13
e5 = 13
pa 

a=resiliencia=como=estrategia=de=enfrentamento=para=o = 1
fundacao=de=amparo = 1
pesquisa=do=estado = 1
fapergs = 1
am = 1
deste = 1
eles = 1
observase = 1
gracas=ele = 1
surveillance = 1
epidemiology = 1
end=results = 1
seer = 1
federacao=brasileira = 1
consenso=de=mama = 1
como=a=mulher=mastectomizada=percebe=a=relacao=com = 1
adalia = 1
vera = 1
porem = 1
gepam = 1
flor = 1
elza = 1
julia = 1
oliveira = 1
curso=de=mestrado = 1
registro = 1
word = 1
qualitative=solutions=research=nvivo = 1
traducao=e=adaptacao=transcultural = 1
uso = 1
paliativos = 1
palliative=performance=scale = 1
hospital=geral=de=edmonton = 1
revised = 1
how = 1
drowsiness = 1
escala=de=avaliacao=de=sintomas=de=edmonton = 1
nausea = 1
edmonton=symptom=assessment=scale = 1
escala = 1
fatigue = 1
weakness = 1
sistema=de=avaliacao = 1
ease-r = 1
not = 1
falta = 1
com=bem-estar = 1
regional=de=saude=do=estado=do=parana = 1
sistema=de=informacao=do=cancer=de=mama = 1
breastimagingreportingand = 1
data=system = 1
coleg

In [30]:
for key, value in sorted(dictCD.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

um = 268
1 = 239
2 = 210
uma = 161
10 = 153
três = 149
3 = 142
dois = 134
5 = 130
4 = 130
duas = 125
50 = 117
quatro = 112
cinco = 100
6 = 100
7 = 95
15 = 90
12 = 87
9 = 87
18 = 84
20 = 82
8 = 80
11 = 78
16 = 67
2010 = 66
25 = 66
24 = 66
13 = 64
40 = 62
30 = 62
14 = 61
seis = 58
60 = 57
17 = 54
19 = 54
2009 = 53
21 = 52
2008 = 50
80 = 47
100 = 46
2007 = 46
mil = 43
0 = 41
2006 = 41
2011 = 38
22 = 37
oito = 36
100.000 = 32
196/96 = 28
28 = 28
35 = 28
milhões = 28
45 = 27
nove = 27
2012 = 27
27 = 26
75 = 26
29 = 26
dez = 25
26 = 25
2005 = 24
sete = 23
63 = 22
70 = 22
65 = 21
47 = 21
55 = 21
90 = 21
32 = 20
2004 = 20
23 = 20
95 = 19
0,05 = 17
0,01 = 17
36 = 16
43 = 16
00 = 16
72 = 15
49 = 15
2003 = 15
12,5 = 15
66 = 14
56 = 14
2002 = 14
1998 = 13
48 = 13
76 = 13
2,3 = 13
39 = 13
66,7 = 13
14.3 = 13
2000=a=2009 = 12
58 = 12
01 = 12
42 = 11
33 = 11
57 = 11
52 = 11
2000 = 11
38 = 11
88 = 10
51 = 10
31 = 10
um=a=três = 10
37 = 10
34 = 10
03 = 10
85 = 10
33,3 = 10
0,001 = 10
59 = 9
41 = 9
53 =

263 = 1
8-10 = 1
11-12 = 1
entre=13=e=72 = 1
27,5±11,5 = 1
1179/2008 = 1
763/2008 = 1
5,14 = 1
42=a=210 = 1
5,14,17-21 = 1
9.1.3 = 1
2002/2003 = 1
0,30 = 1
36,0 = 1
7,8 = 1
87,1 = 1
10,1 = 1
75,2 = 1
46,0 = 1
196,8 = 1
59=a=182 = 1
49=a=188 = 1
130,4 = 1
117,5 = 1
30,9 = 1
47,9±11,4 = 1
48,5±12,9 = 1
0,31 = 1
0,18 = 1
0,07 = 1
0,26 = 1
0,25 = 1
0,22 = 1
25=a=61 = 1
42,1 = 1
9,0 = 1
0,19 = 1
0,04 = 1
0,28 = 1
84,1 = 1
9,10,24 = 1
2,25 = 1
2,5,4,18 = 1
5,17-21,26-27 = 1
19,26 = 1
00=a=00. = 1
0.0.0.000-0 = 1
0..000 = 1
0=a=0 = 1
7,74/100.000 = 1
92.000 = 1
1.109 = 1
70,1 = 1
62,6 = 1
65,3 = 1
64,3 = 1
810 = 1
uma=a=uma = 1
0961/07 = 1
297/2006 = 1
2=a=60 = 1
18,5 = 1
1,12 = 1
0,83 = 1
3,41 = 1
0,028 = 1
65,9 = 1
64,5 = 1
0,563 = 1
7,65 = 1
61,9 = 1
93,5 = 1
1920 = 1
61,3 = 1
1974-76 = 1
1992-99 = 1
1988-1992 = 1
1.815.584 = 1
entre=15=e=44 = 1
60,0 = 1
1,77 = 1
90=a=00 = 1
900 = 1
0-Por=volta=de = 1
990 = 1
49,4 = 1
1994 = 1
18=a=84 = 1
39,09 = 1
56,30 = 1
147 = 1
68,60 = 1
179 = 1
107 =

40,00 = 1
35,71 = 1
64,29 = 1
21,43 = 1
9-10 = 1
66,66 = 1
032/2011 = 1
entre=29=e=88 = 1
24,4 = 1
1o = 1
3o = 1
42,2 = 1
14=31,1 = 1
73,3 = 1
0326.0.243.000-10 = 1
entre=38=e=62 = 1
65.121 = 1
86,7 = 1
34,5 = 1
oitenta=e=dois = 1
13,1 = 1
42.695 = 1
13,9 = 1
20,8 = 1
130/80 = 1
90,6 = 1
125 = 1
6,0 = 1
23081.009779/2010-51 = 1
0.243.000-10 = 1
53,6 = 1
46,4 = 1
20=a=81 = 1
60,7 = 1
69,6 = 1
73,21 = 1
26,79 = 1
89,29 = 1
10,71 = 1
5,36 = 1
87.194 = 1
131/2011 = 1
47,7 = 1
entre=18=e=24 = 1
0262.0.000-10 = 1
3.3.2 = 1
505/2008 = 1
40-50 = 1
30,3 = 1
6,1 = 1
2=a=8 = 1
87,9 = 1
84,8 = 1
93,9 = 1
2/3 = 1
69,7 = 1
33,78 = 1
37,12 = 1
42,36 = 1
44,27 = 1
53,18 = 1
48,48 = 1
16-19 = 1
128/07 = 1
entre=14=e=19 = 1
1-Púrpura = 1
2-Diabetes = 1
3-Talassemia = 1
4-Talassemia = 1
5-Diabetes = 1
15:7 = 1
29,1 = 1
500.000 = 1
800.000 = 1
201.693 = 1
07534069/2008 = 1
37=a=92 = 1
49,1 = 1
52,7 = 1
18,18 = 1
90,9 = 1
415,00 = 1
29,09 = 1
16,36 = 1
74,54 = 1
143,3mm = 1
82,7mm = 1
17,15 = 1
83,6 = 1
78

In [31]:
for key, value in sorted(dictCD2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

um = 268
1 = 239
2 = 210
uma = 161
10 = 153
tres = 149
3 = 142
dois = 134
5 = 130
4 = 130
duas = 125
50 = 117
quatro = 112
cinco = 100
6 = 100
7 = 95
15 = 90
12 = 87
9 = 87
18 = 84
20 = 82
8 = 80
11 = 78
16 = 67
2010 = 66
25 = 66
24 = 66
13 = 64
40 = 62
30 = 62
14 = 61
seis = 58
60 = 57
17 = 54
19 = 54
2009 = 53
21 = 52
2008 = 50
80 = 47
100 = 46
2007 = 46
mil = 43
0 = 41
2006 = 41
2011 = 38
22 = 37
oito = 36
100.000 = 32
196/96 = 28
28 = 28
35 = 28
milhoes = 28
45 = 27
nove = 27
2012 = 27
27 = 26
75 = 26
29 = 26
dez = 25
26 = 25
2005 = 24
sete = 23
63 = 22
70 = 22
65 = 21
47 = 21
55 = 21
90 = 21
32 = 20
2004 = 20
23 = 20
95 = 19
0,05 = 17
0,01 = 17
36 = 16
43 = 16
00 = 16
72 = 15
49 = 15
2003 = 15
12,5 = 15
66 = 14
56 = 14
2002 = 14
1998 = 13
48 = 13
76 = 13
2,3 = 13
39 = 13
66,7 = 13
14.3 = 13
2000=a=2009 = 12
58 = 12
01 = 12
42 = 11
33 = 11
57 = 11
52 = 11
2000 = 11
38 = 11
88 = 10
51 = 10
31 = 10
um=a=tres = 10
37 = 10
34 = 10
03 = 10
85 = 10
33,3 = 10
0,001 = 10
59 = 9
41 = 9
53 =

221 = 1
cinco=a=nove = 1
161.491 = 1
7.633 = 1
2:136 = 1
6:243 = 1
7:32 = 1
8:55 = 1
13:5 = 1
15:124 = 1
17:326 = 1
18:8 = 1
21:183-4 = 1
22,23 = 1
26:223 = 1
26:221 = 1
2500 = 1
148/07 = 1
4: = 1
44,73 = 1
1:4 = 1
0.000.107-08 = 1
62,07 = 1
65,51 = 1
29,31 = 1
5,17 = 1
3,44 = 1
10,34 = 1
86,21 = 1
698 = 1
29,3 = 1
12,06 = 1
51,75 = 1
24,13 = 1
87,91 = 1
36,2 = 1
63,1 = 1
44,75 = 1
entre=50=e=59 = 1
55,2 = 1
86,20 = 1
85,8 = 1
1-2 = 1
5=a=10 = 1
8,6 = 1
77,6 = 1
51,11 = 1
32,5 = 1
1,3,4 = 1
1533.0.000 = 1
6.0 = 1
87,2 = 1
1,8,9 = 1
17,5 = 1
200m = 1
15,4 = 1
11=a=14 = 1
5,1 = 1
8,10,11 = 1
1,10 = 1
63,3 = 1
1,8,12 = 1
0,527 = 1
0,126 = 1
1,00 = 1
133/06 = 1
0131.0.031.000-06 = 1
0031.0.313.000-08 = 1
20.299 = 1
13,13 = 1
1,15 = 1
480.000 = 1
um=milhao = 1
589 = 1
2001-2004 = 1
1751 = 1
2396 = 1
21/08 = 1
vinte=e=cinco = 1
41e = 1
setenta = 1
43- = 1
1980=a=2003 = 1
21- = 1
465.000 = 1
21.592 = 1
708 = 1
39=a=59 = 1
809/2009 = 1
0,80 = 1
1974 = 1
1.286 = 1
26/10/93 = 1
04/05/1994 = 1
92

In [32]:
for key, value in sorted(dictPRP.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

se = 3403
eu = 592
ele = 252
ela = 205
o = 198
eles = 190
me = 190
elas = 123
os = 87
a = 69
você = 58
mim = 55
as = 54
si = 50
nos = 48
las = 42
los = 38
lo = 38
lhe = 31
lhes = 29
nós = 28
la = 25
te = 16
tu = 15
se- = 12
como=se = 10
vocês = 3
eu- = 3
na = 3
ti = 2
nas = 1


In [33]:
for key, value in sorted(dictPRP2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

se = 3403
eu = 592
ele = 252
ela = 205
o = 198
eles = 190
me = 190
elas = 123
os = 87
nos = 76
a = 69
voce = 58
mim = 55
as = 54
si = 50
las = 42
los = 38
lo = 38
lhe = 31
lhes = 29
la = 25
te = 16
tu = 15
se- = 12
como=se = 10
voces = 3
eu- = 3
na = 3
ti = 2
nas = 1


In [34]:
for key, value in sorted(dictJJ.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

maior = 439
social = 339
sociais = 256
crônica = 256
renal = 251
familiar = 227
importante = 222
precoce = 186
idosos = 170
presente = 166
possível = 159
doente = 157
etária = 156
grande = 154
uterino = 150
cotidiano = 137
melhor = 129
necessário = 129
crônicas = 129
fundamental = 125
emocional = 117
variáveis = 115
sexual = 114
hospitalar = 112
seguintes = 109
física = 108
baixa = 105
principais = 105
alta = 95
novos = 92
menor = 91
qualitativa = 89
principal = 87
profissional = 86
maiores = 85
arterial = 85
oral = 83
masculina = 83
pública = 81
comum = 78
paliativos = 78
diversas = 76
entrevistados = 76
clínico = 75
brasileira = 75
nova = 74
importantes = 74
primeira = 74
masculino = 74
idoso = 73
familiares = 71
superior = 69
físico = 68
feminina = 67
geral = 65
físicas = 65
primária = 64
própria = 63
novas = 61
diversos = 60
descritiva = 60
especial = 59
hemodialítico = 59
novo = 58
clínica = 57
feminino = 57
emocionais = 57
responsáveis = 56
primeiro = 56
percentual = 56
cardiovas

usado = 1
salivares = 1
pré-formadas = 1
gustativas = 1
onerosa = 1
agravante = 1
semiológicas = 1
bacterianos = 1
legítimo = 1
empáticos = 1
humanísticos = 1
pré-neoplásicas = 1
posdiagnóstico = 1
exitosas = 1
integrativas = 1
divergentes = 1
renomadas = 1
oriunda = 1
egressos = 1
análogas = 1
propício = 1
não-experimentais = 1
direcionadas = 1
retrospectivos = 1
informada = 1
sociológica = 1
imperativa = 1
incessante = 1
curativa = 1
paternalistas = 1
enfermas = 1
respeitados = 1
corresponsável = 1
autoconsciente = 1
latente = 1
dotada = 1
autêntica = 1
típico = 1
únicas = 1
modernas = 1
remota = 1
momentâneos = 1
frustrada = 1
prazerosa = 1
inesperado = 1
autoconscientes = 1
inevitáveis = 1
redutores = 1
amedrontadora = 1
mutilado = 1
aplicada = 1
descrente = 1
bárbara = 1
laborativa = 1
instaladas = 1
repetitivos = 1
previdenciárias = 1
perceptivo = 1
fantasiosas = 1
inapropriadas = 1
associativas = 1
espontâneas = 1
autênticas = 1
organizadas = 1
fatorial = 1
componentes = 1
prote

In [35]:
for key, value in sorted(dictJJ2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

maior = 439
social = 339
sociais = 256
cronica = 256
renal = 251
familiar = 227
importante = 222
precoce = 186
idosos = 170
presente = 166
possivel = 159
doente = 157
etaria = 156
grande = 154
uterino = 150
cotidiano = 137
melhor = 129
necessario = 129
cronicas = 129
fundamental = 125
emocional = 117
variaveis = 115
sexual = 114
hospitalar = 112
seguintes = 109
fisica = 108
baixa = 105
principais = 105
alta = 95
novos = 92
menor = 91
qualitativa = 89
principal = 87
profissional = 86
maiores = 85
arterial = 85
oral = 83
masculina = 83
publica = 81
comum = 78
paliativos = 78
diversas = 76
entrevistados = 76
clinico = 75
brasileira = 75
nova = 74
importantes = 74
primeira = 74
masculino = 74
idoso = 73
familiares = 71
superior = 69
fisico = 68
feminina = 67
geral = 65
fisicas = 65
primaria = 64
propria = 63
novas = 61
diversos = 60
descritiva = 60
hemodialitico = 60
especial = 59
novo = 58
clinica = 57
feminino = 57
emocionais = 57
responsaveis = 56
primeiro = 56
percentual = 56
cardiovas

conjunta = 8
quantitativos = 8
completa = 8
antineoplasicas = 8
graves = 8
enfermo = 8
manifesta = 8
especializada = 8
osseas = 8
linear = 8
brutas = 8
fisiologica = 8
proximos = 8
imunologico = 8
sericos = 8
aposentados = 8
antineoplasica = 7
multiprofissionais = 7
qualificado = 7
simbolica = 7
mutua = 7
alternativas = 7
agressivos = 7
incidente = 7
prognosticos = 7
encontrado = 7
interessante = 7
correto = 7
futura = 7
sistematica = 7
descritivo-exploratorio = 7
malignos = 7
escamosas = 7
concretas = 7
referenciais = 7
prioritaria = 7
amostral = 7
genital = 7
estatisticos = 7
regional = 7
equivalente = 7
hegemonico = 7
biopsicossocial = 7
sadios = 7
sozinha = 7
iminente = 7
clara = 7
mutuo = 7
incluidos = 7
recorrente = 7
infeciosos = 7
imunodeprimidos = 7
adotados = 7
certos = 7
sociodemografico = 7
ginecologico = 7
medios = 7
ricos = 7
afetiva = 7
financeiro = 7
autonomo = 7
circulatorio = 7
femininos = 7
adulto = 7
coletivo = 7
produtiva = 7
empregaticio = 7
dolorosos = 7
ambienta

ambicioso = 1
flexivel = 1
explanatorio = 1
privativa = 1
urbano = 1
temporario = 1
nativa = 1
nativos = 1
micro-sociais = 1
ideologicos = 1
estrategico = 1
cognitivo-existencial = 1
imunes = 1
meditativo = 1
litoraneo = 1
microssocial = 1
pre-clinica = 1
cervico-vaginal = 1
inequivoco = 1
aleatorio = 1
residente = 1
vespertino = 1
socioeconomico-demograficos = 1
socioeducacional = 1
enlatados = 1
flexiveis = 1
initial = 1
comparativas = 1
utilizavel = 1
finais = 1
bilingue = 1
8o = 1
gramaticais = 1
ortograficas = 1
acuradas = 1
conjunto = 1
esclarecedoras = 1
topicos = 1
4o = 1
inapropriada = 1
cuidadosas = 1
falsos = 1
amarelos = 1
isquemicas = 1
isquemica = 1
macrovascular = 1
cardiocerebrovascular = 1
fiel = 1
companheiro = 1
sedentarias = 1
corredores = 1
vigorosa = 1
autonomica = 1
difuso = 1
coronarianos = 1
hipertensa = 1
diabeticas = 1
atribuivel = 1
identicos = 1
envolvida = 1
incontestavel = 1
desafiadora = 1
veloz = 1
macrovasculares = 1
oculares = 1
neurologicas = 1
51a =

In [36]:
for key, value in sorted(dictDT.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

a = 19823
o = 17733
os = 6928
as = 5568
que = 3682
um = 1994
uma = 1775
sua = 764
este = 720
esse = 693
essa = 626
seu = 505
esta = 458
suas = 407
seus = 365
esses = 301
outros = 286
essas = 277
isso = 269
cada = 251
outras = 209
estes = 192
outro = 178
tais = 159
alguns = 159
tal = 155
estas = 155
todos=os = 150
mais = 138
todas=as = 133
diferentes = 125
mesmo = 110
algumas = 89
o=qual = 87
tudo = 82
os=quais = 79
a=qual = 78
mesma = 74
quem = 74
aqueles = 72
minha = 70
outra = 68
muitos = 68
tanto = 64
algum = 63
isto = 63
muito = 58
muitas = 58
aquelas = 57
meu = 56
todos = 52
qualquer = 51
mesmos = 51
nada = 49
todo=o = 47
quais = 47
várias = 46
as=quais = 45
todo = 44
vários = 42
alguma = 40
demais = 39
muita = 36
nenhum = 36
algo = 32
pouca = 30
cuja = 30
quanto = 30
aquele = 29
toda=a = 29
cada=um = 28
aquela = 28
os=demais = 27
ambos = 27
pouco = 26
mesmas = 26
toda = 25
nenhuma = 24
ninguém = 23
meus = 23
poucos = 22
alguém = 20
nossa = 18
aquilo = 18
nosso = 17
todas = 17
cuj

In [37]:
for key, value in sorted(dictDT2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

a = 19823
o = 17733
os = 6928
as = 5568
um = 1994
uma = 1775
sua = 764
este = 720
esse = 693
essa = 626
seu = 505
esta = 458
suas = 407
seus = 365
esses = 301
outros = 286
essas = 277
cada = 251
outras = 209
estes = 192
outro = 178
tais = 159
alguns = 159
tal = 155
estas = 155
todos=os = 150
mais = 138
todas=as = 133
diferentes = 125
mesmo = 110
algumas = 89
mesma = 74
aqueles = 72
minha = 70
outra = 68
muitos = 68
tanto = 64
algum = 63
muito = 58
muitas = 58
aquelas = 57
meu = 56
todos = 52
qualquer = 51
mesmos = 51
todo=o = 47
quais = 47
varias = 46
todo = 44
varios = 42
alguma = 40
demais = 39
muita = 36
nenhum = 36
que = 34
pouca = 30
cuja = 30
quanto = 30
aquele = 29
toda=a = 29
aquela = 28
os=demais = 27
ambos = 27
pouco = 26
mesmas = 26
toda = 25
nenhuma = 24
meus = 23
poucos = 22
nossa = 18
nosso = 17
todas = 17
cujo = 16
qual = 15
menos = 15
uns = 14
ambas = 12
the = 12
propria = 12
as=demais = 11
proprio = 11
cujas = 11
cujos = 10
minhas = 9
bastante = 9
poucas = 8
diversas =

In [38]:
for key, value in sorted(dictIN.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

de = 32517
em = 10499
a = 5039
para = 4113
com = 3949
por = 3097
que = 2761
entre = 884
sobre = 698
/ = 357
mas = 354
pois = 319
durante = 282
em=relação=a = 255
após = 242
além=de = 241
por=meio=de = 228
se = 228
quanto=a = 225
a=partir=de = 211
sem = 194
devido=a = 160
diante=de = 157
porque = 144
apesar=de = 129
frente=a = 126
acerca=de = 110
uma=vez=que = 110
até = 108
sendo=que = 91
desde = 81
a=fim=de = 70
sob = 67
acima=de = 67
visto=que = 66
embora = 65
dentro=de = 64
pra = 60
com=relação=a = 58
por=parte=de = 51
ao=longo=de = 50
do=que = 50
já=que = 48
contra = 42
a=respeito=de = 37
fora=de = 37
nem = 37
com=vistas=a = 35
referente=a = 32
há = 30
no=caso=de = 25
mediante = 24
de=forma=a = 23
abaixo=de = 22
mesmo=que = 21
in = 21
como = 21
em=função=de = 21
em=torno=de = 20
enquanto=que = 19
perante = 19
and = 18
depois = 17
de=modo=a = 16
no=decorrer=de = 16
ca = 16
ainda=que = 16
caso = 14
of = 14
como=se = 13
no=tocante=a = 13
em=virtude=de = 12
por=causa=de = 12
ao=passo=qu

In [39]:
for key, value in sorted(dictIN2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

de = 32517
em = 10499
a = 5045
para = 4113
com = 3949
por = 3097
que = 2761
entre = 884
sobre = 698
/ = 357
mas = 354
pois = 319
durante = 282
em=relacao=a = 255
apos = 242
alem=de = 241
por=meio=de = 228
se = 228
quanto=a = 225
a=partir=de = 211
sem = 194
devido=a = 160
diante=de = 157
porque = 144
apesar=de = 129
frente=a = 126
acerca=de = 110
uma=vez=que = 110
ate = 108
sendo=que = 91
desde = 81
a=fim=de = 70
sob = 67
acima=de = 67
visto=que = 66
embora = 65
dentro=de = 64
pra = 60
com=relacao=a = 58
por=parte=de = 51
ao=longo=de = 50
do=que = 50
ja=que = 48
contra = 42
a=respeito=de = 37
fora=de = 37
nem = 37
com=vistas=a = 35
referente=a = 32
ha = 30
no=caso=de = 25
mediante = 24
de=forma=a = 23
abaixo=de = 22
mesmo=que = 21
in = 21
como = 21
em=funcao=de = 21
em=torno=de = 20
enquanto=que = 19
perante = 19
and = 18
depois = 17
de=modo=a = 16
no=decorrer=de = 16
ca = 16
ainda=que = 16
caso = 14
of = 14
como=se = 13
no=tocante=a = 13
em=virtude=de = 12
por=causa=de = 12
ao=passo=qu

In [40]:
for key, value in sorted(dictCC.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

e = 10603
ou = 1077


In [41]:
for key, value in sorted(dictCC2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

e = 10603
ou = 1077


In [42]:
for key, value in sorted(dictRB.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

como = 1999
não = 1773
mais = 883
também = 518
quando = 421
assim = 365
ainda = 271
através = 266
apenas = 216
já = 212
principalmente = 192
muito = 172
só = 146
onde = 133
bem=como = 129
mesmo = 129
porém = 123
segundo = 121
além=disso = 116
sempre = 107
muitas=vezes = 106
somente = 102
antes = 98
entretanto = 98
aqui = 95
portanto = 95
conforme = 93
ou=seja = 91
então = 89
no=entanto = 88
bem = 88
tanto = 86
aí = 76
assim=como = 69
até = 68
mais=de = 67
enquanto = 63
diretamente = 59
quanto = 59
por=exemplo = 56
depois = 56
nunca = 55
geralmente = 53
agora = 52
consequentemente = 51
contudo = 51
cerca=de = 50
junto = 47
hoje = 47
aproximadamente = 46
menos = 45
atualmente = 43
pois = 41
respectivamente = 41
bastante = 41
melhor = 40
nem = 40
pelo=menos = 37
frequentemente = 36
posteriormente = 35
lá = 35
tão = 35
que = 33
logo = 33
pouco = 33
inicialmente = 33
no=que=se=refere = 32
inclusive = 32
é = 31
na=íntegra = 31
anteriormente = 31
cada=vez=mais = 28
quase = 28
meio = 28
desta=

In [43]:
for key, value in sorted(dictRB2.items(), key=lambda x:-x[1]):
    print(key + " = " +  str(value))

como = 1999
nao = 1773
mais = 883
tambem = 518
quando = 421
assim = 365
ainda = 271
atraves = 266
apenas = 216
ja = 212
principalmente = 192
muito = 172
so = 146
onde = 133
bem=como = 129
mesmo = 129
porem = 123
segundo = 121
alem=disso = 116
sempre = 107
muitas=vezes = 106
somente = 102
antes = 98
entretanto = 98
aqui = 95
portanto = 95
conforme = 93
ou=seja = 91
entao = 89
no=entanto = 88
bem = 88
tanto = 86
ai = 76
assim=como = 69
ate = 68
mais=de = 67
enquanto = 63
diretamente = 59
quanto = 59
por=exemplo = 56
depois = 56
consequentemente = 56
nunca = 55
geralmente = 53
agora = 52
contudo = 51
cerca=de = 50
junto = 47
hoje = 47
aproximadamente = 46
menos = 45
atualmente = 43
pois = 41
respectivamente = 41
bastante = 41
frequentemente = 40
melhor = 40
nem = 40
pelo=menos = 37
posteriormente = 35
la = 35
tao = 35
que = 33
logo = 33
pouco = 33
inicialmente = 33
no=que=se=refere = 32
inclusive = 32
e = 31
na=integra = 31
anteriormente = 31
cada=vez=mais = 28
quase = 28
meio = 28
desta=