In [48]:
import os
import zipfile
import html2text
import operator
import pandas as pd

from bs4 import BeautifulSoup
from multiprocessing.dummy import Pool as ThreadPool 

In [2]:
def parse_zip(name):
    contents = []
    with zipfile.ZipFile(name) as z:
        for filename in z.namelist():
            if not os.path.isdir(filename) and should_parse(filename):
                with z.open(filename) as f:
                    html_content = f.read()
                    contents.append(html_content)
    return contents
                                                                 
def should_parse(filename):
    will_parse_file_types = [".html"]
    for file_type in will_parse_file_types:
        if filename and filename.endswith(file_type):
            return True
    return False

def count_words(content):
    text = BeautifulSoup(content, "lxml").text
    words = text.split()
    result = {}
    for word in words:
        if word not in result:
            result[word] = 0
        else:
            result[word] += 1
    return result

In [3]:
contents = parse_zip('docs/java/jdk-8u171-docs-all.zip')

In [4]:
pool = ThreadPool(64) 
results = pool.map(count_words, contents)

In [35]:
total = {}
for result in results:
    for word, count in result.items():
        if word.lower() not in total:
            total[word.lower()] = count
        else:
            total[word.lower()] += count

In [36]:
with open("dicts/words") as f:
    dict_words = f.readlines()
    dict_words = set([word.replace('\n', '') for word in dict_words])

In [37]:
java_words = set(total.keys())

In [38]:
len(java_words & dict_words)

6891

In [43]:
topn = {}
for word, count in total.items():
    if word in dict_words:
        topn[word] = count

In [40]:
with open("java_words.txt", "w+") as f:
    for (word, count) in sorted(topn.items(), key=operator.itemgetter(1), reverse=True):
        f.write("{}, {}\n".format(word, count))

In [49]:
for (word, count) in sorted(topn.items(), key=operator.itemgetter(1), reverse=True):
    print(word, ": ", count)
    


the :  648617
of :  233847
a :  225615
in :  171761
to :  170144
is :  156054
and :  155571
class :  152494
this :  122814
method :  104272
for :  98722
that :  74972
if :  73145
an :  70016
be :  57135
with :  55886
or :  50878
all :  46214
public :  45791
by :  44683
object :  43783
static :  42422
from :  38712
interface :  36805
as :  36207
void :  35418
value :  34038
not :  33391
string :  32851
type :  32620
use :  31884
see :  30162
field :  29587
are :  28455
on :  27794
description :  25514
no :  23580
package :  22527
classes :  21066
se :  20968
it :  20269
given :  19897
name :  19440
used :  18700
which :  18699
will :  17768
index :  17056
can :  16861
new :  16619
when :  15684
set :  14470
tree :  14373
constructor :  14272
next :  13915
file :  13466
its :  13183
data :  12274
else :  12115
links :  11790
navigation :  11604
help :  11559
skip :  11540
overview :  11402
modifier :  11394
platform :  11354
null :  11315
array :  11281
may :  11264
documentation :  1117

composite :  414
atomically :  412
inside :  410
bounding :  410
derived :  408
newly :  407
segment :  407
just :  406
register :  405
pointer :  403
off :  402
every :  402
m :  401
concrete :  400
full :  399
generation :  399
random :  397
transfer :  397
bar :  396
step :  396
zip :  396
beginning :  395
included :  393
executable :  393
concurrent :  393
place :  391
many :  389
engine :  389
w :  389
mark :  388
render :  388
replacement :  386
repository :  386
often :  386
hint :  386
logger :  386
large :  384
except :  383
figure :  383
install :  382
direction :  382
library :  381
take :  381
generator :  380
orientation :  380
become :  378
prior :  377
installation :  376
considered :  376
explicitly :  376
enable :  375
runnable :  375
bundle :  374
track :  373
done :  372
os :  371
ordered :  371
alignment :  371
rectangular :  371
send :  370
axis :  370
outside :  369
precision :  369
possibly :  368
yet :  366
structure :  366
fully :  365
passing :  364
connected 

manage :  112
export :  112
integrity :  112
guarantee :  112
listen :  112
reserved :  112
iterate :  112
red :  112
did :  111
front :  111
latest :  111
material :  111
leaf :  111
modulus :  111
exit :  110
although :  110
cover :  110
modality :  110
capable :  109
verification :  109
activity :  109
programmer :  109
consistent :  109
fatal :  109
angular :  109
anonymous :  108
regardless :  108
sentence :  108
severity :  108
paper :  108
listening :  108
dealing :  108
assertion :  108
wide :  107
wrap :  107
margin :  107
satisfy :  107
remain :  107
making :  106
know :  106
detect :  106
move :  106
malicious :  106
unexpected :  106
transferred :  106
permitted :  106
rounded :  106
appropriately :  106
reducer :  106
weight :  105
square :  105
calculation :  105
valued :  105
tail :  105
strictly :  104
world :  103
associate :  103
conform :  102
sensitive :  102
recent :  102
flight :  102
percentage :  102
bidirectional :  102
callable :  102
nth :  102
ways :  101
co

precise :  32
negotiate :  32
explaining :  32
subtraction :  32
rect :  32
calculating :  32
preview :  32
unloaded :  32
mirrored :  32
inconsistency :  32
inexact :  32
wall :  32
approver :  32
keeping :  31
blank :  31
latter :  31
namely :  31
turns :  31
silently :  31
splitting :  31
approximately :  31
eventually :  31
differ :  31
hyperbolic :  31
carried :  31
outstanding :  31
circle :  31
sub :  31
fine :  31
conservatively :  31
slave :  31
inflater :  31
shading :  31
highly :  30
scanning :  30
moment :  30
unified :  30
experience :  30
pointed :  30
logic :  30
securely :  30
hosting :  30
subsystem :  30
proceeding :  30
redo :  30
subrange :  30
glass :  30
thickness :  30
operable :  30
expect :  29
history :  29
brief :  29
project :  29
away :  29
deprecation :  29
unused :  29
observe :  29
floor :  29
rotating :  29
outbound :  29
insensitive :  29
defend :  29
firing :  29
nonzero :  29
unquoted :  29
await :  29
unparsed :  29
tell :  28
fact :  28
discovery 

dollar :  12
accumulate :  12
reload :  12
originate :  12
miter :  12
determinate :  12
deferred :  12
sleep :  12
flowing :  12
threaded :  12
diagnosis :  12
compaction :  12
replay :  12
dashed :  12
cancellation :  12
nonblocking :  12
organize :  12
resultant :  12
sanity :  12
dividend :  12
pairwise :  12
tai :  12
unclosed :  12
subregion :  12
ineligible :  12
unarrived :  12
specifiable :  12
originator :  12
nil :  12
drastically :  12
gid :  12
ne :  12
frequently :  11
poor :  11
analyze :  11
widely :  11
wed :  11
eliminate :  11
hand :  11
preface :  11
optimization :  11
sha :  11
un :  11
adaptation :  11
unsynchronized :  11
idiom :  11
pressing :  11
separately :  11
got :  11
ret :  11
revision :  11
replication :  11
punctuation :  11
conventional :  11
constitute :  11
patent :  11
derive :  11
tried :  11
discrete :  11
light :  11
came :  11
fetching :  11
submission :  11
encapsulation :  11
exceeding :  11
upward :  11
arbitrarily :  11
iterative :  11
brack

materialize :  4
cuneiform :  4
deseret :  4
ogham :  4
runic :  4
tifinagh :  4
subnormal :  4
tanh :  4
contributory :  4
guarantor :  4
partitioning :  4
progressively :  4
intrinsically :  4
unexecutable :  4
amenable :  4
parallelize :  4
idly :  4
microsecond :  4
rehash :  4
ut :  4
pacific :  4
undermining :  4
vacuously :  4
conversely :  4
rata :  4
birthday :  4
reign :  4
searchable :  4
grantee :  4
orange :  4
pink :  4
spaced :  4
subdivide :  4
uneditable :  4
unobscured :  4
smoothness :  4
northeast :  4
northwest :  4
southeast :  4
southwest :  4
colorimetric :  4
filler :  4
vertices :  4
introspection :  4
entirety :  4
undeclare :  4
pedal :  4
mousey :  4
dismissal :  4
leader :  4
insignificant :  4
eon :  4
demonstration :  3
led :  3
seem :  3
gathering :  3
briefly :  3
apt :  3
equally :  3
everyone :  3
unpack :  3
brace :  3
inheritable :  3
lack :  3
beneath :  3
somewhere :  3
somewhat :  3
industry :  3
wherever :  3
localizable :  3
purely :  3
servic

significance :  1
fragmented :  1
happy :  1
lasting :  1
irrespective :  1
correction :  1
overhaul :  1
uncorrelated :  1
centrality :  1
notably :  1
motivation :  1
emphasize :  1
experimentation :  1
measurably :  1
adequate :  1
fifty :  1
conventionally :  1
succeeding :  1
useless :  1
uncertainty :  1
advantageous :  1
delimit :  1
al :  1
sh :  1
despite :  1
prediction :  1
disturbing :  1
triplet :  1
extraneous :  1
predict :  1
rewrite :  1
sharpness :  1
favorably :  1
favorable :  1
coder :  1
jointly :  1
eventual :  1
dictate :  1
nearby :  1
yearly :  1
jeff :  1
beneficial :  1
sublicense :  1
selling :  1
notwithstanding :  1
alone :  1
availability :  1
promptly :  1
indemnify :  1
sufficiently :  1
hereunder :  1
royalty :  1
clarification :  1
typo :  1
vie :  1
proto :  1
dev :  1
elimination :  1
insure :  1
marimba :  1
tightly :  1
impersonate :  1
tue :  1
muffin :  1
malfunction :  1
sought :  1
lip :  1
recreate :  1
proposal :  1
mistaken :  1
secondaril

chartered :  0
northern :  0
district :  0
venue :  0
court :  0
sale :  0
drafter :  0
equitable :  0
admission :  0
continued :  0
spawning :  0
relaxation :  0
team :  0
consolidated :  0
approaching :  0
openable :  0
mounted :  0
staged :  0
re :  0
mantis :  0
freezing :  0
sol :  0
crunch :  0
centralization :  0
uninstalled :  0
nonfatal :  0
licensed :  0
clary :  0
whereby :  0
responsive :  0
forum :  0
revise :  0
eager :  0
cracker :  0
geared :  0
gecko :  0
readability :  0
proven :  0
expressive :  0
inconvenient :  0
protective :  0
par :  0
repopulate :  0
sis :  0
liaison :  0
perceive :  0
negligibly :  0
chat :  0
timeliness :  0
collective :  0
inadequate :  0
conjunctive :  0
plugging :  0
generalization :  0
nonauthoritative :  0
booster :  0
couched :  0
superfluous :  0
junction :  0
multicomponent :  0
diligent :  0
unpooled :  0
employed :  0
sit :  0
federate :  0
emphasis :  0
unneeded :  0
grained :  0
applicability :  0
seldom :  0
trait :  0
knowledgeab

prep :  0
theses :  0
flexibly :  0
changeable :  0
undergo :  0
guideline :  0
exploitation :  0
unnecessarily :  0
snoop :  0
unsuspecting :  0
malignant :  0
uncover :  0
halting :  0
plant :  0
someplace :  0
trustworthy :  0
unproved :  0
abide :  0
eavesdrop :  0
masquerade :  0
forging :  0
openly :  0
internationally :  0
digested :  0
serge :  0
vincent :  0
martin :  0
centner :  0
worthy :  0
gotten :  0
disagreement :  0
susceptibility :  0
defect :  0
corrigendum :  0
survey :  0
cryptanalysis :  0
eve :  0
retype :  0
aggregation :  0
delaying :  0
lifting :  0
tilde :  0
phony :  0
pretend :  0
logistics :  0
notary :  0
applicant :  0
accidental :  0
tamper :  0
agreeing :  0
popularity :  0
renegotiate :  0
educated :  0
interim :  0
removable :  0
stall :  0
misconfiguration :  0
serially :  0
alto :  0
ta :  0
uke :  0
mi :  0
generalized :  0
subjected :  0
purl :  0
resort :  0
gong :  0
banking :  0
enforceable :  0
fear :  0
maliciously :  0
syntactical :  0
spir

nudge :  0
groove :  0
candock :  0
depiction :  0
opaqueness :  0
perfume :  0
ineffective :  0
midst :  0
complimentary :  0
pasted :  0
presently :  0
grand :  0
unification :  0
reallocate :  0
decent :  0
interrelated :  0
separable :  0
sitting :  0
elt :  0
inflexible :  0
asymptotic :  0
achar :  0
columnar :  0
undocked :  0
grandparent :  0
communicator :  0
thwart :  0
corrective :  0
compressional :  0
tensional :  0
tension :  0
trapping :  0
snaps :  0
snap :  0
unsortable :  0
weigh :  0
fabricate :  0
hyperactive :  0
culturally :  0
unwind :  0
channeled :  0
accommodation :  0
formulae :  0
arow :  0
conditionalize :  0
intuit :  0
dit :  0
lined :  0
fam :  0
seize :  0
burst :  0
preaction :  0
precontent :  0
vision :  0
blah :  0
handbook :  0
fictional :  0
outset :  0
carve :  0
hight :  0
attractiveness :  0
unclipped :  0
reflow :  0
brown :  0
featureless :  0
overstrike :  0
falsely :  0
unprotected :  0
wit :  0
unclaimed :  0
unquote :  0
forwarder :  0
sa

ValueError: If using all scalar values, you must pass an index

In [53]:
df = pd.DataFrame(sorted(topn.items(), key=operator.itemgetter(1), reverse=True))