# Analyze page count report

Generate uppercased word count for words with at least 1000 occurrences:

```
$ java WordCount ~/tw/ptwiki-20190801-pages-articles-multistream.xml > count-upper-ptwiki-1000.txt
```

In [1]:
with open('count-upper-ptwiki-1000.txt') as fp:
    lines = fp.readlines()

In [2]:
len(lines)

33893

In [3]:
lines[:5]

['# Pages: 1828985\n',
 '# Elapsed time: 1069636ms\n',
 '\t=279549\n',
 '\n',
 '=60686977\n']

In [4]:
from collections import Counter

counter = Counter()

for line in lines:
    if line.startswith('# Pages:') or line.startswith('# Elapsed'):
        continue
    try:
        word, count = line.strip().rsplit('=', 2)
    except ValueError:
        continue
    word = word.upper()
    if word == word.lower():
        continue  # not made of Western characters
    counter[word] += int(count)
    
counter.most_common(10)

[('DE', 29510158),
 ('A', 9263439),
 ('E', 8445147),
 ('O', 7359413),
 ('DO', 6672377),
 ('DA', 6517406),
 ('REF', 5867193),
 ('EM', 5686213),
 ('QUE', 4345371),
 ('HTTP', 3269208)]

In [5]:
for word, count in counter.most_common(110):
    print(f'{count:8d} {word}')

29510158 DE
 9263439 A
 8445147 E
 7359413 O
 6672377 DO
 6517406 DA
 5867193 REF
 5686213 EM
 4345371 QUE
 3269208 HTTP
 3100857 NO
 2884051 COM
 2810091 CATEGORIA
 2802403 UM
 2775447 ALIGN
 2721259 CENTER
 2674850 PARA
 2638975 É
 2603659 UMA
 2409383 NA
 2260643 POR
 2145551 BR
 1947432 OS
 1748818 WEB
 1741815 CITAR
 1718514 FOI
 1715906 DOS
 1652579 URL
 1643791 NAME
 1635842 THE
 1627466 SMALL
 1624810 COMO
 1544769 TÍTULO
 1502495 S
 1501001 USUÁRIO
 1484014 NÃO
 1435591 STYLE
 1353614 ACESSODATA
 1348243 AS
 1308461 SE
 1300902 DATA
 1262431 BGCOLOR
 1202117 SÃO
 1194384 OF
 1131304 DISCUSSÃO
 1106914 AO
 1086979 MAIS
 1043201 IMAGEM
  998923 PUBLICADO
  996099 SUP
  991763 NOME
  950297 SUA
  946083 FUTEBOL
  906344 DAS
  889280 UTC
  887128 FONT
  866698 OU
  816876 BRASIL
  793586 SEU
  767576 LEFT
  756022 TAMBÉM
  721347 À
  710464 COLOR
  670196 JANEIRO
  654683 WIDTH
  645922 SER
  644583 ANO
  625254 AUTOR
  621566 INFO
  612326 RIO
  611283 REFERÊNCIAS
  597820 PELA
 