# Diceware: método seguro para gerar senhas

Fonte: [The Diceware Passphrase Home Page](http://world.std.com/~reinhold/diceware.html)

## Compilação da lista de palavras

Neste notebook comecei com uma lista de `326.716` palavras da língua portuguesa, que fui sucessivamente filtrando com diversos critérios até chegar próximo da quantidade necessária para o método diceware. Então embaralhei as `7808` palavras restantes e fatiei a lista para ficar com a quantidade exata: `7776 (6**5)`. No último passo, gerei o arquivo [7776palavras.txt](7776palavras.txt) com linhas de `"11111 abaci"` a `"66666 zurpa"`.

In [1]:
6**5

7776

In [2]:
completa = [lin.strip() for lin in open('palavras.txt').readlines()]
len(completa), len(completa) == len(set(completa))

(326716, True)

In [3]:
completa[:10], completa[-10:]

(['a',
  'ª',
  'á',
  'à',
  'ã',
  'a-amilase',
  'á-bê-cê',
  'á-é-i-ó-u',
  'a-histórico',
  'à-propos'],
 ['zurzidura',
  'zurzir',
  'zuzins',
  'zwinglianismo',
  'zwingliano',
  'µg',
  'µL',
  'µm',
  'µmol',
  'µUI'])

In [4]:
ate5 = [p for p in completa if len(p) <= 5]
len(ate5)

18098

In [5]:
import string
so_ascii = []
for palavra in ate5:
    if all(c in string.ascii_lowercase for c in palavra):
        so_ascii.append(palavra)
    
len(so_ascii)

8950

In [6]:
so_ascii[:10], so_ascii[-10:]

(['a',
  'ab',
  'abaci',
  'abade',
  'abafo',
  'abal',
  'abama',
  'abana',
  'abar',
  'abaso'],
 ['zulos',
  'zulu',
  'zum',
  'zunar',
  'zunda',
  'zunir',
  'zupar',
  'zura',
  'zurca',
  'zurpa'])

In [7]:
ocorrencias = set(so_ascii)
singulares = []
print('Plurais removidas:')
for pal in so_ascii:
    if pal[-1] == 's' and pal[:-1] in ocorrencias:
        print(pal, end=' ')
    else:
        singulares.append(pal)

Plurais removidas:
abios abius acres agues aias aipos alas algas alhos almas alpes altas altos amas anas angas anjos anos antas anus arcas arcos ares artes arus as asas aspas assas atos aves babas bacus bagas bagos baios balas belas belos bias bicos bips birus blues boas bobas bobos bocas bodes bofes bogas boias bois bolas boles bolos botas botos breus brios bufas bufos bules buris buxos buzos cabas cabos cacas cacos caias cais cajus camas canas capas caras caris caros casas casos catas cavas cebas cegas cegos ceias ceras cias cilas cocas cocos colas colos cones copas copos cotas covas coxas coxos cris crus cubos cucas cucos cuias cujos cujus curas cus dados damas das datas dedos dias didis dinas ditos doces donas donos dores dos doses dunas duras duros dus efes efues eis eixos enxus eros ervas es exs exus facas faces fadas fados faias fatos favas feias feios fenos feras fetos figos finas finos fios fitas fixos focas fofas fofos foges fogos foles fomes fotos freis frias frios fulas ful

In [8]:
len(singulares)

8404

In [9]:
sobrando = len(singulares) - 6**5
sobrando

628

In [10]:
tam4ou5 = [p for p in singulares if len(p) in (4,5)]
len(tam4ou5)

7850

In [11]:
sobrando = len(tam4ou5) - 6**5
sobrando

74

In [12]:
palavroes = {lin.strip().lower() for lin in open('palavroes.txt', encoding='latin1').readlines()}

In [13]:
len(palavroes)

302

In [14]:
limpas = list(set(tam4ou5) - palavroes)
len(limpas)

7808

In [15]:
sobrando = len(limpas) - 6**5
sobrando

32

In [16]:
import random
random.shuffle(limpas)
final = sorted(limpas[:6**5])
len(final), final[:10], final[-10:]

(7776,
 ['abaci',
  'abade',
  'abafo',
  'abal',
  'abama',
  'abana',
  'abar',
  'abaso',
  'abati',
  'abatu'],
 ['zular',
  'zulos',
  'zulu',
  'zunar',
  'zunda',
  'zunir',
  'zupar',
  'zura',
  'zurca',
  'zurpa'])

In [17]:
import itertools
dados5 = list(''.join(dados) for dados in itertools.product('123456', repeat=5))
len(dados5)

7776

In [18]:
pares = list(zip(dados5, final))
pares[:10], pares[-10:]

([('11111', 'abaci'),
  ('11112', 'abade'),
  ('11113', 'abafo'),
  ('11114', 'abal'),
  ('11115', 'abama'),
  ('11116', 'abana'),
  ('11121', 'abar'),
  ('11122', 'abaso'),
  ('11123', 'abati'),
  ('11124', 'abatu')],
 [('66653', 'zular'),
  ('66654', 'zulos'),
  ('66655', 'zulu'),
  ('66656', 'zunar'),
  ('66661', 'zunda'),
  ('66662', 'zunir'),
  ('66663', 'zupar'),
  ('66664', 'zura'),
  ('66665', 'zurca'),
  ('66666', 'zurpa')])

In [19]:
with open('7776palavras.txt', 'wt', encoding='ascii') as saida:
    for par in pares:
        saida.write('%s %s\n' % par)
        
!wc 7776palavras.txt

 7776 15552 91105 7776palavras.txt
