<a href="https://colab.research.google.com/github/evertjdehaan/puzzles/blob/master/aivd_2021/21c.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Dank je wel, Erick!
message = '1xwct8w3lz60lqdjq18e8qtd7ies8aa5dg5ahmjynumb3b9dt43xh94st266nhwpxn6ifot8oikpw1j9o1n8t8ovkpwoke79xfmg44fkh14ymuxx5'

Even de letterfrequenties checken.

In [2]:
from collections import Counter
letter_counts = Counter(message)

print(f'There are {len(letter_counts)} unique letters')
print(letter_counts)

There are 35 unique letters
Counter({'8': 7, 'x': 6, 't': 6, '1': 5, 'w': 5, '4': 5, 'o': 5, '6': 4, 'd': 4, 'h': 4, 'm': 4, 'n': 4, '9': 4, 'k': 4, '3': 3, 'q': 3, 'j': 3, 'e': 3, 'i': 3, 'a': 3, '5': 3, 'p': 3, 'f': 3, 'l': 2, '7': 2, 's': 2, 'g': 2, 'y': 2, 'u': 2, 'b': 2, 'c': 1, 'z': 1, '0': 1, '2': 1, 'v': 1})


Oké, dus de homofone substitutie is niet zo gedaan dat alle frequenties gelijk zijn. Helaas. Dat zou het makkelijker maken om ze te vinden.

En we hebben dus blijkbaar 35 unieke letters, dus er zijn minstens 9 letters toegevoegd om de letterfrequenties uit te vlakken.

Toch maar even proberen welke letters in de versleutelde tekst dezelfde letters in de originele tekst zouden kunnen zijn.

In [3]:
import re
from itertools import permutations


def get_alternating_letters(message, n_letters):
  """Finds recurring letter sequences in a message.
  Since this is a prerequisite in this specific homophonic substitution, it
  may incidate which signs are used to represent the same original letter.

  Args:
    message (str): The message in which to find recurring letter sequences.
    n_letters (int): The number of letters a sequence should consist of.

  Returns:
    Set of strings of recurring letter sequences, indicating their position in
    the original text.
  """
  # Get all unique letters
  unique_letters = set(message)

  options = set()

  # Evaluate all unique permutations
  for letter_tuple in permutations(unique_letters, n_letters):
    # Remove all letters not equal to the letters of interest
    only_focus_letters = re.sub(r'[^'+"".join(letter_tuple)+']', '', message)
      
    # Check if the three letters really alternate as ab[c[d[...]]]ab[c[d[...]]]...
    expected_order = ''.join(letter_tuple[i%n_letters] for i in range(len(only_focus_letters)))
    if only_focus_letters == expected_order:
      # Replace the letters of non-interest by underscores to clearly indicate
      # the position of the letters of interest in the original text
      options.add(re.sub(r'[^'+"".join(letter_tuple)+']', '_', message))

  return options

In [4]:
# Check alternating sequences of two letters
for option in get_alternating_letters(message, 2):
  print(option)

_________z_0_____________________________________________________________________________________________________
_______________________________________y_u_________________________________________________________________y_u___
_________________________________g_______________________2_________________________________________g_____________
___________________________s_____g_____________________s___________________________________________g_____________
___________________________s___________y_______________s___________________________________________________y_____
_________________________________________________________2_____________________________v_________________________
________________________7________g____________________________________________________________7____g_____________
_________z_____________________________________________________________________________v_________________________
_________________________________g_______u______________________________________________

Und jetzt...

Hoe zit het voor drie letters?

In [5]:
# Check alternating sequences of three letters
for option in get_alternating_letters(message, 3):
  print(option)

_______________________________________y_u_______________2_________________________________________________y_u___
________________________7________g_______________________2____________________________________7____g_____________
___c_____z_______________________________________________2_______________________________________________________
_________________________________g_______u_____________________________________________v___________g_________u___
________________________7________g_____________________________________________________v______7____g_____________
___c_____________________________________________________2_____________________________v_________________________
________________________7________________________________2_____________________________v______7__________________
_________________________________g_____y_________________2_________________________________________g_______y_____
_________z_0_____________________________________________2______________________________

En voor vier letters?

In [6]:
# Check alternating sequences of four letters
for option in get_alternating_letters(message, 4):
  print(option)

_______________________________________y_u_______________2_____________________________v___________________y_u___
________________________7________g_____y_______________________________________________v______7____g_______y_____
________________________7________g_____y_u____________________________________________________7____g_______y_u___
___________________________s_____g_____y_u_____________s___________________________________________g_______y_u___
_________________________________g_____y_u_____________________________________________v___________g_______y_u___
________________________7______________y_________________2_____________________________v______7____________y_____
________________________7______________y_u_______________2____________________________________7____________y_u___
________________________7________g_______________________2_____________________________v______7____g_____________
________________________7________________u_______________2_____________________________v

Ik mis voor mijn gevoel nog logische combinaties. Al een tekst bijvoorbeeld "een" zou bevatten, dan zou je twee letters naast elkaar verwachten. Ook moet dan op de plek direct ernaast mogelijk ook een letter staan die vaker gebruikt wordt (immers, een "n" komt ook vaak voor in het Nederlands). Aan de andere kant zijn er ook bepaalde tekens in de versleutelde tekst die 6-7 keer voorkomen, wat best vaak is dus misschien ook wel een "n" zou kunnen zijn.

Wat zijn eigenlijk de letterfrequenties die bij de counts horen?

In [7]:
length = len(message)
for letter in letter_counts:
  print('{}\t{:.1f}%'.format(letter, letter_counts[letter]/length*100))

1	4.4%
x	5.3%
w	4.4%
c	0.9%
t	5.3%
8	6.2%
3	2.7%
l	1.8%
z	0.9%
6	3.5%
0	0.9%
q	2.7%
d	3.5%
j	2.7%
e	2.7%
7	1.8%
i	2.7%
s	1.8%
a	2.7%
5	2.7%
g	1.8%
h	3.5%
m	3.5%
y	1.8%
n	3.5%
u	1.8%
b	1.8%
9	3.5%
4	4.4%
2	0.9%
p	2.7%
f	2.7%
o	4.4%
k	3.5%
v	0.9%


Een bekende vorm van homofone substitutie is een boekcode. Met _"Alle letters in deze homofone substitutie hebben dezelfde volgorde"_ zou ook bedoeld kunnen worden dat ze uit dezelfde brontekst komen?

Daarbij: Het Beale cipher, een vorm van een boekcode, beschrijft een schat die in de 1820's (200 jaar geleden!) is begraven. Maar ja, het zijn geen nummers...

---

Oké, dit is de hint: "TER VERDUIDELIJKING DE EERSTE LETTER IS A DE VIERENVEERTIGSTE IS Z". Dus toch iets met de volgorde van het alfabet. Erick had het al genoemd, maar we hadden er nog niets mee gedaan.

Hieronder de vercijfering waarbij de cijfers de x-te letter van het Thaise alfabet aangeven.

In [2]:
encoded = [40, 0, 36, 26, 19, 13, 36, 39, 12, 14, 23, 25, 12, 29, 35, 8, 29, 40,
           13, 37, 13, 29, 19, 35, 5, 1, 37, 6, 13, 30, 30, 33, 35, 31, 33, 30,
           27, 22, 8, 24, 18, 21, 22, 10, 39, 10, 34, 35, 19, 9, 39, 0, 27, 34,
           9, 6, 19, 38, 23, 23, 18, 27, 36, 17, 0, 18, 23, 1, 28, 7, 19, 13, 7,
           1, 20, 17, 36, 40, 8, 34, 7, 40, 18, 13, 19, 13, 7, 2, 20, 17, 36, 7,
           20, 37, 5, 34, 0, 28, 22, 31, 9, 9, 28, 20, 27, 40, 9, 24, 22, 21, 0,
           0, 33]

Weer de letterfrequenties checken

In [9]:
from collections import Counter
letter_counts = Counter(encoded)

print(f'There are {len(letter_counts)} unique letters')
print(sorted(letter_counts))

There are 35 unique letters
[0, 1, 2, 5, 6, 7, 8, 9, 10, 12, 13, 14, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 33, 34, 35, 36, 37, 38, 39, 40]


Proberen een string te vormen.
0 moet a zijn; 
41-43 missen, dus dat zijn x-z; 
40 zit er wel veel in, dus dat is w

In [18]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wa_36__26__19__13__36__39__12__14__23__25__12__29__35__8__29_w_13__37__13__29__19__35__5__1__37__6__13__30__30__33__35__31__33__30__27__22__8__24__18__21__22__10__39__10__34__35__19__9__39_a_27__34__9__6__19__38__23__23__18__27__36__17_a_18__23__1__28__7__19__13__7__1__20__17__36_w_8__34__7_w_18__13__19__13__7__2__20__17__36__7__20__37__5__34_a_28__22__31__9__9__28__20__27_w_9__24__22__21_aa_33_


Gokje: 32 mist, dus dat is q; dan wordt 31 een p en 33 een r

In [12]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      31: 'p',
      32: 'q',
      33: 'r',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wa_36__26__19__13__36__39__12__14__23__25__12__29__35__8__29_w_13__37__13__29__19__35__5__1__37__6__13__30__30_r_35_pr_30__27__22__8__24__18__21__22__10__39__10__34__35__19__9__39_a_27__34__9__6__19__38__23__23__18__27__36__17_a_18__23__1__28__7__19__13__7__1__20__17__36_w_8__34__7_w_18__13__19__13__7__2__20__17__36__7__20__37__5__34_a_28__22_p_9__9__28__20__27_w_9__24__22__21_aar


Lijkt niet geheel onlogisch

Gokje: [3, 4, 4, 5, 3, 1, 3, 5] qua frequenties spreiden over [r, s, t, u, v, w]... t en r zijn de meest voorkomende letters. Misschien [r, r, s, t, t, u, v, w]?

In [13]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wat_26__19__13_tv_12__14__23__25__12__29_s_8__29_w_13_t_13__29__19_s_5__1_t_6__13__30__30_rspr_30__27__22__8__24__18__21__22__10_v_10_rs_19__9_va_27_r_9__6__19_u_23__23__18__27_t_17_a_18__23__1__28__7__19__13__7__1__20__17_tw_8_r_7_w_18__13__19__13__7__2__20__17_t_7__20_t_5_ra_28__22_p_9__9__28__20__27_w_9__24__22__21_aar


Lijkt nog heel goed mogelijk. We gaan door.

3 en 4 missen. Wat zou er missen? b en c of c en d? Mij lijkt b en c logischer. d komt relatief veel voor in het Nederlands, dus het zou gek zijn als die er niet in zit. Daarmee geldt dus ook dat 1 en 2 ook een a zijn.

In [14]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wat_26__19__13_tv_12__14__23__25__12__29_s_8__29_w_13_t_13__29__19_sdat_6__13__30__30_rspr_30__27__22__8__24__18__21__22__10_v_10_rs_19__9_va_27_r_9__6__19_u_23__23__18__27_t_17_a_18__23_a_28__7__19__13__7_a_20__17_tw_8_r_7_w_18__13__19__13__7_a_20__17_t_7__20_tdra_28__22_p_9__9__28__20__27_w_9__24__22__21_aar


So far so good, so it seems.

Volgende gokjes: 11 mist. Gezien de letterfrequenties zou het logisch zijn als de h mist? Dan geldt dat 5-10 = d-g. Gezien de letterfrequenties zou ddeefg logisch lijken.

In [23]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      6: 'd',
      7: 'e',
      8: 'e',
      9: 'f',
      10: 'g',
      11: 'h',
      12: 'i',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wat_26__19__13_tvi_14__23__25_i_29_se_29_w_13_t_13__29__19_sdatd_13__30__30_rspr_30__27__22_e_24__18__21__22_gvgrs_19_fva_27_rfd_19_u_23__23__18__27_t_17_a_18__23_a_28_e_19__13_ea_20__17_twerew_18__13__19__13_ea_20__17_te_20_tdra_28__22_pff_28__20__27_wf_24__22__21_aar


Nee, dit gaat niet goed. 'gvgrs', 'rfd', 'pff', niet logisch. Het lijkt erop dat er nog meer e's in de tekst zitten. Misschien is de letter die mist wel de f? Die heeft ook een heel lage frequentie.

In [26]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      6: 'd',
      7: 'e',
      8: 'e',
      9: 'e',
      10: 'e',
      11: 'f',
      12: 'g',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wat_26__19__13_tvg_14__23__25_g_29_se_29_w_13_t_13__29__19_sdatd_13__30__30_rspr_30__27__22_e_24__18__21__22_evers_19_eva_27_red_19_u_23__23__18__27_t_17_a_18__23_a_28_e_19__13_ea_20__17_twerew_18__13__19__13_ea_20__17_te_20_tdra_28__22_pee_28__20__27_we_24__22__21_aar


Dit lijkt er meer op!

En nu... Hoe de overige letters in te passen? Welke twee letters missen nog (15-16)?

31 is een p. 30 kan dus een p of een o zijn. "\_30\_\_30\_rspr\_30\_\_27\_\_22\_e\_24\_\_18\_\_21\_\_22\_e" lijkt "oorspronkelijke" te moeten lezen...

In [4]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      6: 'd',
      7: 'e',
      8: 'e',
      9: 'e',
      10: 'e',
      11: 'f',
      12: 'g',
      18: 'i',
      21: 'j',
      22: 'k',
      24: 'l',
      27: 'n',
      30: 'o',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

wat_26__19__13_tvg_14__23__25_g_29_se_29_w_13_t_13__29__19_sdatd_13_oorspronkelijkevers_19_evanred_19_u_23__23_int_17_ai_23_a_28_e_19__13_ea_20__17_twerewi_13__19__13_ea_20__17_te_20_tdra_28_kpee_28__20_nwelkjaar


"\_20\_nwelkjaar": 20 is een i; dan is 19 ook een i

13 lijkt ook nog een e: "wat\_26\_i\_13\_t" --> "wat niet", "w\_13\_t\_13\_\_29\_" --> "weten". Dat betekent wel dat 11 en 12 dus ook een e zijn... en 26-29 een n.

In [6]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      6: 'd',
      7: 'e',
      8: 'e',
      9: 'e',
      10: 'e',
      11: 'e',
      12: 'e',
      13: 'e',
      18: 'i',
      19: 'i',
      20: 'i',
      21: 'j',
      22: 'k',
      24: 'l',
      26: 'n',
      27: 'n',
      28: 'n',
      29: 'n',
      30: 'o',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

watnietve_14__23__25_ensenwetenisdatdeoorspronkelijkeversievanrediu_23__23_int_17_ai_23_aneieeai_17_twerewieieeai_17_teitdrankpeeninwelkjaar


wat niet veel mensen weten...
14 is ook een e, 23 is een l, 25 is een m

In [7]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      6: 'd',
      7: 'e',
      8: 'e',
      9: 'e',
      10: 'e',
      11: 'e',
      12: 'e',
      13: 'e',
      14: 'e',
      18: 'i',
      19: 'i',
      20: 'i',
      21: 'j',
      22: 'k',
      23: 'l',
      24: 'l',
      25: 'm',
      26: 'n',
      27: 'n',
      28: 'n',
      29: 'n',
      30: 'o',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

watnietveelmensenwetenisdatdeoorspronkelijkeversievanrediullint_17_ailaneieeai_17_twerewieieeai_17_teitdrankpeeninwelkjaar


"rediullint\_17\_ailane" moet denk ik "redbullinthailand" lezen. 17 is dan een h en 7 bij nader inzien een d.

In [8]:
decoded = '_' + '__'.join(map(str, encoded)) + '_'

mp = {0: 'a',
      1: 'a',
      2: 'a',
      3: 'b',
      4: 'c',
      5: 'd',
      6: 'd',
      7: 'd',
      8: 'e',
      9: 'e',
      10: 'e',
      11: 'e',
      12: 'e',
      13: 'e',
      14: 'e',
      15: 'f',
      16: 'g',
      17: 'h',
      18: 'i',
      19: 'i',
      20: 'i',
      21: 'j',
      22: 'k',
      23: 'l',
      24: 'l',
      25: 'm',
      26: 'n',
      27: 'n',
      28: 'n',
      29: 'n',
      30: 'o',
      31: 'p',
      32: 'q',
      33: 'r',
      34: 'r',
      35: 's',
      36: 't',
      37: 't',
      38: 'u',
      39: 'v',
      40: 'w',
      41: 'x',
      42: 'y',
      43: 'z'}

for key, value in mp.items():
  decoded = decoded.replace(f'_{key}_', value)
  
print(decoded)

watnietveelmensenwetenisdatdeoorspronkelijkeversievanrediullinthailandiedaihtwerdwieiedaihtditdrankpeeninwelkjaar


Waarschijnlijk niet helemaal goed overgetypt van Wikipedia:

"Wat veel mensen niet weten is dat de oorspronkelijke versie van Red Bull in Thailand bedacht werd. Wie bedacht dit drankje en in welk jaar?"