# Soundex
Lastna implementacija algoritma Soundex in njegove izboljšane različice.


In [1]:
# implementacija algoritma Soundex
def soundex(input):
  word = ''
  sdx = ''

  if(input is None or not input or input == ''):
    return None

  # 1.: pretvorba vseh črk v velike tiskane črke
  word = input.upper()

  # 2.: pretvorba šumnikov ĆČŠŽ => CCSZ
  replace_chars = {'Ć': 'C', 'Č': 'C', 'Š': 'S', 'Ž': 'Z'}
  word = ''.join([replace_chars.get(c, c) for c in word])

  # 3.: ohranjanje prve črke
  sdx += word[0]

  # 4.: preslikava črk
  soundex_map = {
      'AEIOUHWY': '.',    # samoglasniki AEIOU in črke H, W ter Y se izključijo (označimo jih z znakom '.')
      'BFPV': '1',        # črke B, F, P in V se preslikajo v 1
      'CGJKQSXZ': '2',    # črke C, G, J, K, Q, S, X, Z se preslikajo v 2
      'DT': '3',          # črki D in T se preslikata v 3
      'L': '4',           # črka L se preslika v 4
      'MN': '5',          # črki M in N se preslikata v 5
      'R': '6'            # črka R se preslika v 6
  }

  # izvedba preslikave
  for c in word[1:]:                # za vse črke razen prve
    for key in soundex_map.keys():  # za vse vrednosti preslikave
      if(c in key):                  # če je črka prisotna v ključu za preslikavo
        code = soundex_map[key]     # dodeli vrednost ključa

        # če vrednost ni samoglasnik in ni enaka zadnji vrednosti preslikave (s tem izničimo ponavljajoče znake: npr. Manning smatramo kot Maning)
        if(code != '.' and code != sdx[-1]):
          sdx += code             # dodamo vrednost v rezultat

  # 5.: vrednost Soundex mora biti velika 4 znake; če je manjša dodamo ničle na konec
  sdx = sdx[:4].ljust(4, '0')

  return sdx

def soundex_enhanced(input):
  word = ''
  sdx = ''

  if (input is None or not input or input == ''):
    return None

  # 1.: pretvorba vseh črk v velike tiskane črke
  word = input.upper()

  # 2.: pretvorba šumnikov ĆČŠŽ => CCSZ
  replace_chars = {'Ć': 'C', 'Č': 'C', 'Š': 'S', 'Ž': 'Z'}
  word = ''.join([replace_chars.get(c, c) for c in word])

  # 3.: ohranjanje prve črke
  sdx += word[0]

  # 4.: preslikava črk
  soundex_map = {
      'AEIOUHWY': '.',    # samoglasniki AEIOU in črke H, W ter Y se izključijo (označimo jih z znakom '.')
      'BP': '1',          # črki B in P se preslikata v 1; izboljšava
      'FV': '2',          # črki F in V se preslikata v 2; izboljšava
      'CSK': '3',         # črke C, S in K se preslikajo v 3; izboljšava
      'GJ': '4',          # črki G in J se preslikata v 4; izboljšava
      'QXZ': '5',         # črke Q, X in Z se preslikajo v 5; izboljšava
      'DT': '6',          # črki D in T se preslikata v 6
      'L': '7',           # črka L se preslika v 7
      'MN': '8',          # črki M in N se preslikata v 8
      'R': '9'            # črka R se preslika v 9
  }

  # izvedba preslikave
  for c in word[1:]:                # za vse črke razen prve
    for key in soundex_map.keys():  # za vse vrednosti preslikave
      if(c in key):                  # če je črka prisotna v ključu za preslikavo
        code = soundex_map[key]     # dodeli vrednost ključa

        # če vrednost ni samoglasnik in ni enaka zadnji vrednosti preslikave (s tem izničimo ponavljajoče znake: npr. Manning smatramo kot Maning)
        if(code != '.' and code != sdx[-1]):
          sdx += code             # dodamo vrednost v rezultat

  # 5.: vrednost Soundex mora biti velika 4 znake; če je manjša dodamo ničle na konec
  sdx = sdx[:4].ljust(4, '0')

  return sdx

In [34]:
# test
word = 'Walker'
print(f'Soundex: {soundex(word)}')
print(f'Izboljšan Soundex: {soundex_enhanced(word)}')


Soundex: W426
Izboljšan Soundex: W739


# Caverphone 2.0
Lastna implementacija algoritma Caverphone 2.0.

In [9]:
# implementacija algoritma Caverphone 2.0
import string

def caverphone2(input):
  cvphn = ''
  word = ''

  if(input is None or not input or input == ''):
    return None

  # 1.: pretvorba v male črke
  word = input.lower()

  # 2.: odstrani vse, kar ni v standardni abecedi
  for c in word:
    if(c not in string.ascii_lowercase):
      word = word.replace(c, '')

  # 3.: odstrani 'e' na koncu besede
  if(word.endswith('e')):
    word = word.removesuffix('e')

  # 4.: preslikava '*ough' in 'gn' v '2f' in '2n'
  ough_gn_map = {
      'cough': 'cou2f',
      'rough': 'rou2f',
      'tough': 'tou2f',
      'enough': 'enou2f',
      'trough': 'trou2f',
      'gn': '2n'
  }

  for key in ough_gn_map.keys():
    if(word.startswith(key)):
      word = word.replace(key, ough_gn_map[key])

  # 5.: preslikava 'mb' v 'm2'
  if(word.endswith('mb')):
    word = word.removesuffix('mb') + 'm2'

  # 6.: dodatne preslikave znakov (1-17)
  map_1_17 = {
      'cq': '2q',     # 1
      'ci': 'si',     # 2
      'ce': 'se',     # 3
      'cy': 'sy',     # 4
      'tch': '2ch',   # 5
      'c': 'k',       # 6
      'q': 'k',       # 7
      'x': 'k',       # 8
      'v': 'f',       # 9
      'dg': '2g',     # 10
      'tio': 'sio',   # 11
      'tia': 'sia',   # 12
      'd': 't',       # 13
      'ph': 'fh',     # 14
      'b': 'p',       # 15
      'sh': 's2',     # 16
      'z': 's',       # 17
  }

  for key in map_1_17.keys():
    word.replace(key, map_1_17[key])

  # 7.: dodatne preslikave znakov (18-19)
  # samoglasniki so definirani z algoritmom
  vowels = ['a','e','i','o','u','æ','ā','ø']
  # > 18 - vsak prvi samoglasnik postane 'A'
  # > 19 - vsi ostali samoglasniki postanejo '3'
  tmp = ''
  for i, c in enumerate(word):
    if(c in vowels):
      tmp += 'A' if(i == 0) else '3'
    else:
      tmp += c

  word = tmp

  # 7.1.: dodatne preslikave znakov (20)
  # > 20 - 'j' postane 'y'
  word = word.replace('j', 'y')

  # 7.2.: dodatne preslikave znakov (21-22)
  # > 21 - začetni 'y3' postane 'Y3'
  if(word.startswith('y3')):
    word = word.replace('y3', 'Y3', 1)

  # > 22 - začetni 'y' postane 'A'
  if(word.startswith('y')):
    word = word.replace('y', 'A', 1)

  # 7.3.: dodatne preslikave znakov (23)
  # > 23 - 'y' postane '3'
  word = word.replace('y', '3')

  # 7.3.: dodatne preslikave znakov (24)
  # > 24 - '3gh3' postane '3kh3'
  word = word.replace('3gh3', '3kh3')

  # 7.4.: dodatne preslikave znakov (25)
  # > 25 - 'gh' postane '22'
  word = word.replace('gh', '22')

  # 7.5.: dodatne preslikave znakov (26)
  # > 26 - 'g' postane 'k'
  word = word.replace('g', 'k')

  # 7.6.: dodatne preslikave znakov (27-33)
  # določene grupirane male črke se postanejo velika črka
  # > 27 - 'sss...' postane 'S'
  # > 28 - 'ttt...' postane 'T'
  # > 29 - 'ppp...' postane 'P'
  # > 30 - 'kkk...' postane 'K'
  # > 31 - 'fff...' postane 'F'
  # > 32 - 'mmm...' postane 'M'
  # > 33 - 'nnn...' postane 'N'

  adjacent_chars = ['s', 't', 'p', 'k', 'f', 'm', 'n']
  tmp = ''
  for i, c in enumerate(word):
    if(c in adjacent_chars):
      upper_c = c.upper()
      if(len(tmp) > 0 and tmp[-1] == upper_c):
        continue
      tmp += upper_c
      continue
    tmp += c

  word = tmp

  # 7.7.: dodatne preslikave znakov (34)
  # > 34 - 'w3' postane 'W3'
  word = word.replace('w3', 'W3')

  # 7.8.: dodatne preslikave znakov (35)
  # > 35 - 'wh3' postane 'Wh3'
  word = word.replace('wh3', 'Wh3')

  # 7.9.: dodatne preslikave znakov (36)
  # > 36 - če se beseda konča z 'w', zamenjaj zadnji 'w' s '3'
  if(word.endswith('w')):
    word = word.removesuffix('w') + '3'

  # 7.10.: dodatne preslikave znakov (37)
  # > 37 - 'w' postane '2'
  word = word.replace('w', '2')

  # 7.11.: dodatne preslikave znakov (38)
  # > 38 - vsak začetni 'h' postane 'A'
  if(word.startswith('h')):
    word = word.removeprefix('h') + 'A'

  # 7.12.: dodatne preslikave znakov (39)
  # > 39 - vsi preostali 'h' postanejo '2'
  word = word.replace('h', '2')

  # 7.13.: dodatne preslikave znakov (40)
  # > 40 - 'r3' postane 'R3'
  word = word.replace('r3', 'R3')

  # 7.14.: dodatne preslikave znakov (41)
  # > 41 - če se beseda konča z 'r', zadnji 'r' postane '3'
  if(word.endswith('r')):
    word = word.removesuffix('r') + '3'

  # 7.15.: dodatne preslikave znakov (42)
  # > 42 - 'r' postane '2'
  word = word.replace('r', '2')

  # 7.16.: dodatne preslikave znakov (43)
  # > 43 - 'l3' postane 'L3'
  word = word.replace('l3', 'L3')

  # 7.17.: dodatne preslikave znakov (44)
  # > 44 - če se beseda konča z 'l', zadnji 'l' postane '3'
  if(word.endswith('l')):
    word = word.removesuffix('l') + '3'

  # 7.18.: dodatne preslikave znakov (45)
  # > 45 - 'l' postane '2'
  word = word.replace('l', '2')

  # 8.: odstrani vse '2'
  word = word.replace('2', '')

  # 9.: če se beseda konča s '3', zadnja '3' postane 'A'
  if(word.endswith('3')):
    word = word.removesuffix('3') + 'A'

  # 10.: odstrani vse '3'
  word = word.replace('3', '')

  # 11-12.: dodaj deset enic na konec in vrni prvih deset znakov kot rezultat
  word = word.ljust(10, '1')

  return word


# Testiranje
Testiranje in primerjava lastnih implementacij fonetičnih algoritmov z implementacijami v knjižnicah `phonetics` in `pyphonetics`.

In [None]:
# opcijska namestitev knjižnice phonetics
!pip install phonetics

# opcijska namestitev knjižnice pyphonetics
!pip install pyphonetics

In [35]:
import phonetics
from pyphonetics import Soundex, Metaphone, RefinedSoundex, FuzzySoundex

# spremeni besedo; poigraj se z navadnimi besedami kot tudi z različnimi priimki
word = 'Smith'
# word = 'Walker'
# word = 'Jones'
# word = 'Einstein'
# word = 'Schrodinger'
# word = 'Novak'
# word = 'Kovac' # phonetics in pyphonetics ne podpirata šumnikov => Kovac
# word = 'Preseren' # phonetics in pyphonetics ne podpirata šumnikov => Preseren
# word = 'Cankar'
# word = 'Zupancic' # phonetics in pyphonetics ne podpirata šumnikov => Zupancic
# word = 'Vodnik'


print('Lastne implementacije algoritmov:')
print(f'Soundex ("{word}"): {soundex(word)}')
print(f'Izboljšan Soundex ("{word}"): {soundex_enhanced(word)}')
print(f'Caverphone 2.0 ("{word}"): {caverphone2(word)}')

print('\nImplementacije algoritmov v knjižnici phonetics:')
print(f'Soundex [size=4] ("{word}"): {phonetics.soundex(word, size=4)}')
print(f'Soundex [size=6] ("{word}"): {phonetics.soundex(word, size=6)}')
print(f'NYSIIS ("{word}"): {phonetics.nysiis(word)}')
print(f'Metaphone ("{word}"): {phonetics.metaphone(word)}')
print(f'Double Metaphone ("{word}"): {phonetics.dmetaphone(word)}')

print('\nImplementacije algoritmov v knjižnici pyphonetics:')
pyph_soundex = Soundex()
pyph_metaphone = Metaphone()
pyph_ref_soundex = RefinedSoundex()
pyph_fuz_soundex = FuzzySoundex()

print(f'Soundex ("{word}"): {pyph_soundex.phonetics(word)}')
print(f'RefinedSoundex ("{word}"): {pyph_ref_soundex.phonetics(word)}')
print(f'FuzzySoundex ("{word}"): {pyph_fuz_soundex.phonetics(word)}')
print(f'Metaphone ("{word}"): {pyph_metaphone.phonetics(word)}')


Lastne implementacije algoritmov:
Soundex ("Smith"): S530
Izboljšan Soundex ("Smith"): S860
Caverphone 2.0 ("Smith"): SMT1111111

Implementacije algoritmov v knjižnici phonetics:
Soundex [size=4] ("Smith"): S5030
Soundex [size=6] ("Smith"): S50300
NYSIIS ("Smith"): SNA
Metaphone ("Smith"): SM0
Double Metaphone ("Smith"): ('SM0', 'XMT')

Implementacije algoritmov v knjižnici pyphonetics:
Soundex ("Smith"): S530
RefinedSoundex ("Smith"): S3806
FuzzySoundex ("Smith"): S53
Metaphone ("Smith"): SM0
