# Translacja
Chodzi o to żeby przekształcić tekst, aby dało się go wyrenderować przy pomocy mojego specjalnego fontu dla systemu stenografii.
Założeniem systemu stenografii jest to, żeby nie trzeba było odrywać pióra przy pisaniu wyrazu.

Idea systemu:
1. Pisze się wokół linii środkowej ciągnąc kreskę do linii górnej lub dolnej i prawie zawsze (oprócz końca wyrazu) wracając do linii środkowej
1. Kreski mają różne (proste) kształy (w sumie 11)
1. Spółgłoski oznaczane są kreską od linii środkowej w górę lub w dół (różne spółgłoski dla lustrzanej kreski idącej w górę i w dół)
1. Samogłoski oznaczane są kreską od linii górnej lub dolnej do środkowej (ta sama samogłoska może być napisana wracając z góry jak i z dołu po przez lustrzane odbicie)
1. Jeśli występują po sobie dwie spółgłoski lub dwie samogłoski, to między nimi następuje powrót przy pomocy linii pionowej
1. Na końcu spółgłoski może dodany być jeden z dwóch akcentów (kreska i kółko/pętelka)
1. Na końcu samogłoski może dodany być akcent (mała skośna linia i powrót) który zmienia `e` na `ę`, `a` na `ą`
1. Generalnie to można pisać też samogłoski poziomo, na linii środkowej, co jest przydatne gdy samogłoska następuje po samogłosce. Jest to obsłużone przez specjalne ligatury. Póki co tylko `ie` i `ia`.

## Transkrypcja

Pierwszą fazą jest podzielenie tekstu na głoski.

In [1]:
import re

space_pattern = re.compile(r'\s+')
illegal_pattern = re.compile(r'[0-9/\\]+')
def cleanup(t):
    return re.sub(space_pattern, ' ', re.sub(illegal_pattern, '', t.lower()))

cleanup("Nie! 117  dąsać się-pROszę.!")

'nie! dąsać się-proszę.!'

In [2]:
split_pattern = re.compile(r'(sz|cz|rz|dz|dź|dż|ch)')
def dziel(t):
    pos = 0
    for m in re.finditer(split_pattern, t):
        s = m.span()
        if m.start() != pos:
            for c in t[pos:m.start()]:
                yield c
        yield m[1]
        pos = m.end()
    if pos < len(t):
        for c in t[pos:]:
            yield c

print(list(dziel('zaszczute rzeźnickie dżdżownice dźwięczą dzisiaj dzdz ')))

['z', 'a', 'sz', 'cz', 'u', 't', 'e', ' ', 'rz', 'e', 'ź', 'n', 'i', 'c', 'k', 'i', 'e', ' ', 'dż', 'dż', 'o', 'w', 'n', 'i', 'c', 'e', ' ', 'dź', 'w', 'i', 'ę', 'cz', 'ą', ' ', 'dz', 'i', 's', 'i', 'a', 'j', ' ', 'dz', 'dz', ' ']


In [3]:
def czy_samlgloska(s):
    return s in ['a','i','e','o','y','u','ę','ą','ó']

def czy_spolgloska(s):
    return str.isalpha(s) and not czy_samlgloska(s)


Utożsamiane są niektóre głoski. Mamy podstawienia:
- `ch` -> `h`
- `rz` -> `ż`
- `ó` -> `u`

Akcent pierwszy (kreska) daje podstawienia (`1` oznacza górną formę akcentu, `3` oznacza dolną)
- `ś` -> `s1`
- `ć` -> `c1`
- `dź` -> `dz1`
- `ź` -> `z3`
- `ń` -> `n3`

Akcent drugi (kółko/pentelka) oznaczana przez `2`/`4` (górne/dolne) daje:
- `sz` -> `s2`
- `cz` -> `c2`
- `dż` -> `dz2`
- `ż` -> `z4`

In [4]:
podstawienia = {
    'ch': 'h',
    'rz': 'z4',
    'ż': 'z4',
    'ó': 'u',
    'ś': 's1',
    'ć': 'c1',
    'dź': 'dz1',
    'ź': 'z3',
    'ń': 'n3',
    'sz': 's2',
    'cz': 'c2',
    'dż': 'd4'
}

def podstaw(iter):
    for c in iter:
        if c in podstawienia:
            yield podstawienia[c]
        else:
            yield c

Spółgłoski dzielą się na górne i dolne.

In [5]:
gorne = {
    'm',
    's',
    't',
    'l',
    'p',
    'k',
    'w',
    'r',
    'c',
    'dz',
    'x'
}

dolne = {
    'n',
    'z',
    'd',
    'ł',
    'b',
    'g',
    'f',
    'j',
    'h',
    'v',
    'q'
}

Po górnej spółgłosce może występować tylko górna samogłoska (oznaczona upper-case), a po dolnej - dolna.

Jeśli po spółgłosce jest spółgłoska, to między nimi musi znaleźć się linia wracająca do środkowej linii (górna `\` lub dolna `/`).

Tymczasowo podobnie dla samogłosek, póki nie są obsługiwane poziome formy samogłosek.

In [6]:
akc_pattern = re.compile(r'[1234]$')

def bez_akcentu(c):
    return re.sub(akc_pattern, '', c)

def klasyfikuj(c):
    cba = bez_akcentu(c)
    sam = czy_samlgloska(c[0])
    sp = czy_spolgloska(c[0])
    inna = not sam and not sp
    gorna = (sp and cba in gorne) or inna
    return sam, sp, inna, gorna

def ligatura(prev, c):
    return (prev, c) in [('i','e'), ('i','a'), ('i','ę'), ('i','ą')]

def polacz(iter):
    prev = next(iter)
    prev_sam, prev_sp, prev_inna, prev_gorna = klasyfikuj(prev)
    next_up = prev_sam
    for c in iter:
        sam, sp, inna, gorna = klasyfikuj(c)
        go_up = next_up
        next_up = False
        if sam and prev_sam:
            if ligatura(prev, c):
                next_up = go_up # ten sam case
            else:
                # idziemy w górę
                prev = prev + '\\'
                next_up = True
        elif sam and prev_gorna:
            next_up = True
        elif sp and prev_sp:
            if prev_gorna:
                prev = prev + '\\'
            else:
                prev = prev + '/'
        # emit before going to next
        if go_up:
            yield prev.upper()
        else:
            yield prev
        prev = c
        prev_sam, prev_sp, prev_inna, prev_gorna = sam, sp, inna, gorna
    # emit last one
    if next_up:
        yield prev.upper()
    else:
        yield prev
        
print(list(polacz(['p','i', 'ę', 'k'].__iter__())))

['p', 'I', 'Ę', 'k']


Wygląd akcentu `ą` i `ę` zależy od tego czy jest to samogłoska górna czy dolne. Dlatego dopiero teraz możemy o nim zdecydować.

In [7]:
ogonki = {
    'Ą': 'A5',
    'Ę': 'E5',
    'ą': 'a6',
    'ę': 'e6'
}

def ogonkuj(iter):
    for c in iter:
        if c in ogonki:
            yield ogonki[c]
        else:
            yield c

In [9]:
def konwertuj_it(it):
    return ogonkuj(polacz(podstaw(it)))

def konwertuj(s):
    return konwertuj_it(dziel(cleanup(s)))

''.join(konwertuj('i tak i dzisiejszy dzień zaczął się pięknie'))

'I tAk I dzIsIEj/s2Y dzIEn3 zac2A5ł sIE5 pIE5k\\nie'

In [10]:
with open('8119-0.txt') as f:
    c = 1
    for line in f:
        print(''.join(konwertuj(line)))
        if c > 100:
            break
        c += 1

sIEr\pIEn3 nawIEdzEnie p\tAkI mAnekIny t\rAk\tAt O mAnekInah Al\bo w\tUrA 
k\sIE5ga rOdzAju t\rAk\tAt O mAnekInah cIA5g dal\s2Y t\rAk\tAt O mAnekInah 
dokOn3/c2Enie nem\rOd pAn pAn kArOl s\k\lEpY cYnamOnowE UlIcA k\rOkOdylI 
kArAkOny wIhurA noc wIEl\kIEgo sEzonu 
 
 
 
 
 sIEr\pIEn3 
 
 
 
 w lIp\cU Oj/cIEc mUj wYjez4/d4ał do wUd I zos\tAwIAł m\nie z mAt\kA5 I 
s\tAr\s2Ym b/rAtEm na pAs\t\wE5 białyh Od z4arU I Os2OłamIAja6cYh d/ni lEt\nih. 
wEr\tOwAlIs1\mY, Oduz4eni s1\wIAt\łem, w tEj wIEl\kIEj k\sIE5dzE wAkAc\ji, k\tUrEj 
w\s2Ys\t\kIE kAr\tY pAłały Od b/lAs\kU I mIAły na d/nie s\łod/kI do Om\d/lEnia 
mIA5z4/s2 z/łotYh g/rUs2Ek. AdelA w\rAcAła w s1\wIEt\lIs\tE pOrAn/kI, jak pOmOna z 
Og/nia d/nia rOz/z4ag/wI\Onego, wYsYpUja6c z kOs2YkA bar\w\na6 UrOde6 s\łon3/cA - 
l\s1\nia6cE, pEł/ne wOdy pOd p\z4ej/z4ys\tA5 s\kUr\kA5 c2ErEs1\nie, tAjem\nic2E, c2Ar\ne 
wIs1\nie, k\tUrYh wOn3 p\z4ek\rAc2Ała tO, cO zis2\c2Ało sIE5 w s\mAkU; mOrElE, w 
k\tUrYh mIA5z4/s2U z/łotYm był r\dzEn3 d/ługih pOpOł

In [11]:
import io

def line_to_char(lines):
    for line in lines:
        for c in dziel(cleanup(line)):
            yield c
        yield '\n'
        

with open('felieton.txt', 'r', encoding='utf-8') as f:
    with open('felieton.out.txt', 'w', encoding='utf-8') as out:
        for c in konwertuj_it(line_to_char(f)):
            out.write(c)

## TODO
- poprawić błędy ze sklepów cynamonowych
- statystyki dla par samogłosek i ligatury dla najpopularniejszych

### Pomysły
- strona online do konwersji (2 kolumny)