Programming 1: Homework
The examples are submited to https://recodex.mff.cuni.cz/

# Bigram

## Zadání

Napište program, který zjistí počty výskytů (frekvenci) všech bigramů chapaných jako dvojice sousedních písmen.

- Vstupní text načti ze souboru `vstup.txt` v kódování `utf-8`.
- Výstupní text ulož do souboru `vystup.txt` v kódovaní `utf-8`.
      Formát souboru  `bigram<mezera>frekvence`, např.:
          ab 3
          bb 1
          ...
- Tabulku setřiďte primárně podle frekvencí sestupně, případných více bigramů stejné frekvence třiďte lexikograficky.
- Pro zjištění, zda znak je písmeno, použijte metodu `str::isalpha()`. 
- Písmena převádějte na malá metodou `str::lower()`.

### Vstup
```
a AB abc

abc ab a

a1b;c3d

ababab
```
### Výstup
```
ab 7
ba 2
bc 2
```

### Poznámky

Rozdělení `re.split(r'[^a-zA-Z]+', word)` není povoleno.
Musíme použít jinou metodu založenou na cyklu a ``isalpha().

In [36]:
import re
import itertools
import logging

from collections import Counter, OrderedDict
from typing import Iterable, Tuple


def read_words(path: str) -> Iterable[str]:
    with open(path, encoding="utf8") as file:
        return list(itertools.chain(*(line.split() for line in file)))
    
    
def clean_words(words: Iterable[str]) -> Iterable[str]:
    result = []
    for word in [x.lower() for x in words if len(x) > 1]:
        buffer = []
        for char in word:
            if char.isalpha():
                buffer.append(char)
            else:
                result.append("".join(buffer))
                buffer.clear()
        if len(buffer) > 1:
            result.append("".join(buffer))
   
        # logging.warning(result)   
                
    return list(result)

def make_bigrams(words: Iterable[str]) -> Tuple[str, str]:
    for word in words:
        for i, j in zip(word, word[1:]):
            yield f"{i}{j}"

def main():
    words = clean_words(read_words("vstup.txt"))
    
    # logging.warning(words)    
    
    # Keep dictionary ordered (not needed in Python 3.7+).
    bigrams =  OrderedDict({ 
        k: v for k, v in sorted(
            Counter(list(make_bigrams(words))).items(), 
            key=lambda x: (-x[1], x[0]), reverse=False)
        })
    
    with open("vystup.txt", mode="w", encoding="utf8") as file:
        lines = "".join( [f'{"".join(bigram)} {frequency}\n' for bigram, frequency in bigrams.items()]).rstrip()
        file.write(lines)
        # logging.warning(line) 

if __name__ == "__main__":        
    main()

ab 7
ba 2
bc 2
