# Szyfrowanie

![image.png](attachment:image.png)

## Wstęp

Ludzie od wieków próbowali szyfrować teksty, tak aby postronni ludzie nie byli ich w stanie łatwo zrozumieć. W tym zadaniu będziesz musiała/musiał rozszyfrować tekst powstały w wyniku działania grupy przedszkolaków, które postanowiły zaszyfrować część zawartości biblioteki swoich rodziców, zaklejając naklejkami litery w wybranych linijkach.



## Zadanie

Dzieci zaczęły od przygotowania $n$ worków: po jednym dla każdego unikalnego znaku w całej bibliotece. Chłopcy narysowali $3n$ różnych obrazków, a dziewczynki wydrukowały naklejki z tymi obrazkami: każdy obrazek został wydrukowany w pewnej nieznanej i być może różnej liczbie kopii. Naklejek jest jednak na tyle dużo, że nie skończą się w trakcie zabawy. Następnie, do każdego z przygotowanych worków dzieci wsypały naklejki odpowiadające dokładnie trzem obrazkom. Łącznie wszystkie naklejki znalazły się w którymś worku.

W czasie zabawy, dzieci postanowiły zaszyfrować niektóre wersy w książkach. Dla napotkanego znaku, wyciągały losową naklejkę z właściwego dla danego znaku worka i naklejały ją w jego miejsce. Dzieci, jak to dzieci, znudziły się, więc nie wszystkie wersy książek zostały przetworzone w ten sposób. Niestety obrazków nie da się w żaden sposób odkleić, ale być może dzięki analizie układów literek w niezaklejonych tekstach będziemy mogli odtworzyć tekst z pozaklejanych wersów.

Napisz funkcję `decipher_corpus(clear_corpus, ciphered_corpus)`, która przyjmuje dwa argumenty:
* `clear_corpus`: lista zawierająca niezaszyfrowane stringi $-$ wersy, których nie dotknęły dzieci. Przykładowo:

```Python
clear_corpus = ["a tajną . u rzymian niewolnika , który ukradł , ", 
    "środka : tam wszystko jasno oświetlone . * i widzę ", 
    "się do góry , utracił własność * dążącą do centru ",
    "chciałabym widzieć tego malca tylko na chwilę . słyszałem , ",
    "mości notę , prosząc o uwolnienie z tej usługi , "]
```

* `ciphered_corpus`: listę z zaszyfrowanymi wersami $-$ wersy zaklejone naklejkami. Przykładowo:
```Python
ciphered_corpus = ["🥥🖕👼🥥🔀🛠👡🐌💸🐌📩🖕🧇🤿🧰🦆🥨🥥🦨🐌🚕🔻🥅🐘🚒🗣🛠🔻🚄🥥🤳🥺🐌🚄👼👲🐤🧰🤳📩🚄🔒🥥🧵🐈🖕🥺🖕",
    "🥤🔒🚒🚔🚄🦫🐌🦒🐌👼🦫🦆🖕🐘🦓🤿💣🦓🚷👱🧔🖕💐🥥🚭🚕🚒🐌🙉🥤🐘🥨🗿👼🗣🚒🦨🔶🤳💑🖕📈🐌🔻🖕🖊🔻🚔🐅👽🐌",
    "🦓🔻👽🐌🧵🚒🤳🚥🐛🐤💁🖕🖈🤳🔖👼🧇🦫💯🕰👂🤳🐘👂🥥🚭🛠🚒🚚🛰🤳🧚🐌🧵👠🦔🕶🦈👡🐌🚓🙉🐌🦈🗿🦨🚷🐤🧍🐌"]
```
Funkcja ta powinna rozszyfrować listę wersów `ciphered_corpus` zapisaną szyfrem obrazkowym przy użyciu innych, niezaszyforwanych wersów `clear_corpus`. Funkcja powinna zwracać listę rozszyfrowanych wersów.

## Ewaluacja

Za to zadanie możesz otrzymać ocenę między 0, a 1 punktem. Twoja funkcja `decipher_corpus(clear_corpus, ciphered_corpus)` zostanie przetestowana na 4 przypadkach testowych: niezależnych szyfrach. Kryterium oceny dla danego szyfru będzie procent dobrze rozszyfrowanych znaków w tekście (liczba prawidłowo rozszyfrowanych znaków podzielona przez liczbę wszystkich znaków w tekście). Model osiągający dokładność klasyfikacji poniżej 50% otrzyma 0 punktów. 

Końcowy wynik będzie średnią z wyników dla wszystkich testów i zostanie obliczony według wzoru:

$$\mathrm{score} =  \frac{1}{4} \sum_{i=1}^4 2 \cdot \max(\mathrm{accuracy}_i - 0.5, 0)$$



## Ograniczenia
- Wywołanie całości Twojego kodu z flagą `FINAL_EVALUATION_MODE` ustawioną na `True`) powinno trwać nie dłużej niż 5 minut na Google Colab **z** GPU.

- Twoje rozwiązanie będzie testowane bez dostępu do Internetu.

## Dane
Dostępne dla ciebie w tym zadaniu dane to:
* `clear_lines.txt` - plik, w którym znajdują się wersy z książek, których nie dotykały dzieci - tekst niezaszyfrowany;
* `ciphered_lines.txt` - plik, w którym znajduje się 30000 wersów z książek, zaszyfrowanych w opisany wyżej sposób; jest to zbiór, na którym możesz ewaluować swoje rozwiązanie;
* `ciphered_lines_ground_truth.txt` - plik, w którym znajdują się odszyfrowane wersy z pliku.

## Uwagi i wskazówki

- Zaszyfrowane zostały wszystkie znaki, również spacje, z wyjątkiem znaku nowej linii (nie ma ich w żadnym ze zbiorów).
- Trzy przyporządkowane do liter obrazki niekoniecznie mają równe prawdopodobieństwo bycia naklejonymi w miejscu danej literki, czyli niektóre obrazki mogły być użyte częściej niż pozostałe z trójki.
- Może się przydać:
  ```python
  from gensim.models import Word2Vec as Letter2Vec
  ```
  

## Pliki zgłoszeniowe
Tylko ten notebook.

## Ewaluacja
Pamiętaj, że podczas sprawdzania flaga `FINAL_EVALUATION_MODE` zostanie ustawiona na `True`. Za pomocą skryptu `validation_script.py` będziesz mógł upewnić się, że Twoje rozwiązanie zostanie prawidłowo wykonane podczas oceniania.

# Kod startowy

In [None]:
FINAL_EVALUATION_MODE = False  # Zmienimy tę wartość na True

In [None]:
from gensim.models import Word2Vec as Letter2Vec

In [None]:
if not FINAL_EVALUATION_MODE:
    ! gdown https://drive.google.com/uc?id=1smu8e_muUU2YDPQvZ5oT2VW46tg6zP5F
    # ! gdown https://drive.google.com/uc?id=1uPacHqw6qEkECBIBvertRib469SHOMc_
    # ! gdown https://drive.google.com/uc?id=1VAGP-8s6yhlubtvJF0hHgy30H5NmUjn3
    ! unzip -o cipher.zip

## Ładowanie danych

In [None]:
######################### NIE ZMIENIAJ TEJ KOMÓRKI ##########################
clear_file_path = "clear_lines.txt"
ciphered_file_path = "ciphered_lines.txt"
solutions_file_path = "ciphered_lines_ground_truth.txt"

corpus_clear = [line.strip().lower() for line in open(clear_file_path)]
corpus_ciphered = [line.strip().lower() for line in open(ciphered_file_path)]
corpus_ground_truth = [line.rstrip('\n').lower() for line in open(solutions_file_path)]

# Twoje rozwiązanie

To jest jedyna sekcja, w której musisz coś zrobić.

In [None]:
def decipher_corpus(clear_corpus, ciphered_corpus):
    # TODO: Zaimplementuj funkcję odszyfrowującą teksty z `ciphered_corpus` i zwracającą odszyfrowane teksty
    deciphered = ciphered_corpus

    return deciphered

# Ewaluacja

W czasie oceny rozwiązania, Twoja funkcja `decipher_corpus` zostanie wywołana w sposób zbliżony do poniższego. Użyte zostaną jednak inne dane, testowe.

Upewnij się przed wysłaniem, że po ustawieniu flagi `FINAL_EVALUATION_MODE = True` cały notebook wykonuje się od początku do końca (polecenie `Run All`) bez błędów i bez ingerencji użytkownika. Możesz uruchomić również skrypt walidacyjny `validation_script.py`, który wykonuje cały notebook i ocenia zdefiniowaną w nim funkcję `decipher_corpus`.

In [None]:
######################### NIE ZMIENIAJ TEJ KOMÓRKI ##########################

def accuracy_metric(original_lines, deciphered_lines):
    original_str = "".join(original_lines)
    deciphered_str = "".join(deciphered_lines)
    assert len(original_str) == len(deciphered_str)
    good_char = sum(int(a == b) for a, b in zip(original_str, deciphered_str))
    return good_char / len(original_str)


if not FINAL_EVALUATION_MODE:
    deciphered_file = decipher_corpus(corpus_clear, corpus_ciphered)
    accuracy = accuracy_metric(corpus_ground_truth, deciphered_file)
    score = 2 * max(accuracy - 0.5, 0.0)
    print(f"Accuracy: {accuracy}")
    print(f'Twój wynik to {score} pkt')