# Komunikacja cyfrowa
## Programowanie, lab 01, obsługa plików

**Warto wiedzieć wcześniej** - wrzucić na classroom na kilka dni przez zajęciami.
- co to jest plik
- co znajduje się na końcu linijek w plikach txt (`\n`)
- co to jest standard CSV
- co to jest serializacja
- grafika rastrowa
- magic numbers (sygnatury plików)
- ASCII-art


## część 1 - open

Powłoka Pythona daje nam możliwośc operacji na plikach za pomocą funkcji `open`. Pobiera ona jeden obowiązkowy parametr właściwy `file`, reszta parametrów jest opcjonalnych, choć często się z nich korzysta. Więcej np: help.

In [1]:
# help(open)

Najprostsze stworzenie pliku, by miał jakąś zawartość i był tekstowy jest w komórce poniżej. Można oczywiście też w Jupyter dać `New->Text File`, wpisać coś (ala ma kota) i zapisać jako `ala.txt`. Bez znaczenia.

In [24]:
# %%bash
# echo "Ala ma kota" > ala.txt
# echo "Milicja ma Ale" >> ala.txt

### open, read, close

Najprostsze wywołanie, bez dodatkowych parametrów tworzy uchwyt do pliku o nazwie takiej jak zmienna po lewej str operatora przypisania

In [10]:
ala = open('ala.txt')

In [11]:
ala

<_io.TextIOWrapper name='ala.txt' mode='r' encoding='UTF-8'>

`mode=r` oznacza, że plik jest tylko do odczytu, a `encoding='UTF-8'`, że kodowanie domyślne pliku to UTF-8. Aby odczytać, co w pliku jest, posłużymy się metodą `read`

In [12]:
ala.read()

'Ala ma kota\n'

możemy oczywiście przechwycić to co zwraca `read` do zmiennej, tak by móc dalej operować na tych danych. Aby nie pozostawiać uchwytów otwartych, co może czasem powodować pewne problemy IO (np: gdy inne programy systemowe lub inni użytkownicy będą chciały korzystać z danego pliku), warto pamiętać by plik zamknać metodą `close`

In [14]:
ala.close()

Co powoduje, że nie można np: ponownie odczytać pliku.

In [18]:
ala.read()

ValueError: I/O operation on closed file.

Każdorazowo powinniśmy zadbać o to, by po otwarciu pliku go zamknąć. Mamy dwie możliwości, wersję standardową

```
p = open('plik')
OPERACJE NA PLIKU
p.close()
```

lub (lepszą) wersję za pomocą bloku `with`

```
with open('plik') as p:
    OPERACJE NA PLIKU
```

gdzie wyjście z bloku zapewnia nam zamknięcie pliku.

In [27]:
with open('ala.txt') as ala:
    print(ala.read())

Ala ma kota
Milicja ma Ale



In [21]:
ala.read()

ValueError: I/O operation on closed file.

Inną możliwością jest zczytanie pliku linia po linii metodą `readline`

In [28]:
with open('ala.txt', 'r') as ala:
    for line in ala:
        print(line)

Ala ma kota

Milicja ma Ale



### Ćwiczenie 1
Za pomocą standardowego interfejsu Jupyter `New -> Text File` stwórz plik o nazwie `wykonawca_utwor.txt` i wklej do niego tekst swojego ulubionego/ostatnio słuchanego/jakiegokolwiek utworu muzycznego. Następnie za pomocą obu konstrukcji (z `with` i standardowo) i metody `read` pobierz zawartość pliku, a następnie wydrukuj go linijka po linijce wraz z numerami linii

In [21]:
# przykładowe rozwiązanie
utwor = 'waters_501am.txt'
with open(utwor, mode='r') as muza:
    a = muza.read()
    for number, line in enumerate(a.split('\n')):
        print(number + 1, line, sep='. ')

1. An angel on a Harley
2. Pulls across to greet a fellow rolling stone
3. Puts his bike up on it's stand
4. Leans back and then extends
5. A scarred and greasy hand
6. 
7. He said "How ya doin' bro? Where ya been? Where ya goin'?"
8. 
9. Then he takes your hand
10. In some strange Californian handshake
11. And breaks the bone
12. 
13. (Have a nice day)
14. 
15. A housewife from Encino
16. Whose husband's on the golf course
17. With his book of rules
18. Breaks and makes a 'U' and idles back
19. To take a second look at you
20. You flex your rod
21. Fish takes the hook
22. Sweet vodka and tobacco in her breath
23. Another number in your little black book
24. 
25. These are the pros and cons of hitchhiking
26. These are the pros and cons of hitchhiking
27. Oh babe, I must be dreaming
28. I'm standing on the leading edge
29. The Eastern seaboard spread before my eyes
30. "Jump" says Yoko Ono
31. "I'm too scared and too good looking" I cried
32. "Go on", she says
33. "Why don't you give i

### open i pętla for

Uchwyt do pliku tworzony za pomocą `open` jest iteratorem, może być w takim razie użyty w pętli for, do iteracji po liniach, co wydaje się łatwiejsze niż powyższy `split('\n')`, 

In [38]:
with open('ala.txt') as plik:
    for line in plik:
        print(line)

Ala ma kota

Milicja ma Ale



nadmiarowe linie biorą się z interpretacji właśnie owych `\n` na końcu linii przez fukcje `print`. Można się ich pozbyć za pomocą choćby metody `strip`, ale nie trzeba...

In [39]:
with open('ala.txt') as plik:
    for line in plik:
        print(line.strip())

Ala ma kota
Milicja ma Ale


### Ćwiczenie 2
Korzystając z tekstu znajdującego się w Twoim pliku `wykonawca_utwor.txt` stwórz słownik gdzie kluczami będą wszystkie unikalne słowa widniejące w tekscie, a wartościami ilość ich wystąpień. Aby było to miarodajne, musisz pozbyć się wszystkich znaków interpunkcyjnych i białych oraz nie rozróżniać dużych i małych liter. Na końcu wydrukuj ten słownik czytelnie `klucz -> wartość`.

In [53]:
# przykładowe rozwiązanie
def check_apostrophes(words):
    ret = []
    for w in words:
        if not w:
            continue
        elif w == "it's":
            ret += ['it', 'is']
        elif w == "i'm":
            ret += ['i', 'am']
        elif w[-3:] == "n't":
            ret += [w[:-3], 'not']
        elif w[-1] == "'":
            ret.append(w[:-1])
        elif w[-2:] == "'s":
            ret.append(w[:-2])
        elif "'" in w:
            ret.append(w.replace("'", ""))
        else:
            ret.append(w)          
    return ret

def remove_punctuation(words):
    from string import ascii_letters
    ret = []
    for word in words:
        w = ""
        for letter in word:
            if letter in ascii_letters + "'":
                w += letter
        ret.append(w)
    return ret

def split_sentence(sentence):
    s = sentence.lower()
    words = [el.strip() for el in s.split(' ')]
    words = remove_punctuation(words)
    words = check_apostrophes(words)
    return words

def calculate_words(list_of_words, d={}):
    for word in list_of_words:
        if word in d:
            d[word] += 1
        else:
            d[word] = 1
    return d


utwor = 'waters_501am.txt'
with open(utwor, 'r') as muza:
    dwaters = {}
    for line in muza:
        sline = split_sentence(line)
        dwaters = calculate_words(sline, dwaters)

for key, val in tuple(dwaters.items())[:5]:
    print(key, val, sep=' -> ')

an -> 1
angel -> 1
on -> 7
a -> 8
harley -> 1


### tryby zapisu 'w' oraz 'a'
Oczywiście każdy plik można otworzyć również do zapisu. Podstawowym trybem zapisu jest `mode='w'`. Utworzenie uchwytu  wtrybie `w` (write) spowoduje albo (a) stworzenie nowego pliku o zadanej nazwie, albo (b) wyczyszczenie już istniejącego. 

In [13]:
# nie mamy pliku 'piwko.txt'

tekst = """Lekiem na kaca jest piwko 
Pierwsze, drugie, trzecie 
Ale czwarte, piąte i szóste 
To już raczej bardziej zmuli
"""

with open('piwko.txt', 'w') as plik:
    plik.write(tekst)

In [14]:
%%bash 
cat piwko.txt

Lekiem na kaca jest piwko 
Pierwsze, drugie, trzecie 
Ale czwarte, piąte i szóste 
To już raczej bardziej zmuli


In [19]:
# plik 'piwko.txt' jest obecny - nadpisujemy zawartość

tekst = """Gdyż każdy lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu 
Każdy lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu
"""

with open('piwko.txt', 'w') as plik:
    plik.write(tekst)

In [20]:
%%bash 
cat piwko.txt

Gdyż każdy lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu 
Każdy lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu


Drugą opcją jest użycie trybu `mode='a'` (append) po to aby nie nadpisywać zawartości plików, a raczej dodawać zawartość na końcu pliku.

In [17]:
# nie mamy pliku 'piwko.txt'

tekst = """Lekiem na kaca jest piwko 
Pierwsze, drugie, trzecie 
Ale czwarte, piąte i szóste 
To już raczej bardziej zmuli
"""

with open('piwko.txt', 'w') as plik:
    plik.write(tekst)
    
    
tekst = """Gdyż każdy lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu 
Każdy lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu
"""

with open('piwko.txt', 'a') as plik:
    plik.write(tekst)

In [18]:
%%bash 
cat piwko.txt

Lekiem na kaca jest piwko 
Pierwsze, drugie, trzecie 
Ale czwarte, piąte i szóste 
To już raczej bardziej zmuli
Gdyż Lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu 
Każdy Lek niewłaściwie stosowany 
Zagraża twojemu zdrowiu


### Ćwiczenie 3
Bazując na kodzie z ćwiczenia nr 2, zapisz do pliku w kolejności malejącej wyniki analizy ilości słów w wybranej piosence, najlepiej w formie zgodnej z plikami CSV.

```
#slowo,ilość
the,17
and,13
a,8
you,8
on,7
of,6
i,6
these,5
are,5
pros,5
```

In [54]:
# to już dowolnie...
# maks = max(d.keys(), key=len)
# for key, val in sorted(d.items(), key=lambda x: x[1], reverse=True)[:10]:
#     print(key + ' '*(len(maks)-len(key)), "*" * val)

print("#slowo", "ilość", sep=',')
for key, val in sorted(dwaters.items(), key=lambda x: x[1], reverse=True)[:10]:
    print(key, val, sep=',')

#slowo,ilość
the,17
and,13
a,8
you,8
on,7
of,6
i,6
these,5
are,5
pros,5


### tryb binarny
W prosty sposób możemy również pracować na plikach binarnych. W wielkim skrócie - to takie pliki, które nie są tekstowe ;) Aby stworzyć uchwyt w trybie binarnym, należy użyć trybu `mode='br'`, co otworzy binarny plik do czytania, natomiast tryb `mode='bw'` utworzy uchwyt do pliku binarnego do piasania, no i oczywiście `mode='ba'` do nadpisywania. Nie ma znaczenia czy napiszemy `br` czy `rb`, ake nie możemy podać samego `b`.

In [110]:
with open('binarka.bin', 'wb') as plikbin:
    plikbin.write(b"napis, ale binarnie")

In [51]:
with open('python.png', 'br') as pythonfile:
    pf = pythonfile.read()
pf[:10]

b'\x89PNG\r\n\x1a\n\x00\x00'

## część 2 - pickle
W Pythonie mamy możliwość zapisywania do pliku kompletnego stanu danego obiektu, co może ułatwić życie w czasie. Służy do tego peklowanie. Jest to przykład **serializacji** - procesu przekształcania obiektów, tj. instancji określonych klas, do postaci szeregowej, czyli w strumień bajtów, z zachowaniem aktualnego stanu obiektu (za Wiki). Typowym rozszerzeniem dla plików po peklowaniu jest proste `*.p`. Aby móc peklować obiekty, musimy zaimportować odpowiedni moduł

```import pickle```

Do zapisywania obiektów na dysku w postaci plików 'p' złuży metoda `dump`, pobiera ona 2 argumenty - obiekt, który chcemy zapisać oraz uchwyt otwarty do zapisywania w trybie binarnym.

In [55]:
import pickle
with open('waters_501am.p', 'wb') as file:
    pickle.dump(dwaters, file)

Aby pobrać obiekt musimy użyć komendy `load`...

In [61]:
with open('waters_501am.p', 'rb') as file:
    slownik_waters_501am = pickle.load(file)

In [62]:
slownik_waters_501am == dwaters

True

### Ćwiczenie 4
Zapekluj swój własny słownik ze statystyką wyrazów tekstu wybranej piosenki.

Na koniec tej części taka krótka uwaga. Można oczywiście peklować (i czytać) na szybko, w 1 linijce, za pomocą

In [64]:
buf = pickle.load(open('waters_501am.p', 'rb'))
buf == dwaters

True

...ale pozostawia to niezamknięty uchwyt do pliku. Komputer co prawda nie wybuchnie, i w momencie wyjścia z shella wszystko się posprząta, ale nie polecam takich rozwiązań.

## część 3: Przykład operacji na plikach - grafika rastrowa

Nie wiadomo ile zejdzie czasu na to co było powyżej, ale jeżeli tylko się uda to jest to całkiem niezły przykład na czytanie / zapisywanie do plików. Będziemy tworzyć program przekształcający napisy na pliki graficzne. 

Wiki mówi nam, że

> **Grafika rastrowa** (potocznie bitmapa) – prezentacja obrazu za pomocą matrycy punktów w postaci prostokątnej siatki odpowiednio kolorowanych pikseli na monitorze komputera, drukarce lub innym urządzeniu wyjściowym. W systemach komputerowych grafika rastrowa jest przechowywana w sposób skompresowany (stratnie lub bezstratnie) albo nieskompresowany w wielu formatach plików graficznych.

Jednym z najprostszych formatów, które odpowiadają takiej definicji, jest format graficzny PBM (portable bitmap format). W zasadzie jest to plik tekstowy, który w miejscach, gdzie powinien być interpretowany jako kolor czarny ma liczbę `1` a tam gdzie ma być biały, liczbę `0`. W takim wypadku, aby stworzyć plik, w którym jest czarny okrąg, trzeba by do pliku o rozszerzeniu `pbm` wpisać początkową sygnaturę pliku `P1`, ilość kolumn i wierszy oraz sam okrąg w ASCII-art

```
P1
8 8
00000000
00011000
00100100
01000010
01000010
00100100
00011000
00000000
```

Pomiędzy liczbami `01` można dać spacje, co oznacza, że powyższe i poniższ kółko to dokładnie to samo...

```
P1
8 8
0 0 0 0 0 0 0 0
0 0 0 1 1 0 0 0
0 0 1 0 0 1 0 0
0 1 0 0 0 0 1 0
0 1 0 0 0 0 1 0
0 0 1 0 0 1 0 0
0 0 0 1 1 0 0 0
0 0 0 0 0 0 0 0
```

Ta pierwsza linijka to tzw: magick number, czyli sygnatura pliku identyfikująca jego własności i strukturę, dzięki niej programy komputerowe wiedzą jak interpretować różne pliki. Spróbujmy...

In [72]:
okrag = """P1
# przyklad okregu
8 8
00000000
00011000
00100100
01000010
01000010
00100100
00011000
00000000
"""

with open('okrag.pbm', 'w') as ofile:
    ofile.write(okrag)

zerknijcie do katalogu... Żeby zobaczyć, że to prawdziwy plik rastrowy, możecie obejrzeć go w dowolnym programie graficznym. Nie będzie to za duże kółko, nawet wcale nie będzie to kółko, ale choć ciut będzie przypominać...

Co ciekawe - struktura zer i jedynek może być płaska, wystarczy, że zadbamy o dwie liczby w linii trzeciej (ilość kolumn i wierszy)

In [109]:
okrag = """P1
# przyklad okregu
8 8
0000000000011000001001000100001001000010001001000001100000000000"""

with open('okrag_plaski.pbm', 'w') as ofile:
    ofile.write(okrag)

### Ćwiczenie 5
Opracujcie wspólnie nastepujące literki: `['a', 'k', 'l', 'm', 'o', 't']`. Wpiszcie je od razu do plików (lub podobnie jak powyżej/poniżej). Odpowiednie pliki powinny się nazywać tak jak literki. Każdy student - jedna literka. Są też w komórce poniżej, ale lepiej dać się wykazać studentom, niech się pobawią w ASCII-art...

Uwaga: najlepiej ustalić odgórnie ilość kolumn, ale w szczególności wierszy... Proponuję 12 wierszy, a ilość kolumn to zależy od szerokości literki.

In [106]:
a = """P1
# a
8 12
00000000
00000000
00000000
00000000
00111000
01000100
00000100
00111000
01000100
01000100
00111010
00000000
"""

with open('a.pbm', 'w') as ofile:
    ofile.write(a)
    
t = """P1
# t
7 12
0000000
0010000
0010000
0111000
0010000
0010000
0010000
0010000
0010000
0010000
0001110
0000000
"""

with open('t.pbm', 'w') as ofile:
    ofile.write(t)
    
k = """P1
# k
7 12
0000000
0010000
0010000
0010000
0010010
0010100
0011000
0010000
0011000
0010100
0010010
0000000
"""

with open('k.pbm', 'w') as ofile:
    ofile.write(k)
    
l = """P1
# l
9 12
0000000
0010000
0010000
0010000
0010000
0010000
0010000
0010000
0010000
0010000
0001110
0000000
"""

with open('l.pbm', 'w') as ofile:
    ofile.write(l)
    
o = """P1
# o
9 12
000000000
000000000
000000000
000000000
000111000
001000100
010000010
010000010
010000010
001000100
000111000
000000000
"""

with open('o.pbm', 'w') as ofile:
    ofile.write(o)
    
m = """P1
# m
11 12
00000000000
00000000000
00000000000
00000000000
01011011000
00100100100
00100100100
00100100100
00100100100
00100100100
00100100010
00000000000
"""

with open('m.pbm', 'w') as ofile:
    ofile.write(m)
    
space = """P1
# space
4 12
0000
0000
0000
0000
0000
0000
0000
0000
0000
0000
0000
0000
"""

with open('space.pbm', 'w') as ofile:
    ofile.write(space)

### Ćwiczenie 6
Bazując na literkach składowych zbuduj napis "ala ma kota" w postaci graficznego pliku rastrowego 'ala_ma_kota.pbm'. 

In [108]:
def get_nth_line(handle, n):
    for i in range(n):
        ret = handle.readline().strip()
    return ret


napis = 'ala ma kota'
wiersze = 12
dlugosc = 0

napis_pbm = ''

start = 4  # 1, 2, 3 to P1, hasz i wymiary

# zaczynamy linia po linii
for i in range(start, start + wiersze + 1):
    
    # sklejamy i-tą linię litery
    # dla wszystkich literek napisu 
    line = ''
    for letter in napis:
        if letter == ' ':
            letter = 'space'
            
        with open(letter + '.pbm') as l:
            line += get_nth_line(l, i)
            
    napis_pbm += line
    
    if i == start:
        dlugosc += len(line)


with open(napis.replace(' ', '_') + '.pbm', 'w') as ala:
    ala.write(f'P1\n{dlugosc} 12\n')
    ala.write(napis_pbm)

Tyle na te zajęcia. W pracy domowej więcej o standardzie *Netpbm* w pracy domowej.