# W wyjątkowej sieci z plikami
##  wyjątki, praca z plikami, contextmanager
### Wojciech Łuszczyński
#### Daft Academy Python4Beginners 03.XII.2019

# 1. Exceptions

## Syntax Errors vs Exceptions?

### Syntax Errors

In [64]:
for i in range(10) print('HELLO')

SyntaxError: invalid syntax (<ipython-input-64-7234bef2bf69>, line 1)

In [65]:
if len([])
    print('great')

SyntaxError: invalid syntax (<ipython-input-65-94c228b6fd8f>, line 1)

## Syntax Error
- błąd interpretera podczasu parsowania skryptu
- błąd składniowy
- python nie jest w stanie sparsować naszego kodu
- domyślnie pythonowy intepreter poda linijkę i miejsce wystąpienia błędu składniowego i przestanie dalej przetwarzać plik

https://docs.python.org/3.7/tutorial/errors.html#syntax-errors

### Exceptions

In [66]:
f = open('test.txt', 'w')
f.write('Linia pierwsza\n')
f.write('Linia druga\n')
f.write('Linia trzecia\n')
x = 1 / 0
f.close()

ZeroDivisionError: division by zero

### Exceptions
- błędy w trakcie wykonywania programu (Runtime Error)
- zazwyczaj zwracają jakiś opis błędu
- można sobie z nimi radzić

- https://docs.python.org/3.7/tutorial/errors.html#exceptions
- https://jeffknupp.com/blog/2013/02/06/write-cleaner-python-use-exceptions/

## "Łapanie" wyjątków

### Try Except

In [67]:
try:
    my_int = int('4')
    print(my_int)
except:
    pass

4


In [68]:
try:
    my_int = int('4')
    print(my_int)
except ValueError:
    print('Złapałem value error!')

4


- Na początek wykonywany jest kod pomiędzy try, a except
- Jeżeli nie ma błędu, kod spomiędzy try a except jest wykonany w całości, a kod w except jest pomijany

In [69]:
try:
    my_int = int('nie int :(')
    print(my_int)
except ValueError:
    print('Złapałem value error!')

Złapałem value error!


- Jeżeli pojawi się błąd, wykonanie kodu spomiędzy try a except jest przerwane
- Jeżeli błąd jest łapanego przez nas typu, to wykonywany jest kod w except

In [70]:
try:
    my_int = int('4')
    print(my_int)
    a = {'b': 'c'}
    print(a['d'])
except (ValueError, KeyError): 
    print('Dostalem ValueError lub KeyError')


4
Dostalem ValueError lub KeyError


- Można łapać więcej niż jeden wyjątek jednocześnie

In [71]:
try:
    my_int = int('4')
    print(my_int)
    a = {'b': 'c'}
    print(a['d'])
except ValueError:
    print('Złapałem ValueError')
except KeyError:
    print('Złapałem KeyError')

4
Złapałem KeyError


- Blok Try Except może przyjąc tak dużo Except ile potrzebujemy

In [72]:
try:
    my_int = int('4')
    print(my_int)
    a = {'b': 'c'}
    print(a.append('my_int'))
except ValueError:
    print('Złapałem ValueError')
except KeyError:
    print('Złapałem KeyError')    

4


AttributeError: 'dict' object has no attribute 'append'

- Jeżeli wystąpi nieobsłużony błąd - wyjątek nie jest złapany, a program zakończy działanie na tym błędzie

In [73]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except:
        print('Złapałem dowolny błąd')

fun('xx', {'a': 'b'})
print('******')
fun('4', {'c': 'd'})

xx {'a': 'b'}
Złapałem dowolny błąd
******
4 {'c': 'd'}
Złapałem dowolny błąd


- Możliwe jest łapanie dowolnego rodzaju błędu - używać z rozwagą - zazwyczaj chcemy łapać konkretny błąd.
- Można łatwo przegapić zwykły błąd programistyczny gdy staramy się obsługiwać wszystkie błędy na raz

### Wbudowane wyjątki

- https://docs.python.org/3.7/library/exceptions.html#bltin-exceptions

- wszystkie klasy wyjątków dziedziczą pośrednio lub bezpośrednio z BaseException
- w większości przypadków instancje klasy wyjątków dziedziczą z Exception (sprawdź w dokumentacji)
- python posiada bardzo rozbudowaną hierarchie błędów
- warto zobaczyć: https://docs.python.org/3.7/library/exceptions.html#exception-hierarchy

## "Rzucanie" wyjątkiem

In [74]:
raise ValueError('Poważny błąd!')

ValueError: Poważny błąd!

- Możemy rzucać zarówno instancję wyjątku, jak i klasę

In [75]:
raise ValueError

ValueError: 

In [None]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError:
        print('Złapałem ValueError')
        raise

In [76]:
fun('xx', {'a': 'b'})

xx {'a': 'b'}
Złapałem dowolny błąd


In [77]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError as e:
        print('Złapałem ValueError')
        raise e

In [78]:
fun('xx', {'a': 'b'})

xx {'a': 'b'}
Złapałem ValueError


ValueError: invalid literal for int() with base 10: 'xx'

## Własna definicja klasy wyjątku

Definiowanie własnych błędów
- błąd powinien dziedziczyć po Exception
- zazwyczaj klasy błędów są proste
- często, gdy planujemy stworzyć więcej niż jeden błąd, tworzy się wspólną nadklasę dla modułu

In [79]:
class IncorrectGuessError(Exception):
    def __init__(self, difference):
        self.difference = difference

In [80]:
class NumberTooSmall(IncorrectGuessError):
    pass

In [81]:
class NumberTooBig(IncorrectGuessError):
    pass

In [82]:
def guess_number(guess):
    number = 10
    if guess > number:
        raise NumberToBig(guess - number)
    elif guess < number:
        raise NumberTooSmall(number - guess)
    else:
        print('Brawo')

In [83]:
try:
    guess_number(4)
except NumberTooSmall as exc:
    print('Za malo o {}'.format(exc.difference))
except NumberTooBig:
    print('Za duzo o {}'.format(exc.difference))

Za malo o 6


Dzięki instrukcji `else` możemy wykonać jakiś kod TYLKO wtedy, gdy kod w bloku `try` wykona się bez błędu

In [84]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError:
        print('Złapałem błąd')
    else:
        print('Bez błędu!')

In [85]:
fun('4', {'a': 'b'})

4 {'a': 'b'}
Bez błędu!


In [86]:
fun('x', {'c': 'd'})

x {'c': 'd'}
Złapałem błąd


In [87]:
fun('4', {'c': 'd'})

4 {'c': 'd'}


KeyError: 'a'

Kod, który chcemy żeby wykonał się zawsze umieszczamy w bloku `finally`

In [88]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError:
        print('Złapałem błąd')
    else:
        print('Bez błędu!')
    finally:
        print('*' * 80)

In [89]:
fun('4', {'a': 'b'})

4 {'a': 'b'}
Bez błędu!
********************************************************************************


In [90]:
fun('x', {'c': 'd'})

x {'c': 'd'}
Złapałem błąd
********************************************************************************


In [91]:
fun('4', {'c': 'd'})

4 {'c': 'd'}
********************************************************************************


KeyError: 'a'

kod w bloku `finally` wykonuje się zawsze
- niezależnie od tego czy wyjątek był obsłużony czy nie
- wykona się nawet jeśli w `try`, `except`, `else` nastąpi `return` lub `break`
- jeśli wyjątek nie jest obsłużony `finally` po wykonaniu kodu w swoim bloku rzuci ponownie tym samym wyjątkiem

# 2. Pliki

In [92]:
f = open('test.txt', 'w')
f.write('Linia pierwsza\n')
f.write('Linia druga\n')
f.write('Linia trzecia\n')
f.close()

## Otwieranie pliku:
- `open` przyjmuje relatywną lub absolutną ścieżkę do pliku który otwieramy
- `open` przyjmuje też obiekt typu PathLib
- reszta argumentów jest opcjonalna, często używa się jedynie argumentu `mode`
- `mode` określa w jakim trybie otwieramy plik
- dostępne tryby: 'r' (__read__), 'w' (__write__), 'a' (__append__), 'r+' (__read__+__write__)
- domyślny tryb przy otwieraniu pliku to 'r' (__read__)
- __write__ nadpisuje plik, append dodaje do końca
- mode określa dodatkowo tryb tekstowy ('t' - domyślnie) lub binarny ('b')
- zwraca obiekt pliku
- domyślne kodowanie tekstu w trybie tekstowym to UTF-8

In [93]:
f = open('test.txt', 'w')
f.write('Linia pierwsza\n')
f.write('Linia druga\n')
f.write('Linia trzecia\n')

14

## Przydatne linki

- https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files
- https://docs.python.org/3/library/functions.html#open
- https://docs.python.org/3/glossary.html#term-file-object


## Zamykanie pliku:
- metoda `close` dostępna jest jako atrybyt obiektu pliku
- CPython dzięki `Garbage collectorowi` z licznikiem referencji sam zadba o zamknięcie pliku
- mimo działania `GC` __ZAWSZE__ powinniśmy zadbać o to sami - to, że CPython zamknie plik to `ficzer` tej konkretnej implementacji interpretera, część innych implementacji nie zapewnia obsługi tej funkcjonalności 

In [94]:
f = open('test.txt', 'w')
f.write('Linia pierwsza\n')
f.write('Linia druga\n')
f.write('Linia trzecia\n')
x = 1 / 0
f.close()

ZeroDivisionError: division by zero

In [95]:
try:
    f = open('test.txt', 'w')
    f.write('Linia pierwsza\n')
    f.write('Linia druga\n')
    f.write('Linia trzecia\n')
    x = 1 / 0
finally:
    print('Zamykam plik')
    f.close()
    print('Plik zamkniety')

Zamykam plik
Plik zamkniety


ZeroDivisionError: division by zero

O zamknięcie pliku da się zadbać łatwiej

In [None]:
with open('test.txt', 'w') as f:
    f.write('Linia pierwsza\n')
    f.write('Linia druga\n')
    f.write('Linia trzecia\n')
    x = 1 / 0

## Dlaczego nie można zostawić otwartego pliku?
- wpisane przez nas zmiany mogą nie zostać sflushowane na dysk (zależne od implementacji - flush zapewnia, że dane z bufora zapisują się na dysku)
- systemy operacyjne mają limit otwartych plików - możemy dostać wyjątek w przypadku otwarcia zbyt dużej liczby plików
- czasami niezamknięty plik uniemożliwia odmontowanie, wyjęcie jakiegoś nośnika danych


### Przydatne linki:
- https://stackoverflow.com/questions/3167494/how-often-does-python-flush-to-a-file
- https://askubuntu.com/questions/701491/is-closing-a-file-after-having-opened-it-with-open-required-in-python

# 3. Context Manager

## contextmanager

- obiekt, który definiuje w jakim kontekście ma się wywołać owijany kod
- określa, co ma się wykonać przed i po wykonaniu bloku kodu owijanego
- zazwyczaj wywoływane ze pomocą `with`, ale da się też bezpośrednio wywołać poszczególne metody
- przykłady użycia: zamykanie otwartych plików, zwalnianie zasobów/locków, przywracanie jakeigoś globalnego stanu

- https://docs.python.org/3/reference/datamodel.html#context-managers
- https://docs.python.org/3/library/stdtypes.html#typecontextmanager

## with

- `with` jest używane do owinięcia bloku kodu za pomocą metod określonych w context managerze
- używane do zarządzania zasobami w danym bloku
- da się dzięki temu ładnie owinąć `try`...`except`...`finally`

- https://docs.python.org/3/reference/compound_stmts.html#with
- https://www.python.org/dev/peps/pep-0343/

In [96]:
with open('test.txt', 'w') as f:
    f.write('Linia pierwsza\n')
    f.write('Linia druga\n')
f.write('Linia trzecia\n')

ValueError: I/O operation on closed file.

# 4. Pracy z plikami ciąg dalszy

Jesteś pracownikiem firmy spedycyjnej "TEU Logistics".
Twoja firma zajmuje się przewozem morskim kontenerów po całym świecie.
Dostałes plik z danymi (CSV) w którym są aktualnie transportowane kontenery.
W pierwszym wierszu, w każdej kolumnie podany jest numer, nazwa i klasa statku który przewozi ładunek.
W kolejnych wierszach w każdej kolumnie są podane dane kontenera znajdującego się na pokładzie wraz z kowotą jaka została pobrana za przewóz kontenera.

### Szczegóły:
Nazwa statku jest w formacie:
 - __nn: xxxxxx (ttttttt)__
 
gdzie:
 - __nn__: id statku
 - __xxxxxx__: nazwa statku
 - __tttttt__: klasa statku

Każdy kontener ma numer nadany w formacie:
- aa-bb-cccccccc/yyyy/xx@ddddddddd.ee

gdzie:
- __aa__ - kraj pochodzenia kontenera
- __bb__ - kraj docelowy kontenera
- __ccccccccc__ - numer kontenera
- __yyyy__ - waga kontenera w kilogramach (cyfrowo 0001-9999)
- __xx__ - typ ładunku w kontenrze (A0-Z9)
- __dddddddd.ee__ - nazwa i kraj pochodzenia firmy która nadaje kontener
- długość pół __cccccc__, __dddddd__ nie jest stała
- pl-jp-2343432/2201/A1@companyname.pl oraz pl-jp-1223123/2201/A1@companyname.de to konentery 2 różnych firm.

Rekord jest połączeniem numeru kontenera i kwoty w formacie:
- numer/kwota:
 - pl-jp-2343432/3100/Z1@companyname.pl/83427

Z powodów takich jak różne kontrakty, terminy, kolejność załadunku, waga i rodzaj ładunku cena wysyłki kontenera jest bardzo różna.
Zauważ że kraj pochodzenia i destynacji kontenera nie jest tożsamy z portem dodelowym dla kontenera.

CSV:
Rekordy odzielone są od siebie znakiem średnika ';' a wiersze znakiem nowej linii '\n'

### 1. Ile kontenerów finalnie trafi do Japonii?
### 2. Jaka klasa statku średnio przewozi najwięcej kontenerów?
### 3. Jaka jest średnia waga kontenera z materiałami łatwopalnymi (X1) z dokładnością do 1 kg np: 1234 (zaokrągląne w górę)?
### 4. Która firma w Polsce wysyła najwięcej kontenerów?
### 5. Jakiego typu ładunek o największej wartości (stosunek wagi do ceny) exportują Niemickie firmy z niemczech?

In [111]:
from collections import defaultdict
from statistics import mean
from math import ceil


def get_data(filename):
    """Data file parser."""
    rows = list()
    data = list()
    with open(filename, "r") as f:
        headers = f.readline().strip('\n').split(";")
        for i in range(len(headers)):
            x = headers[i].split(' ')
            headers[i] = {
                "no": int(x[0].strip(':')),
                "name": x[1],
                "class": x[2].strip('()')
            }
        for line in f:
            rows.append(line.strip(') \n').split(";"))

        for i in range(len(headers)):
            # list(filter(lambda g: len(g), [y[i] for y in rows]))})
            # is list from filter wchich is a generator
            # filter accepts only non empty strings and is processed
            # by lambda function doing len(teu)
            # and is iterating it by column for all rows in data structure
            cargo = list(filter(lambda teu: len(teu), [y[i] for y in rows]))
            for j, teu in enumerate(cargo):
                # aa-bb-cccccccc/yyyy/xx@ddddddddd.ee/pp
                aabbcc, yyyy, xxdee, pp = teu.split('/')
                aa, bb, cc = aabbcc.split('-')
                xx, dee = xxdee.split('@')
                d, ee = dee.split('.')

                cargo[j] = {'aa': aa,
                            'bb': bb,
                            'cc': cc,
                            'yyyy': int(yyyy),
                            'xx': xx,
                            'd': d,
                            'ee': ee,
                            'pp': int(pp)}
            ship_data = {'cargo_size': len(cargo),
                         'cargo': cargo}
            ship_data.update(headers[i])
            data.append(ship_data)

    return data

1. O którym języku programowania zorganizowano najwiecej konferencji?

In [98]:
# aa-bb-cccccccc/yyyy/xx@ddddddddd.ee/pp
def assignment_1(data):
    jp = 0
    for ship in data:
        for teu in ship['cargo']:
            if teu['bb'] == 'JP':
                jp += 1
    return jp

In [99]:
assignment_1(data)

15647

2. Jaka klasa statku średnio przewozi najwięcej kontenerów?

In [100]:
# aa-bb-cccccccc/yyyy/xx@ddddddddd.ee/pp
def assignment_2(data):
    teu_counter = defaultdict(list)
    for ship in data:
        teu_counter[ship['class']].append(ship['cargo_size'])
    return max(teu_counter.keys(), key=(lambda key: mean(teu_counter[key])))

In [101]:
assignment_2(data)

'ULCV'

3. Jaka jest średnia waga kontenera z materiałami łatwopalnymi (X1) z dokładnością do 1 kg np: 1234 (zaokrągląne w górę)?

In [102]:
# aa-bb-cccccccc/yyyy/xx@ddddddddd.ee/pp
def assignment_3(data):
    x1_teus = list()
    for ship in data:
        x1_teus.extend(x['yyyy'] for x in ship['cargo'] if x['xx'] == 'X1')
    return ceil(mean(x1_teus))

In [103]:
assignment_3(data)

3836

4. Która firma w Polsce wysyła najwięcej kontenerów?

In [104]:
# aa-bb-cccccccc/yyyy/xx@ddddddddd.ee/pp
def assignment_4(data):
    teu_counter = defaultdict(int)
    for ship in data:
        for teu in ship['cargo']:
            if teu['ee'] == 'pl':
                teu_counter[teu['d']] += 1
    return max(teu_counter.keys(), key=(lambda key: teu_counter[key]))

In [105]:
assignment_4(data)

'dtnpbaom'

5. Jakiego typu ładunek o największej wartości (stosunek wagi do ceny) exportują Niemickie firmy z niemczech?

In [106]:
# aa-bb-cccccccc/yyyy/xx@ddddddddd.ee/pp
def assignment_5(data):
    cargo_type = defaultdict(list)
    for ship in data:
        for teu in ship['cargo']:
            if teu['bb'] == 'DE' and teu['ee'] == 'de':
                cargo_type[teu['xx']].append(teu['pp'] / teu['yyyy'])

    return max(cargo_type.keys(), key=(lambda key: max(cargo_type[key])))

In [107]:
assignment_5(data)

'C2'

# 5. Praca z plikami w trybie binarnym

In [112]:
with open('p4b_logo.bmp', 'rb') as fr:
    data = fr.read()
    print(type(data))
with open('copy_p4b_logo.bmp', 'wb') as fw:
    fw.write(data)

<class 'bytes'>


- tryb otwarcia pliku z 'b' na końcu
- umożliwia pracę z plikami niezawierającymi tekstu

Przydatne funkcje
- seek - ustawia aktualną pozycję wskaźnika pozycji w pliku na wybraną
- tell - zwraca aktualną pozycję wskaźnika w pliku

In [109]:
with open('p4b_logo.bmp', 'rb') as fr:
    print(fr.tell())
    ten_bytes = fr.read(10)
    print(fr.tell())
    fr.seek(0)
    print(fr.tell())
    fr.seek(100)
    print(fr.tell())

0
10
0
100


## bytes
- wczytywane dane binarne są typu bytes - niezmiennej sekwencji 8-bitowych wartości (0-255)


## bytearray
- zmienna (mutowalna) wersja bytes
- jeżeli chcemy zmodyfikować plik, lepiej używać bytearray


- https://www.w3resource.com/python/python-bytes.php#bytes
- https://www.devdungeon.com/content/working-binary-data-python

In [110]:
with open('p4b_logo.bmp', 'rb') as fr:
    data = fr.read()
    print(type(data))
    data = bytearray(data)
    print(type(data))
with open('another_copy_p4b_logo.bmp', 'wb') as fw:
    fw.write(data)

<class 'bytes'>
<class 'bytearray'>
