# Praca z plikami w pythonie
## Jakub Szponder
### 14.11.2017, Python 4 Beginners

In [1]:
f = open('test.txt', 'w')
f.write('Linia pierwsza\n')
f.write('Linia druga\n')
f.write('Linia trzecia\n')
f.close()

# Otwieranie pliku:
- przyjmuje nazwę pliku do otwarcia
- reszta argumentów jest opcjonalna, często używa się argumentu mode
- mode określa w jakim trybie otwieramy plik
- dostępne tryby: 'r' (read), 'w' (write), 'a' (append), 'r+' (read+write)
- domyślny tryb to 'r' (read)
- write nadpisuje plik, append dodaje do końca
- mode określa dodatkowo tryb tekstowy ('t' - domyślnie) lub binarny ('b')
- zwraca obiekt pliku




## Przydatne linki

- https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files
- https://docs.python.org/3/library/functions.html#open
- https://docs.python.org/3/glossary.html#term-file-object


# Zamykanie pliku:
- metoda close dostępna na obiekcie pliku
- CPython dzięki garbage collectorowi z licznikiem referencji sam zadba o zamknięcie pliku
- mimo tego powinniśmy ZAWSZE zadbać o to sami - to, że CPython zamknie plik to szczegół tej implementacji, część innych implementacji tego nie zapewnia

# Dlaczego nie można zostawić otwartego pliku?
- wpisane przez nas zmiany mogą nie zostać sflushowane na dysk (zależne od implementacji - flush zapewnia, że dane z bufora zapisują się na dysku)
- systemy operacyjne mają limit otwartych plików - możemy dostać wyjątek w przypadku otwarcia zbyt dużej liczby plików
- czasami niezamknięty plik uniemożliwia odmontowanie, wyjęcie jakiegoś nośnika danych


## Przydatne linki:
- https://stackoverflow.com/questions/3167494/how-often-does-python-flush-to-a-file
- https://askubuntu.com/questions/701491/is-closing-a-file-after-having-opened-it-with-open-required-in-python

In [76]:
f = open('test.txt', 'w')
f.write('Linia pierwsza\n')
f.write('Linia druga\n')
f.write('Linia trzecia\n')
x = 1 / 0
f.close()

ZeroDivisionError: division by zero

# Wyjątki

# Syntax Error
- błąd z czasu parsowania
- błąd składniowy
- python nie jest w stanie sparsować naszego kodu

https://docs.python.org/3.6/tutorial/errors.html#syntax-errors

In [2]:
for i in range(10) print('HELLO')

SyntaxError: invalid syntax (<ipython-input-2-7234bef2bf69>, line 1)

# Exceptions
- błędy w trakcie wykonywania programu
- zazwyczaj zwracają jakiś opis błędu
- można sobie z nimi radzić


- https://docs.python.org/3.6/tutorial/errors.html#exceptions
- https://jeffknupp.com/blog/2013/02/06/write-cleaner-python-use-exceptions/

# Wbudowane wyjątki
- instancje klasy dziedziczącej z BaseException
- rozbudowana hierarchia błędów - można się uczyć z czasem ;)


- https://docs.python.org/3.6/library/exceptions.html#bltin-exceptions

In [9]:
my_int = int('nie int :(')
print(my_int)

ValueError: invalid literal for int() with base 10: 'nie int :('

In [8]:
try:
    my_int = int('nie int :(')
    print(my_int)
except ValueError:
    print('Dostalem value error!')

Dostalem value error!


In [7]:
try:
    my_int = int('4')
    print(my_int)
except ValueError:
    print('Dostalem value error!')

4


In [4]:
try:
    my_int = int('4')
    print(my_int)
    a = {'b': 'c'}
    print(a['d'])
except (ValueError, KeyError):  # te nawiasy są ważne!
    print('Dostalem ValueError lub KeyError')


4
Dostalem ValueError lub KeyError


In [2]:
try:
    my_int = int('4')
    print(my_int)
    a = {'b': 'c'}
    print(a['d'])
except ValueError:
    print('Dostalem ValueError')
except KeyError:
    print('Dostalem KeyError')

4
Dostalem KeyError


- Na początek wykonywany jest kod pomiędzy try, a except
- Jeżeli nie ma błędu, kod spomiędzy try a except jest wykonany w całości, a kod w except jest pomijany
- Jeżeli pojawi się błąd, wykonanie kodu spomiędzy try a except jest przerwane
- Jeżeli błąd jest łapanego przez nas typu, to wykonywany jest kod w except
- Jeżeli inny błąd - błąd nie jest łapany i program kończy się z takim błędem

Możliwe jest łapanie dowolnego rodzaju błędu - używać z rozwagą - zazwyczaj chcemy łapać konkretny błąd.

W ten sposób można łatwo przegapić zwykły błąd programistyczny jak staramy się obsługiwać wszystkie błędy na raz

In [3]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except:
        print('Dostalem dowolny błąd')

fun('xx', {'a': 'b'})
print('******')
fun('4', {'c': 'd'})

xx {'a': 'b'}
Dostalem dowolny błąd
******
4 {'c': 'd'}
Dostalem dowolny błąd


Możliwe jest w klauzuli except ponowne rzucenie obsługiwanego właśnie błędu

In [2]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError:
        print('Dostalem ValueError')
        raise

fun('xx', {'a': 'b'})

xx {'a': 'b'}
Dostalem ValueError


ValueError: invalid literal for int() with base 10: 'xx'

Do klauzuli except możemy otrzymać obiekt wyjątku

In [4]:
def fun(my_int):
    print (my_int)
    try:
        int(my_int)
    except Exception as exc:
        print('Dostalem błąd')
        print('type:', type(exc))
        print('args:', exc.args)
        print('instance:', exc)    
fun('x')

x
Dostalem błąd
type: <class 'ValueError'>
args: ("invalid literal for int() with base 10: 'x'",)
instance: invalid literal for int() with base 10: 'x'


Rzucanie wyjątków
- instrukcja `raise`

In [43]:
raise ValueError('Poważny błąd!')

ValueError: Poważny błąd!

Możemy rzucać zarówno instancję wyjątku, jak i klasę

In [50]:
raise ValueError

ValueError: 

Definiowanie własnych błędów
- błąd musi dziedziczyć po Exception
- zazwyczaj klasy błędów są proste
- często, gdy planujemy stworzyć więcej niż jeden błąd, tworzy się wspólną nadklasę

In [19]:
class IncorrectGuessError(Exception):
    def __init__(self, difference):
        self.difference = difference

class NumberTooSmall(IncorrectGuessError):
    pass

class NumberTooBig(IncorrectGuessError):
    pass

def guess_number(guess):
    number = 10
    if guess > number:
        raise NumberToBig(guess - number)
    elif guess < number:
        raise NumberTooSmall(number - guess)
    else:
        print('Brawo')

try:
    guess_number(4)
except NumberTooSmall as exc:
    print('Za malo o {}'.format(exc.difference))
except NumberTooBig:
    print('Za duzo o {}'.format(exc.difference))

Za malo o 6


Dzięki instrukcji `else` możemy wykonać jakiś kod TYLKO wtedy, gdy wybrany kod wykona się bez błędu

In [21]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError:
        print('Dostalem błąd')
    else:
        print('Bez błędu!')

fun('4', {'a': 'b'})
print('******')
fun('x', {'c': 'd'})
print('******')
fun('4', {'c': 'd'})

4 {'a': 'b'}
Bez błędu!
******
x {'c': 'd'}
Dostalem błąd
******
4 {'c': 'd'}


KeyError: 'a'

Kod, który chcemy żeby wykonał się zawsze umieszczamy w bloku `finally`

In [22]:
def fun(my_int, my_dict):
    print (my_int, my_dict)
    try:
        int(my_int)
        my_dict['a']
    except ValueError:
        print('Dostalem błąd')
    else:
        print('Bez błędu!')
    finally:
        print('Zawsze!')

fun('4', {'a': 'b'})
print('******')
fun('x', {'c': 'd'})
print('******')
fun('4', {'c': 'd'})

4 {'a': 'b'}
Bez błędu!
Zawsze!
******
x {'c': 'd'}
Dostalem błąd
Zawsze!
******
4 {'c': 'd'}
Zawsze!


KeyError: 'a'

# Zamykanie pliku c.d.

In [3]:
try:
    f = open('test.txt', 'w')
    f.write('Linia pierwsza\n')
    f.write('Linia druga\n')
    f.write('Linia trzecia\n')
    x = 1 / 0
finally:
    print('Zamykam plik')
    f.close()
    print('Plik zamkniety')

Zamykam plik
Plik zamkniety


ZeroDivisionError: division by zero

O zamknięcie pliku da się zadbać łatwiej

In [80]:
with open('test.txt', 'w') as f:
    f.write('Linia pierwsza\n')
    f.write('Linia druga\n')
    f.write('Linia trzecia\n')
    x = 1 / 0

ZeroDivisionError: division by zero

# with

- with jest używane do owinięcia bloku kodu za pomocą metod określonych w context managerze
- używane do zarządzania zasobami, które są używane w danym bloku
- da się dzięki temu ładnie owinąć try...except...finally


- https://docs.python.org/3/reference/compound_stmts.html#with
- https://www.python.org/dev/peps/pep-0343/

# contextmanager

- obiekt, który definiuje w jakim kontekście ma się wywołać owijany kod
- określa, co ma zrobić kod, który ma zostać wykonany na początku takiego bloku i na koniec
- zazwyczaj wywoływane ze pomocą with, ale da się też bezpośrednio wywołać poszczególne metody
- przykłady użycia: zamykanie otwartych plików, zwalnianie zasobów/locków, przywracanie jakeigoś globalnego stanu


- https://docs.python.org/3/reference/datamodel.html#context-managers
- https://docs.python.org/3/library/stdtypes.html#typecontextmanager

# Praca z plikami w trybie tekstowym

In [4]:
# czytanie całego tekstu z pliku na raz
with open('multiline_file.txt', 'r') as file:
    file_data = file.read()
    print(type(file_data))
    print(file_data)

<class 'str'>
Linia 1
Linia 2
Linia 3
Linia 4



In [7]:
# czytanie wybranej liczby znaków
with open('multiline_file.txt', 'r') as file:
    print(file.read(4))
    print(file.read(4))
    print(file.read(4))

Lini
a 1

Lini


In [8]:
# czytanie pojedynczej linii
with open('multiline_file.txt', 'r') as file:
    print(file.readline(), end='')
    print(file.readline(), end='')
    print(file.readline(), end='')
    print(file.readline(), end='')

Linia 1
Linia 2
Linia 3
Linia 4


In [9]:
# wczytanie wszystkich linii
with open('multiline_file.txt', 'r') as file:
    file_data = file.readlines()
    print(type(file_data))
    print(file_data)


<class 'list'>
['Linia 1\n', 'Linia 2\n', 'Linia 3\n', 'Linia 4\n']


In [10]:
# iterowanie po liniach w pliku
with open('multiline_file.txt', 'r') as file:
    for line in file:
        print(line, end='')


Linia 1
Linia 2
Linia 3
Linia 4


In [11]:
# tryb write powoduje nadpisanie zawartości pliku
with open('multiline_file.txt', 'w') as file:
    file.write('Nowa linia 1\n')
    file.write('Nowa linia 2\n')
    file.write('Nowa linia 3\n')
    file.write('Nowa linia 4\n')
    
with open('multiline_file.txt', 'r') as file:
    for line in file:
        print(line, end='')

Nowa linia 1
Nowa linia 2
Nowa linia 3
Nowa linia 4


In [12]:
# tryb append pozwala dodawać treść na koniec pliku
with open('multiline_file.txt', 'a') as file:
    file.write('APPEND Nowa linia\n')

with open('multiline_file.txt', 'r') as file:
    for line in file:
        print(line, end='')

Nowa linia 1
Nowa linia 2
Nowa linia 3
Nowa linia 4
APPEND Nowa linia


In [13]:
# file.write() zwraca liczbe zapisanych znakow
with open('another_file.txt', 'w') as file:
    how_many = file.write('Nowa linia 1\n')
print(how_many)

13


# Rozwiążmy zadanie rekrutacyjne w pythonie

Jesteś organizatorem Bardzo Popularnej Światowej Konferencji.
Zorganizowałeś już kilka edycji.
Listę e-maili uczestników konferencji przechowujesz w pliku CSV (pola
oddzielone średnikiem (`;`), wiersze oddzielone pojedynczym znakiem nowej
linii (`\n`)).
Wiesz, że każdy uczestnik ma adres email w formie:
    aaaaaa@bbbbb.cc
gdzie:
aaaaaa - login
bbbbb - domena firmy w jakiej pracuje uczestnik
cc - kraj zamieszkania uczestnika
długość pól a, b, nie jest stała. 
maile takie jak:
ala@xyz.pl i ala@xyz.at reprezentują dwie różne osoby.

Chciałbyś czegoś dowiedzieć się o uczestnikach konferencji. 

Proszę odpowiedz na poniższe pytania:

### 1. Ilu uczestników było na więcej niż jednej konferencji?
### 2. Ilu pracowników z Wielkiej Ogólnoświatowej Korporacji (WOK) uczestniczyło w przynajmniej jednej konferencji?
### 3. Z ilu krajów pochodzą uczestnicy wszystkich konferencji?

In [58]:
import csv

def get_conferences_for_emails():
    with open('conferences_data.csv') as csv_file:
        reader = csv.reader(csv_file, delimiter=';')
        next(reader)
        conferences_for_emails = {}
        for row in reader:
            for conference, email in enumerate(row):
                if not email:  # pomijamy puste emaile (listy uczestnikow sa roznej dlugosci)
                    continue
                try:
                    conferences = conferences_for_emails[email]
                except KeyError:
                    conferences = set()
                    conferences_for_emails[email] = conferences
                conferences.add(conference)
    return conferences_for_emails

conferences_for_emails = get_conferences_for_emails()

In [54]:
# 1. Ilu uczestników było na więcej niż jednej konferencji?
result1 = len([x for x, y in conferences_for_emails.items() if len(y) > 1])
print(result1)

210


In [55]:
# 2. Ilu pracowników z Wielkiej Ogólnoświatowej Korporacji (WOK) uczestniczyło w przynajmniej jednej konferencji?

def get_company_from_email(email):
    _, domain = email.split('@')
    company, _ = domain.split('.')
    return company

result2 = len([email for email in conferences_for_emails if get_company_from_email(email) == 'wok'])
print(result2)

74


In [56]:
# 3. Z ilu krajów pochodzą uczestnicy wszystkich konferencji?

def get_country_from_email(email):
    _, domain = email.split('@')
    _, country = domain.split('.')
    return country

result3 = len(set([get_country_from_email(email) for email in conferences_for_emails]))
print(result3)

19


## Wypisać 10 najczęściej występujących słów w Panu Tadeuszu

In [49]:
# Wypisać 10 najczęściej występujących słów w Panu Tadeuszu
# https://www.gutenberg.org/ebooks/31536
# https://docs.python.org/2/library/collections.html#collections.Counter

from collections import Counter
counter = Counter()
with open('pan_tadeusz.txt', 'r') as file:
    book_started = False
    for line in file:
        if not book_started:
            if '*** START OF THIS PROJECT GUTENBERG EBOOK' in line:
                book_started = True
            else:
                continue
        if '*** END OF THIS PROJECT GUTENBERG EBOOK' in line:
            break

        words = [word.lower() for word in line.split() if word.isalpha()]
        counter.update(words)

print(counter.most_common(10))

[('i', 1046), ('w', 949), ('się', 649), ('na', 622), ('z', 417), ('jak', 302), ('do', 278), ('s', 262), ('nie', 253), ('że', 251)]


# Praca z plikami w trybie binarnym

- tryb otwarcia pliku z 'b' na końcu
- umożliwia pracę z plikami niezawierającymi tekstu


In [16]:
with open('p4b_logo.bmp', 'rb') as fr:
    data = fr.read()
    print(type(data))
with open('copy_p4b_logo.bmp', 'wb') as fw:
    fw.write(data)

<class 'bytes'>


Przydatne funkcje
- seek - ustawia aktualną pozycję wskaźnika pozycji w pliku na wybraną
- tell - zwraca aktualną pozycję wskaźnika w pliku

In [15]:
with open('p4b_logo.bmp', 'rb') as fr:
    print(fr.tell())
    ten_bytes = fr.read(10)
    print(fr.tell())
    fr.seek(0)
    print(fr.tell())
    fr.seek(100)
    print(fr.tell())

0
10
0
100


## bytes
- wczytywane dane binarne są typu bytes - niezmiennej sekwencji 8-bitowych wartości (0-255)


## bytearray
- zmienna (mutowalna) wersja bytes
- jeżeli chcemy zmodyfikować plik, lepiej używać bytearray


- https://www.w3resource.com/python/python-bytes.php#bytes
- https://www.devdungeon.com/content/working-binary-data-python

In [19]:
with open('p4b_logo.bmp', 'rb') as fr:
    data = fr.read()
    print(type(data))
    data = bytearray(data)
    print(type(data))
with open('another_copy_p4b_logo.bmp', 'wb') as fw:
    fw.write(data)

<class 'bytes'>
<class 'bytearray'>
