# Práce se soubory

Pro přístup k souboru exituje příkaz `open`

Pro práce se souborem
- *Čtení*: metoda `read()`
- *Zapis*: metoda `write()`

Uzavření souboru po ukončení práce metoda `close()`

In [None]:
f = open('static/empty.txt')
f.read()
f.close()

**V čem může být problém?** 

Zachyvení výjimku

In [None]:
try:
    f = open('static/empty.txt')
    f.read()
finally:
    f.close()

nebo ješte líp:

In [None]:
with open('static/leave-me-alone.txt') as f:
    f.read()

## Mody otevření soubotu
- `r` = **read** = čtení
- `w` = **write** = zápis (smaže existující data)
- `a` = **append** = přidávání (zápis za existující obsah)
- `b` = **binary** = binární režim (jediná možnost vynechat kódování)
- `+` = **čtení** i zápis
- módy lze kombinovat (wb+)

vytvoření textového soubotu a zapsání řetězce

In [3]:
with open('static/test.txt', mode='a', encoding='utf8') as f:
    f.write('funguje to?\n')
    print('such print, very newline', file=f)

přečtení celého souboru najednou

In [10]:
with open('static/test.txt', mode='r', encoding='utf8') as f:
    print(len(f))

TypeError: object of type '_io.TextIOWrapper' has no len()

> #### Příklad
> Načtěte od uživatele vstup a uložte jej do souboru. 
> Následně soubor načtěte a vypište jeho obsah.

In [None]:
# Řešení

přečtení po řádcích

In [8]:
with open('static/test.txt', mode='r', encoding='utf8') as f:
    for radka in f:
        print(radka)  # proč dvojí odřádkování?

TypeError: '_io.TextIOWrapper' object is not subscriptable

přečtení *najednou* a rozdělení po řádcích

In [9]:
radky = []
with open('static/test.txt', mode='r', encoding='utf8') as f:
    radky = f.readlines()
print(radky)

['funguje to?\n', 'such print, very newline\n', 'funguje to?\n', 'such print, very newline\n']


> #### Příklad
> Spočítejte žádky v souboru `static/monty-python-fairy-tale.txt`

In [12]:
# Řešení
with open('static/monty-python-fairy-tale.txt', mode='r', encoding='utf8') as f:
    print(len(f.readlines()))

131


Metoda `seek(pozice)` umístí čtecí hlavu na danou pozici.
Má volitelný parametr **`whence = 0`**:
- **`0`**: Absolutní pozice od začátku souboru
- **`1`**: Relativní pozice od aktuální pozice
- **`2`**: Absolutni pozice od konce souboru
 
K metodě `seek` se váže metoda `tell()`, která vrátí aktuální pozici.

In [13]:
with open('static/monty-python-fairy-tale.txt', mode='r', encoding='utf8') as f:
    f.seek(2579)
    print(f.readline()) # Toto je první věta krále.

 f-tooo, Ni! Ni! Ni! Yow-oooo!!



### Vsuvka: regulární výrazy

Použíjte stránkt https://regex101.com pro ladění regulárního výrazu.

V prámci příkladu se Vám bude hodit:

- `\w`: jsou písmena číslice
- `[]`: pro vyjmenovuní možností
- `+`:  určuje počet
- `()`: definuje skupinu
- `\(` a `\)`: pro vyhledání znaku kulaté závorky

> #### Příklad
> Vypište všechny osoby a obsazení v pohádce `static/monty-python-fairy-tale.txt`

In [44]:
import re
regex = re.compile(r"^(.*?):\s\((.*?)\)")

with open('static/monty-python-fairy-tale.txt', mode='r', encoding='utf8') as f:
    for line in f:
        if match:= regex.search(line):
            print(match.groups())

('Narrator', 'John Cleese')
('Prosecutor', 'Terry Jones')
('Gaspar Sletts', 'Michael Palin')
('Defense', 'Eric Idle')
('Judge', 'Graham Chapman')
('King Otto', 'Terry Jones')
('Princess Mitzi', 'Carol Cleveland')
('Prince Charming', 'Michael Palin')
('Prince Walter', 'Michael Palin')
('Queen Syllabub', 'Graham Chapman')
('Tobaccanist', 'Graham Chapman')


In [46]:
import json
import requests

In [47]:
response = requests.get('https://restcountries.com/v3.1/name/Czechia')
response

<Response [200]>

In [62]:
czechia = response.json()[0]
czechia

{'name': {'common': 'Czechia',
  'official': 'Czech Republic',
  'nativeName': {'ces': {'official': 'Česká republika', 'common': 'Česko'},
   'slk': {'official': 'Česká republika', 'common': 'Česko'}}},
 'tld': ['.cz'],
 'cca2': 'CZ',
 'ccn3': '203',
 'cca3': 'CZE',
 'cioc': 'CZE',
 'independent': True,
 'status': 'officially-assigned',
 'unMember': True,
 'currencies': {'CZK': {'name': 'Czech koruna', 'symbol': 'Kč'}},
 'idd': {'root': '+4', 'suffixes': ['20']},
 'capital': ['Prague'],
 'altSpellings': ['CZ', 'Česká republika', 'Česko'],
 'region': 'Europe',
 'subregion': 'Central Europe',
 'languages': {'ces': 'Czech', 'slk': 'Slovak'},
 'translations': {'ara': {'official': 'جمهورية التشيك', 'common': 'التشيك'},
  'ces': {'official': 'Česká republika', 'common': 'Česko'},
  'cym': {'official': 'Y Weriniaeth Tsiec', 'common': 'Y Weriniaeth Tsiec'},
  'deu': {'official': 'Tschechische Republik', 'common': 'Tschechien'},
  'est': {'official': 'Tšehhi Vabariik', 'common': 'Tšehhi'},
  'f

In [60]:
%pip install pyyaml

Note: you may need to restart the kernel to use updated packages.


In [63]:
import yaml

In [81]:
with open("czechia.yaml", mode='w') as f:
    f.write(yaml.dump(czechia))

In [67]:
%pip install xmltodict
import xmltodict

Note: you may need to restart the kernel to use updated packages.


In [70]:
with open("czechia.xml", mode='w') as f:
    f.write(xmltodict.unparse({'czechia':czechia}))

In [79]:
with open("country.xml", mode='r') as f:
    result = xmltodict.parse(f.read())
    
    
for country in result['data']['country']:
    print(country['@name'])


Liechtenstein
Singapore
Panama


In [78]:
result['data']['country']

[OrderedDict([('@name', 'Liechtenstein'),
              ('rank', '1'),
              ('year', '2008'),
              ('gdppc', '141100'),
              ('neighbor',
               [OrderedDict([('@name', 'Austria'), ('@direction', 'E')]),
                OrderedDict([('@name', 'Switzerland'),
                             ('@direction', 'W')])])]),
 OrderedDict([('@name', 'Singapore'),
              ('rank', '4'),
              ('year', '2011'),
              ('gdppc', '59900'),
              ('neighbor',
               OrderedDict([('@name', 'Malaysia'), ('@direction', 'N')]))]),
 OrderedDict([('@name', 'Panama'),
              ('rank', '68'),
              ('year', '2011'),
              ('gdppc', '13600'),
              ('neighbor',
               [OrderedDict([('@name', 'Costa Rica'), ('@direction', 'W')]),
                OrderedDict([('@name', 'Colombia'), ('@direction', 'E')])])])]

In [80]:
import csv

In [114]:

with open('sample_MAZ.csv', mode='r') as csv_file:
    reader = csv.DictReader(csv_file, delimiter=';')
    for row in reader:
        xml_dict = xmltodict.parse(row['doplnujiciinformace'])        
        print(row['id'], find_login(xml_dict))

67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 login
67774065 None
67420821 None
67420822 None
67774064 None
67774063 None
67774066 

In [102]:
import sys
csv.field_size_limit(2**24)

16777216

In [112]:
def find_login(xml_dict, name = 'Login') -> str:
    if name in xml_dict.keys():
        return xml_dict[name]
    
    for key, value in xml_dict.items():
        if isinstance(value, dict):
            if result:= find_login(value, name):
                return result
    return None

find_login({'abc': {
    'Login': 'superman'
}})

'superman'

In [120]:
city = {
    'name': 'Praha'
}
country = {
    'name': 'Česká republika'
}
country['city'] = city
city['country'] = country

country

{'name': 'Česká republika', 'city': {'name': 'Praha', 'country': {...}}}

In [121]:
with open('demo.json', mode='w') as demo:
    json.dump(country, demo)

ValueError: Circular reference detected

In [124]:
import pickle

with open('demo.pkl', mode='wb') as pkl:
    pickle.dump(country, pkl)

In [126]:
with open('demo.pkl', mode='rb') as pkl:
    print(pickle.load(pkl))

{'name': 'Česká republika', 'city': {'name': 'Praha', 'country': {...}}}
