# Práce s knihovnou ElementTree XML API

Tento notebook slouží jako úvod do práce s knihovnou `xml.etree.ElementTree` v Pythonu, která umožňuje jednoduché zpracování XML dat. V průběhu tohoto cvičení se naučíte:
- Načítat XML data z řetězce
- Procházet a číst obsah XML stromu
- Přidávat nové elementy do existující struktury
- Ukládat upravený XML strom do souboru

dokumentaci naleznete zde: [Dokumentace ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html)

 **Definice XML dat:**  
  XML data jsou uložena v proměnné `xml_data` jako řetězec. Data obsahují kořenový element `<library>`, který má několik elementů `<book>`. Každý `<book>` má atribut `id` a obsahuje podřízené elementy `<title>`, `<author>` a `<year>`.

Ukázka XML dat:

```xml
<library>
    <book id="1">
        <title>Harry Potter a Kámen mudrců</title>
        <author>J.K. Rowling</author>
        <year>1997</year>
    </book>
    <book id="2">
        <title>Pán prstenů: Společenstvo prstenu</title>
        <author>J.R.R. Tolkien</author>
        <year>1954</year>
    </book>
    <book id="3">
        <title>1984</title>
        <author>George Orwell</author>
        <year>1949</year>
    </book>
</library>

## Načtení dat

Načtení XML dat z řetězce pomocí metody `fromstring()`:

In [2]:
import xml.etree.ElementTree as ET

# Ukázková XML data
xml_data = """
<library>
    <book id="1">
        <title>Harry Potter a Kámen mudrců</title>
        <author>J.K. Rowling</author>
        <year>1997</year>
    </book>
    <book id="2">
        <title>Pán prstenů: Společenstvo prstenu</title>
        <author>J.R.R. Tolkien</author>
        <year>1954</year>
    </book>
    <book id="3">
        <title>1984</title>
        <author>George Orwell</author>
        <year>1949</year>
    </book>
</library>
"""

# Vytvoření stromu z XML řetězce
root = ET.fromstring(xml_data)
print("Kořenový element:", root.tag)

Kořenový element: library


Načtení XML dat z řetězce pomocí metody `parse()`:

In [None]:
import xml.etree.ElementTree as ET

# Načtení XML souboru do stromu
tree = ET.parse('data.xml')

# Získání kořenového elementu
root = tree.getroot()

# Výpis názvu kořenového elementu
print("Kořenový element:", root.tag)

## Procházení XML struktury

V následujícím kódu projdeme všechny elementy `<country>` a vytiskneme jejich atributy a některé podřízené hodnoty.


### Procházení všech knih pomocí `findall()`

- **Vyhledání elementů:**  
  Metoda `root.findall('book')` vrací seznam všech přímých potomků s tagem `<book>`, což odpovídá jednotlivým knihám.

- **Výpis informací:**  
  Pro každý nalezený `<book>` se pomocí metody `find()` vyhledají podřízené elementy `<title>`, `<author>` a `<year>`. Výpis pak obsahuje ID knihy a informace o jejím názvu, autorovi a roce vydání.

In [3]:
print("Seznam knih v knihovně:")
for book in root.findall('book'):
    book_id = book.get('id')
    title = book.find('title').text
    author = book.find('author').text
    year = book.find('year').text
    print(f"Kniha {book_id}: {title} | Autor: {author} | Rok: {year}")

Seznam knih v knihovně:
Kniha 1: Harry Potter a Kámen mudrců | Autor: J.K. Rowling | Rok: 1997
Kniha 2: Pán prstenů: Společenstvo prstenu | Autor: J.R.R. Tolkien | Rok: 1954
Kniha 3: 1984 | Autor: George Orwell | Rok: 1949


### Vyhledání konkrétní knihy pomocí XPath filtru

- **Použití XPath:**  
  XPath výraz `"book[@id='2']"` se použije k nalezení prvního `<book>` elementu, jehož atribut `id` je `"2"`.

- **Výpis titulu:**  
  Pokud je kniha nalezena, vypíše se její titulek.


In [4]:
# Vyhledání konkrétní knihy s id='2' pomocí find() a XPath filtru
book_id2 = root.find("book[@id='2']")
if book_id2 is not None:
    title = book_id2.find('title').text
    print("\nKniha s id='2':", title)


Kniha s id='2': Pán prstenů: Společenstvo prstenu


### Aktualizace hodnoty elementu

- **Vyhledání knihy s `id='3'`:**  
  Pomocí `find("book[@id='3']")` se vyhledá element `<book>` s atributem `id="3"`.

- **Úprava roku vydání:**  
  Najde se podřízený element `<year>` a jeho textová hodnota se aktualizuje z původního roku na nový (v našem případě `"1950"`). Stará a nová hodnota se poté vypíší.


In [5]:
# Aktualizace roku vydání knihy s id='3'
book_id3 = root.find("book[@id='3']")
if book_id3 is not None:
    year_element = book_id3.find('year')
    old_year = year_element.text
    year_element.text = "1950"  # Aktualizace roku
    print(f"\nAktualizace roku pro knihu s id='3': {old_year} -> {year_element.text}")


Aktualizace roku pro knihu s id='3': 1949 -> 1950


### Výpis aktualizované struktury

- **Opětovný výpis:**  
  Po aktualizaci se znovu projdou všechny knihy pomocí `findall()`, aby se ověřila úspěšnost změny. Výpis obsahuje aktuální informace o všech knihách.

In [6]:
# Zobrazení aktualizované struktury XML
print("\nAktualizovaný seznam knih:")
for book in root.findall('book'):
    book_id = book.get('id')
    title = book.find('title').text
    author = book.find('author').text
    year = book.find('year').text
    print(f"Kniha {book_id}: {title} | Autor: {author} | Rok: {year}")


Aktualizovaný seznam knih:
Kniha 1: Harry Potter a Kámen mudrců | Autor: J.K. Rowling | Rok: 1997
Kniha 2: Pán prstenů: Společenstvo prstenu | Autor: J.R.R. Tolkien | Rok: 1954
Kniha 3: 1984 | Autor: George Orwell | Rok: 1950


In [7]:
# Vybereme první knihu
book = root.find('book')

# Změna hodnoty atributu 'id'
print("Původní atribut id:", book.get('id'))
book.set('id', '10')
print("Nová hodnota id:", book.get('id'))

# Přidání nového atributu 'genre'
book.set('genre', 'Fantasy')
print("Přidaný atribut genre:", book.get('genre'))

# Odstranění atributu 'genre'
del book.attrib['genre']
print("Atribut genre po odstranění:", book.get('genre'))  # Vypíše None

Původní atribut id: 1
Nová hodnota id: 10
Přidaný atribut genre: Fantasy
Atribut genre po odstranění: None


 - Příkaz `ET.Element('book', id="4")` vytváří nový XML element s tagem **book** a zároveň přiřazuje atribut **id** s hodnotou `"4"`. Tato syntaxe využívá klíčová slova v Pythonu, kdy se atributy předávají přímo při volání funkce.


 - Funkce `ET.SubElement` se používá pro vytvoření nových podřízených elementů uvnitř již existujícího elementu (v tomto případě nově vytvořeného elementu **book**). 
   - Pro každý podřízený element, například **title**, **author** nebo **year**, se ihned nastaví textový obsah pomocí atributu `.text`. 
   - To umožňuje vložit konkrétní hodnoty (např. "Nová kniha", "Autor X", "2021") přímo do elementů.


 - Metoda `root.append(new_book)` přidá vytvořený element `new_book` jako potomka ke kořenovému elementu `root`. 
    - Tento příkaz funguje podobně jako metoda `append` u seznamů v Pythonu, kdy se nový prvek přidá na konec seznamu potomků.


 - Metoda `findall('book')` vyhledá všechny přímé potomky kořenového elementu s tagem **book** a vrátí je jako seznam. Smyčka `for` poté iteruje přes tento seznam a pro každý element:
    - `book.get('id')` získá hodnotu atributu **id**.
    - `book.find('title').text` vyhledá první podřízený element **title** a získá jeho textový obsah.



In [8]:
# Přidání nové knihy
new_book = ET.Element('book', id="4")
ET.SubElement(new_book, 'title').text = "Nová kniha"
ET.SubElement(new_book, 'author').text = "Autor X"
ET.SubElement(new_book, 'year').text = "2021"
root.append(new_book)

print("Knihy po přidání nové:")
for book in root.findall('book'):
    print(book.get('id'), book.find('title').text)

# Odstranění knihy s id="2"
book_to_remove = root.find("book[@id='2']")
if book_to_remove is not None:
    root.remove(book_to_remove)

print("\nKnihy po odstranění knihy s id='2':")
for book in root.findall('book'):
    print(book.get('id'), book.find('title').text)

Knihy po přidání nové:
10 Harry Potter a Kámen mudrců
2 Pán prstenů: Společenstvo prstenu
3 1984
4 Nová kniha

Knihy po odstranění knihy s id='2':
10 Harry Potter a Kámen mudrců
3 1984
4 Nová kniha


### Pokročilé XPath dotazy – vysvětlení a ukázka

XPath (XML Path Language) je jazyk používaný k navigaci v XML dokumentech. Knihovna `xml.etree.ElementTree` podporuje omezenou množinu XPath, což umožňuje provádět pokročilé vyhledávací dotazy. 

#### Klíčové koncepty pokročilých XPath dotazů

1. **Filtrování podle hodnoty podřízeného elementu**

   - **Syntaxe:**  
     `book[year='1949']`  
     Tento výraz hledá všechny `<book>` elementy, u kterých podřízený element `<year>` má textovou hodnotu `"1949"`.

2. **Filtrování podle atributů**

   - **Syntaxe:**  
     `book[@id='2']`  
     Tento výraz najde `<book>` element s atributem `id`, jehož hodnota je `"2"`.

3. **Relativní hledání v celém stromu**

   - **Syntaxe:**  
     `.//book`  
     Tečka (`.`) označuje aktuální kontextový element a `//` umožňuje rekurzivně vyhledávat elementy `<book>` kdekoli v rámci potomků.


In [10]:
# Vyhledání knih, kde je rok vydání "1950"
books_1949 = root.findall("book[year='1950']")
print("Knihy vydané v roce 1950:")
for book in books_1949:
    print(book.find('title').text)

Knihy vydané v roce 1950:
1984


In [14]:
# Vyhledání knihy s konkrétním atributem id="2"
book_id4 = root.find("book[@id='4']")
if book_id4 is not None:
    print("\nKniha s id='4':", book_id4.find('title').text)


Kniha s id='4': Nová kniha


In [15]:
# Vyhledání všech knih v celém stromu (relativní hledání)
all_books = root.findall(".//book")
print("\nVšechny knihy (pomocí .//):")
for book in all_books:
    print(book.find('title').text)


Všechny knihy (pomocí .//):
Harry Potter a Kámen mudrců
1984
Nová kniha


###Formátovaný výstup XML (prettify) – Vysvětlení a Ukázka

Formátovaný výstup XML, často označovaný jako "prettify", zajišťuje, že výsledný XML dokument je přehledný a čitelný pro člověka. Standardní výstup z `xml.etree.ElementTree` může být kompaktní a bez odsazení, což komplikuje jeho čtení. K tomu, abychom XML řetězec "zkrášlili", můžeme využít modul `xml.dom.minidom`.

#### Klíčové body

1. **Převod XML stromu na řetězec:**  
   - Pomocí funkce `ET.tostring(root, encoding='utf-8')` převedeme celý XML strom na řetězec. Výsledný řetězec je obvykle kompaktní a nemá žádné formátování.

2. **Načtení řetězce do DOM objektu:**  
   - Modul `xml.dom.minidom` obsahuje funkci `parseString()`, která převede XML řetězec na DOM objekt, což umožňuje další manipulaci.

3. **Generování formátovaného výstupu:**  
   - Metoda `toprettyxml(indent="  ")` DOM objektu vytvoří formátovaný XML řetězec, kde parametr `indent` určuje odsazení (např. dvě mezery) pro každou úroveň hierarchie.
