# Ćwiczenia 4  - XML 

W naszych rozważaniach dotyczących informacji przechodzimy na poziom logiczny. Rozważać będziemy kilka podstawowych formatów. Pierwszym z nich będzie **XML**. Jest to język znaczników (z ang. *Extensible Markup Language*, czyli  *rozszerzalny język znaczników*) przeznaczony do reprezentowania różnych danych. XML jest standardem rekomendowanym oraz specyfikowanym przez organizację <a href="https://www.w3.org/">W3C</a>. Jest najpopularniejszym obecnie uniwersalnym językiem przeznaczonym do reprezentowania danych. 

W prezentacji znajdują się podstawowe informacje dotyczące XMLa oraz proste ćwiczenie, w którym nauczymy się tworzyć pliki poprawne pliki XML oraz deklaracje DTD.

Następnym krokiem będzie zautomatyzowanie procesu tworzenia plików XML oraz sczytywania ich zawartości. Posłużymy się tu dwiema bibliotekami Pythona.

Pierwszą z nich będzie biblioteka *xml*. Wykorzystamy moduł *etree*, ściślej jego podmoduł *ElementTree* i klasę **Element** do stworzenia drzewa XML.

In [44]:
import xml

In [45]:
dir(xml)

['__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 'dom',
 'etree',
 'parsers']

In [46]:
dir(xml.etree)

['ElementPath',
 'ElementTree',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__']

In [47]:
import xml.etree.ElementTree as ET

In [48]:
dir(ET)

['C14NWriterTarget',
 'Comment',
 'Element',
 'ElementPath',
 'ElementTree',
 'HTML_EMPTY',
 'PI',
 'ParseError',
 'ProcessingInstruction',
 'QName',
 'SubElement',
 'TreeBuilder',
 'VERSION',
 'XML',
 'XMLID',
 'XMLParser',
 'XMLPullParser',
 '_Element_Py',
 '_ListDataStream',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_escape_attrib',
 '_escape_attrib_c14n',
 '_escape_attrib_html',
 '_escape_cdata',
 '_escape_cdata_c14n',
 '_get_writer',
 '_looks_like_prefix_name',
 '_namespace_map',
 '_namespaces',
 '_raise_serialization_error',
 '_serialize',
 '_serialize_html',
 '_serialize_text',
 '_serialize_xml',
 '_set_factories',
 'canonicalize',
 'collections',
 'contextlib',
 'dump',
 'fromstring',
 'fromstringlist',
 'indent',
 'io',
 'iselement',
 'iterparse',
 'parse',
 're',
 'register_namespace',
 'sys',
 'tostring',
 'tostringlist',

Schemat pracy z modułem **xml.etree.ElementTree** do tworzenia drzewa xml.

In [5]:
# Element główny
root = ET.Element('root')

# tworzenie kolejnego elementu
child = ET.SubElement(root, 'child')
child.text = 'This is the child element'


child2 = ET.SubElement(root, 'child2')
child2.text = 'This is the second child element'

# utworzenie drzewa XML
tree = ET.ElementTree(root)

# zapisanie do pliku
tree.write('example.xml')

Spróbujmy wykonać podobne zadanie jak wcześniej - tworzenie biblioteki.

In [10]:
TODO

In [16]:
tree.findall('book')

[<Element 'book' at 0x000002344B966130>,
 <Element 'book' at 0x000002344B9662C0>]

Jedną z podstawowych struktur danych w Pythonie jest **słownik** (**dict**). O słowniku wspominaliśmy już na poprzednich zajęciach. Przypomina on nieco listę, z tym, że do  elementów słownika (wartości) odwołujemy się za pomocą klucza. Mamy zatem pary 

$$
\operatorname{my\_dictionary} = \{key1: value1, key2:value2,\dots\}
$$

Do wartości odwołujemy dostęp mamy za pomocą klucza:

$\operatorname{my\_dictionary}[key1]$ przechowuje wartość $value1$.

Wartością słownika może być inna struktura - lista, krotka, słownik, etc.

In [49]:
books = {
    'b_1': {'title': 'Analiza matematyczna - zbior zadan',  
            'authors': ['Krysicki', 'Wlodarski'], 
            'domain': 'Analiza matematyczna'},
    
    'b_2': {'title': 'Zbior zadan z analizy matematycznej',  
            'authors': ['Banas', 'Wedrychowicz'], 
            'domain': 'Analiza matematyczna'},  
    
 
    'b_3': {'title': 'Data Science od podstaw',  
            'authors': ['Grus'], 
            'domain': 'Informatyka'}, 
    
    'b_4': {'title': 'Rzecz o istocie informatyki',  
            'authors': ['Harel'], 
            'domain': 'Informatyka'}, 
    
    'b_5': {'title': 'Composition operators',  
            'authors': ['Shapiro'], 
            'domain': 'Analiza zespolona'}
}




Iterowanie po słowniku.

In [18]:
for k in books:
    print(k)

b_1
b_2
b_3
b_4
b_5


In [19]:
for k in books.keys():
    print(k)

b_1
b_2
b_3
b_4
b_5


In [20]:
for k, v in books.items():
    print(f'Klucz - {k}, wartość - {v}')

Klucz - b_1, wartość - {'title': 'Analiza matematyczna - zbiór zadań', 'authors': ['Krysicki', 'Włodarski'], 'domain': 'Analiza matematyczna'}
Klucz - b_2, wartość - {'title': 'Zbiór zadań z analizy matematycznej', 'authors': ['Banaś', 'Wędrychowicz'], 'domain': 'Analiza matematyczna'}
Klucz - b_3, wartość - {'title': 'Data Science od podstaw', 'authors': ['Grus'], 'domain': 'Informatyka'}
Klucz - b_4, wartość - {'title': 'Rzecz o istocie informatyki', 'authors': ['Harel'], 'domain': 'Informatyka'}
Klucz - b_5, wartość - {'title': 'Composition operators', 'authors': ['Shapiro'], 'domain': 'Analiza zespolona'}


In [21]:
for k in books:
    print(f'Klucz - {k}, wartość - {books[k]}')

Klucz - b_1, wartość - {'title': 'Analiza matematyczna - zbiór zadań', 'authors': ['Krysicki', 'Włodarski'], 'domain': 'Analiza matematyczna'}
Klucz - b_2, wartość - {'title': 'Zbiór zadań z analizy matematycznej', 'authors': ['Banaś', 'Wędrychowicz'], 'domain': 'Analiza matematyczna'}
Klucz - b_3, wartość - {'title': 'Data Science od podstaw', 'authors': ['Grus'], 'domain': 'Informatyka'}
Klucz - b_4, wartość - {'title': 'Rzecz o istocie informatyki', 'authors': ['Harel'], 'domain': 'Informatyka'}
Klucz - b_5, wartość - {'title': 'Composition operators', 'authors': ['Shapiro'], 'domain': 'Analiza zespolona'}


In [51]:
books['b_1']['title'], books['b_2']['domain'], books['b_5']['authors']

('Analiza matematyczna - zbior zadan', 'Analiza matematyczna', ['Shapiro'])

In [23]:
for k in books.keys():
    print(f'Klucz (zewnętrzny) - {k}')
    for k1, v1 in books[k].items():      
        print(f'Klucz (wewnętrzny) - {k1}, wartość - {v1}')

Klucz (zewnętrzny) - b_1
Klucz (wewnętrzny) - title, wartość - Analiza matematyczna - zbiór zadań
Klucz (wewnętrzny) - authors, wartość - ['Krysicki', 'Włodarski']
Klucz (wewnętrzny) - domain, wartość - Analiza matematyczna
Klucz (zewnętrzny) - b_2
Klucz (wewnętrzny) - title, wartość - Zbiór zadań z analizy matematycznej
Klucz (wewnętrzny) - authors, wartość - ['Banaś', 'Wędrychowicz']
Klucz (wewnętrzny) - domain, wartość - Analiza matematyczna
Klucz (zewnętrzny) - b_3
Klucz (wewnętrzny) - title, wartość - Data Science od podstaw
Klucz (wewnętrzny) - authors, wartość - ['Grus']
Klucz (wewnętrzny) - domain, wartość - Informatyka
Klucz (zewnętrzny) - b_4
Klucz (wewnętrzny) - title, wartość - Rzecz o istocie informatyki
Klucz (wewnętrzny) - authors, wartość - ['Harel']
Klucz (wewnętrzny) - domain, wartość - Informatyka
Klucz (zewnętrzny) - b_5
Klucz (wewnętrzny) - title, wartość - Composition operators
Klucz (wewnętrzny) - authors, wartość - ['Shapiro']
Klucz (wewnętrzny) - domain, wartoś

In [24]:
for k, v in books.items():
    print(f'Klucz (zewnętrzny) - {k}')
    for k1, v1 in v.items():      
        print(f'Klucz (wewnętrzny) - {k1}, wartość - {v1}')

Klucz (zewnętrzny) - b_1
Klucz (wewnętrzny) - title, wartość - Analiza matematyczna - zbiór zadań
Klucz (wewnętrzny) - authors, wartość - ['Krysicki', 'Włodarski']
Klucz (wewnętrzny) - domain, wartość - Analiza matematyczna
Klucz (zewnętrzny) - b_2
Klucz (wewnętrzny) - title, wartość - Zbiór zadań z analizy matematycznej
Klucz (wewnętrzny) - authors, wartość - ['Banaś', 'Wędrychowicz']
Klucz (wewnętrzny) - domain, wartość - Analiza matematyczna
Klucz (zewnętrzny) - b_3
Klucz (wewnętrzny) - title, wartość - Data Science od podstaw
Klucz (wewnętrzny) - authors, wartość - ['Grus']
Klucz (wewnętrzny) - domain, wartość - Informatyka
Klucz (zewnętrzny) - b_4
Klucz (wewnętrzny) - title, wartość - Rzecz o istocie informatyki
Klucz (wewnętrzny) - authors, wartość - ['Harel']
Klucz (wewnętrzny) - domain, wartość - Informatyka
Klucz (zewnętrzny) - b_5
Klucz (wewnętrzny) - title, wartość - Composition operators
Klucz (wewnętrzny) - authors, wartość - ['Shapiro']
Klucz (wewnętrzny) - domain, wartoś

**Zadanie.** Utwórz (automatycznie) drzewo XML wykorzystując dane ze słownika books. Utworzone dane zapisz w pliku.

In [37]:
TODO

Innym narzędziem do pracy z XML (również z HTML) jest biblioteka **bs4**. Jest ona szczególnie przydatna, gdy chcemy np. wydobyć dane z pliku XML i przedstawić je w innym formacie. Plik XML może mieć dużą objętość oraz skomplikowaną strukturę, wtedy wydobycie danych z takiego pliku jest możliwe właściwie tylko przy użyciu tego typu narzędzi.

In [50]:
from bs4 import BeautifulSoup

Załadujmy utworzony plik `biblioteka.xml`.

In [52]:
with open('biblioteka.xml', 'r') as file:
    data = file.read()

In [53]:
data

'<biblioteka><book><book_id>b_1</book_id><title>Analiza matematyczna - zbior zadan</title><authors>Krysicki</authors><authors>W;odarski</authors><domain>Analiza matematyczna</domain></book><book><book_id>b_2</book_id><title>Zbior zadan z analizy matematycznej</title><authors>Banas</authors><authors>Wedrychowicz</authors><domain>Analiza matematyczna</domain></book><book><book_id>b_3</book_id><title>Data Science od podstaw</title><authors>Grus</authors><domain>Informatyka</domain></book><book><book_id>b_4</book_id><title>Rzecz o istocie informatyki</title><authors>Harel</authors><domain>Informatyka</domain></book><book><book_id>b_5</book_id><title>Composition operators</title><authors>Shapiro</authors><domain>Analiza zespolona</domain></book></biblioteka>'

Nawet taki prosty plik jak `biblioteka.xml` w powyższej postaci jest mało czytelny. Spróbujmy nieco "ładniej" zaprezentować te dane. W tym celu utwórzmy instancję klasy (obiekt) `BeautifulSoup`. W tym celu musimy przekazać dwa parametry - parsowany tekst oraz rodzaj parsera.

In [81]:
soup = BeautifulSoup(data, 'xml')

Pierwsza z metod umożliwi nam "upiększyć" podgląd źródła.

In [82]:
soup.prettify()

'<?xml version="1.0" encoding="utf-8"?>\n<biblioteka>\n <book>\n  <book_id>\n   b_1\n  </book_id>\n  <title>\n   Analiza matematyczna - zbior zadan\n  </title>\n  <authors>\n   Krysicki\n  </authors>\n  <authors>\n   W;odarski\n  </authors>\n  <domain>\n   Analiza matematyczna\n  </domain>\n </book>\n <book>\n  <book_id>\n   b_2\n  </book_id>\n  <title>\n   Zbior zadan z analizy matematycznej\n  </title>\n  <authors>\n   Banas\n  </authors>\n  <authors>\n   Wedrychowicz\n  </authors>\n  <domain>\n   Analiza matematyczna\n  </domain>\n </book>\n <book>\n  <book_id>\n   b_3\n  </book_id>\n  <title>\n   Data Science od podstaw\n  </title>\n  <authors>\n   Grus\n  </authors>\n  <domain>\n   Informatyka\n  </domain>\n </book>\n <book>\n  <book_id>\n   b_4\n  </book_id>\n  <title>\n   Rzecz o istocie informatyki\n  </title>\n  <authors>\n   Harel\n  </authors>\n  <domain>\n   Informatyka\n  </domain>\n </book>\n <book>\n  <book_id>\n   b_5\n  </book_id>\n  <title>\n   Composition operators\n

Czy coś się wydarzyło? Sprawdźmy tak:

In [83]:
print(soup.prettify())

<?xml version="1.0" encoding="utf-8"?>
<biblioteka>
 <book>
  <book_id>
   b_1
  </book_id>
  <title>
   Analiza matematyczna - zbior zadan
  </title>
  <authors>
   Krysicki
  </authors>
  <authors>
   W;odarski
  </authors>
  <domain>
   Analiza matematyczna
  </domain>
 </book>
 <book>
  <book_id>
   b_2
  </book_id>
  <title>
   Zbior zadan z analizy matematycznej
  </title>
  <authors>
   Banas
  </authors>
  <authors>
   Wedrychowicz
  </authors>
  <domain>
   Analiza matematyczna
  </domain>
 </book>
 <book>
  <book_id>
   b_3
  </book_id>
  <title>
   Data Science od podstaw
  </title>
  <authors>
   Grus
  </authors>
  <domain>
   Informatyka
  </domain>
 </book>
 <book>
  <book_id>
   b_4
  </book_id>
  <title>
   Rzecz o istocie informatyki
  </title>
  <authors>
   Harel
  </authors>
  <domain>
   Informatyka
  </domain>
 </book>
 <book>
  <book_id>
   b_5
  </book_id>
  <title>
   Composition operators
  </title>
  <authors>
   Shapiro
  </authors>
  <domain>
   Analiza ze

Do przeszukiwania danych wykorzystuje się metody `find` lub `find_all`.

In [84]:
soup.find('book')

<book><book_id>b_1</book_id><title>Analiza matematyczna - zbior zadan</title><authors>Krysicki</authors><authors>W;odarski</authors><domain>Analiza matematyczna</domain></book>

In [85]:
soup.find_all('book')

[<book><book_id>b_1</book_id><title>Analiza matematyczna - zbior zadan</title><authors>Krysicki</authors><authors>W;odarski</authors><domain>Analiza matematyczna</domain></book>,
 <book><book_id>b_2</book_id><title>Zbior zadan z analizy matematycznej</title><authors>Banas</authors><authors>Wedrychowicz</authors><domain>Analiza matematyczna</domain></book>,
 <book><book_id>b_3</book_id><title>Data Science od podstaw</title><authors>Grus</authors><domain>Informatyka</domain></book>,
 <book><book_id>b_4</book_id><title>Rzecz o istocie informatyki</title><authors>Harel</authors><domain>Informatyka</domain></book>,
 <book><book_id>b_5</book_id><title>Composition operators</title><authors>Shapiro</authors><domain>Analiza zespolona</domain></book>]

Widzimy, że `find` wskazuje nam pierwszy napotkany element `book`. Z kolei `find_all` przechowuje wszystkie takie elementy w liście. A jak podejrzeć zawartość (tekstową) danego elementu?

In [92]:
b1 = soup.find('book')
b1.getText()

'b_1Analiza matematyczna - zbior zadanKrysickiW;odarskiAnaliza matematyczna'

In [94]:
t1 = soup.find('title')
t1.getText()

'Analiza matematyczna - zbior zadan'

Wyciągnijmy zatem dane z naszego pliku.

In [107]:
b_id_l = soup.find_all('book_id')
title_list = soup.find_all('title')
authors_list = soup.find_all('authors')
domain_list = soup.find_all('domain')

Element `title_list` nie jest listą!

In [106]:
type(title_list)

bs4.element.ResultSet

In [111]:
print('**************************')
print('idki:')
for el in b_id_l:
    print(el.getText())

print('**************************')
print('tytuły:')
    
for el in title_list:
    print(el.getText())

print('**************************')
print('autorzy:')
    
for el in authors_list:
    print(el.getText())

print('**************************')
print('dziedziny:')
    
for el in domain_list:
    print(el.getText())

**************************
idki:
b_1
b_2
b_3
b_4
b_5
**************************
tytuły:
Analiza matematyczna - zbior zadan
Zbior zadan z analizy matematycznej
Data Science od podstaw
Rzecz o istocie informatyki
Composition operators
**************************
autorzy:
Krysicki
W;odarski
Banas
Wedrychowicz
Grus
Harel
Shapiro
**************************
dziedziny:
Analiza matematyczna
Analiza matematyczna
Informatyka
Informatyka
Analiza zespolona



**Zadanie.** Widzimy, że z tego względu, że możemy mieć wielu autorów książki, nie możemy połączyć w ten sposób danych otrzymując kompletną informację o książce zapisaną w bazie. Moglibyśmy to zrobić albo zmieniając model przechowywania danych - wielu autorów w jednym elemencie XML lub inaczej użyć obiektu `soup`. Jak?

In [113]:
book_list = soup.find_all('book')
book_list[0]

<book><book_id>b_1</book_id><title>Analiza matematyczna - zbior zadan</title><authors>Krysicki</authors><authors>W;odarski</authors><domain>Analiza matematyczna</domain></book>

In [123]:
all_informations = []

for el in book_list:
    idd = el.find('book_id').getText()
    title = el.find('title').getText()
    domain = el.find('domain').getText()
    auth_l = el.find_all('authors')
    auth_text = []
    for e in auth_l:
        aut = e.getText()
        auth_text.append(aut)
    all_informations.append((idd, title, auth_text, domain))
all_informations

[('b_1',
  'Analiza matematyczna - zbior zadan',
  ['Krysicki', 'W;odarski'],
  'Analiza matematyczna'),
 ('b_2',
  'Zbior zadan z analizy matematycznej',
  ['Banas', 'Wedrychowicz'],
  'Analiza matematyczna'),
 ('b_3', 'Data Science od podstaw', ['Grus'], 'Informatyka'),
 ('b_4', 'Rzecz o istocie informatyki', ['Harel'], 'Informatyka'),
 ('b_5', 'Composition operators', ['Shapiro'], 'Analiza zespolona')]

## Zadania domowe

**Zadanie 1.** (1 pkt.) Zaprojektuj model danych, które mogą być przechowywane przez sklep. Sklep posiada kilka działów. Każdy dział posiada półki z towarami innego typu, np. “spożywcze”, “papiernicze”, “odzież”.

1.	Zaprojektuj model danych analogicznie, jak w przypadku biblioteki. 
2.	Zaprojektuj co najmniej trzy typy produktów. 

W zadaniu przygotuj plik XML z wewnętrznym schematem DTD.

**Zadanie 2.** (1 pkt.) Za pomocą biblioteki `bs4` przeszukaj w pętli plik utworzony w zadaniu podając informacje o produktach dostępnych na określonych półkach.


**Zadanie 3.** (2 pkt.) Napisz w Pythonie program z prostym interfejsem (konsola), który pozwoli pracownikowi biblioteki dopisać do bazy (plik XML) nową pozycję (book_id, tytuł, autorzy, dziedzina tematyczna).