# JSON encoder and decoder

JSON - текстовий формат для обміну даних, що базується на записі об'єктів в JavaScript. 

In [18]:
import json

Стандартна бібліотека Python надає доступ до бібліотеки json, яка забезпечує завантаження даних з файлу в форматі .json (або тексту фоматованого під json формат) у стандартні типи Python (зокрема dict та list), а також запис даних зі стандартних типів у файл у форматі json чи у тесті форматовий під json формат.

Функція dumps дозволяє перетворювати дані, збережені у стандартних типах, у текст форматований під json.

In [3]:
json.dumps({'hello': 'world'})

'{"hello": "world"}'

Додаткові параметри дозволяють зробити текст більш читабельним

In [5]:
print(json.dumps([1,2,3,{'4': 5, '6': 7}], indent=4))

[
    1,
    2,
    3,
    {
        "4": 5,
        "6": 7
    }
]


Функція dump працює аналогічно, лише записуючи дані у файл, об'єкт якого передано як параметр.

In [6]:
with open('test.json', 'w') as jsonfile:
    json.dump([1,2,3,{'4': 5, '6': 7}], jsonfile, indent=4)

In [7]:
with open('test.json', 'r') as jsonfile:
    print(jsonfile.read())

[
    1,
    2,
    3,
    {
        "4": 5,
        "6": 7
    }
]


Протилежно до функцій dump та dumps працюють функції load та loads, що забезпечують завантаження у стандартні типи даних з json-файлу, або форматованого тексту.

In [10]:
with open('test.json', 'r') as jsonfile:
    json_list = json.load(jsonfile)

In [11]:
json_list

[1, 2, 3, {'4': 5, '6': 7}]

In [12]:
type(json_list)

list

In [15]:
text = '[1, 2, 3, {"4": 5, "6": 7}]'
json_list_from_text = json.loads(text)

In [16]:
json_list_from_text

[1, 2, 3, {'4': 5, '6': 7}]

In [17]:
type(json_list_from_text)

list

# XML

XML- формат використовується для обміну ієрархічно структурованими даними між різними застосунками, зокрема через інтернет.
XML-документ має ієрархічну логічну структуру, і може представлятись у вигляді дерева.

In [1]:
import xml.etree.ElementTree as ET

Для обробки даних у форматі XML можна використати модуль xml.etree.ElementTree стандартної бібліотеки Python. Даний модуль дозволяє отримувати необхідні дані заходячи вглиб деревоподібної структури XML-файла. За допомогою функцій parse та fromstring можна здійснювати завантаження даних з xml-файлу або форматованого тексту відповідно. Отримані дані будуть одного з двох типів: або ElementTree, або Element

In [2]:
data = '''<note important='yes'>
<to>Oles</to>
<from>LvivEvents</from>
<heading>Reminder</heading>
<body>Check our code!</body>
</note>'''

root = ET.fromstring(data)

In [3]:
type(root)

xml.etree.ElementTree.Element

Завдяки атрибутам tag та attrib можна отримати назву зовнішньго тегу та словник з атрибутів відповідно

In [4]:
print(root.tag)
print(root.attrib)

note
{'important': 'yes'}


In [5]:
data = '''<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>'''

root = ET.fromstring(data)

Завдяки циклу for можна ітерувати по внутрішніх тегах(нащадках). Для кожного тегу можна доступитися по імені до його нащадка або його атрибутів. Також можна завдяки методу findall можна здіснити пошук всіх тегів по заданому шляху відносно елементу, до якого викликається метод.

In [6]:
for country in root:
    print('Name:', country.get('name'), 
          'Rank:', country.find('rank').text, 'Neighbors: ', end='')
    for neighbor in country.findall('neighbor'):
        print(neighbor.get('name'), end='|||')
    print()

Name: Liechtenstein Rank: 1 Neighbors: Austria|||Switzerland|||
Name: Singapore Rank: 4 Neighbors: Malaysia|||
Name: Panama Rank: 68 Neighbors: Costa Rica|||Colombia|||


# HTML

HTML - мова для розмітки веб-сторінок

Для цього пункту ми будемо використовувати бібліотеки requests - для отримання коду веб-сторінок і BeautifulSoup для його редагування.
Ці бібліотеки не є стандартними і потребують додаткового встановлення.

In [2]:
from bs4 import BeautifulSoup

In [3]:
from requests_html import HTMLSession

Тепер отримаємо код сторінки.

In [4]:
session = HTMLSession()
page = session.get("http://html.python-requests.org/")

In [5]:
page.text



Тепер покажемо приклад використання бібліотеки, виведемо ссилки, які є на сторінці.

In [7]:
page.html.absolute_links

{'http://docs.python-tablib.org/en/latest/',
 'http://howtopython.org/',
 'http://html.python-requests.org/_modules/requests_html.html#Element',
 'http://html.python-requests.org/_modules/requests_html.html#HTML',
 'http://html.python-requests.org/_modules/requests_html.html#HTML.render',
 'http://html.python-requests.org/_modules/requests_html.html#HTMLSession',
 'http://html.python-requests.org/_modules/requests_html.html#HTMLSession.request',
 'http://html.python-requests.org/_modules/requests_html.html#user_agent',
 'http://html.python-requests.org/genindex.html',
 'http://html.python-requests.org/py-modindex.html',
 'http://html.python-requests.org/search.html',
 'http://httpbin.org/',
 'http://kennethreitz.com/pages/open-projects.html',
 'http://kennethreitz.org/',
 'http://lxml.de',
 'http://pep8.org/',
 'http://pipenv.org/',
 'http://python-guide.org',
 'http://tinyletter.com/kennethreitz',
 'http://www.diveintopython3.net/strings.html',
 'http://www.git-legit.org',
 'https://d

In [None]:
Тепер розглянемо приклади використання бібліотеки BeautifulSoup.
Для початку створимо приклад html сторінки.

In [11]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Перетворимо в об'єкт класу BeautifulSoup.

In [9]:
soup = BeautifulSoup(html_doc, 'html.parser')

In [None]:
Покажемо цей код, як вкладену структуру даних.

In [10]:
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


Бібліотека BeautifulSoup дозволяє легко орієнтуватись в коді сторінки, ось приклади навігації по файлу.

In [14]:
soup.title

<title>The Dormouse's story</title>

In [15]:
soup.title.name

'title'

Це лиш деякі приклади, більше можна знайти в документації до бібліотеки BeautifulSoup