# Глава 6 Кодирование и обработка данных(Python Дэвид Бизли)

Основная тема этой главы — использование Python для обработки данных, представленных в различных типах распространенных форматов, таких как файлы
CSV, JSON, XML и упакованные бинарные записи. 

В отличие от главы о структурах
данных, здесь мы не будем фокусироваться на конкретных алгоритмах, а рассмотрим задачу получения данных из программы и передачи данных в программу.

# Чтение и запись данных в формате CSV

Вы хотите прочесть или записать данные в CSV-файл.


Для большей части CSV-данных можно использовать библиотеку csv. Предположим, что у вас есть данные о рынке акций в файле stocks.csv:

Symbol,Price,Date,Time,Change,Volume
"AA",39.48,"6/11/2007","9:36am",-0.18,181800
"AIG",71.38,"6/11/2007","9:36am",-0.15,195500
"AXP",62.58,"6/11/2007","9:36am",-0.46,935000
"BA",98.31,"6/11/2007","9:36am",+0.12,104800
"C",53.08,"6/11/2007","9:36am",-0.25,360900
"CAT",78.29,"6/11/2007","9:36am",-0.23,225400

Вот как вы могли бы прочитать данные в последовательность кортежей:

In [2]:
import csv
with open('stocks.csv') as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    for row in f_csv:
        print(row)

['AA', '39.48', '6/11/2007', '9:36am', '-0.18', '181800']
['AIG', '71.38', '6/11/2007', '9:36am', '-0.15', '195500']
['AXP', '62.58', '6/11/2007', '9:36am', '-0.46', '935000']
['BA', '98.31', '6/11/2007', '9:36am', '+0.12', '104800']
['C', '53.08', '6/11/2007', '9:36am', '-0.25', '360900']
['CAT', '78.29', '6/11/2007', '9:36am', '-0.23', '225400']


В приведенном выше коде строке соответствует кортеж. Поэтому для доступа
к определенному полю вам нужно использовать индексирование: row[0] (Symbol)
и row[4] (Change).

Поскольку такое индексирование часто может быть запутанным, вы можете захотеть использовать именованные кортежи. Например:

In [4]:
from collections import namedtuple
with open('stocks.csv') as f:
    f_csv = csv.reader(f)
    headings = next(f_csv)
    Row = namedtuple('Row', headings)
    for r in f_csv:
        row = Row(*r)
        print(row)

Row(Symbol='AA', Price='39.48', Date='6/11/2007', Time='9:36am', Change='-0.18', Volume='181800')
Row(Symbol='AIG', Price='71.38', Date='6/11/2007', Time='9:36am', Change='-0.15', Volume='195500')
Row(Symbol='AXP', Price='62.58', Date='6/11/2007', Time='9:36am', Change='-0.46', Volume='935000')
Row(Symbol='BA', Price='98.31', Date='6/11/2007', Time='9:36am', Change='+0.12', Volume='104800')
Row(Symbol='C', Price='53.08', Date='6/11/2007', Time='9:36am', Change='-0.25', Volume='360900')
Row(Symbol='CAT', Price='78.29', Date='6/11/2007', Time='9:36am', Change='-0.23', Volume='225400')


Это позволит использовать вместо индексов заголовки колонок, такие как 

row.Symbol и row.Change. 

Стоит отметить, что это сработает только в том случае, если
заголовки колонок являются валидными идентификаторами Python. 

Если это не
так, вы должны будете обработать эти заголовки (например, заменить неподходящие символы подчеркиваниями или аналогичными).

Еще одна альтернатива – прочесть данные в виде последовательности словарей. Чтобы это сделать, используйте такой код:

In [5]:
import csv
with open('stocks.csv') as f:
    f_csv = csv.DictReader(f)
    for row in f_csv:
        print(row)


OrderedDict([('Symbol', 'AA'), ('Price', '39.48'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.18'), ('Volume', '181800')])
OrderedDict([('Symbol', 'AIG'), ('Price', '71.38'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.15'), ('Volume', '195500')])
OrderedDict([('Symbol', 'AXP'), ('Price', '62.58'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.46'), ('Volume', '935000')])
OrderedDict([('Symbol', 'BA'), ('Price', '98.31'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '+0.12'), ('Volume', '104800')])
OrderedDict([('Symbol', 'C'), ('Price', '53.08'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.25'), ('Volume', '360900')])
OrderedDict([('Symbol', 'CAT'), ('Price', '78.29'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.23'), ('Volume', '225400')])


В этой версии вы можете обращаться к элементам каждой строки, используя
заголовки строки. 

Например, row['Symbol'] или row['Change'].

Чтобы записать данные в  CSV, вы также можете использовать модуль csv, но
создавая объект writer. Например:

In [6]:
headers = ['Symbol','Price','Date','Time','Change','Volume']
rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
        ('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
        ('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),]

with open('stocks1.csv','w') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(headers)
    f_csv.writerows(rows)

In [7]:
#Если у вас есть данные в форме последовательности словарей, сделайте так:
headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007', 'Time':'9:36am', 'Change':-0.18, 'Volume':181800},
 {'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007', 'Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
 {'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007', 'Time':'9:36am', 'Change':-0.46, 'Volume': 935000},]

In [9]:
with open('stocks2.csv','w') as f:
    f_csv = csv.DictWriter(f, headers)
    f_csv.writeheader()
    f_csv.writerows(rows)

Вы должны практически всегда предпочитать модуль csv ручному разрезанию
и парсингу CSV-данных. 

Например, вы можете просто написать такой код:

In [None]:
with open('stocks.csv') as f:
    for line in f:
        row = line.split(',')
 # Обработка строки

Проблема подобного подхода в том, что придется разбираться с надоедливыми
деталями. 

Например, если одно из полей окружено кавычками, вы должны будете
их срезать. 

А если это закавыченное поле содержит запятую, код сломается, поскольку выдаст строку неверного размера.

По умолчанию библиотека csv запрограммирована понимать правила кодирования CSV, которые используются Microsoft Excel. 

Это, вероятно, наиболее распространенный вариант, и он с высокой вероятностью обеспечит вам наилучшую
совместимость. 

Однако вы можете свериться с документацией модуля csv, и там
вы найдете настройки, которые помогут работать с кодировками другого формата
(например, заменить символ-разделитель и т. п.) Например, если вы хотите прочесть данные, разделенные символами табуляции, используйте вот такой код:

In [None]:
# Пример чтения разделенных символом табуляции значений
with open('stock.tsv') as f:
    f_tsv = csv.reader(f, delimiter='\t')
    for row in f_tsv:
    # Обработка строки

Если вы читаете данные в CSV и конвертируете их в именованные кортежи, вам
нужно быть аккуратными с валидацией заголовков колонок.

Например, CSV-файл
может иметь строку заголовка, содержащую невалидный символ:

Street Address,Num-Premises,Latitude,Longitude
5412 N CLARK,10,41.980262,-87.668452

Это при создании экземпляра namedtuple возбудит исключение ValueError. Чтобы обойти проблему, вам может потребоваться почистить заголовки. Например,
разобраться с невалидными символами с помощью регулярного выражения:


In [None]:
import re
with open('stock.csv') as f:
    f_csv = csv.reader(f)
    headers = [ re.sub('[^a-zA-Z_]', '_', h) for h in next(f_csv) ]
    Row = namedtuple('Row', headers)
    for r in f_csv:
        row = Row(*r)
        # Обработка строки

Важно отметить, что модуль csv не пытается интерпретировать данные или
конвертировать их в какой-то другой тип, нежели строку. Если такие преобразования нужны, их вам придется выполнить самостоятельно. Вот пример выполнения
дополнительных преобразований типов CSV-данных:


In [None]:
col_types = [str, float, str, str, float, int]
with open('stocks.csv') as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    for row in f_csv:
     # Применение преобразований к элементам строки
     row = tuple(convert(value) for convert, value in zip(col_types, row))
 ...


Альтернативный пример преобразования выбранных полей словарей:

In [None]:
print('Reading as dicts with type conversion')
field_types = [ ('Price', float), ('Change', float), ('Volume', int) ]
with open('stocks.csv') as f:
    for row in csv.DictReader(f):
        row.update((key, conversion(row[key])) for key, conversion in field_types)
        print(row)

В общем, вам стоит быть осторожными с такими преобразованиями. 

В реальном мире в CSV-файлах часто попадаются отсутствующие поля, поврежденные
данные и прочие проблемы, которые могут поломать преобразования типов. 

Так что если ваши данные не являются гарантированно безошибочными, об этом стоит помнить (например, вы можете добавить подходящую обработку исключений).

Наконец, если ваша цель – чтение CSV-данных для выполнения анализа данных
и статистических расчетов, вы можете взглянуть на пакет Pandas. 

Pandas включает удобную функцию pandas.read_csv(), которая загружает CSV-данные в объект
DataFrame. 

Далее вы можете провести различные статистические расчеты, отфильтровать данные и выполнить другие высокоуровневые операции. 

# Чтение и запись в формате JSON

Вы хотите прочитать или записать данные, закодированные в  JSON (JavaScript
Object Notation).

Модуль json предоставляет простой способ кодировать и  декодировать данные
в JSON. Две главные функции – json.dumps() и json.loads() – соответствуют интерфейсу других библиотек для сериализации, таких как pickle. 

Вот как вы можете
превратить структуру данных Python в JSON:

In [2]:
import json
data = {
 'name' : 'ACME',
 'shares' : 100,
 'price' : 542.23
}
#сериализация
json_str = json.dumps(data)
print(json_str)

{"name": "ACME", "shares": 100, "price": 542.23}


А вот как можно превратить строку в JSON обратно в структуру данных Python:

In [3]:
# Запись JSON-данных
with open('data_json.json', 'w') as f:
    json.dump(data, f)
# Чтение данных
with open('data_json.json', 'r') as f:
    data = json.load(f)
    print(data)
    

{'name': 'ACME', 'shares': 100, 'price': 542.23}


Кодирование в JSON поддерживает базовые типы: None, bool, int, float, str, – а также списки, кортежи и словари, содержащие эти типы. 

В случае словарей ключами
должны быть строки (все нестроковые ключи будут преобразованы в строки во
время кодирования). 

Чтобы соответствовать спецификации JSON, вы должны кодировать только списки и словари Python. Более того, для веб-приложений стандартной практикой является использование именно словарей в качестве объектов верхнего уровня.

Формат JSON практически идентичен синтаксису Python, за исключением нескольких небольших изменений. 

Например, True отображается на true, False – на
false, а None – на null. Вот пример того, как выглядят закодированные данные:


In [4]:
json.dumps(False)

'false'

In [6]:
d = {'a': True, 'b': 'Hello', 'c': None}

In [7]:
json.dumps(d)

'{"a": true, "b": "Hello", "c": null}'

Если вы хотите изучить данные, которые вы раскодировали из JSON, часто бывает трудно установить их структуру путем простого вывода, особенно если присутствует многоуровневая вложенность или большое количество различных полей. 

Чтобы справиться с  этой задачей, попробуйте функцию pprint() из модуля
pprint. 

Она расположит ключи в алфавитном порядке и выведет словарь в более
понятном виде. 

Вот пример того, как вы можете симпатично вывести результаты
поиска по Twitter:

In [None]:
from urllib.request import urlopen
import json
u = urlopen('http://search.twitter.com/search.json?q=python&rpp=5')
resp = json.loads(u.read().decode('utf-8'))
from pprint import pprint
pprint(resp)

In [None]:
{'completed_in': 0.074,
'max_id': 264043230692245504,
'max_id_str': '264043230692245504',
'next_page': '?page=2&max_id=264043230692245504&q=python&rpp=5',
'page': 1,
'query': 'python',
'refresh_url': '?since_id=264043230692245504&q=python',
'results': [{'created_at': 'Thu, 01 Nov 2012 16:36:26 +0000',
 'from_user': ...
},
 {'created_at': 'Thu, 01 Nov 2012 16:36:14 +0000',
 'from_user': ...
 },
 {'created_at': 'Thu, 01 Nov 2012 16:36:13 +0000',
 'from_user': ...
 },
 {'created_at': 'Thu, 01 Nov 2012 16:36:07 +0000',
 'from_user': ...
 }
 {'created_at': 'Thu, 01 Nov 2012 16:36:04 +0000',
 'from_user': ...
 }],
 'results_per_page': 5,
 'since_id': 0,
 'since_id_str': '0'}


В обычном случае декодирование JSON создаст из предоставленных данных
словари или списки. 

Если вы хотите создать другие объекты, передайте objects_pair_hook или object_hook функции json.loads().

Например, вы можете декодировать
JSON-данные, сохраняя их порядок в OrderedDict:

In [9]:
s = '{"name": "ACME", "shares": 50, "price": 490.1}'

In [10]:
from collections import OrderedDict
data = json.loads(s, object_pairs_hook=OrderedDict)
data

OrderedDict([('name', 'ACME'), ('shares', 50), ('price', 490.1)])

Вот как вы можете превратить словарь JSON в объект Python:

In [15]:
class JSONObject:
    def __init__(self, d):
        print('d = ', d)
        self.__dict__ = d

data = json.loads(s, object_hook=JSONObject)

d =  {'name': 'ACME', 'shares': 50, 'price': 490.1}


In [12]:
data.name

'ACME'

In [13]:
data.shares

50

In [14]:
data.price

490.1

В последнем примере созданный при декодировании JSON-данных словарь
передается как единственный аргумент в __init__(). Далее вы можете использовать
его, как хотите, в том числе и напрямую в качестве экземпляра словаря объекта.

Есть несколько параметров, которые могут быть полезны при кодировании
в JSON. Если вы хотите, чтобы вывод был симпатично отформатирован, то можете использовать аргумент indent функции json.dumps(). 

В этом случае вывод будет
красиво выводиться – в формате, похожем на вывод фунции pprint(). Например:

In [17]:
data = {"name": "ACME", "shares": 50, "price": 490.1}

In [18]:
print(json.dumps(data))

{"name": "ACME", "shares": 50, "price": 490.1}


In [19]:
print(json.dumps(data, indent=4))

{
    "name": "ACME",
    "shares": 50,
    "price": 490.1
}


Если вы хотите, чтобы при выводе происходила сортировка ключей, используйте аргумент sort_keys:

In [20]:
print(json.dumps(data, sort_keys=True))

{"name": "ACME", "price": 490.1, "shares": 50}


Экземпляры в обычном случае не являются сериализуемыми. Например:

In [31]:
class Point:
    def __init__(self, x, y):
        self.x = x
        self.y = y
        
p = Point(2, 3)
json.dumps(p)

TypeError: Object of type Point is not JSON serializable

Если вы хотите сериализовать экземпляры, то можете предоставить функцию,
которая принимает экземпляр на вход и возвращает словарь, который может быть
сериализован. Например:

In [34]:
def serialize_instance(obj):
    d = { '__classname__' : type(obj).__name__ }
    d.update(vars(obj))
    return d

Если вы хотите получить экземпляр обратно, то можете сделать это так:

In [35]:
# Словарь отображения имен на известные классы
classes = {
 'Point' : Point
}

In [36]:
def unserialize_object(d):
    clsname = d.pop('__classname__', None)
    if clsname:
        cls = classes[clsname]
        obj = cls.__new__(cls) # Создание экземпляра без вызова __init__
        for key, value in d.items():
            setattr(obj, key, value)
        return obj
    else:
        return d

Вот пример того, как используются эти функции:

In [37]:
p = Point(2,3)
s = json.dumps(p, default=serialize_instance)
s

'{"__classname__": "Point", "x": 2, "y": 3}'

In [38]:
a = json.loads(s, object_hook=unserialize_object)
a

<__main__.Point at 0x1ad583368d0>

In [39]:
a.x

2

In [40]:
dir(a)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'x',
 'y']

In [41]:
a.y

3

В модуле json множество других возможностей для контроля низкоуровневой
интерпретации чисел, специальных значений (таких как NaN) и т. п. Обратитесь
к документации за подробностями

#  Парсинг простых XML-данных

Вы хотите извлечь данные из простого XML-документа.

Модуль xml.etree.ElementTree может быть использован для извлечения данных из
простых XML-документов. 

Чтобы продемонстрировать это, предположим, что вы
хотите распарсить и подготовить выжимку RSS-канала Planet Python. Вот скрипт,
который это сделает:

In [1]:
from urllib.request import urlopen
from xml.etree.ElementTree import parse

# Скачивание и парсинг RSS-канала
u = urlopen('http://planet.python.org/rss20.xml')
doc = parse(u)
# Извлечение и вывод нужных тегов
for item in doc.iterfind('channel/item'):
    title = item.findtext('title')
    date = item.findtext('pubDate')
    link = item.findtext('link')
    print(title)
    print(date)
    print(link)
    print()

Mike Driscoll: PyDev of the Week: Sebastián Ramírez
Mon, 20 Jan 2020 06:05:33 +0000
http://www.blog.pythonlibrary.org/2020/01/20/pydev-of-the-week-sebastian-ramirez/

IslandT: Link together the Tkinter user interface and database Input class
Mon, 20 Jan 2020 06:04:10 +0000
https://kibiwebgeek.com/link-together-the-tkinter-user-interface-and-database-input-class/

Ionel Cristian Maries: Is there anything safe in python?
Sun, 19 Jan 2020 22:00:00 +0000
https://blog.ionelmc.ro/2020/01/20/is-there-anything-safe-in-python/

Codementor: How To Publish Your Own Python Package
Sun, 19 Jan 2020 21:48:24 +0000
https://www.codementor.io/ajayagrawal295/how-to-publish-your-own-python-package-12tbhi20tf

Simple is Better Than Complex: How to Use Chart.js with Django
Sun, 19 Jan 2020 15:00:00 +0000
https://simpleisbetterthancomplex.com/tutorial/2020/01/19/how-to-use-chart-js-with-django.html

Weekly Python StackOverflow Report: (ccxi) stackoverflow python report
Sun, 19 Jan 2020 12:01:00 +0000
http:/

Очевидно, что если вы хотите провести дополнительную обработку, вам нужно
заменить инструкции print() на что-то более интересное.

В очень многих приложениях нужно работать с XML-данными.

XML не только широко используется в качестве формата для обмена данными через интернет, это
также распространенный формат хранения данных приложений (обработка текста, музыкальные библиотеки и т. п.). 

Следующее обсуждение подразумевает, что
читатель уже знаком с основами XML.

Во многих случаях, когда XML просто используется для хранения данных,
структура документа проста и прямолинейна. 

Например, RSS-поток из примера
выглядит примерно так:

In [None]:
<?xml version="1.0"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
    <title>Planet Python</title>
    <link>http://planet.python.org/</link>
    <language>en</language>
    <description>Planet Python - http://planet.python.org/</description>
    <item>
        <title>Steve Holden: Python for Data Analysis</title>
        <guid>http://holdenweb.blogspot.com/...-data-analysis.html</guid>
        <link>http://holdenweb.blogspot.com/...-data-analysis.html</link>
        <description>...</description>
        <pubDate>Mon, 19 Nov 2012 02:13:51 +0000</pubDate>
    </item>
    <item>
        <title>Vasudev Ram: The Python Data model (for v2 and v3)</title>
        <guid>http://jugad2.blogspot.com/...-data-model.html</guid>
        <link>http://jugad2.blogspot.com/...-data-model.html</link>
        <description>...</description>
        <pubDate>Sun, 18 Nov 2012 22:06:47 +0000</pubDate>
    </item>
    <item>
        <title>Python Diary: Been playing around with Object Databases</title>
        <guid>http://www.pythondiary.com/...-object-databases.html</guid>
        <link>http://www.pythondiary.com/...-object-databases.html</link>
        <description>...</description>
        <pubDate>Sun, 18 Nov 2012 20:40:29 +0000</pubDate>
    </item>
 ...
</channel>
</rss>

Функция xml.etree.ElementTree.parse() парсит весь XML-документ в объект document. Далее вы можете использовать такие методы, как find(), iterfind() и findtext(),
для поиска определенных XML-элементов. 

Аргументы этих функций – это имена
определенных тегов, такие как channel/item или title.
Когда вы задаете теги, то должны принимать во внимание всю структуру документа. Каждая операция поиска предпринимается относительно стартового элемента. 

Тег, который вы предоставляете каждой операции, также рассматривается
относительно старта. 

В  вышеприведенном примере вызов doc.iterfind('channel/
item') найдет все элементы «item» под элементом «channel». doc представляет вершину документа (высший уровень – элемент «rss»). 

Последующие вызовы item.findtext() будут делаться относительно найденных элементов «item».
Каждый элемент, представленный модулем ElementTree, имеет несколько основных атрибутов и методов, весьма полезных при парсинге. 

Атрибут tag содержит имя тега, атрибут text содержит прилагаемый текст, а метод get() может быть
использован для извлечения атрибутов (если они присутствуют). 

Например:

In [2]:
doc

<xml.etree.ElementTree.ElementTree at 0x22d8c4a1358>

In [3]:
e = doc.find('channel/title')
e

<Element 'title' at 0x0000022D8C4A7E58>

In [4]:
e.tag

'title'

In [5]:
e.text

'Planet Python'

In [7]:
e.get('some_attribute')

Стоит отметить, что xml.etree.ElementTree – не единственный способ парсинга XML. Для более продвинутых приложений вы можете попробовать lxml. 

Эта
библиотека использует тот же интерфейс, что и  ElementTree, так что вышеприведенные примеры будут работать так же. 

Вы просто должны изменить первую
инструкцию import на from lxml.etree import parse. Библиотека lxml имеет преимущество – полное соответствие стандартам XML. Она также чрезвычайно быстро
работает и предоставляет поддержку таких возможностей, как валидация, XSLT
и XPath.

# Пошаговый парсинг очень больших XMl-файлов 

Вам нужно извлечь данные из огромного XML документа, используя как можно меньше памяти. 

Каждый раз, когда вы сталкиваетесь с пошаговой обработкой данных, вы должны вспоминать об итераторах и генераторах. 

Вот простая функция, которая может быть использована для пошаговой обработки огромных XML файлов при очень небольшом потреблении памяти: 

In [None]:
from xml.etree.ElementTree import iterparse 

def parse_and_remove(filename, path):
    path_parts = path.split('/') 
    doc = iterparse(filename, ('start', 'end'))     
    # Пропуск корневого элемента     
    next(doc)
    
    tag_stack = []     
    elem_stack = []     
    for event, elem in doc:     
        if event == 'start':
            tag_stack.append(elem.tag) 
            elem_stack.append(elem) 
        elif event == 'end':
            if tag_stack == path_parts:                 
                yield elem 
                elem_stack[-2].remove(elem) 
            try:
                tag_stack.pop() 
                elem_stack.pop()
            except IndexError: 
                pass

Чтобы протестировать функцию, вам потребуется большой XML файл. 
Часто такие файлы можно найти на государственных сайтах и ресурсах с открытой информацией. 

Например, вы можете скачать базу данных выбоин на дорогах Чикаго в формате XML. 

Когда писалась эта книга, данный файл состоял из более чем 100 000 строк данных, которые были закодированы так: 

In [None]:
<response>     
    <row>         
        <row ...>
            <creation_date>2012-11-18T00:00:00</creation_date>         
            <status>Completed</status>
            <completion_date>2012-11-18T00:00:00</completion_date>             
            <service_request_number>12-01906549</service_request_number>
            <type_of_service_request>Pot Hole in Street</type_of_service_request>
            <current_activity>Final Outcome</current_activity>
            <most_recent_action>CDOT Street Cut ... Outcome</most_recent_action>
            <street_address>4714 S TALMAN AVE</street_address>
            <zip>60632</zip>
            <x_coordinate>1159494.68618856</x_coordinate>
            <y_coordinate>1873313.83503384</y_coordinate>
            <ward>14</ward>
            <police_district>9</police_district>
            <community_area>58</community_area>
            <latitude>41.808090232127896</latitude>
            <longitude>-87.69053684711305</longitude>
            <location latitude="41.808090232127896" longitude="-87.69053684711305" />         
        /row>
        <row ...>
            <creation_date>2012-11-18T00:00:00</creation_date>
            <status>Completed</status>             
            <completion_date>2012-11-18T00:00:00</completion_date>
            <service_request_number>12-01906695</service_request_number>
            <type_of_service_request>Pot Hole in Street</type_of_service_request>
            <current_activity>Final Outcome</current_activity>
            <most_recent_action>CDOT Street Cut ... Outcome</most_recent_action>
            <street_address>3510 W NORTH AVE</street_address>
            <zip>60647</zip>
            <x_coordinate>1152732.14127696</x_coordinate>
            <y_coordinate>1910409.38979075</y_coordinate>
            <ward>26</ward>
            <police_district>14</police_district>
            <community_area>23</community_area>
            <latitude>41.91002084292946</latitude>
            <longitude>-87.71435952353961</longitude>
            <location latitude="41.91002084292946"  longitude="-87.71435952353961" />
        </row>
    </row> 
</response> 

Предположим, что вы хотите написать скрипт, который отсортирует ZIP коды по количеству отчетов о выбоинах.

Чтобы сделать это, вы можете написать такой код:


In [None]:
from xml.etree.ElementTree 
import parse 
from collections 
import Counter 
 
potholes_by_zip = Counter() 
 
doc = parse('potholes.xml') 
for pothole in doc.iterfind('row/row'):     
    potholes_by_zip[pothole.findtext('zip')] += 1 
for zipcode, num in potholes_by_zip.most_common():     
    print(zipcode, num)

Единственная проблема с этим скриптом заключается в том, что он читает в память XML файл целиком. На нашем компьютере при запуске он отъел 450 мегабайт оперативной памяти. Если же применить код из этого рецепта, программа изменится совсем чуть-чуть:


In [None]:
from collections 
import Counter potholes_by_zip = Counter() 
 
data = parse_and_remove('potholes.xml', 'row/row') 
for pothole in data:     
    potholes_by_zip[pothole.findtext('zip')] += 1 
for zipcode, num in potholes_by_zip.most_common():
    print(zipcode, num) 

Но эта версия занимает при запуске всего 7 мегабайт оперативной памяти – огромная экономия налицо!

Этот рецепт основывается на двух базовых возможностях модуля ElementTree. 

Метод iterparse() позволяет обрабатывать XML документы пошагово. 

Чтобы использовать его, вы передаете имя файла вместе со списком событий, состоящим из одного или более следующих аргументов: start, end, start-ns и end-ns.

Итератор, созданный iterparse(), производит кортежи формата (event, elem), где event – одно из событий списка, а elem – полученный XML элемент. 

Например:


In [None]:
data = iterparse('potholes.xml',('start','end'))
next(data) 
#('start', <Element 'response' at 0x100771d60>) 

In [None]:
next(data) 
#('start', <Element 'row' at 0x100771e68>) 

In [None]:
next(data) 
#('start', <Element 'row' at 0x100771fc8>) 

События start создаются, когда элемент создан, но еще не наполнен любыми другими данными (например, элементами потомками). 

События end создаются, когда элемент завершен. 

Хотя в данном рецепте это и не показано, события startns и end-ns используются для работы с объявлениями пространств имен XML. 

В этом рецепте события start и end используются для управления стеками элементов и тегов. 

Стеки представляют текущую иерархическую структуру документа в процессе его парсинга, а также используются для определения того, совпадает ли элемент с запрашиваемым путем, переданным в функцию parse_and_remove(). 

Если совпадение произошло, yield выдает его обратно вызывавшему. 

Следующая инструкция после yield – базовая возможность Element.Tree, которая позволяет этому рецепту экономить память: 

In [None]:
elem_stack[-2].remove(elem) 

Эта инструкция удаляет выданный ранее элемент из его родителя. 

Исходя из предположения, что нигде более на него не осталось ссылок, элемент уничтожается, а память высвобождается. 

Конечный эффект итеративного парсинга и удаления узлов – крайне эффективный пошаговый проход по документу. 

Ни на одном этапе не создается полное дерево документа. 

Однако можно написать код, который обрабатывает XMLданные прямолинейным способом. 

Главный недостаток этого рецепта – производительность.

При тестировании версия, которая читает весь документ в память, отработала в 2 раза быстрее, чем пошаговая.

Однако она потребовала в 60 раз больше памяти. Так что если память важна, пошаговый подход дает большой выигрыш.

#  Преобразование словарей в XML

Вы хотите взять данные из словаря Python и превратить их в XML.

Хотя библиотека xml.etree.ElementTree обычно используется для парсинга, ее также можно применить для создания XML-документов. Например, посмотрите на
такую функцию:

In [1]:
from xml.etree.ElementTree import Element

In [3]:
def dict_to_xml(tag, d):
    '''Превращает простой словарь пар ключ/значение в XML'''
    elem = Element(tag)
    for key, val in d.items():
        child = Element(key)
        child.text = str(val)
        elem.append(child)
        return elem

Вот пример ее работы:

In [4]:
s = { 'name': 'GOOG', 'shares': 100, 'price':490.1 }
e = dict_to_xml('stock', s)
e

<Element 'stock' at 0x00000221D7FA14F8>

Результатом этого преобразования является экземпляр Element. 

Для ввода-вывода его можно легко конвертировать в байтовую строку – для этого нужно использовать функцию tostring() из модуля xml.etree.ElementTree. Например:

In [6]:
from xml.etree.ElementTree import tostring
tostring(e)

b'<stock><name>GOOG</name></stock>'

Если вы хотите прикрепить атрибуты к элементу, используйте метод set():

In [8]:
e.set('_id','1234')
tostring(e)

b'<stock _id="1234"><name>GOOG</name></stock>'

Если порядок элементов имеет значение, подумайте над созданием OrderedDict вместо обычного словаря.

При генерации XML вы можете склоняться к  простому созданию строк. Например:

In [13]:
def dict_to_xml_str(tag, d):
    '''Превращает простой словарь пар ключ/значение в XML'''
    parts = ['<{}>'.format(tag)]
    for key, val in d.items():
        parts.append('<{0}>{1}</{0}>'.format(key,val))
        parts.append('</{}>'.format(tag))
        return ''.join(parts)

Проблема в  том, что вы влезете в  большие неприятности, если попытаетесь сделать это вручную. Например, что случится, если значения словаря будут содержать спецсимволы? 

In [11]:
d = { 'name' : '<spam>' }

In [14]:
# Создание строки
dict_to_xml_str('item', d)

'<item><name><spam></name></item>'

In [15]:
# Правильное создание XML
e = dict_to_xml('item',d)
tostring(e)

b'<item><name>&lt;spam&gt;</name></item>'

Обратите внимание, как в последнем примере символы <and>заменяются на &lt;and&gt;.
    
Для справки: если вам когда-либо потребуется вручную экранировать или деэкранировать такие символы, вы можете использовать функции escape() и unescape()
из модуля xml.sax.saxutils. Например:


In [16]:
from xml.sax.saxutils import escape, unescape
escape('<spam>')

'&lt;spam&gt;'

In [17]:
unescape(_)

'<spam>'

Если оставить в стороне создание правильного вывода, другая причина создавать экземпляры Element вместо строк заключается в том, что их легче объединять
друг с другом для создания более крупного документа. 

Получающиеся экземпляры Element также могут быть обработаны различными способами без необходимостипарсить XML-текст. 

Вы можете провести всю обработку данных высокоуровневым
способом, а затем в самом конце вывести их в строковой форме.

#  Парсинг, изменение и перезапись XML

Вы хотите прочесть XML-документ, изменить его, а затем записать обратно в форме XML.

Модуль xml.etree.ElementTree облегчает выполнение таких задач. Вы можете начать
с парсинга документа обычным способом. Предположим, например, что у вас есть
документ под названием pred.xml, который выглядит так:

Вот пример того, как можно использовать ElementTree для прочтения документа и изменения его структуры:

In [1]:
from xml.etree.ElementTree import parse, Element
doc = parse('pred.xml')
root = doc.getroot()
root

<Element 'stop' at 0x0000019699F35C78>

In [2]:
# Удалим несколько элементов
root.remove(root.find('sri'))
root.remove(root.find('cr'))


In [3]:
# Вставка нового элемента после <nm>...</nm>
root.getchildren().index(root.find('nm'))
e = Element('spam')
e.text = 'This is a test'
root.insert(2, e)

  


In [4]:
# Запись обратно в файл
doc.write('newpred.xml', xml_declaration=True)

Изменение структуры XML-документа – незамысловатый процесс, но вы должны помнить, что все изменения в общем применяются к родительскому элементу, и они обращаются с ним как со списком. Например, если вы уберете элемент, он будет убран из его непосредственного родителя путем использования метода
remove() родителя. 

Если вы вставляете или добавляете новые элементы в конец, вы также применяете методы insert() и append() к родителю. Еще можно манипулировать элементами с помощью операций индексирования и извлечения среза,
таких как element[i] или element[j:j].

Если вы хотите создать новые элементы, используйте класс Element, как показано в этом рецепте. Это также описано в рецепте 6.5.


#  Парсинг XML-документов с пространствами имен

Вам нужно распарсить XML-документ, но он использует пространства имен XML.

Предположим, что у нас есть документ, использующий пространства имен:

https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D1%81%D1%82%D0%B2%D0%BE_%D0%B8%D0%BC%D1%91%D0%BD_(XML)

Если вы парсите этот документ и пытаетесь выполнить обычные запросы, вы обнаружите, что это не работает так просто, поскольку все становится невероятно
многословным:

In [1]:
from xml.etree.ElementTree import parse, Element
doc = parse('beazley.xml')

In [2]:
# Некоторые запросы, которые работают
doc.findtext('author')

'David Beazley'

In [3]:
doc.find('content')

<Element 'content' at 0x000001B5A5E374F8>

In [4]:
# Запрос с использованием пространства имен (не работает)
doc.find('content/html')

In [5]:
# Работает при полном определении
doc.find('content/{http://www.w3.org/1999/xhtml}html')

<Element '{http://www.w3.org/1999/xhtml}html' at 0x000001B5A81A2778>

In [6]:
# Не работает
doc.findtext('content/{http://www.w3.org/1999/xhtml}html/head/title')

In [8]:
# Полностью определен
doc.findtext('content/{http://www.w3.org/1999/xhtml}html/{http://www.w3.org/1999/xhtml}head/{http://www.w3.org/1999/xhtml}title')


'Hello World'

Часто вы можете упростить дело путем заворачивания работы с пространством
имен во вспомогательный класс:

In [11]:
class XMLNamespaces:
    def __init__(self, **kwargs):
        self.namespaces = {}
        for name, uri in kwargs.items():
            self.register(name, uri)
        print('kwargs = ', kwargs)
        print('self.namespaces=', self.namespaces)
            
    def register(self, name, uri):
        self.namespaces[name] = '{'+uri+'}'
        
    def __call__(self, path):
        return path.format_map(self.namespaces)

https://pythonz.net/references/named/str.format_map/

https://www.geeksforgeeks.org/python-string-format_map/

Чтобы использовать этот класс, вы можете поступить так:

In [12]:
ns = XMLNamespaces(html='http://www.w3.org/1999/xhtml')

kwargs =  {'html': 'http://www.w3.org/1999/xhtml'}
self.namespaces= {'html': '{http://www.w3.org/1999/xhtml}'}


In [13]:
doc.find(ns('content/{html}html'))


<Element '{http://www.w3.org/1999/xhtml}html' at 0x000001B5A81A2778>

In [14]:
doc.findtext(ns('content/{html}html/{html}head/{html}title'))

'Hello World'

Парсинг XML-документов, содержащих пространства имен, может быть запутанным. 

Класс XMLNamespaces на самом деле предназначен для облегчения этой задачи: он позволяет использовать сокращенные имена для пространств имен в последующих операциях, а не полные URI.

К несчастью, в базовом парсере ElementTree нет механизма для получения дополнительной информации о пространствах имен. 

Однако вы можете получить немного больше информации об области видимости обработки пространств имен, если будете использовать функцию iterparse(). Например:

In [15]:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('beazley.xml', ('end', 'start-ns', 'end-ns')):
    print(evt, elem)

end <Element 'author' at 0x000001B5A81BE0E8>
start-ns ('', 'http://www.w3.org/1999/xhtml')
end <Element '{http://www.w3.org/1999/xhtml}title' at 0x000001B5A81BE368>
end <Element '{http://www.w3.org/1999/xhtml}head' at 0x000001B5A81BE318>
end <Element '{http://www.w3.org/1999/xhtml}h1' at 0x000001B5A81BE408>
end <Element '{http://www.w3.org/1999/xhtml}body' at 0x000001B5A81BE3B8>
end <Element '{http://www.w3.org/1999/xhtml}html' at 0x000001B5A81BE2C8>
end-ns None
end <Element 'content' at 0x000001B5A81BE098>
end <Element 'top' at 0x000001B5A81A8E58>


In [16]:
# Это самый верхний элемент
elem

<Element 'top' at 0x000001B5A81A8E58>

Последнее замечание: если текст, который вы парсите, использует пространства имен в дополнение к другим продвинутым возможностям XML, вам лучше
перейти с ElementTree на библиотеку lxml. 

Например, она предоставляет улучшенную поддержку валидации документов по DTD, более полную поддержку XPath
и другие продвинутые возможности XML. 

А этот рецепт – просто небольшой фикс для облегчения парсинга.

# Взаимодействие с реляционной базой данных

Вам нужно выбирать, вставлять или удалять строки в реляционной базе данных.


Стандартный способ представления строк данных в Python – это последовательность кортежей. Например:

In [1]:
stocks = [
    ('GOOG', 100, 490.1),
    ('AAPL', 50, 545.75),
    ('FB', 150, 7.45),
    ('HPQ', 75, 33.2),
]

Если данные представлены в такой форме, относительно легко наладить взаимодействие с реляционной базой данных, используя стандартный API баз данных
Python, как описано в PEP 2491. 

Суть API в том, что все операции с базой данных
выполняются с помощью SQL-запросов. 

Каждая строка вводимых или выводимых данных представлена в форме кортежа.

Чтобы попробовать это в деле, вы можете воспользоваться модулем sqlite3, который входит в стандартную поставку Python. 

Если вы используете другую базу
данных (например, MySQL, Postgres, ODBC), вы должны будете установить стороннюю библиотеку. 

Однако программный интерфейс будет практически таким же,
если не идентичным.

Первый шаг – подсоединиться к базе данных. 

Обычно для этого нужно вызвать функцию connect() и передать ей такие параметры, как имя базы данных, имя хоста, имя пользователя, пароль и другие детали, по мере необходимости. Например:

In [2]:
import sqlite3
db = sqlite3.connect('database.db')

Чтобы что-то делать с данными, нужно создать курсор. Когда у вас есть курсор,
вы можете выполнять SQL-запросы. Например:


In [3]:
c = db.cursor()
c.execute('create table portfolio (symbol text, shares integer, price real)')
db.commit()

Чтобы вставить последовательность строк в  данные, используйте такую инструкцию:

In [4]:
c.executemany('insert into portfolio values (?,?,?)', stocks)
db.commit()

Чтобы сделать запрос, используйте такую инструкцию:

In [5]:
for row in db.execute('select * from portfolio'):
    print(row)
    

('GOOG', 100, 490.1)
('AAPL', 50, 545.75)
('FB', 150, 7.45)
('HPQ', 75, 33.2)


Если вы хотите сделать запросы, которые принимают поставляемые пользователем входные параметры, убедитесь, что вы экранируете параметры, используя
символ ?:

In [6]:
min_price = 100
for row in db.execute('select * from portfolio where price >= ?', (min_price,)):
    print(row)

('GOOG', 100, 490.1)
('AAPL', 50, 545.75)


https://ru.wikipedia.org/wiki/%D0%92%D0%BD%D0%B5%D0%B4%D1%80%D0%B5%D0%BD%D0%B8%D0%B5_SQL-%D0%BA%D0%BE%D0%B4%D0%B0

На низком уровне взаимодействие с базой данных выполняется абсолютно прямолинейно. 

Вы просто формируете SQL-запросы и скармливаете их модулю, чтобы либо обновить информацию в базе, либо извлечь данные. 

Тем не менее есть тонкие моменты, с которыми в некоторых случаях придется разбираться.

Одно из возможных осложнений – отображение данных из базы на типы Python.

Для записей типа дат наиболее частым случаем будет использование экземпляров datetime из одноименного модуля или системных временных меток (timestamps)
с применением модуля time. 

Для числовых данных, и особенно финансовых данных, в которых применяются десятичные дроби, может применяться представление чисел как экземпляров Decimal из модуля decimal. 

К сожалению, конкретные принципы отображения варьируются в зависимости от бэкэнда базы данных, так
что вам придется почитать документацию.

Еще одно критически важное осложнение касается формирования строк с инструкциями SQL. 

Вы никогда не должны использовать операторы форматирования строк Python (например, %) или метод .format() для создания таких строк. 

Если значения, предоставленные таким операторам форматирования, вводятся пользователями, это открывает вашу программу для SQL-инъекций 
(см. http://xkcd.com/3271). 

Специальный подменяющий символ ? в запросах требует от бэкэнда базы данных использовать его собственный механизм подстановки строк, который (будем надеяться) делает это безопасно.

К сожалению, существует некоторое разнообразие в том, как бэкэнды различных баз данных интерпретируют символы подстановки. 

Многие модули используют ? или %s, тогда как другие могут использовать иной символ, такой как :0
или :1, чтобы ссылаться на параметры. 

Вам нужно обратиться к документации используемого модуля базы данных. Атрибут paramstyle модуля базы данных также
содержит информацию о стиле использования кавычек.

Для простого взаимодействия с таблицей базы данных использовать API обычно очень просто. Если вы делаете что-то более нетривиальное, имеет смысл использовать высокоуровневый интерфейс, такой как объектно-реляционные отображатели (ORM). 

Библиотеки типа SQLAlchemy2 позволяют описывать таблицы базы данных как классы Python и выполнять операции с базами данных, скрывая весь лежащий в основе SQL.

#  Декодирование и кодирование шестнадцатеричных цифр

Вам нужно декодировать строку шестнадцатеричных цифр в байтовую строку или закодировать байтовую строку в шестнадцатеричное представление.

Если вам просто нужно декодировать или закодировать сырую строку шестнадцатеричных цифр, используйте модуль binascii. Например:

In [1]:
# Изначальная байтовая строка
s = b'hello'
# Закодировать в hex
import binascii
h = binascii.b2a_hex(s)
h

b'68656c6c6f'

In [2]:
# Декодировать обратно в байты
binascii.a2b_hex(h)

b'hello'

Похожую функцию можно найти в модуле base64. Например:

In [3]:
import base64
h = base64.b16encode(s)
h

b'68656C6C6F'

In [4]:
base64.b16decode(h)

b'hello'

По большей части конвертирование в шестнадцатеричную форму и из шестнадцатеричной формы с помощью показанных приемов не составляет труда. 

Главная разница между этими двумя техниками заключается в  приведении к  регистру.

Функции base64.b16decode() и base64.b16encode() работают только с шестнадцатеричными символами в верхнем регистре, а функции из модуля binascii могут работать с обоими регистрами.

Также важно отметить, что вывод, который производят кодирующие функции, всегда является байтовой строкой. 

Чтобы принудительно вывести его в Unicode,
вам придется добавить дополнительный шаг декодирования. Например:


In [5]:
h = base64.b16encode(s)
print(h)

b'68656C6C6F'


In [6]:
print(h.decode('ascii'))


68656C6C6F


При декодировании шестнадцатеричных цифр функции b16decode() и a2b_hex() принимают и байтовые, и юникодовые строки. 

Однако эти строки должны содержать только закодированные в ASCII шестнадцатеричные цифры.

#  Кодирование и декодирование в Base64

Вам нужно декодировать или закодировать бинарные данные, используя кодировку Base64.

In [7]:
# Какие-то байтовые данные
s = b'hello'
import base64
# Закодировать в Base64
a = base64.b64encode(s)
a

b'aGVsbG8='

In [8]:
# Декодировать из Base64
base64.b64decode(a)

b'hello'

Кодировка Base64 предназначена только для использования с  байториентированными данными, такими как байтовые строки и байтовые массивы.

Более того, вывод процесса кодирования всегда будет байтовой строкой. 

Если вы смешиваете данные в Base64 с текстом в Unicode, вам придется выполнить дополнительный шаг для декодирования. 

Например:

In [9]:
a = base64.b64encode(s).decode('ascii')
a

'aGVsbG8='

При декодировании Base64 могут быть предоставлены и  байтовые строки, и текстовые строки в Unicode. 

Однако строки Unicode могут содержать только символы ASCII.

# Чтение и запись бинарных массивов структур

Вы хотите прочесть или записать данные, закодированные как бинарный массив из единообразных структур, в кортежи Python.

Чтобы работать с  бинарными данными, используйте модуль struct. 
Вот пример кода, который записывает список кортежей Python в  бинарный файл, кодируя
каждый кортеж в структуру с помощью модуля struct:

In [12]:
from struct import Struct

def write_records(records, format, f):
    '''Записывает последовательность кортежей в бинарный файл структур.'''
    record_struct = Struct(format)
    for r in records:
        f.write(record_struct.pack(*r))

In [13]:
records = [(1, 2.3, 4.5), (6, 7.8, 9.0), (12, 13.4, 56.7)]
with open('data.b', 'wb') as f:
    write_records(records, '<idd', f)

Есть несколько подходов к обратному превращению этого файла в список кортежей. Во-первых, если вы читаете файл пошагово кусочками (chunks), то можете
написать такой код:


In [10]:
from struct import Struct
def read_records(format, f):
    record_struct = Struct(format)
    chunks = iter(lambda: f.read(record_struct.size), b'')
    print('chunks', chunks)
    print('record_struct.size = ', record_struct.size)
    #print('list(chunks) = ', list(chunks))
    return (record_struct.unpack(chunk) for chunk in chunks)

In [11]:
with open('data.b','rb') as f:
    for rec in read_records('<idd', f):
        # Обработка записи
        print('rec = ', rec)


chunks <callable_iterator object at 0x00000189ACDE8B38>
record_struct.size =  20
rec =  (1, 2.3, 4.5)
rec =  (6, 7.8, 9.0)
rec =  (12, 13.4, 56.7)


Если вы хотите прочесть файл целиком в байтовую строку за один проход и преобразовывать его кусочек за кусочком, вы можете сделать это так:

In [13]:
from struct import Struct

def unpack_records(format, data):
    record_struct = Struct(format)
    return (record_struct.unpack_from(data, offset)
            for offset in range(0, len(data), record_struct.size))


In [14]:
with open('data.b', 'rb') as f:
    data = f.read()
    
for rec in unpack_records('<idd', data):
    # Обработка записи
    print('rec = ', rec)

rec =  (1, 2.3, 4.5)
rec =  (6, 7.8, 9.0)
rec =  (12, 13.4, 56.7)


В обоих случаях результатом будет итерируемый объект, который производит кортежи, которые были сохранены в файле при его создании.

# Обсуждение

В программах, которые должны кодировать и  декодировать бинарные данные, обычно используют модуль struct. 

Чтобы объявить новую структуру, просто создайте экземпляр Struct, как показано ниже:


In [2]:
from struct import Struct

In [3]:
# 32-битное целое число (little endian), два числа с плавающей точкой
# двойной точности
record_struct = Struct('<idd')

Структуры всегда определяются путем использования набора кодов структур, таких как i, d, f и т. д. (см. документацию Python). 

Эти коды соответствуют определенным бинарным типам данных, таким как 32-битные целые числа, 64-битные
числа с плавающей точкой, 32-битные числа с плавающей точкой и т. д. 

Символ < в качестве первого символа определяет порядок следования байтов. В этом примере он задает порядок байт от младшего к  старшему (little endian). 

Замените символ на >, чтобы задать порядок байт от старшего к младшему (big endian), илина ! для сетевого порядка байтов.


Сетевые стеки и протоколы также должны определять свою последовательность байтов, иначе два узла сети с разным порядком байтов просто не смогут взаимодействовать. Это наиболее яркий пример влияния порядка байтов на программы. Все уровни протокола TCP/IP работают в режиме "от старшего к младшему". Любое 16-ти или 32-х битное значение внутри заголовков различных уровней (такое как IP-адрес, длина пакета, контрольная сумма) должны отсылаться и получаться так, чтобы старший байт был первым.

Порядок байтов "от старшего к младшему", используемый в протоколе TCP/IP, иногда еще называют сетевым порядком байтов. Даже если компьютеры в сети используют порядок "от младшего к старшему", многобайтные целочисленные значения для передачи их по сети должны быть преобразованы в сетевой порядок байтов, а затем еще раз преобразованы назад в порядок "от младшего к старшему" на принимающем компьютере.

Полученный экземпляр Struct имеет различные атрибуты и методы для манипулирования структурами этого типа. Атрибут size содержит размер структуры в байтах, что полезно для операций ввода-вывода. 

Методы pack() и unpack() используются для упаковки и распаковки данных. Например:

In [4]:
from struct import Struct
record_struct = Struct('<idd')
record_struct.size

20

In [5]:
record_struct.pack(1, 2.0, 3.0)

b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x08@'

Иногда вы можете увидеть, что операции pack() и  unpack() вызываются, как функции уровня модуля:


In [6]:
import struct
struct.pack('<idd', 1, 2.0, 3.0)

b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x08@'

In [7]:
struct.unpack('<idd', _)

(1, 2.0, 3.0)

Это работает, но менее элегантно, нежели создание единственного экземпляра Struct, особенно если одна и та же структура появляется во многих местах вашего кода. 

Путем создания экземпляра Struct форматирующий код определяется только единожды, и все полезные операции прекрасным образом сгруппированы вместе. 

Это точно увеличит легкость поддерживания вашего кода (ведь вам придется вносить изменения только в одном месте).

Код для чтения бинарных структур использует несколько интересных и элегантных идиом программирования. 

В функции read_records() функция iter() используется для создания итератора, который возвращает кусочки (chunks) фиксированного размера (см. рецепт ранее). 

Этот итератор раз за разом вызывает переданный
пользователем вызываемый объект (в данном случае lambda: f.read(record_struct.size)), пока он не вернет определенное значение (в данном случае b'' на чем итерации останавливаются. 

Например:

In [8]:
f = open('data.b', 'rb')
chunks = iter(lambda: f.read(20), b'')
chunks

<callable_iterator at 0x22a5d0d0128>

In [9]:
for chk in chunks:
    print(chk)


b'\x01\x00\x00\x00ffffff\x02@\x00\x00\x00\x00\x00\x00\x12@'
b'\x06\x00\x00\x00333333\x1f@\x00\x00\x00\x00\x00\x00"@'
b'\x0c\x00\x00\x00\xcd\xcc\xcc\xcc\xcc\xcc*@\x9a\x99\x99\x99\x99YL@'


Смысл использования итератора в том, что он позволяет записям создаваться с помощью генератора (generator comprehension), как показано в примере. 

Если бы вы не использовали это решение, ваш код мог бы выглядеть так:

In [16]:
def read_records(format, f):
    record_struct = Struct(format)
    while True:
        chk = f.read(record_struct.size)
        if chk == b'':
            break
        yield record_struct.unpack(chk)
    return records

В функции unpack_records() используется другой подход – метод unpack_from().

Это полезный метод для извлечения бинарных данных из более крупного бинарного массива, потому что он делает это без создания временных объектов или копий в памяти. 

Вы просто передаете ему байтовую строку (или любой массив) вместе с байтовым сдвигом (offset), и он распакует поля прямо из этого места.

Если вы использовали unpack() вместо unpack_from(), то можете захотеть изменить код, чтобы создать большое количество маленьких срезов и вычислений
сдвига. Например:

In [10]:
def unpack_records(format, data):
    record_struct = Struct(format)
    return (record_struct.unpack(data[offset:offset + record_struct.size])
 for offset in range(0, len(data), record_struct.size))


В дополнение к тому, что эта версия сложнее читается, она также требует намного больше работы, поскольку выполняет различные вычисления сдвига, копирует
данные и создает объекты среза. 

Если вы будете распаковывать много структур
из большой байтовой строки, которую уже прочитали, unpack_from() будет более элегантным решением.

Распаковка записей – одна из областей, где могут найти применение объекты namedtuple из модуля collections. 

Они позволят вам установить имена атрибутов на
возвращаемые кортежи. Например:

In [18]:
from collections import namedtuple
Record = namedtuple('Record', ['kind','x','y'])

with open('data.b', 'rb') as f:
    records = (Record(*r) for r in read_records('<idd', f))
    for r in records:
        print(r.kind, r.x, r.y)

1 2.3 4.5
6 7.8 9.0
12 13.4 56.7


Если вы пишете программу, которой нужно работать с большим количеством бинарных данных, вам стоит использовать библиотеку типа numpy. 

Например, вместо чтения бинарного файла в  список кортежей вы можете прочесть его в структурированный массив:

In [19]:
import numpy as np
f = open('data.b', 'rb')
records = np.fromfile(f, dtype='<i,<d,<d')
records

array([( 1,  2.3,  4.5), ( 6,  7.8,  9. ), (12, 13.4, 56.7)],
      dtype=[('f0', '<i4'), ('f1', '<f8'), ('f2', '<f8')])

In [20]:
f.close()

In [21]:
records[0]


(1, 2.3, 4.5)

In [22]:
 records[1]

(6, 7.8, 9.)

И последнее: если вы столкнулись с задачей чтения бинарных данных в какомто известном формате (например, форматах растровых или векторных изображений, HDF5 и т. д.), проверьте, нет ли в Python модуля для работы с ними. 

Не стоит изобретать велосипед, если можно обойтись без этого.

#  Чтение вложенных и различных по размеру бинарных структур

Вам нужно прочесть сложные бинарные данные, которые содержат коллекцию вложенных записей и/или записей различного размера. 

Такие данные могут включать изображения, видео, векторные изображения и т. д.

Модуль struct может быть использован для декодирования и кодирования бинарных данных практически любой структуры.

Чтобы проиллюстрировать работу с задачей этого рецепта, предположим, что у вас есть структура данных Python,
представляющая точки, составляющие набор многоугольников:

In [1]:
polys = [
 [ (1.0, 2.5), (3.5, 4.0), (2.5, 1.5) ],
 [ (7.0, 1.2), (5.1, 3.0), (0.5, 7.5), (0.8, 9.0) ],
 [ (3.4, 6.3), (1.2, 0.5), (4.6, 9.2) ],
]

Теперь предположим, что данные были закодированы в бинарный файл, который начинается следующим заголовком:

Byte        Type        Description
0           int         File code (0x1234, little endian)
4           double      Minimum x (little endian)
12          double      Minimum y (little endian)
20          double      Maximum x (little endian)
28          double      Maximum y (little endian)
36          int         Number of polygons (little endian)

После заголовка идет набор многоугольников, каждый из которых закодирован
так:

Byte        Type          Description

0           int           Record length including length (N bytes)

4-N         Points        Pairs of (X,Y) coords as doubles

Чтобы записать этот файл, вы можете использовать такой код:

In [2]:
import struct
import itertools


In [3]:
def write_polys(filename, polys):
    # Определяем ограничивающий параллелепипед
    flattened = list(itertools.chain(*polys))
    min_x = min(x for x, y in flattened)
    max_x = max(x for x, y in flattened)
    min_y = min(y for x, y in flattened)
    max_y = max(y for x, y in flattened)
    with open(filename, 'wb') as f:
        f.write(struct.pack('<iddddi', 0x1234, 
                            min_x, min_y, 
                            max_x, max_y, 
                            len(polys)))
        for poly in polys:
            size = len(poly) * struct.calcsize('<dd')
            f.write(struct.pack('<i', size+4))
            for pt in poly:
                f.write(struct.pack('<dd', *pt))

In [4]:
# Вызываем с нашими данными полигонов
write_polys('polys.bin', polys)

Чтобы прочесть получившиеся данные обратно, вы можете написать похожий
код с использованием функции struct.unpack(), которая обращает операции, проделанные во время записи. Например:


In [5]:
import struct
def read_polys(filename):
    with open(filename, 'rb') as f:
        # Читаем заголовок
        header = f.read(40)
        file_code, min_x, min_y, max_x, max_y, num_polys = struct.unpack('<iddddi', header)
        polys = []
        for n in range(num_polys):
            pbytes = struct.unpack('<i', f.read(4))
            poly = []
            for m in range(pbytes // 16):
                pt = struct.unpack('<dd', f.read(16))
                poly.append(pt)
            polys.append(poly)
    return polys

In [7]:
new_polys = read_polys('polys.bin')
print(new_polys)

[[(1.0, 2.5), (3.5, 4.0), (2.5, 1.5)], [(7.0, 1.2), (5.1, 3.0), (0.5, 7.5), (0.8, 9.0)], [(3.4, 6.3), (1.2, 0.5), (4.6, 9.2)]]


Хотя этот код работает, он представляет собой довольно-таки беспорядочный
набор небольших операций чтения, распаковки структур и прочие детали. 

Если такой код используется для обработки реального файла с данными, он быстро станет еще более запутанным. 

Это делает очевидным необходимость поиска альтернативного решения, которое могло бы упростить некоторые шаги и позволило бы программисту сосредоточиться на более важных вещах.

В оставшейся части этого рецепта мы шаг за шагом построим достаточно продвинутое решение для интерпретации бинарных данных. 

Наша цель  – предоставить программисту возможность передать высокоуровневую спецификацию формата файла, а все детали чтения и распаковки данных переместить в «подкапотную» часть. 

Заранее предупреждаем, что нижеследующий код будет самым
продвинутым примером во всей книге. 

Он использует различные приемы объектно-ориентированного программирования и  метапрограммирования. 

Рекомендуем вам внимательно прочитать раздел «Обсуждение», обращая внимание на
ссылки на другие рецепты.

Во-первых, при чтении бинарных данных наиболее типичный случай  – это присутствие в файле заголовков и других структур данных. 

Хотя модуль struct может распаковать эти данные в кортеж, еще один способ представить такую информацию – это использование класса. 

Вот пример кода:

In [8]:
import struct
class StructField:
    '''Дескриптор, представляющий простое поле структуры'''
    def __init__(self, format, offset):
        self.format = format
        self.offset = offset
    def __get__(self, instance, cls):
        if instance is None:
            return self
        else:
            r = struct.unpack_from(self.format, instance._buffer, self.offset)
            return r[0] if len(r) == 1 else r

In [2]:
class Structure:
    def __init__(self, bytedata):
        self._buffer = memoryview(bytedata)

Этот код использует дескриптор для представления каждого поля структуры.

Каждый дескриптор содержит совместимый со struct формат кода вместе с байтовым сдвигом используемого буфера памяти. 

В методе __get__() функция struct.

unpack_from() используется для распаковки значения из буфера без необходимости делать дополнительные срезы или копии.

Класс Structure просто служит базовым классом (суперклассом), который принимает некие байтовые данные и сохраняет их в буфере памяти, используемом
дескриптором StructField. 

Функция memoryview() в этом классе служит целям, которые мы проясним позднее.

Этот код позволит вам определить структуру как высокоуровневый класс, который отражает информацию, найденную в таблицах, которые описывают ожидаемый формат файла. Например:

In [3]:
class PolyHeader(Structure):
    file_code = StructField('<i', 0)
    min_x = StructField('<d', 4)
    min_y = StructField('<d', 12)
    max_x = StructField('<d', 20)
    max_y = StructField('<d', 28)
    num_polys = StructField('<i', 36)

Вот пример использования этого класса для чтения заголовка из данных о многоугольниках, которые мы записали ранее:


In [4]:
f = open('polys.bin', 'rb')
phead = PolyHeader(f.read(40))
phead.file_code == 0x1234


True

In [5]:
phead.min_x

0.5

In [6]:
 phead.min_y

0.5

In [7]:
phead.max_x

7.0

In [8]:
phead.max_y


9.2

In [9]:
phead.num_polys

3

Это интересно, но данный подход имеет несколько раздражающих нюансов.

Даже если вы получаете удобство классоподобного интерфейса, код все равно
многословен и требует от пользователя определять множество низкоуровневых
деталей (например, повторяющееся использование StructField, определение сдвигов и т. п.). 

В получившемся классе также отсутствуют привычные удобные моменты, такие как предоставление способа вычислить общий размер структуры.

Каждый раз, когда вы сталкиваетесь с подобным излишне многословным определением класса, вы можете подумать об использовании декоратора класса или
метакласса. 

Одна из возможностей метакласса в том, что он может быть использован для выполнения множества низкоуровневых деталей реализации, снимая это
бремя с пользователя. 

В качестве примера рассмотрите этот метакласс и слегка
переработанный класс Structure:

In [5]:
class StructureMeta(type):
    '''Метакласс, который автоматически создает дескрипторы StructField'''
    def __init__(self, clsname, bases, clsdict):
        fields = getattr(self, '_fields_', [])
        byte_order = ''
        offset = 0
        for format, fieldname in fields:
            if format.startswith(('<','>','!','@')):
                byte_order = format[0]
                format = format[1:]
            format = byte_order + format
            setattr(self, fieldname, StructField(format, offset))
            offset += struct.calcsize(format)
        setattr(self, 'struct_size', offset)

In [6]:
class Structure(metaclass=StructureMeta):
    def __init__(self, bytedata):
        self._buffer = bytedata
    @classmethod
    def from_file(cls, f):
        return cls(f.read(cls.struct_size))

Используя этот новый класс Structure, вы можете записывать определение
структуры так:

In [7]:
class PolyHeader(Structure):
    _fields_ = [
        ('<i', 'file_code'),
        ('d', 'min_x'),
        ('d', 'min_y'),
        ('d', 'max_x'),
        ('d', 'max_y'),
        ('i', 'num_polys')
    ]

Как вы можете видеть, это определение намного компактнее. Добавленный метод класса from_file() также делает более удобным чтение данных из файла, снимая
необходимость знать какие-либо детали о размере или структуре данных. Например:


In [8]:
f = open('polys.bin', 'rb')
phead = PolyHeader.from_file(f)
phead.file_code == 0x1234

True

In [9]:
 phead.min_x

0.5

In [12]:
phead.min_y

0.5

In [13]:
phead.max_x

7.0

In [14]:
phead.max_y

9.2

In [15]:
phead.num_polys

3

Когда вы вводите в программу метакласс, то можете встроить в него больше «интеллекта». 

Например, предположим, что вы хотите обеспечить поддержку вложенных бинарных структур. 

Вот переделанный метакласс вместе с новым дескриптором, который это поддерживает:

In [12]:
class NestedStruct:
    '''Дескриптор, представляющий вложенную структуру'''
    def __init__(self, name, struct_type, offset):
        self.name = name
        self.struct_type = struct_type
        self.offset = offset
        
    def __get__(self, instance, cls):
        if instance is None:
            return self
        else:
            data = instance._buffer[self.offset:self.offset+self.struct_type.struct_size]
            result = self.struct_type(data)
            # Сохраняем получившуюся структуру обратно в экземпляр,
            # чтобы избежать последующего вычисления этого шага
            setattr(instance, self.name, result)
            return result

In [13]:
class StructureMeta(type):
    '''Метакласс, который автоматически создает дескрипторы StructField'''
    def __init__(self, clsname, bases, clsdict):
        fields = getattr(self, '_fields_', [])
        byte_order = ''
        offset = 0
        for format, fieldname in fields:
            if isinstance(format, StructureMeta):
                setattr(self, fieldname,NestedStruct(fieldname, format, offset))
                offset += format.struct_size
            else:
                print(format)
                if format.startswith(('<','>','!','@')):
                    byte_order = format[0]
                    format = format[1:]
                format = byte_order + format
                setattr(self, fieldname, StructField(format, offset))
                offset += struct.calcsize(format)
        setattr(self, 'struct_size', offset)

In [14]:
class Structure(metaclass=StructureMeta):
    def __init__(self, bytedata):
        self._buffer = bytedata
    @classmethod
    def from_file(cls, f):
        return cls(f.read(cls.struct_size))

В этом примере кода дескриптор NestedStruct используется для наложения другого определения структуры на область памяти. 

Он делает это путем извлечения среза изначального буфера памяти и использования его для создания экземпляра переданного типа структуры. 

Поскольку буфер памяти был инициализирован как memoryview, это извлечение среза не приводит к созданию дополнительных копий
в памяти. 

Вместо этого оно накладывается на изначальную память. 

Более того, чтобы избежать повторения создания экземпляров, дескриптор сохраняет получившуюся внутреннюю структуру объекта в экземпляр, используя тот же прием,
что мы описали в рецепте 8.10.

Используя эту новую формулировку, вы можете начать писать код так:

In [15]:
class Point(Structure):
    _fields_ = [
        ('<d', 'x'),
        ('d', 'y')
    ]

<d
d


In [16]:
class PolyHeader(Structure):
    _fields_ = [
        ('<i', 'file_code'),
        (Point, 'min'),
        (Point, 'max'),
        ('i', 'num_polys')
    ]

<i
i


Удивительно, но код все еще работает так, как вы ожидаете. Например:


In [17]:
f = open('polys.bin', 'rb')
phead = PolyHeader.from_file(f)
phead.file_code == 0x1234

True

In [31]:
 phead.min

<__main__.Point at 0x2049f95f358>

In [32]:
phead.min.x

0.5

In [33]:
phead.min.y

0.5

In [34]:
phead.max.x

7.0

In [35]:
phead.max.y

9.2

In [36]:
phead.num_polys

3

На этом этапе мы разработали фреймворк для работы с записями фиксированного размера, но что делать с компонентами различных размеров? 

Например, оставшаяся часть файла с многоугольниками содержит элементы различных размеров.

Первый путь – написать класс, который просто представляет кусок (chunk) бинарных данных вместе с вспомогательной функцией для интерпретирования содержимого различными способами. 

Это тесно связано с  подходом, описанным
в рецепте 6.11:

In [21]:
class SizedRecord:
    def __init__(self, bytedata):
        self._buffer = memoryview(bytedata)
        
    @classmethod
    def from_file(cls, f, size_fmt, includes_size=True):
        sz_nbytes = struct.calcsize(size_fmt)
        sz_bytes = f.read(sz_nbytes)
        sz, = struct.unpack(size_fmt, sz_bytes)
        buf = f.read(sz - includes_size * sz_nbytes)
        return cls(buf)

    def iter_as(self, code):
        if isinstance(code, str):
            s = struct.Struct(code)
            for off in range(0, len(self._buffer), s.size):
                yield s.unpack_from(self._buffer, off)
        elif isinstance(code, StructureMeta):
            size = code.struct_size
            for off in range(0, len(self._buffer), size):
                data = self._buffer[off:off+size]
                yield code(data)

Метод класса SizedRecord.from_file() используется для чтения из файла куска (chunk) данных с префиксом, определяющим размер, что является обычным для многих форматов файлов. 

На вход он принимает код форматирования структуры,
который содержит кодировку размера, который должен быть представлен в байтах. 

Необязательный аргумент includes_size определяет, включает число байтов заголовок размера или нет. 

Вот пример того, как вы можете использовать этот код
для прочтения отдельного многоугольника из файла с многоугольниками:

In [22]:
f = open('polys.bin', 'rb')
phead = PolyHeader.from_file(f)
phead.num_polys

3

In [23]:
polydata = [SizedRecord.from_file(f, '<i') for n in range(phead.num_polys)]
polydata

[<__main__.SizedRecord at 0x1bba40b3cf8>,
 <__main__.SizedRecord at 0x1bba40b3ef0>,
 <__main__.SizedRecord at 0x1bba40b3a20>]

Как показано выше, содержимое экземпляров SizeRecord пока еще не интерпретировано. 

Чтобы сделать это, используйте метод iter_as(), который принимает на вход код структуры формата или класс Structure. 

Это предоставляет вам немалую
гибкость в том, как можно интерпретировать данные. Например:

In [26]:
for n, poly in enumerate(polydata):
    print('Polygon', n)
    for p in poly.iter_as('<dd'):
        print(p)

Polygon 0
(1.0, 2.5)
(3.5, 4.0)
(2.5, 1.5)
Polygon 1
(7.0, 1.2)
(5.1, 3.0)
(0.5, 7.5)
(0.8, 9.0)
Polygon 2
(3.4, 6.3)
(1.2, 0.5)
(4.6, 9.2)


In [27]:
for n, poly in enumerate(polydata):
    print('Polygon', n)
    for p in poly.iter_as(Point):
        print(p.x, p.y)

Polygon 0
1.0 2.5
3.5 4.0
2.5 1.5
Polygon 1
7.0 1.2
5.1 3.0
0.5 7.5
0.8 9.0
Polygon 2
3.4 6.3
1.2 0.5
4.6 9.2


Собирая все вместе, представим альтернативную реализацию функции read_
polys():

In [28]:
class Point(Structure):
    _fields_ = [
        ('<d', 'x'),
        ('d', 'y')
    ]
    
class PolyHeader(Structure):
    _fields_ = [
        ('<i', 'file_code'),
        (Point, 'min'),
        (Point, 'max'),
        ('i', 'num_polys')
    ]
    
    
def read_polys(filename):
    polys = []
    with open(filename, 'rb') as f:
        phead = PolyHeader.from_file(f)
        for n in range(phead.num_polys):
            rec = SizedRecord.from_file(f, '<i')
            poly = [(p.x, p.y) for p in rec.iter_as(Point)]
            polys.append(poly)
    return polys

<d
d
<i
i


#  Суммирование данных и обсчет статистики

Вам нужно обработать большие наборы данных и  сгенерировать суммы или какую-то другую статистику.

Для любого анализа данных с  использованием статистики, временных рядов и прочих подобных приемов вам стоит обратиться к библиотеке Pandas.

Вот пример использования Pandas для анализа городской базы крыс и грызунов Чикаго. 

К моменту написания данной книги этот CSV-файл содержал около 74 000 записей.

In [6]:
import pandas
# Прочесть CSV-файл, пропустив последнюю строку
rats = pandas.read_csv('rats.csv', skipfooter=1)
rats.head(10)

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,Creation Date,Status,Completion Date,Service Request Number,Type of Service Request,Number of Premises Baited,Number of Premises with Garbage,Number of Premises with Rats,Current Activity,Most Recent Action,Street Address,ZIP Code,X Coordinate,Y Coordinate,Ward,Police District,Community Area,Latitude,Longitude,Location
0,07/31/2017,Completed,08/04/2017,17-05075019,Rodent Baiting/Rat Complaint,0.0,0.0,0.0,Dispatch Crew,"Area inspected, no cause and no baiting",1254 W BARRY AVE,60657.0,1167392.0,1920715.0,32.0,19.0,6.0,41.937997,-87.660207,"(41.937997161449, -87.660206674922)"
1,07/31/2017,Completed,08/04/2017,17-05081136,Rodent Baiting/Rat Complaint,0.0,1.0,0.0,Dispatch Crew,"Area inspected, no cause and no baiting",2742 N JANSSEN AVE,60614.0,1166174.0,1918418.0,32.0,19.0,7.0,41.931721,-87.664749,"(41.931721198293, -87.664749441253)"
2,08/03/2017,Completed,08/04/2017,17-05150281,Rodent Baiting/Rat Complaint,0.0,0.0,0.0,Dispatch Crew,Inspected and baited,311 W SCOTT ST,60610.0,1173823.0,1908709.0,2.0,18.0,8.0,41.904911,-87.636932,"(41.904910918355, -87.636931976355)"
3,08/01/2017,Completed,08/04/2017,17-05094467,Rodent Baiting/Rat Complaint,5.0,4.0,5.0,Dispatch Crew,Inspected and baited,2451 W CARMEN AVE,60625.0,1159023.0,1933797.0,40.0,20.0,4.0,41.974071,-87.690604,"(41.974070947222, -87.690603571631)"
4,08/02/2017,Completed,08/04/2017,17-05124800,Rodent Baiting/Rat Complaint,3.0,1.0,3.0,Dispatch Crew,Inspected and baited,1762 W CULLOM AVE,60613.0,1163875.0,1928604.0,47.0,19.0,6.0,41.959719,-87.672909,"(41.959719068016, -87.672908698842)"
5,07/31/2017,Completed,08/04/2017,17-05074211,Rodent Baiting/Rat Complaint,3.0,4.0,3.0,Dispatch Crew,Inspected and baited,6141 S RHODES AVE,60637.0,1180962.0,1864411.0,20.0,3.0,42.0,41.783193,-87.612073,"(41.783193388759, -87.612072911265)"
6,07/31/2017,Completed,08/04/2017,17-05079307,Rodent Baiting/Rat Complaint,3.0,2.0,2.0,Dispatch Crew,Inspected and baited,1254 W 102ND PL,60643.0,1169572.0,1836966.0,34.0,22.0,73.0,41.708135,-87.654629,"(41.708135321794, -87.654628985942)"
7,08/02/2017,Completed - Dup,08/04/2017,17-05124399,Rodent Baiting/Rat Complaint,,,,,,4105 N PAULINA ST,60613.0,1164492.0,1927328.0,47.0,19.0,6.0,41.956204,-87.670677,"(41.956204244754, -87.670677330448)"
8,07/31/2017,Completed,08/04/2017,17-05086039,Rodent Baiting/Rat Complaint,3.0,0.0,3.0,Dispatch Crew,Inspected and baited,1236 W 31ST PL,60608.0,1168589.0,1883917.0,11.0,9.0,60.0,41.836995,-87.656874,"(41.836994528844, -87.65687408527)"
9,08/02/2017,Completed,08/04/2017,17-05122361,Rodent Baiting/Rat Complaint,1.0,3.0,2.0,Dispatch Crew,Inspected and baited,1526 W WOLFRAM ST,60657.0,1165652.0,1919004.0,32.0,19.0,6.0,41.933339,-87.666651,"(41.93333873992, -87.666651223676)"


In [7]:
# Исследовать диапазон значений для определенного поля
rats['Current Activity'].unique()

array(['Dispatch Crew', nan, 'Request Sanitation Inspector',
       'FVI - Outcome', 'Inspect for Violation'], dtype=object)

In [8]:
#Отфильровать данные
crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
len(crew_dispatched)


297375

In [13]:
# Найти 10 самых сильно зараженных крысами ZIP-кодов (районов) в Чикаго
crew_dispatched['ZIP Code'].value_counts().iloc[:10]

60618.0    17023
60647.0    16153
60629.0    12497
60614.0    12061
60657.0    10608
60641.0     9803
60636.0     9105
60623.0     8896
60609.0     8760
60645.0     8673
Name: ZIP Code, dtype: int64

In [14]:
# Группируем по дате завершения
dates = crew_dispatched.groupby('Completion Date')
len(dates)

1985

In [18]:
# Определяем ежедневное количество
date_counts = dates.size()
date_counts[:10]

Completion Date
01/01/2014      7
01/02/2013     20
01/02/2014     96
01/02/2015      5
01/02/2018     71
01/03/2011      4
01/03/2012    125
01/03/2013     46
01/03/2014     59
01/03/2017    212
dtype: int64

In [22]:
# Сортируем количества
date_counts.sort_values()[-10:]

Completion Date
06/07/2016    384
10/14/2011    391
08/17/2017    392
10/11/2017    392
11/12/2013    401
10/14/2016    412
10/07/2011    457
07/06/2016    461
11/01/2013    488
09/09/2016    492
dtype: int64

Да, _____ года у крыс был трудный денек

Pandas – это большая библиотека, в которой намного больше возможностей, чем
мы можем здесь описать. 

Если вам требуется анализировать большие наборы данных, группировать данные, обсчитывать статистику и т. п., то обязательно присмотритесь к ней.

В книге Python for Data Analysis Уэса Маккинни (O'Reilly) также содержится много информации по этой теме.