# Глава 8 Данные должны куда-то попадать

Активная программа работает с данными, которые хранятся в запоминающем
устройстве с произвольным доступом (Random Access Memory (RAM)). RAM —
очень быстрая память, но она дорога и требует постоянного питания; если питание
пропадет, то все данные, которые в ней хранятся, будут утеряны. Жесткие диски
медленнее оперативной памяти, но они более емкие, стоят дешевле и могут хранить
данные даже после того, как кто-то выдернет шнур питания. Поэтому много усилий
при создании компьютерных систем направлено на поиск лучшего соотношения
между хранением данных на диске и в оперативной памяти. Как программистам,
нам нужна стойкость: хранение и получение данных с помощью энергонезависимых медиа вроде дисков.
Эта глава посвящена разнообразным способам хранения данных, каждый из
которых оптимизирован для разных целей: плоским файлам, структурированным
файлам и базам данных. Операции с файлами, не касающиеся ввода-вывода, рассматриваются в разделе «Файлы» главы 10.

# Ввод информации в файлы и ее вывод из них

Самый простой пример стойкого хранилища — это старый добрый файл, иногда его еще называют плоским файлом. 

Он представляет собой последовательность байтов, которая хранится под именем файла. 

Вы считываете данные из файлав память и записываете данные из памяти в файл. 

Python позволяет делать это довольно легко. 

Операции с файлами, присутствующие в этом языке программирования, были смоделированы на основе знакомых и популярных аналогов, имеющихся в Unix.

Перед тем как что-то записать в файл или считать из него, вам нужно открыть его:

fileobj = open(filename, mode)

Кратко поясню фрагменты этого вызова:

 fileobj — это объект файла, возвращаемый функцией open();

 filename — это строка, представляющая собой имя файла;

 mode — это строка, указывающая на тип файла и действия, которые вы хотите над ним произвести.

Первая буква строки mode указывает на операцию:

 r означает чтение;

 w означает запись. 

Если файла не существует, он будет создан. 

Если файл существует, он будет перезаписан;

 x означает запись, но только если файла еще не существует;

 a означает добавление данных в конец файла, если он существует.

Вторая буква строки mode указывает на тип файла:

 t (или ничего) означает, что файл текстовый;

 b означает, что файл бинарный.

После открытия файла вы вызываете функции для чтения или записи данных, они будут показаны в следующих примерах.

Наконец, вам нужно закрыть файл.

Создадим файл, содержащий одну строку, в одной программе и считаем его в другой.


## Запись в текстовый файл с помощью функции write()

По какой-то причине существует не так уж много лимериков о специальной теории относительности. 

В качестве источника данных придется использовать всего один:

In [None]:
poem = '''There was a young lady named Bright,
... Whose speed was far faster than light;
... She started one day
... In a relative way,
... And returned on the previous night.'''

In [None]:
len(poem)

Следующий код записывает это стихотворение в файл 'relativity' с помощью
всего одного вызова:

In [None]:
fout = open('relativity', 'wt')
fout.write(poem)

In [None]:
fout.close()

Функция write() возвращает число записанных байтов. 

Она не добавляет никаких пробелов или символов новой строки, как это делает функция print(). 

С помощью функции print() вы также можете записывать данные в текстовый файл:

In [None]:
fout = open('relativity', 'wt')
print(poem, file=fout)
fout.close()

Отсюда возникает вопрос: какую функцию использовать — write() или print()?

По умолчанию функция print() добавляет пробел после каждого аргумента и символ новой строки в конце. 

В предыдущем примере она добавила символ новой
строки в файл relativity. 

Для того чтобы функция print() работала как функция
write(), передайте ей два следующих аргумента:

 sep (разделитель, по умолчанию это пробел, ' ');

 end (символ конца файла, по умолчанию это символ новой строки, '\n').

Функция print() использует значения по умолчанию, если только вы не передадите ей что-то еще. 

Мы передадим ей пустые строки, чтобы подавить все лишние
детали, обычно добавляемые функцией print():

In [None]:
fout = open('relativity', 'wt')
print(poem, file=fout, sep='', end='')
fout.close()

Если исходная строка большая, вы можете записывать в файл ее фрагменты до тех пор, пока не запишете ее всю:

In [None]:
fout = open('relativity', 'wt')
size = len(poem)
offset = 0
chunk = 100
while True:
    if offset > size:
        break
    fout.write(poem[offset:offset+chunk])
    offset += chunk
fout.close()

Этот код записал 100 символов за первую попытку и последние 50 символов — за следующую.

Если файл relativity нам очень дорог, проверим, спасет ли режим х от его перезаписывания:

In [None]:
fout = open('relativity', 'xt')

Вы можете использовать этот код вместе с обработчиком исключений:


In [None]:
try:
    fout = open('relativity', 'xt')]
    fout.write('stomp stomp stomp')
except FileExistsError:
    print('relativity already exists!. That was a close one.')


## Считываем данные из текстового файла с помощью функций read(), readline() и readlines()


Вы можете вызвать функцию read() без аргументов, чтобы проглотить весь файл целиком, как показано в следующем примере. 

Будьте осторожны, делая это с крупными файлами, файл размером 1 Гбайт потребит 1 Гбайт памяти:

In [None]:
fin = open('relativity', 'rt' )
poem = fin.read()
fin.close()
len(poem)

Вы можете указать максимальное количество символов, которое функция read() вернет за один вызов. 

Давайте считывать по 100 символов за раз и присоединять
каждый фрагмент к строке poem, чтобы воссоздать оригинал:

In [None]:
poem = ''
fin = open('relativity', 'rt' )
chunk = 100
while True:
    fragment = fin.read(chunk)
    if not fragment:
        break
    poem += fragment

fin.close()
len(poem)

После того как вы считали весь файл, дальнейшие вызовы функции read() будут возвращать пустую строку (' '), которая будет оценена как False в проверке if not
fragment. 

Это позволит выйти из цикла while True.

Вы также можете считывать файл по одной строке за раз с помощью функции readline(). 

В следующем примере мы будем присоединять каждую строку к строке poem, чтобы воссоздать оригинал:

In [None]:
poem = ''
fin = open('relativity', 'rt' )
while True:
    line = fin.readline()
    if not line:
        break
    poem += line

fin.close()
len(poem)

Для текстового файла даже пустая строка имеет длину, равную 1 (символ новой строки), такая строка будет считаться True. 

Когда весь файл будет считан, функция readline() (как и функция read()) возвратит пустую строку, которая будет считаться False.

Самый простой способ считать текстовый файл — использовать итератор.

Он будет возвращать по одной строке за раз. Этот пример похож на предыдущий, но кода в нем меньше:

In [None]:
poem = ''
fin = open('relativity', 'rt' )
for line in fin:
    poem += line

fin.close()
len(poem)

Во всех предыдущих примерах в результате получалась одна строка poem.

Функция readline() считывает по одной строке за раз и возвращает список этих строк:

In [None]:
fin = open('relativity', 'rt' )
lines = fin.readlines()
fin.close()
print(len(lines), 'lines read')

In [None]:
for line in lines:
    print(line, end='')

Мы указали функции print() не добавлять автоматически символы новой строки, поскольку первые четыре строки сами их имеют. 

В последней строке этого символа не было, что заставило интерактивное приглашение появиться сразу после
последней строки.

## Записываем данные в бинарный файл с помощью функции write()

Если вы включите символ 'b' в строку режима, файл будет открыт в бинарном режиме. 

В этом случае вы вместо чтения и записи строк будете работать с байтами.

У нас под рукой нет бинарного стихотворения, поэтому мы просто сгенерируем 256 байтовых значений от 0 до 255:

In [None]:
bdata = bytes(range(0, 256))
len(bdata)

Откроем файл для записи в бинарном режиме и запишем все данные сразу:

In [None]:
fout = open('bfile', 'wb')
fout.write(bdata)
fout.close()


И вновь функция write() возвращает количество записанных байтов.

Как и в случае с текстом, вы можете записывать бинарные данные фрагментами:

In [None]:
fout = open('bfile', 'wb')
size = len(bdata)
offset = 0
chunk = 100
while True:
    if offset > size:
        break
    fout.write(bdata[offset:offset+chunk])
    offset += chunk

fout.close()

## Читаем бинарные файлы с помощью функции read()

Это просто: все, что вам нужно, — открыть файл в режиме 'rb':

In [None]:
fin = open('bfile', 'rb')
bdata = fin.read()
len(bdata)
fin.close()

## Закрываем файлы автоматически с помощью ключевого слова with

Если вы забудете закрыть за собой файл, его закроет Python после того, как будет удалена последняя ссылка на него. 

Это означает, что, если вы откроете файл и не
закроете его явно, он будет закрыт автоматически по завершении функции. 

Но вы можете открыть файл внутри длинной функции или даже основного раздела программы. 

Файл должен быть закрыт, чтобы все оставшиеся операции записи были завершены.

У Python имеются менеджеры контекста для очистки объектов вроде открытых файлов. 

Вы можете использовать конструкцию with выражение as переменная:


In [None]:
with open('relativity', 'wt') as fout:
    fout.write(poem)

Вот и все. 

После того как блок кода, расположенный под менеджером контекста (в этом случае одна строка), завершится (или нормально, или путем генерации исключения), файл будет закрыт автоматически.

## Меняем позицию с помощью функции seek()


По мере чтения и записи Python отслеживает ваше местоположение в файле. Функция tell() возвращает ваше текущее смещение от начала файла в байтах. Функция
seek() позволяет вам перейти к другому смещению в файле. Это значит, что вам
не обязательно читать каждый байт файла, чтобы добраться до последнего, — вы
можете использовать функцию seek(), чтобы сместиться к последнему байту и считать его.
Для примера воспользуемся 256-байтным бинарным файлом 'bfile', который
мы создали ранее:

In [None]:
fin = open('bfile', 'rb')
fin.tell()

Используем функцию seek(), чтобы перейти к предпоследнему байту файла:

In [None]:
fin.seek(255)

Считаем все данные от текущей позиции до конца файла:

In [None]:
bdata = fin.read()
len(bdata)

In [None]:
bdata[0]

Функция seek() также возвращает текущее смещение.
Вы также можете вызвать функцию seek(), передав ей второй аргумент: seek(offset, origin):

 если значение origin равно 0 (по умолчанию), сместиться на offset байт с начала файла;

 если значение origin равно 1, сместиться на offset байт с текущей позиции;

 если значение origin равно 2, сместиться на offset байт с конца файла.

Эти значения также определены в стандартном модуле os:


In [None]:
import os
os.SEEK_SET

In [None]:
os.SEEK_CUR

In [None]:
os.SEEK_END

Благодаря этому мы можем считать последний байт разными способами:

In [None]:
fin = open('bfile', 'rb')

Один байт перед концом файла:

In [None]:
fin.seek(-1, 2)

In [None]:
fin.tell()

Считать данные до конца файла:

In [None]:
bdata = fin.read()
len(bdata)

In [None]:
bdata[0]

Вам не нужно вызывать функцию tell(), чтобы работала функция seek(). 

Я только хотел показать, что обе эти функции возвращают одинаковое смещение.

Рассмотрим случай, когда мы вызываем функцию seek(), чтобы сместиться с текущей позиции:

In [None]:
fin = open('bfile', 'rb')

Следующий пример переносит позицию за 2 байта до конца файла:

In [None]:
fin.seek(254, 0)

In [None]:
fin.tell()

Теперь перейдем вперед на 1 байт:

In [None]:
fin.seek(1, 1)

In [None]:
fin.tell()

Наконец, считаем все данные до конца файла:

In [None]:
bdata = fin.read()
len(bdata)

In [None]:
bdata[0]

Эти функции наиболее полезны при работе с бинарными файлами. 

Вы можете использовать их и для работы с текстовыми файлами, но если файл содержит в себе не только символы формата ASCII (занимающие по одному байту в памяти), вам будет трудно определить смещение. 

Оно будет зависеть от кодировки текста, самая
популярная кодировка (UTF-8) использует разное количество байтов для разных символов.

## Структурированные текстовые файлы

Для простых текстовых файлов единственным уровнем организации является строка. 

Но иногда вам может понадобиться более структурированный файл.

Вы можете захотеть сохранить данные своей программы для дальнейшего использования или отправить их другой программе.

Существует множество форматов, которые можно различить по следующим особенностям.

 Разделитель, символ вроде табуляции ('\t'), запятой (',') или вертикальной черточки ('|'). 

Это пример формата со значениями, разделенными запятой,
(CSV).

 Символы '<' и '>', окружающие теги. Примеры включают в себя XML и HTML.

 Знаки препинания. Примером является JavaScript Object Notation (JSON).

 Выделение пробелами. 

Примером является YAML (что в зависимости от источника может означать YAML Ain’t Markup Language —«Не язык разметки», вам придется исследовать его самостоятельно).

 Прочие файлы, например конфигурационные.

Каждый из этих форматов структурированных файлов может быть считан и записан с помощью как минимум одного модуля Python.

## CSV

Файлы с разделителями часто используются в качестве формата обмена данными для электронных таблиц и баз данных. 

Вы можете считать файл CSV вручную, по одной строке за раз, разделяя каждую строку на поля, расставляя запятые и добавляя результат в структуру данных вроде списка или словаря. 

Но лучшим решением будет использовать стандартный модуль csv, поскольку парсинг этих файлов
может оказаться сложнее, чем вы думаете.

 Некоторые файлы имеют альтернативные разделители вместо запятой: самыми популярными являются '|' и '\t'.

 Некоторые файлы имеют управляющие последовательности. Если символ-разделитель встречается внутри поля, все поле может быть окружено символами кавычек или же перед ним будет находиться управляющая последовательность.

 Файлы имеют разные символы конца строк. В Unix используется '\n', в Microsoft — '\r \n', а Apple раньше применяла символ '\r', но теперь перешла на
использование '\n'.

 В первой строке могут содержаться названия колонок.
Для начала взглянем, как читать и записывать список строк, каждая из которых содержит список колонок:

In [None]:
import csv
villains = [
    ['Doctor', 'No'],
    ['Rosa', 'Klebb'],
    ['Mister', 'Big'],
    ['Auric', 'Goldfinger'],
    ['Ernst', 'Blofeld'],
]
with open('villains', 'wt') as fout: # менеджер контекста
    csvout = csv.writer(fout)
    csvout.writerows(villains)


Этот код создает пять записей:

Doctor,No
Rosa,Klebb
Mister,Big
Auric,Goldfinger
Ernst,Blofeld

Теперь попробуем считать их обратно:

In [None]:
import csv
with open('villains', 'rt') as fin: # менеджер контекста
    cin = csv.reader(fin)
    villains = [row for row in cin] # Здесь используется включение списка

print(villains)

[['Doctor', 'No'], ['Rosa', 'Klebb'], ['Mister', 'Big'],
['Auric', 'Goldfinger'], ['Ernst', 'Blofeld']]

Подумайте немного о включениях списка (в любой момент вы можете обратиться к разделу «Включения» главы 4, чтобы вспомнить синтаксис). 

Мы воспользовались структурой, созданной функцией reader(). 

Она услужливо создала в объекте cin ряды, которые мы можем извлечь с помощью цикла for.

Используя функции reader() и writer() с их стандартными опциями, мы получим колонки, которые разделены запятыми, и ряды, разделенные символами перевода строки.

Данные могут иметь формат списка словарей, а не списка списков. 

Снова считаем файл villains, в этот раз используя новую функцию DictReader() и указывая имена колонок:

In [None]:
import csv
with open('villains', 'rt') as fin:
    cin = csv.DictReader(fin, fieldnames=['first', 'last'])
    villains = [row for row in cin]

print(villains)

[{'last': 'No', 'first': 'Doctor'},
{'last': 'Klebb', 'first': 'Rosa'},
{'last': 'Big', 'first': 'Mister'},
{'last': 'Goldfinger', 'first': 'Auric'},
{'last': 'Blofeld', 'first': 'Ernst'}]

Перепишем CSV-файл с помощью новой функции DictWriter(). 

Мы также вызовем функцию writeheader(), чтобы записать начальную строку, содержащую имена колонок, в CSV-файл:

In [None]:
import csv
villains = [
    {'first': 'Doctor', 'last': 'No'},
    {'first': 'Rosa', 'last': 'Klebb'},
    {'first': 'Mister', 'last': 'Big'},
    {'first': 'Auric', 'last': 'Goldfinger'},
    {'first': 'Ernst', 'last': 'Blofeld'},
 ]
with open('villains', 'wt') as fout:
    cout = csv.DictWriter(fout, ['first', 'last'])
    cout.writeheader()
    cout.writerows(villains)

Этот код создает файл villains со строкой заголовка:

first,last
Doctor,No
Rosa,Klebb
Mister,Big
Auric,Goldfinger
Ernst,Blofeld

Теперь считаем его обратно. Опуская аргумент fieldnames в вызове DictReader(),
мы указываем функции использовать значения первой строки файла (first, last)
как имена колонок и соответствующие ключи словаря:

In [None]:
import csv 
with open('villains', 'rt') as fin:
    cin = csv.DictReader(fin)
    villains = [row for row in cin]

print(villains)

[{'last': 'No', 'first': 'Doctor'},
{'last': 'Klebb', 'first': 'Rosa'},
{'last': 'Big', 'first': 'Mister'},
{'last': 'Goldfinger', 'first': 'Auric'},
{'last': 'Blofeld', 'first': 'Ernst'}]

## XML

Файлы с разделителями охватывают только два измерения: ряды (строки) и колонки (поля внутри строк). 

Если вы хотите обмениваться структурами данных
между программами, вам нужен способ кодировать иерархии, последовательности, множества и другие структуры с помощью текста.

XML является самым известным форматом разметки, который можно применять в этом случае. 

Для разделения данных он использует теги, как показано
в следующем примере (файл menu.xml):

In [None]:
<?xml version="1.0"?>
<menu>
    <breakfast hours="7-11">
        <item price="$6.00">breakfast burritos</item>
        <item price="$4.00">pancakes</item>
    </breakfast>
    <lunch hours="11-3">
        <item price="$5.00">hamburger</item>
    </lunch>
    <dinner hours="3-10">
        <item price="8.00">spaghetti</item>
    </dinner>
</menu>

Рассмотрим основные характеристики формата XML.

 Теги начинаются с символа <. В этом примере использованы теги menu, breakfast, lunch, dinner и item.

 Пробелы игнорируются.

 Обычно после начального тега вроде <menu> следует остальной контент, а затем соответствующий конечный тег вроде </menu>.

 Теги могут быть вложены в другие теги на любой глубине. 

В этом примере теги item являются потомками тегов breakfast, lunch и dinner, которые, в свою очередь,
являются потомками тега menu.

 Внутри стартового тега могут встретиться опциональные атрибуты. 

В этом примере price является опциональным атрибутом тега item.

 Теги могут содержать значения. 

В этом примере каждый тег item имеет значение
вроде pancakes у второго элемента тега breakfast.

 Если у тега с именем thing нет значений или потомков, он может быть оформлен как единственный тег путем включения прямого слеша прямо перед закрывающей угловой скобкой (<thing/>), вместо того чтобы использовать начальный и конечный теги <thing> и </thing>.

 Место размещения данных — атрибуты, значения или теги-потомки — является в какой-то мере произвольным. Например, мы могли бы написать последний тег item как <item price="$8.00" food="spaghetti"/>.

XML часто используется в каналах данных и сообщениях и имеет подформаты вроде RSS и Atom. 

В некоторых отраслях, например в области бизнеса, имеются специализированные форматы XML (http://bit.ly/xml-finance).

Сверхгибкость формата XML вдохновила многих людей на создание библиотек для Python, каждая из которых отличается от других подходом и возможностями.

Самый простой способ проанализировать XML в Python — использовать библиотеку ElementTree. 

Рассмотрим небольшую программу, которая анализирует
файл menu.xml и выводит на экран некоторые теги и атрибуты:

In [None]:
import xml.etree.ElementTree as et
tree = et.ElementTree(file='menu.xml')
root = tree.getroot()
root.tag

In [None]:
for child in root:
    print('tag:', child.tag, 'attributes:', child.attrib)
for grandchild in child:
    print('\ttag:', grandchild.tag, 'attributes:', grandchild.attri

tag: breakfast attributes: {'hours': '7-11'}
tag: item attributes: {'price': '$6.00'}
tag: item attributes: {'price': '$4.00'}
tag: lunch attributes: {'hours': '11-3'}
tag: item attributes: {'price': '$5.00'}
tag: dinner attributes: {'hours': '3-10'}
tag: item attributes: {'price': '8.00'}

In [None]:
len(root) # количество разделов menu

In [None]:
len(root[0]) # количество элементов breakfast

Для каждого элемента вложенных списков tag — это строка тега, а attrib — это словарь его атрибутов. 

Библиотека ElementTree имеет множество других способов поиска данных, организованных в формате XML, модификации этих данных и даже записи XML-файлов. 

Все детали изложены в документации библиотеки
ElementTree (http://bit.ly/elementtree).

Среди других библиотек для работы с XML в Python можно отметить следующие:
 xml.dom. The Document Object Model (DOM), знакомая разработчикам на JavaScript, представляет веб-документы как иерархические структуры. 

Этот модуль загружает XML-файл в память целиком и позволяет вам получать доступ ко всем его частям;

 xml.sax. Simple API for XML, или SAX, разбирает XML на ходу, поэтому он не загружает в память сразу весь документ. 

Он может стать хорошим выбором, если вам нужно обработать очень большие потоки XML.

## HTML


Огромные объемы данных сохраняются в формате гипертекстового языка разметки (Hypertext Markup Language, HTML), это основной формат документов в сети
Интернет. 

Проблема заключается в том, что значительная часть этих документов не соответствует правилам формата HTML, поэтому его трудно разобрать.

Помимо этого, большая часть HTML предназначена для того, чтобы форматировать выводимую информацию, а не обмениваться данными. 

Поскольку эта глава предназначена для того, чтобы описать относительно хорошо определенные форматы
данных, я вынес рассмотрение HTML в главу 9.

## JSON

JavaScript Object Notation (JSON)(http://www.json.org/) стал очень популярным форматом обмена данными, вышедшим за пределы языка JavaScript. 

Формат JSON является частью языка JavaScript и часто содержит легальный с точки зрения
Python синтаксис. 

Он хорошо подходит Python, что делает его хорошим выбором при определении формата данных для обмена между программами. 

Вы увидите множество примеров использования JSON при веб-разработке в главе 9.

В отличие от XML, для которого написано множество модулей, для JSON существует всего один модуль с простым именем json. 

Эта программа кодирует (выгружает) данные в строку JSON и декодирует (загружает) строку JSON обратно.

В следующем примере мы создадим структуру данных, содержащую данные из предыдущего примера, где описывался формат XML:

In [None]:
menu = {
    "breakfast": {
        "hours": "7-11",
        "items": {
            "breakfast burritos": "$6.00",
            "pancakes": "$4.00"
        }
    },
    
    "lunch" : {
        "hours": "11-3",
        "items": {
            "hamburger": "$5.00"
        }
    },
    
    "dinner": {
        "hours": "3-10",
        "items": {
            "spaghetti": "$8.00"
        }
    }
}

Далее закодируемструктуру данных (menu) в строку JSON (menu_json) с помощью функции dumps():

In [None]:
import json
menu_json = json.dumps(menu)
menu_json

А теперь превратим строку JSON menu_json обратно в структуру данных (menu2) с помощью функции loads():

In [None]:
menu2 = json.loads(menu_json)
menu2

{'breakfast': {'items': {'breakfast burritos': '$6.00', 'pancakes':
'$4.00'}, 'hours': '7-11'}, 'lunch': {'items': {'hamburger': '$5.00'},
'hours': '11-3'}, 'dinner': {'items': {'spaghetti': '$8.00'}, 'hours': '3-10'}}

menu и menu2 являются словарями с одинаковыми ключами и значениями. 

Как всегда, в случае обычных словарей порядок, в котором вы получаете ключи, различается.

Вы можете получить исключение, пытаясь закодировать или декодировать некоторые объекты, включая такие объекты, как datetime (этот вопрос детально рассматривается в разделе «Календари и часы» главы 10), как показано здесь:

In [None]:
import datetime
now = datetime.datetime.utcnow()
now

In [None]:
json.dumps(now)

Это может случиться, поскольку стандарт JSON не определяет типы даты или времени — он ожидает, что вы укажете ему, как с ними работать. 

Вы можете преобразовать формат datetime во что-то, что JSON понимает, вроде строки или значения времени epoch (его мы рассмотрим в главе 10):


In [None]:
now_str = str(now)
json.dumps(now_str)

In [None]:
from time import mktime
now_epoch = int(mktime(now.timetuple()))
json.dumps(now_epoch)

Если значение datetime встретится между нормальными сконвертированными типами данных, может быть неприятно выполнять такие особые преобразования. 

Вы можете изменить то, как JSON будет закодирован, с помощью наследования, что описано в разделе «Наследование» главы 6. 

Документация JSON для Python содержит пример такого переопределения для комплексных чисел, что также заставляет JSON притвориться мертвым. 

Напишем переопределение для datetime:

In [None]:
class DTEncoder(json.JSONEncoder):
    def default(self, obj):
        # isinstance() checks the type of obj
        if isinstance(obj, datetime.datetime):
            return int(mktime(obj.timetuple()))
        # else it's something the normal decoder knows:
        return json.JSONEncoder.default(self, obj)


In [None]:
json.dumps(now, cls=DTEncoder)

Новый класс DTEncoder является подклассом, или классом-потомком, класса JSONEncoder. 

Нам нужно лишь переопределить его метод default(), добавив обработку datetime. 

Наследование гарантирует, что все остальное будет обработано родительским классом.

Функция isinstance() проверяет, является ли объект obj объектом класса datetime.datetime. 

Поскольку вPython все является объектом, функция isinstance() работает везде:

In [None]:
type(now)

In [None]:
isinstance(now, datetime.datetime)

In [None]:
type(234)

In [None]:
isinstance(234, int)

In [None]:
type('hey')

In [None]:
isinstance('hey', str)

Для JSON и других структурированных текстовых форматов вы можете загрузить файл в память и разместить его в структуре данных, не зная о самих структурах заранее. 

Далее вы можете с помощью функции isinstance() пройти по структурам и соответствующим типам методам, чтобы проверить их значения. 

Например, если один из элементов является словарем, вы можете извлечь его содержимое с помощью функций keys(), values() и items().

## YAML

Как и JSON, YAML (http://www.yaml.org/) имеет ключи и значения, но обрабатывает большее количество типов данных, включая дату и время. Стандартная библиотека Python не содержит модулей, работающих с YAML, поэтому вам нужно установить стороннюю библиотеку yaml (http://pyyaml.org/wiki/PyYAML). Функция load()
преобразует строку в формате YAML к данным Python, а функция dump() предназначена для противоположного действия.
Следующий YAML-файл, mcintyre.yaml, содержит информацию о канадском поэте Джеймсе Макинтайре (James McIntyre), в том числе два его стихотворения:

In [None]:
name:
 first: James
 last: McIntyre
dates:
 birth: 1828-05-25
     death: 1906-03-31
details:
 bearded: true
 themes: [cheese, Canada]
books:
 url: http://www.gutenberg.org/files/36068/36068-h/36068-h.htm
poems:
— title: 'Motto'
 text: |
 Politeness, perseverance and pluck,
 To their possessor will bring good luck.
— title: 'Canadian Charms'
 text: |
 Here industry is not in vain,
 For we have bounteous crops of grain,
 And you behold on every field
 Of grass and roots abundant yield,
 But after all the greatest charm
 Is the snug home upon the farm,
 And stone walls now keep cattle warm.


Значения вроде true, false, on и off преобразуются в булевы переменные. Целые
числа и строки преобразуются в их эквиваленты в Python. Для прочего синтаксиса создаются списки и словари:

In [None]:
import yaml
with open('mcintyre.yaml', 'rt') as fin:
text = fin.read()
data = yaml.load(text)
data['details']

In [None]:
len(data['poems'])

Создаваемые структуры данных совпадают со структурами YAML-файла, которые в данном случае имеют глубину более одного уровня. 

Вы можете получить заголовок второго стихотворения с помощью следующей ссылки:

In [None]:
data['poems'][1]['title']

PyYAML может загружать объекты Python из строк, и это опасно. 

Используйте метод safe_load() вместо метода load(), если импортируете данные в формате YAML, которым не доверяете. 

А лучше всегда используйте метод safe_load(). 

Прочтите статью War is peace (http://
nedbatchelder.com/blog/201302/war_is_peace.html), чтобы узнать о том, как незащищенная загрузка YAML скомпрометировала платформу Ruby on Rails.

### Безопасность

Вы можете использовать любой формат, описанный в этой главе, для сохранения объектов в файлы и их считывания. 

Однако существует вероятность внедриться
в этот процесс и вызвать проблемы с безопасностью.

Например, в следующем фрагменте XML-файла, состоящем из миллиарда усмешек, страница «Википедии» определяет десять вложенных сущностей, каждая из которых распространяется на более низкий уровень десять раз, порождая в сумме один миллиард сущностей:

In [None]:
<?xml version="1.0"?>
<!DOCTYPE lolz [
 <!ENTITY lol "lol">
<!ENTITY lol1 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;">
<!ENTITY lol2 "&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;">
<!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;">
<!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;">
<!ENTITY lol5 "&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;">
<!ENTITY lol6 "&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;">
<!ENTITY lol7 "&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;">
<!ENTITY lol8 "&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;">
<!ENTITY lol9 "&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;">
]>
<lolz>&lol9;</lolz>

Плохая новость: миллиард усмешек подорвет работоспособность всех XMLбиблиотек, упомянутых в предыдущем разделе. 

На ресурсе Defused XML (https://
bitbucket.org/tiran/defusedxml) эта и другие атаки перечислены наряду с уязвимостями библиотек Python. 

Перейдя по этой ссылке, вы увидите, как изменять настройки многих библиотек так, чтобы избежать этих проблем. 

Вы также можете использовать библиотеку defusedxml как внешний интерфейс безопасности для других
библиотек:

In [None]:
# insecure:
from xml.etree.ElementTree import parse
et = parse(xmlfile)
# protected:
from defusedxml.ElementTree import parse
et = parse(xmlfile)

### Конфигурационные файлы

Большинство программ предлагают различные параметры или настройки. 

Динамические настройки могут быть переданы как аргументы программы, но долговременные настройки должны где-то храниться. 

Искушение определить собственный формат конфигурационного файла быстро и неаккуратно очень сильно, но вы должны устоять. 

Как правило, результат получаем неаккуратно, но не очень быстро. 

Вам нужно обслуживать как программу-писатель, так и программу-читатель(которая иногда называется парсером).

Существуют хорошие альтернативы, которые вы можете добавить в свою программу, включая те, что были показаны в предыдущих разделах.

Здесь мы используем стандартный модуль configparser, который обрабатывает файлы с расширением .ini, характерные для Windows. 

Такие файлы имеют разделы, содержащие определения ключ = значение. 

Так выглядит минимальный файл settings.cfg:

In [None]:
[english]
greeting = Hello
[french]
greeting = Bonjour
[files]
home = /usr/local
# simple interpolation:
bin = %(home)s/bin

А так выглядит код, который позволяет считать его и разместить в структурах
данных:

In [None]:
import configparser
cfg = configparser.ConfigParser()
cfg.read('settings.cfg')

In [None]:
cfg

In [None]:
cfg['french']

In [None]:
cfg['french']['greeting']

In [None]:
cfg['files']['bin']

Доступны и другие опции, включая более мощную интерполяцию. 

Обратитесь к документации configparser (http://bit.ly/configparser). 

Если вам нужно более двух уровней вложенности, попробуйте использовать YAML или JSON.

## Другие форматы обмена данными


Такие бинарные форматы обмена данными, как 
MsgPack (http://msgpack.org/),

Protocol Buffers (https://code.google.com/p/protobuf/), 

Avro (http://avro.apache.org/docs/current/), 

Thrift (http://thrift.apache.org/), обычно компактнее и быстрее, чем XML или JSON. 

Поскольку они бинарные, ни один из них не может быть изменен человеком, вооружившимся текстовым редактором.

### Сериализация с помощью pickle

Сохранение структур данных в файл называется сериализацией.

Форматы вроде JSON могут требовать наличия пользовательских преобразователей для сериализации всех типов данных программы, написанной на Python. 

Python предоставляет модуль pickle, позволяющий сохранить и восстановить любой объект в специальном бинарном формате.

Помните, как JSON сошел с ума, когда встретил объект datetime? 

Для pickle это не проблема:

In [None]:
import pickle
import datetime
now1 = datetime.datetime.utcnow()
pickled = pickle.dumps(now1)
now2 = pickle.loads(pickled)
now1

In [None]:
now2

pickle работает также с вашими собственными классами и объектами. Мы определим небольшой класс, который называется Tiny и возвращает слово 'tiny', когда
он используется как строка:

In [None]:
import pickle
class Tiny():
    def __str__(self):
        return 'tiny'
    
obj1 = Tiny()
obj1

In [None]:
str(obj1)

In [None]:
pickled = pickle.dumps(obj1)
pickled

In [None]:
obj2 = pickle.loads(pickled)
obj2

In [None]:
str(obj2)

pickled — это обработанная pickle бинарная строка, созданная из объекта obj1.

Мы преобразовали ее в объект obj2, чтобы сделать копию объекта obj1. 

Используйте функцию dump(), чтобы pickle сохранил данные в файл, и функцию load(), чтобы pickle загрузил данные из файла.

Поскольку pickle может создавать объекты Python, к нему применимы предупреждения о безопасности, которые были рассмотрены ранее. 

Не загружайте в pickle данные, которым
не доверяете.

## Структурированные бинарные файлы


Некоторые файловые форматы были разработаны для того, чтобы хранить определенные структуры данных, и они не являются ни реляционными, ни базами данных NoSQL. 

В следующих разделах рассказывается о некоторых из них

## Электронные таблицы

Электронные таблицы, в частности Microsoft Excel, — это широко распространенный формат данных. 

Если вы можете сохранить свою таблицу в CSV-файл, то можете считать его с помощью стандартного модуля csv, который был описан ранее.

Если у вас есть бинарный файл xls, для его считывания и записи можете использовать стороннюю библиотеку xlrd.

## HDF5

HDF5 (http://www.hdfgroup.org/why_hdf) — это бинарный формат данных, предназначенный для хранения многомерных или иерархических числовых данных. 

Обычно он используется в научных целях, где быстрый случайный доступ к крупным наборам данных (от гигабайтов до терабайтов) является распространенным требованием.

Несмотря на то что HDF5 в некоторых случаях мог бы стать хорошей альтернативой базам данных, по каким-то причинам этот формат практически неизвестен в современном мире. Он лучше всего подходит для приложений вида WORM (write once/
read many — «запиши однажды — считай много раз»), которые не нуждаются в защите от конфликтующих записей. 

Вы можете счесть полезными следующие модули:
 h5py — является интерфейсом низкого уровня с широкими возможностями.

Прочтите его документацию (http://www.h5py.org/) и код (https://github.com/h5py/
h5py);

 PyTables — это интерфейс немного более высокого уровня, имеющий некоторые особенности, характерные для баз данных. Прочтите его документацию (http://www.pytables.org/) и код (http://pytables.github.com/).

Оба этих формата рассматриваются в приложении В с точки зрения применения в научных приложениях, написанных на Python. 

Здесь я упоминаю об HDF5 затем, чтобы у вас был под рукой нестандартный вариант на случай, когда вам нужно сохранять и вычитывать крупные объемы данных. 

Хорошим примером использования этого формата является Million Song Dataset (http://bit.ly/millionsong), содержащий
информацию о песнях.

## Реляционные базы данных

Реляционным базам данных всего около 40 лет, но в компьютерном мире они используются повсеместно. 

Вам практически наверняка придется поработать с ними.

В эти моменты вы сможете оценить следующие их преимущества.

 Доступ к данным возможен для нескольких пользователей одновременно.

 Действует защита от повреждения данных пользователями.

 Существуют эффективные методы сохранения и считывания данных.

 Данные определяются схемами, их можно ограничить.

 Объединения позволяют найти отношения между различными типами данных.

 Декларативный (в противоположность императивному) язык запросов SQL(Structured Query Language, структурированный язык запросов).

Такие базы данных называются реляционными, поскольку они показывают отношения между различными типами данных, представленными в форме таблиц(в наши дни они называются именно так). 

Например, в нашем примере в менюсуществовало бы отношение между каждым элементом и его ценой.

Таблица представляет собой сетку с рядами и графами, похожую на электронную таблицу. 

Чтобы создать таблицу, необходимо указать ее имя ипорядок, имена итипы ее граф.

Каждый ряд имеет одинаковые графы, однако графа может быть определена так, что в ней можно ничего не размещать (null).

В примере с меню вы могли бы создать таблицу, содержащую по одному ряду для каждого продаваемого элемента.

Каждый элемент имеет одинаковые графы, включая ту, которая хранит цену.

Первичным ключом таблицы является графа или группа граф, их значения должны быть уникальными. 

Это предотвращает ввод одинаковых данных в таблицу.

Этот ключ индексируется для более быстрого поиска по время выполнения запроса. 

Работа индекса немного похожа на алфавитный указатель, что позволяет быстро найти определенный ряд.

Каждая таблица находится внутри родительской базы данных, что напоминает файлы в каталоге. 

Два уровня иерархии позволяют немного лучше организовывать
данные.

Да, словосочетание «база данных» используется в нескольких случаях: когда разговор идет о сервере, о хранилище таблиц и о данных, которые там хранятся. 

Если вам нужно упомянуть их одновременно, можно назвать их сервером базы данных, базой данных и данными

Если вам нужно найти ряды по некоторому неключевому значению, определите для столбца вторичный индекс. 

В противном случае база данных должна будет
выполнить сканирование таблицы — поиск нужного значения перебором всех рядов.

Таблицы могут быть связаны друг с другом с помощью внешних ключей, и значения граф могут быть ограничены этими ключами.

## SQL

SQL не является API или протоколом. 

Это декларативный язык: вы говорите, что вам нужно, вместо того, как это сделать. 

Это универсальный язык реляционных баз данных. 

Запросы SQL являются текстовыми строками, которые клиент отсылает серверу базы данных, определяющему, что с ними делать дальше.

Существует несколько стандартов определения SQL, но все поставщики баз данных добавили свои модификации и расширения, что вылилось в возникновение
множества диалектов SQL. 

Если вы храните данные в реляционной базе данных,
SQL дает вам некоторую переносимость данных. 

Однако наличие диалектов и операционных различий может усложнить перенос данных в другую базу.

Существуют две основные категории утверждений SQL: DDL (Data Definition Language, язык определения данных), который обрабатывает создание, удаление, ограничения и разрешения для таблиц, баз данных и использует DML (Data Manipulation Language, язык манипулирования данными), который обрабатывает добавление данных, их выборку, обновление и удаление.

В табл. 8.1 перечислены основные команды SQL DDL

##### Основные команды SQL DDL

Операция                Шаблон SQL                Пример SQL

Создание базы данных    CREATE DATABASE dbname    CREATE DATABASE d

Выбор текущей базы данных USE dbname              USE d


Удаление базы данных 
и ее таблиц             DROP DATABASE dbname      DROP   
                                                  DATABASE d
                                                
Создание таблицы        CREATE TABLE tbname(coldefs) CREATE TABLE t (id INT,
                                                     count INT)
                                                     
Удаление таблицы        DROP TABLE tbname          DROP TABLE t

Удаление_всех строк_табл TRUNCATE TABLE tbname     TRUNCATE TABLE t

Почему все пишется БОЛЬШИМИ БУКВАМИ? Язык SQL не зависит от регистра, но по традиции (не спрашивайте меня почему) ключевые слова ВЫКРИКИВАЮТСЯ, чтобы можно было
отличить их от имен граф.

Основные операции DML реляционной базы данных можно запомнить с помощью акронима CRUD:

 Create — создание с помощью оператора SQL INSERT;

 Read — чтение с помощью SELECT;

 Update — обновление с помощью UPDATE;

 Delete — удаление с помощью DELETE

##### Основные команды SQL DML

Операция:                                              

Добавление ряда   

Шаблон SQL:

INSERT INTO tbname VALUES(…)

Пример SQL:

INSERT INTO t VALUES(7, 40)


Операция:                                              

Выборка всех рядов и граф 

Шаблон SQL:

SELECT * FROM tbname

Пример SQL:

SELECT * FROM t


Операция:                                              

Выборка всех рядов и некоторых граф 

Шаблон SQL:

SELECT cols FROM tbname

Пример SQL:

SELECT id, count FROM t


Операция:                                              

Выборка некоторых рядов
и некоторых граф

Шаблон SQL:

SELECT cols FROM tbname

Пример SQL:

WHERE condition SELECT id, count from t WHERE count > 5 AND id = 9

Операция:                                              

Изменение некоторых рядов
в графе

Шаблон SQL:

UPDATE tbname SET col = value
WHERE condition

Пример SQL:

UPDATE t SET count = 3 WHERE id = 5

Операция:                                              

Удаление некоторых рядов

Шаблон SQL:

DELETE FROM tbname WHERE condition

Пример SQL:

DELETE FROM t WHERE count <= 10 OR id = 16


### DB-API

Программный интерфейс приложения (Application Programming Interface, API) — это набор функций, которые вы можете вызвать, чтобы получить доступ к какойлибо услуге. 

DB-API (http://bit.ly/db-api) — это стандартный API в Python, предназначенный для получения доступа к реляционным базам данных. 

С его помощью вы можете написать одну программу, которая работает с несколькими видами реляционных баз данных, вместо того чтобы писать несколько программ для работы с каждым видом баз данных по отдельности. 

Этот API похож на JDBC в Java или dbi вPerl.

Рассмотрим его основные функции.

 connect() — создание соединения с базой данных. 

Этот вызов может включать
в себя аргументы вроде имени пользователя, пароля, адреса сервера и пр.

 cursor() — создание объекта курсора, предназначенного для работы с запросами.

 execute() и executemany() — запуск одной или более команд SQL.

 fetchone(), fetchmany() и fetchall() — получение результатов работы функции execute.

Модули работы с базами данных в Python, которые будут рассмотрены в следующих разделах, соответствуют DB-API, часто имея некоторые расширения или разницу в деталях.

## SQLite

SQLite (http://www.sqlite.org/) — это хорошая легковесная реляционная база данных с открытым исходным кодом. 

Она реализована как стандартная библиотека
Python и хранит базы данных в обычных файлах. 

Эти файлы можно переносить на другие машины и в операционные системы, что делает SQLite очень портативным решением для создания простых реляционных баз данных. 

У нее не так много возможностей, как у MySQL или PostgreSQL, но она поддерживает SQL и позволяет нескольким пользователям работать с ней одновременно. 

Браузеры, смартфоны и другие операционные системы используют SQLite как встроенную базу данных.

Работа с базой данных начинается с вызова connect() для установки соединения с локальным файлом базы данных, который вы хотите создать или использовать.

Этот файл эквивалентен похожей на каталог базе данных, которая хранит таблицы на других серверах. 

С помощью специальной строки ':memory:' можно создать базу
данных только в памяти — это быстро и полезно для тестирования, но данные будут потеряны при завершении программы или выключении компьютера.

Для следующего примера создадим базу данных enterprise.db и таблицу zoo, чтобы управлять нашим увлекательным бизнесом по содержанию придорожного контактного зоопарка. 

В таблице будут содержаться следующие графы:

 critter — строка переменной длины, наш первичный ключ;

 count — целочисленное количество единиц используемого инвентаря для этого животного;

 damages — количество долларов, потерянных из-за взаимодействий людей с животными:

In [None]:
import sqlite3
conn = sqlite3.connect('enterprise.db')
curs = conn.cursor()
curs.execute('''CREATE TABLE zoo 
(critter VARCHAR(20) PRIMARY KEY,
 count INT,
 damages FLOAT)''')

Тройные кавычки в Python очень полезны при создании длинных строк вроде запросов SQL.

Теперь добавим в зоопарк несколько животных:

In [None]:
curs.execute('INSERT INTO zoo VALUES("duck", 5, 0.0)')


In [None]:
curs.execute('INSERT INTO zoo VALUES("bear", 2, 1000.0)')

Существует более безопасный способ добавить данные — использовать заполнитель:

In [None]:
ins = 'INSERT INTO zoo (critter, count, damages) VALUES(?, ?, ?)'
curs.execute(ins, ('weasel', 1, 2000.0))

В этот раз мы использовали в запросе три вопросительных знака, чтобы показать,
что планируем добавить три значения, а затем добавить эти значения списком
в функции execute(). Заполнители помогают нам справляться с нудными деталями
вроде расстановки кавычек. Они защищают от SQL-инъекций — внешней атаки,
распространенной в Сети, которая внедряет в систему вредные команды SQL.
Теперь проверим, сможем ли мы получить назад список наших животных:

In [None]:
curs.execute('SELECT * FROM zoo')

In [None]:
rows = curs.fetchall()
print(rows)

Получим их снова, но на этот раз упорядочим список по количеству животных:

In [None]:
curs.execute('SELECT * from zoo ORDER BY count')

In [None]:
curs.fetchall()

Эй, мы хотели получить список в нисходящем порядке:


In [None]:
curs.execute('SELECT * from zoo ORDER BY count DESC')

In [None]:
curs.fetchall()

Какие животные обходятся нам дороже всего?

In [None]:
curs.execute('''SELECT * FROM zoo WHERE damages = (SELECT MAX(damages) FROM zoo)''')

In [None]:
curs.fetchall()

Вы могли бы подумать, что это медведи. 

Лучше всегда проверять актуальные данные.

Перед тем как оставить в покое SQLite, нам нужно прибраться.

Если мы открывали соединение и курсор, нужно закрыть их после того, как работа будет закончена:

In [None]:
curs.close()
conn.close()

## MySQL

MySQL (http://www.mysql.com/) — это очень популярная реляционная база данных
с открытым исходным кодом. В отличие от SQLite она является настоящим сервером, поэтому клиенты могут получать к ней доступ с разных устройств всей
сети.
MysqlDB (http://sourceforge.net/projects/mysql-python) является самым популярным драйвером для MySQL, но его еще не портировали в Python 3. В табл. 8.3 перечислены драйверы, которые вы можете использовать для того, чтобы получить
доступ к MySQL из Python

###### Драйверы MySQL

Название           MySQL Connector

Ссылка             http://bit.ly/mysql-cpdg 

Пакет PyPi         mysql-connectorpython

Импортировать как  mysql.connector

Примечание         -

Название           PYMySQL

Ссылка             https://github.com/petehunt/PyMySQL/


Пакет PyPi         pymysql

Импортировать как  pymysql 

Примечание         -

Название           oursql 


Ссылка             http://pythonhosted.org/oursql/

Пакет PyPi         oursql

Импортировать как  oursql

Примечание         Требует наличия
                   клиентской библиотеки MySQL C

### PostgreSQL

PostgreSQL (http://www.postgresql.org/) — реляционная база данных с открытым исходным кодом, имеющая широкие возможности и гораздо более продвинутая, чем MySQL. 

В табл. 8.4 показаны драйверы Python, которые вы можете использовать для того, чтобы получить к ней доступ.


###### Драйверы PostgreSQL


Название           psycopg2 

Ссылка             http://initd.org/psycopg/ 

Пакет PyPi         psycopg2

Импортировать как  psycopg2

Примечание         Необходим pg_config из клиентских инструментов PostgreSQL


Название           py-postgresql 

Ссылка             http://python.projects.pgfoundry.org/

Пакет PyPi         py-postgresql

Импортировать как  postgresql

Примечание         -

## SQLAlchemy

SQL не во всех реляционных базах данных одинаков, и DB-API дает вам ограниченный набор возможностей. 

Каждая база данных реализует определенный диалект, отражая свои особенности и философию. 

Многие библиотеки пытаются тем или иным способом компенсировать эти различия. 

Самая популярная библиотека для работы с разными базами данных — SQLAlchemy (http://www.sqlalchemy.org/).

Эта библиотека не является стандартной, но она широко известна и используется многими людьми. 

Вы можете установить ее в свою систему с помощью следующей команды:

In [None]:
$ pip install sqlalchemy

Можете использовать SQLAlchemy на нескольких уровнях.

 На самом низком уровне она работает с пулами соединений к базе данных, выполняет команды SQL и возвращает результат. 

Этот уровень очень похож на DB-API.

 Следующий уровень — язык выражений SQL, построитель SQL в Python.

 Самый высокий уровень — это слой ORM (Object Relational Model, объектнореляционное отображение), который использует язык выражений SQL Expression Language и связывает код приложения с реляционными структурами
данных.

По мере углубления вматериал вы поймете, что означают эти термины. 

SQLAlchemy работает с драйверами базы данных, задокументированными в предыдущих разделах. 

Вам не нужно импортировать драйвер — он будет определен с помощью строки соединения, которую вы предоставляете SQLAlchemy. 

Эта строка выглядит примерно так:

dialect + driver :// user : password @ host : port / dbname

В эту строку нужно поместить следующие значения:

 dialect — тип базы данных;

 driver — драйвер, который вы хотите использовать для этой базы данных;

 user и password — строки аутентификации для этой базы данных;

 host и port — расположение сервера базы данных (значение port нужно указывать только в том случае, если вы используете нестандартный порт);

 dbname — имя базы данных, к которой нужно подключиться.
В табл. 8.5 перечислены диалекты и драйверы.

##### Соединение с SQLAlchemy

Диалект               Драйвер

sqlite                pysqlite (можно опустить)

mysql                 mysqlconnector

mysql                 pymysql

mysql                 oursql

postgresql            psycopg2

postgresql            pypostgresql

#### Уровень движка

Сначала мы попробуем поработать с самым низким уровнем SQLAlchemy, возможности которого почти не отличаются от функций DB-API.


Попробуем поработать с SQLite, поскольку его поддержка уже встроена в Python. 

Строка соединения для SQLite опускает значения параметров host, port, user и password.dbname информирует SQLite о том, какой файл использовать для хранения вашей базы данных. 

Если вы опустите параметр dbname, SQLite создаст
базу данных в памяти. 

Если значение параметра dbname начинается со слеша (/),
оно является абсолютным именем файла на вашем компьютере (как в Linux и OS X). 

В противном случае оно является относительным именем текущего каталога.

Следующие сегменты являются частью одной программы, разделенной на части для удобства объяснения.

Для начала нужно импортировать все, что нам понадобится.

Следующая строка является примером импортирования псевдонима, который позволяет использовать строку sa для того, чтобы ссылаться на методы SQLAlchemy. 

Я делаю это в основном потому, что sa написать гораздо проще, чем sqlalchemy:

In [None]:
import sqlalchemy as sa

Соединимся с базой данных и создадим хранилище в памяти (строка аргументов 'sqlite:///:memory: ' также сработает):

In [None]:
conn = sa.create_engine('sqlite://')

Создадим таблицу, которая называется zoo и содержит три графы:

In [None]:
conn.execute('''CREATE TABLE zoo
    (critter VARCHAR(20) PRIMARY KEY,
    count INT,
    damages FLOAT)''')

Вызов conn.execute() возвращает объект SQLAlchemy, который называется ResultProxy. 

Скоро вы увидите, что с ним можно сделать.

Кстати, если вы раньше никогда не создавали базы данных, примите мои поздравления. 

Можете вычеркнуть этот пункт из своего списка дел, которые обязательно нужно реализовать в жизни.

Далее вставьте три набора данных в новую пустую таблицу:

In [None]:
ins = 'INSERT INTO zoo (critter, count, damages) VALUES (?, ?, ?)'

In [None]:
conn.execute(ins, 'duck', 10, 0.0)

In [None]:
conn.execute(ins, 'bear', 2, 1000.0)

In [None]:
conn.execute(ins, 'weasel', 1, 2000.0)

Далее сделайте выборку того, что только что разместили в базе:

In [None]:
rows = conn.execute('SELECT * FROM zoo')

В SQLAlchemy rows не является списком — это специальный объект ResultProxy, который мы не можем отобразить непосредственно:


In [None]:
print(rows)

Однако вы можете итерировать по нему, как по списку, и получать по одному ряду за раз:

In [None]:
for row in rows:
    print(row)

Этот пример очень похож на другой, где использовался SQLite DB-API. 

Единственное преимущество этого подхода заключается в том, что нам не нужно импортировать драйвер — SQLAlchemy сам определил драйвер на основе строки соединения. 

Простое изменение строки соединения позволит перенести этот код на базу данных другого типа. 

Еще один плюс SQLAlchemy заключается в наличии пула
соединений, о котором вы можете прочитать на сайте http://bit.ly/conn-pooling, содержащем документацию.

## Язык выражений SQL

Следующий уровень SQLAlchemy — это язык выражений SQL. Он предоставляет
функции, которые позволяют создать SQL для разных операций. Язык выражений
обрабатывает большее количество различий в диалектах, чем низкоуровневый слой
движка. Он может оказаться полезным промежуточным решением для приложений, работающих с реляционными базами данных.
Рассмотрим создание и наполнение таблицы zoo. Вновь все последующие фрагменты принадлежат одной программе.
Импортирование и подключение не изменяются:

In [None]:
import sqlalchemy as sa
conn = sa.create_engine('sqlite://')

Для того чтобы определить таблицу zoo, вместо SQL начнем использовать язык
выражений:

In [None]:
meta = sa.MetaData()
zoo = sa.Table('zoo', meta,
               sa.Column('critter', sa.String, primary_key=True),
               sa.Column('count', sa.Integer),
               sa.Column('damages', sa.Float))
meta.create_all(conn)

Обратите внимание на круглые скобки в операции, которая занимает несколько строк в предыдущем примере. 

Структура метода Table() совпадает со структурой
таблицы. 

Поскольку наша таблица содержит три графы, в методе Table() расположены три вызова метода Column().

zoo представляет собой некий волшебный объект, который соединяет мир баз данных SQL и мир структур данных Python.

Запишите в таблицу данные с помощью новых функций языка выражений:

... conn.execute(zoo.insert(('bear', 2, 1000.0)))
<sqlalchemy.engine.result.ResultProxy object at 0x1017ea910>
>>> conn.execute(zoo.insert(('weasel', 1, 2000.0)))
<sqlalchemy.engine.result.ResultProxy object at 0x1017eab10>
>>> conn.execute(zoo.insert(('duck', 10, 0)))
<sqlalchemy.engine.result.ResultProxy object at 0x1017eac50>

Далее создадим оператор SELECT (zoo.select() делает выборку всего, что содержится в таблице, представленной объектом zoo, как это сделала бы инструкция

SELECT * FROM zoo 

в простом SQL):

In [None]:
result = conn.execute(zoo.select())

Наконец, получим результат:

In [None]:
rows = result.fetchall()

In [None]:
print(rows)

## The Object-Relational Mapper


В предыдущем разделе объект zoo являлся промежуточным звеном между SQL и Python. 

В самом верхнем слое SQLAlchemy объектно-реляционное отображение (Object-Relational Mapper, ORM) использует язык выражений SQL, но старается сделать реальные механизмы базы данных невидимыми. 

Вы определяете классы, а ORM обрабатывает способ, с помощью которого они получают данные из базы данных и возвращают их обратно. 

Основная идея, на которой базируется сложный
термин «объектно-реляционное отображение», заключается в том, что вы можете ссылаться на объекты в своем коде и поэтому придерживаться принципов работы с Python, но при этом использовать реляционную базу данных.

Мы определим класс Zoo и свяжем его с ORM. 

В этот раз укажем SQLite использовать файл zoo.db, чтобы убедиться, что ORM работает.

Как и в предыдущих двух разделах, следующие сниппеты являются частью одной программы, разбитой на фрагменты, которые я объясню. Не переживайте, если чего-то не поймете. 

В документации к SQLAlchemy содержатся все необходимые детали, работа с SQLALchemy может оказаться довольно сложной.

Я хочу показать вам, что нужно сделать, чтобы ORM работал, чтобы вы могли определить, какой из подходов, рассмотренных в этой главе, годится для вас больше других.

Импорт остается неизменным, но в этот раз нам нужно кое-что еще:


In [None]:
import sqlalchemy as sa
from sqlalchemy.ext.declarative import declarative_base

Вот так создается соединение:

In [None]:
 conn = sa.create_engine('sqlite:///zoo.db')


Теперь мы начинаем работать с SQLAlchemy ORM. 

Определяем класс Zoo и связываем его атрибуты с графами таблицы:

In [None]:
Base = declarative_base()
class Zoo(Base):
    __tablename__ = 'zoo'
    critter = sa.Column('critter', sa.String, primary_key=True)
    count = sa.Column('count', sa.Integer)
    damages = sa.Column('damages', sa.Float)
    def __init__(self, critter, count, damages):
        self.critter = critter
        self.count = count
        self.damages = damages
    def __repr__(self):
        return "<Zoo({}, {}, {})>".format(self.critter, self.count, self.damages)

Следующая строка как по волшебству создает базу данных и таблицу:

In [None]:
Base.metadata.create_all(conn)

In [None]:
Вы можете добавить в таблицу данные путем создания объектов Python.
ORM управляет данными изнутри:

In [None]:
first = Zoo('duck', 10, 0.0)
second = Zoo('bear', 2, 1000.0)
third = Zoo('weasel', 1, 2000.0)
first

Далее мы указываем ORM отвезти нас в страну SQL. 

Создаем сессию, чтобы беседовать с базой данных:

In [None]:
from sqlalchemy.orm import sessionmaker
Session = sessionmaker(bind=conn)
session = Session()

Внутри сессии записываем три созданных нами объекта в базу данных. 

Функция add() добавляет один объект, а функция add_all() добавляет список:

In [None]:
session.add(first)
session.add_all([second, third])

Наконец, нам нужно завершить сессию:

In [None]:
session.commit()

Сработало? Файл zoo.db был создан в текущем каталоге. 

Вы можете использовать программу командной строки sqlite3, чтобы убедиться в этом:

$ sqlite3 zoo.db

SQLite version 3.6.12
Enter ".help" for instructions
Enter SQL statements terminated with a ";"
sqlite> .tables
zoo
sqlite> select * from zoo;
duck|10|0.0
bear|2|1000.0
weasel|1|2000.0

Цель этого раздела заключается в том, чтобы показать, что такое ORM и как он работает на высоком уровне. 

Автор SQLAlchemy написал полное руководство к нему (http://bit.ly/obj-rel-tutorial). 

После прочтения этого раздела определитесь, какой из следующих уровней лучше подходит для ваших нужд:

 простой DB-API, показанный ранее в подразделе «SQLite»;

 движок SQLAlchemy;

 язык выражений SQLAlchemy;

 SQLAlchemy ORM.

Естественным выбором выглядит применение ORM, что позволит избежать всех сложностей SQL. 

Стоит ли им пользоваться? 

Некоторые люди считают, что
ORM следует избегать (http://bit.ly/obj-rel-map), а другие полагают, что его критикуют незаслуженно (http://bit.ly/fowler-orm). 

Независимо от того, кто прав, ORM — это абстракция, а все абстракции в какой-то момент разрушаются — они допускают
утечки памяти. 

Если ORM не делает того, что вам нужно, вы должны понять, как он работает, а затем разобраться, как исправить это с помощью SQL. 

Перефразируя интернет-мем, некоторые люди, столкнувшись с проблемой, думают: «Точно, использую ORM». 

Теперь у них две проблемы. 

Старайтесь использовать ORM реже и, как правило, для простых приложений. 

Но если приложение кажется простым, то вам, возможно, стоит использовать простой SQL (или язык выражений SQL).

Или же вы можете попробовать еще более простой способ — dataset (https://dataset.readthedocs.org/). 

Он создан на основе SQLAlchemy и предоставляет простой
ORM для хранилищ SQL, JSON и CSV.

### Хранилища данных NoSQL

Некоторые базы данных не являются реляционными и не поддерживают SQL.

Они были созданы для работы с очень крупными наборами данных, позволяют более гибко определять данные и поддерживают пользовательские операции с данными. 

Такие базы данных называют NoSQL (раньше это означало «не SQL», теперь же расшифровка звучит как «не только SQL»).

### Семейство dbm

Форматы dbm существовали задолго до того, как появился NoSQL. 

Они представляют собой хранилища, работающие по принципу «ключ — значение», их часто встраивают в приложения вроде браузеров, чтобы поддерживать различные настройки. 

База данных dbm очень похожа на обычный словарь.

 Вы присваиваете значение ключу, и оно автоматически сохраняется в базе данных на диске.

 Вы можете получить значение с помощью ключа.

Рассмотрим простой пример. Второй аргумент следующего метода open() может принимать значения 'r' для чтения, 'w' для записи и 'c' для того и другого, создавая файл, если его не существует:

In [None]:
import dbm
db = dbm.open('definitions', 'c')


Для того чтобы создать пары «ключ — значение», просто присвойте значение ключу, как если бы вы работали со словарем:

In [None]:
db['mustard'] = 'yellow'
db['ketchup'] = 'red'
db['pesto'] = 'green'


Приостановимся и посмотрим, что мы уже имеем:

In [None]:
len(db)

In [None]:
db['pesto']

Теперь закроем файл и откроем его снова, чтобы убедиться, что наши данные действительно были сохранены:

In [None]:
db.close()
db = dbm.open('definitions', 'r')
db['mustard']

Ключи и значения сохраняются как байты. Вы не можете итерировать по объектам базы данных db, но можете получить количество ключей с помощью функции len(). 

Обратите внимание на то, что функции get() и setdefault() работают точно так же, как и для словарей.

## Memcached

memcached (http://memcached.org/) — это быстрый сервер кэширования, располагающийся в памяти и работающий по принципу «ключ — значение». 

Его часто размещают перед базой данных, также он может использоваться для хранения данных сессии веб-сервера. 

Вы можете загрузить версии для Linux, OSX (http://bit.ly/install-osx)
и Windows (http://bit.ly/memcache-win). 

Если вы хотите попробовать запустить примеры, показанные в этом разделе, вам понадобятся сервер memcached и драйвер Python.

Существует множество драйверов Python, тот, что работает с Python 3, называется python3-memcached (https://github.com/eguven/python3-memcached), вы можете
установить его с помощью этой команды:


In [None]:
$ pip install python-memcached

Для того чтобы использовать его, подключитесь к серверу memcached, после чего можете:

 устанавливать и получать значения ключей;

 увеличивать и уменьшать значения;

 удалять ключи.

Данные, хранимые в базе, неустойчивы, они могут исчезнуть.

Это происходит из-за того, что memcached является сервером кэша. 

Он избегает ситуаций, когда у него заканчивается память, стирая старые данные.

Вы можете подключиться к нескольким серверам memcached одновременно.

В следующем примере мы беседуем с одним и тем же компьютером:


In [None]:
import memcache
db = memcache.Client(['127.0.0.1:11211'])
db.set('marco', 'polo')

In [None]:
db.get('marco')

In [None]:
db.set('ducks', 0)

In [None]:
db.get('ducks')

In [None]:
db.incr('ducks', 2)


In [None]:
db.get('ducks')

### Redis

Redis — это сервер структур данных. 

Как и в случае с memcached, все данные сервера Redis должны поместиться в память (хотя у нас имеется возможность сохранить все данные на диск). 

В отличие от memcached Redis может делать следующее:

 сохранять данные на диск для надежности в случае перезагрузки;

 хранить старые данные;

 предоставлять более сложные структуры данных, нежели строки.

Типы данных, используемые Redis, похожи на типы данных, используемые в Python, и сервер Redis может быть применен в качестве промежуточного решения для того, чтобы одно или несколько приложений делились данными друг с другом.

Я нахожу это настолько полезным, что посвящу этому небольшой фрагмент этой книги.

Исходный код драйвера Python redis-py и тесты находятся на GitHub 
(https://github.com/andymccurdy/redis-py), 

вы также можете найти документацию по нему
(http://bit.ly/redis-py-docs). 

Можно установить этот драйвер с помощью следующей
команды:

In [None]:
$ pip install redis

Сам по себе сервер Redis (http://redis.io/) хорошо задокументирован. 

Если вы установите и запустите его на своем локальном компьютере, который имеет сетевое имя localhost, можете попробовать запустить программы из следующих разделов.

### Строки

Ключ, имеющий одно значение, является строкой Redis. 

Простые типы данных Python автоматически преобразовываются. 

Подключимся к серверу Redis, расположенному на некотором хосте (по умолчанию localhost) и порте (по умолчанию 6379):

In [None]:
import redis
conn = redis.Redis()

Строки redis.Redis('localhost') или redis.Redis('localhost', 6379) дадут тот же
результат.

Перечислим все ключи (которых пока нет):

In [None]:
conn.keys('*')

Создадим простую строку (с ключом 'secret'), целое число (с ключом 'carats') и число с плавающей точкой (с ключом 'fever'):

In [None]:
conn.set('secret', 'ni!')

In [None]:
 conn.set('carats', 24)

In [None]:
conn.set('fever', '101.5')

Получим значения согласно заданным ключам:

In [None]:
conn.get('secret')

In [None]:
conn.get('carats')

In [None]:
conn.get('fever')

Метод setnx() устанавливает значение, но только если ключа не существует:

In [None]:
conn.setnx('secret', 'icky-icky-icky-ptang-zoop-boing!')

Метод не сработал, поскольку мы уже определили ключ 'secret':

In [None]:
conn.get('secret')

Метод getset() возвращает старое значение и одновременно устанавливает новое:

In [None]:
conn.getset('secret', 'icky-icky-icky-ptang-zoop-boing!')

Не будем сильно забегать вперед. Это сработало?

In [None]:
conn.get('secret')

Теперь мы получим подстроку с помощью метода getrange() (как и в Python, смещение обозначается как 0 для начала списка и -1 для конца):

In [None]:
conn.getrange('secret', -6, -1)

Заменим подстроку с помощью метода setrange() (используя смещение, которое начинается с нуля):

In [None]:
conn.setrange('secret', 0, 'ICKY')

In [None]:
conn.get('secret')

Далее установим значения сразу нескольких ключей с помощью метода mset():

In [None]:
conn.mset({'pie': 'cherry', 'cordial': 'sherry'})

Получим более одного значения с помощью метода mget():

In [None]:
conn.mget(['fever', 'carats'])

Удалим ключ с помощью метода delete():

In [None]:
conn.delete('fever')

Выполним инкремент с помощью команд incr() и incrbyfloat() и декремент с помощью команды decr():

In [None]:
conn.incr('carats')

In [None]:
conn.incr('carats', 10)

In [None]:
conn.decr('carats')

In [None]:
 conn.decr('carats', 15)

In [None]:
conn.set('fever', '101.5')

In [None]:
conn.incrbyfloat('fever')

In [None]:
conn.incrbyfloat('fever', 0.5)

Команды decrbyfloat() не существует. 

Используйте отрицательный инкремент, чтобы уменьшить значение ключа fever:

In [None]:
conn.incrbyfloat('fever', -2.0)

### Списки

Списки Redis могут содержать только строки. 

Список создается, когда вы добавляете первые данные.

Добавим данные в начало списка с помощью метода lpush():

In [None]:
conn.lpush('zoo', 'bear')


Добавим в начало списка более одного элемента:

In [None]:
conn.lpush('zoo', 'alligator', 'duck')

Добавим один элемент до или после другого с помощью метода linsert()

In [None]:
conn.linsert('zoo', 'before', 'bear', 'beaver')

In [None]:
conn.linsert('zoo', 'after', 'bear', 'cassowary')

Добавим элемент, указав смещение для него, с помощью метода lset() (список уже должен существовать):

In [None]:
conn.lset('zoo', 2, 'marmoset')

Добавим элемент в конец с помощью метода rpush():

In [None]:
conn.rpush('zoo', 'yak')

Получим элемент по заданному смещению с помощью метода lindex():

In [None]:
conn.lindex('zoo', 3)

Получим все элементы, находящиеся в диапазоне смещений, с помощью метода lrange() (можно использовать любой индекс от 0 до –1):

In [None]:
conn.lrange('zoo', 0, 2)

Обрежем список с помощью метода ltrim(), сохранив только элементы в заданном диапазоне:

In [None]:
conn.ltrim('zoo', 1, 4)

Получим диапазон значений (можно использовать любой индекс от 0 до –1) с помощью метода lrange():

In [None]:
conn.lrange('zoo', 0, -1)

В главе 10 будет показано, как использовать списки Redis и механизм публикации-подписки, чтобы реализовать очереди задач.

### Хеши

Хеши Redis похожи на словари в Python, но они могут содержать только строки.

Поэтому вы можете создать только одномерный словарь. 

Рассмотрим примеры, в которых создается и изменяется хеш с именем song.

Установим в хеше song значения полей do и re одновременно с помощью метода hmset():

In [None]:
conn.hmset('song', {'do': 'a deer', 're': 'about a deer'})

Установим значение одного поля хеша с помощью метода hset():

In [None]:
conn.hset('song', 'mi', 'a note to follow re')

Получим значение одного поля с помощью метода hget():

In [None]:
 conn.hget('song', 'mi')

Получим значение нескольких полей с помощью метода hmget():

In [None]:
conn.hmget('song', 're', 'do')

Получим ключи всех полей хеша с помощью метода hkeys():

In [None]:
conn.hkeys('song')

Получим значения всех полей хеша с помощью метода hvals():

In [None]:
conn.hvals('song')

Получим количество полей хеша с помощью функции hlen():

In [None]:
conn.hlen('song')

Получим ключи и значения всех полей хеша с помощью метода hgetall():

In [None]:
conn.hgetall('song')

Создадим поле, если его ключ не существует, с помощью метода hsetnx():

In [None]:
conn.hsetnx('song', 'fa', 'a note that rhymes with la')


### Множества

Множества Redis похожи на множества Python, как вы можете увидеть в следующих примерах.

Добавим одно или несколько значений множества:

In [None]:
conn.sadd('zoo', 'duck', 'goat', 'turkey')

Получим количество значений множества:

In [None]:
conn.scard('zoo')

Получим все значения множества:

In [None]:
conn.smembers('zoo')

Удалим значение из множества:

In [None]:
conn.srem('zoo', 'turkey')

Создадим второе множество, чтобы продемонстрировать некоторые операции:

In [None]:
conn.sadd('better_zoo', 'tiger', 'wolf', 'duck')

Пересечение множеств (получение общих членов) zoo и better_zoo:

In [None]:
conn.sinter('zoo', 'better_zoo')

Выполним пересечение множеств zoo и better_zoo и сохраним результат в множестве fowl_zoo:

In [None]:
conn.sinterstore('fowl_zoo', 'zoo', 'better_zoo')

Есть кто живой?

In [None]:
conn.smembers('fowl_zoo')

Выполним объединение (всех членов) множеств zoo и better_zoo:

In [None]:
conn.sunion('zoo', 'better_zoo')

Сохраним результат этого пересечения в множестве fabulous_zoo:

In [None]:
conn.sunionstore('fabulous_zoo', 'zoo', 'better_zoo')

In [None]:
conn.smembers('fabulous_zoo')

Какие элементы присутствуют в множестве zoo и отсутствуют в множестве better_zoo? 

Используйте метод sdiff(), чтобы получить разность множеств, иметод sdiffstore(), чтобы сохранить ее в множестве zoo_sale:

In [None]:
conn.sdiff('zoo', 'better_zoo')

In [None]:
conn.sdiffstore('zoo_sale', 'zoo', 'better_zoo')

In [None]:
conn.smembers('zoo_sale')

### Упорядоченные множества

Один из самых гибких типов данных Redis — это упорядоченные множества, или zset.

Они представляют собой набор уникальных значений, но каждое значение связано с дробным счетчиком. 

Вы можете получить доступ к каждому элементу с помощью
его значения или счетчика. 

Упорядоченные множества применяются в качестве:

 списков лидеров;

 вторичных индексов;

 временных рядов, где отметки времени используются как счетчик.

Мы рассмотрим последний вариант применения, отслеживая логины пользователей с помощью временных меток. 

Мы будем использовать значение времени epoch (подробнее об этом — в главе 10), которое возвращает функция time():

In [None]:
import time
now = time.time()
now

Добавим первого гостя (он немного нервничает):

In [None]:
conn.zadd('logins', 'smeagol', now)

Пять минут спустя добавим второго гостя:

In [None]:
conn.zadd('logins', 'sauron', now+(5*60))

Через два часа:

In [None]:
conn.zadd('logins', 'bilbo', now+(2*60*60))

In [None]:
Еще один гость не торопился и пришел спустя сутки:

In [None]:
conn.zadd('logins', 'treebeard', now+(24*60*60))

Каким по счету пришел bilbo?

In [None]:
conn.zrank('logins', 'bilbo')

Когда это было?

In [None]:
conn.zscore('logins', 'bilbo')

Посмотрим, каким по счету пришел каждый гость:

In [None]:
conn.zrange('logins', 0, -1)

И когда:

In [None]:
conn.zrange('logins', 0, -1, withscores=True)

### Биты

Биты — это очень эффективный (с точки зрения занимаемого места) и быстрый способ обработать большое множество чисел. 

Предположим, у вас есть сайт, на котором регистрируются пользователи. 

Вы хотите отслеживать, как часто люди авторизуются, сколько пользователей посещает сайт в конкретный день, как часто один и тот же пользователь посещает сайт в следующие дни и т. д.

Вы могли бы использовать множества Redis, но если вы присваиваете пользователям увеличивающиеся числовые ID, биты помогут вам быстрее и компактнее решить эту задачу.

Начнем с создания последовательности битов для каждого дня. Для этой проверки мы используем всего три дня и несколько ID:

In [None]:
days = ['2013-02-25', '2013-02-26', '2013-02-27']
big_spender = 1089
tire_kicker = 40459
late_joiner = 550212

Каждая дата является отдельным ключом. 

Установим бит для конкретного пользователя в эту дату. 

Например, в первую дату (2013-02-25) у нас есть посещения
от big_spender (ID 1089) и tire_kicker (ID 40459):

In [None]:
conn.setbit(days[0], big_spender, 1)

In [None]:
conn.setbit(days[0], tire_kicker, 1)

На следующий день big_spender вернулся:

In [None]:
conn.setbit(days[1], big_spender, 1)

На следующий день у нас снова появился наш друг big_spender, а также новый человек, которого мы назвали late_joiner:


In [None]:
conn.setbit(days[2], big_spender, 1)

In [None]:
conn.setbit(days[2], late_joiner, 1)

In [None]:
Получим счетчик ежедневных посещений за эти три дня:

In [None]:
for day in days:
    conn.bitcount(day)

Посещал ли сайт заданный пользователь в указанный день?

In [None]:
conn.getbit(days[1], tire_kicker)

Значит, tire_kicker не посещал сайт во второй день.
Сколько пользователей посещает сайт каждый день?

In [None]:
conn.bitop('and', 'everyday', *days)

In [None]:
conn.bitcount('everyday')

Угадайте с трех попыток, кто это:

In [None]:
conn.getbit('everyday', big_spender)

Наконец, сколько уникальных пользователей посетили сайт за эти три дня?

In [None]:
conn.bitop('or', 'alldays', *days)

In [None]:
conn.bitcount('alldays')

### Кэши и истечение срока действия

У всех ключей Redis есть время жизни, или дата истечения срока действия. 

По умолчанию этот срок длится вечно. 

Мы можем использовать функцию expire(), чтобы указать Redis, как долго хранить заданный ключ. 

Как показано далее, значением является количество секунд:

In [None]:
import time
key = 'now you see it'
conn.set(key, 'but not for long')

In [None]:
conn.expire(key, 5)

In [None]:
conn.ttl(key)

In [None]:
conn.get(key)

In [None]:
time.sleep(6)
conn.get(key)

Команда expireat() указывает, что действие ключа истекает в заданное время эпохи Unix. 

Это может оказаться полезным для того, чтобы кэш оставался свежим и чтобы ограничить сессии авторизации.

### Прочие серверы NoSQL

Серверы NoSQL, перечисленные здесь, могут работать с данными, объем которых превышает объем доступной памяти, и многие из них требуют использования нескольких компьютеров. 

В табл. 8.6 показаны наиболее популярные серверы и их
библиотеки Python.

Базы данных NoSQL

Сайт                  Python API

Cassandra             pycassa

CouchDB               couchdb-python

HBase                 happybase

Kyoto                 kyotocabinet

MongoDB               mongodb

Riak                  riak-python-client

### Full-Text Databases

Наконец, существует особая категория баз данных для полнотекстового поиска.

Они индексируют все, поэтому вы легко можете найти то стихотворение, в котором говорится о ветряных мельницах и гигантских головках сыра. 

Вы можете увидеть популярные примеры таких баз данных с открытым исходным кодом и их Python API в табл. 8.7.

Полнотекстовые базы данных

Сайт              Python API

Lucene            pylucene

Solr              SolPython

ElasticSearch     pyes

Sphinx            sphinxapi

Xapian            xappy

Whoosh            Написан на Python, уже содержит API