<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/%D0%BA%D0%B5%D0%B9%D1%81%D1%8B%20%D0%BF%D0%BE%20%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D1%83%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/0.%20%D0%9C%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%B8%D0%BD%D0%B3.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

База данных (БД) - хранилище данных.

Система управления базой данных (СУБД) - программа, которая позволяет работать с данными с помощью запросов.

### Типы баз данных

* Самым распространенным типом является реляционная база данных (SQL), от слова relation — отношение. Примеры: SQLite, MySQL, MSSQL, [PostgreSQL](https://www.postgresql.org/).
* Следом по популярности идут объектные базы данных. Данные в них хранятся в виде объектов, как в Объектно-Ориентированном Программировании.
Примеры: [ObjectDatabase++](http://tdbe.ekkysoftware.com/ODBPP)
* Существуют документоориентированные базы данных (NoSQL). Самый популярный пример — [MongoDB](https://www.mongodb.com/). Например, в таких базах можно хранить документы форматов XML и json.
* Другой пример — графовые базы данных. Они позволяют хранить данные в виде графа, имеющего объекты и связи между ними. Такие базы удобно использовать, например, для хранения геоданных или данных о пользователях в социальной сети. Пример — [Neo4J](https://neo4j.com/).

Еще один интересный, с точки зрения анализа данных, пример — столбцовые (колоночные) БД. Например, [ClickHouse от Яндекса](https://habr.com/ru/company/yandex/blog/303282/). Попробовать [online](https://clickhouse.tech). Эту СУБД используют в Яндексе для хранения данных из Яндекс.Метрики, так как она позволяет быстро сохранять слабо структурированные данные в базу и обрабатывать огромные объёмы данных в реальном времени. Важно помнить, что если при обработке данных нам приходится больше работать со строками, а не со столбцами, то лучше использовать реляционные БД.

### О реляционных базах данных

Реляционная база данных — это набор таблиц, связанных друг с другом. При этом каждая таблица хранит информацию об объектах определённого типа. Например, в одной таблице будут данные о людях, а в другой — об их домашних животных. 

Строка таблицы содержит данные об одном объекте (например, о человеке из первой базы). Столбцы таблицы описывают различные характеристики (атрибуты) этих объектов. Например, имя, пол, возраст и так далее. Каждый атрибут имеет строго определённый тип данных. На столбец можно накладывать ограничение NOT NULL, говорящее, что в нем не должно быть пропусков. Тогда система не даст добавить запись с пропуском в данном атрибуте.

Записи (примеры, строки) имеют одинаковую структуру: они состоят из полей, хранящих атрибуты (признаки) объекта. В строках могут находиться пропуски, если только не наложено ограничение NOT NULL.

Хорошая подробная статья о том, [как работает реляционная БД](https://habr.com/ru/company/yandex/blog/303282/).

### Связи в таблицах

Таблицы в  могут быть связаны друг с другом. Две таблицы связаны, если в них имеются одинаковые столбцы.

В реляционной базе данных каждая таблица должна иметь первичный ключ (PRIMARY KEY) — поле или комбинацию полей, которые единственным образом идентифицируют каждую строку таблицы.

Если ключ состоит из нескольких полей, то он называется составным. Ключ должен быть уникальным и однозначно определять запись. По значению ключа можно отыскать единственную запись. Ключи служат также для упорядочивания информации в БД. В качестве ключа можно использовать какой-то искусственно созданный идентификатор человека или уже существующие уникальные коды типа ИНН. Нехорошо выбирать идентификатором имя, так как оно не уникально. Несмотря на то, что ключом можно объявить сразу несколько атрибутов, выделять атрибуты (фамилия, имя, отчество) как составной первичный ключ тоже нехорошо, по той же причине.

Кроме первичного ключа существует внешний ключ (FOREIGN KEY), который создаёт жесткую связь между парой таблиц. Как это работает? Создается Таблица 1, в которой определяется первичный ключ (например, id). Затем создается Таблица 2, в которой определяется внешний ключ (например, f_id), при этом явно указывается, что он ссылается на первичный ключ из таблицы 1 (который мы назвали id).

Такая связь позволяет при изменении значения первичного ключа в первой таблице изменить все соответствующие значения связанного поля во второй таблице. При удалении записи с определенным первичным ключом в первой таблице могут быть удалены все записи с определенным (тем же) значением связанного внешним ключом поля во второй таблице.

Например, у нас есть таблица с данными о сотрудниках. Кроме этого, есть таблица с медицинскими данными для каждого сотрудника, для которого есть такая информация. Во второй таблице будет указан внешний ключ, ссылающийся на идентификатор сотрудника в первой таблице. При удалении сотрудника можно будет автоматически (каскадно) удалить соответствующие ему записи из других связанных таблиц, в том числе, из таблицы с медицинскими данными.

### Что такое нормализация?

Часто говорят, что таблицы реляционной БД должны отвечать требованиям нормализации отношений.

Нормализация — это способ наложить ограничение на формирование таблиц, которое позволяет устранить дублирование, обеспечивает непротиворечивость хранимых в базе данных, уменьшает трудозатраты на ведение базы данных.

Чтобы нормализовать таблицу, ее приводят к нормальным формам. Подробнее [про нормальные формы на Хабре](https://habr.com/ru/post/254773/).

In [None]:
import sqlite3
conn = sqlite3.connect('restaurant.db') # Создаем соединение с нашей базой данных

# Часть №1

#### Хотим таблицу Склад:

| Название ингредиента | Количество | Дата* |
| -------------------- |:----------:|:-----:|
| Брокколи             | 25         | 02.12 |
| Куриное филе         | 5          | 03.12 |
| Брокколи             | 30         | 04.12 |

*когда испортится или когда привезли

#### Как ее правильно реализовать в реляционных базах данных?
###### Таблица Склад:  
   
| id | id ингредиента | Количество | Дата* |
| -- | -------------- |:----------:|:-----:|
| 1  | 5              | 25         | 1575314617 |
| 2  | 7              | 5          | 1575401017 |
| 3  | 5              | 30         | 1575487417 |

###### Таблица Ингредиенты:

| id ингредиента | Название |
| -- | -------------- |
| 5  | Брокколи       |
| 7  | Куриное филе   |

*unix-time

In [None]:
# Создаем курсор - это специальный объект который делает запросы и получает их результаты
c = conn.cursor()

# Создаем таблицу ингредиентов
c.execute('''CREATE TABLE ingredients
             (id INTEGER PRIMARY KEY, name TEXT)''')

# Создаем таблицу для склада
c.execute('''CREATE TABLE warehouse
             (id INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL, ingredient_id INTEGER, count INTEGER, date REAL)''')

# Save (commit) the changes
conn.commit()

Заполним таблицу ингредиентов:

In [None]:
ingredients = ['Молоко', 'Яйцо', 'Мука', 'Разрыхлитель', 'Масло растительное', 'Сахар', 'Соль']
for i in map(lambda it: (it, ), ingredients):
    print(i)
    c.execute("INSERT INTO ingredients (name) VALUES (?)", i)

In [None]:
c.execute("SELECT * FROM ingredients")
results = c.fetchall()
results

In [None]:
c.execute("SELECT name FROM ingredients")
results = c.fetchall()
results

In [None]:
c.execute("SELECT * FROM ingredients WHERE id=5")
print(c.fetchall())

c.execute("SELECT * FROM ingredients WHERE name='Соль'")
print(c.fetchall())

Посчитаем количество строк этой таблицы:

In [None]:
c.execute("SELECT COUNT(*) FROM ingredients")
print(c.fetchall())

c.execute("SELECT SUM(id) FROM ingredients")
print(c.fetchall())

Создадим случайные данные для Склада и запишем их в БД:

In [None]:
c.execute("SELECT id FROM ingredients")
results = c.fetchall()
print(results)
ids = list(map(lambda it: it[0], results))
print(ids)

In [None]:
import random
import datetime

for i in range(1, 28):
    count = random.randint(10, 100)
    date = datetime.datetime(2019, 11, i, hour=random.randint(12, 18), minute=random.randint(0, 59), second=0, microsecond=0, tzinfo=None)
    ingredient = random.choice(ids)
    c.execute("INSERT INTO warehouse (ingredient_id, count, date) VALUES (?, ?, ?)", (ingredient, count, date.timestamp()))

In [None]:
c.execute("SELECT * FROM warehouse")
results = c.fetchall()
results

Приведем все в нормальный вид:

In [None]:
def prettyWarehouse(cursor):
    cursor.execute("""SELECT name, count, date FROM warehouse
          JOIN ingredients WHERE warehouse.ingredient_id = ingredients.id""")
    return cursor.fetchall()

prettyWarehouse(c)

Посчитаем количество ингредиентов на складе:

In [None]:
def ingredientsOnWarehouse(cursor):
    cursor.execute("""SELECT name, SUM(count) FROM warehouse 
          JOIN ingredients WHERE warehouse.ingredient_id = ingredients.id
          GROUP BY name""")
    return cursor.fetchall()

ingredientsOnWarehouse(c)

Создадим функцию для поставки ингредиентов:

In [None]:
c.execute("SELECT id FROM ingredients WHERE name=?", ('Мука',))
results = c.fetchall()
print(results)
ingredient_id = results[0][0]
ingredient_id

In [None]:
c.execute("SELECT id FROM ingredients WHERE name=?", ('Авокадо',))
results = c.fetchall()
print(results)
print(len(results))

In [None]:
def getIngredientId(cursor, name):
    cursor.execute("SELECT id FROM ingredients WHERE name=?", (name, ))
    results = cursor.fetchall()
    if(len(results) > 0):
        return results[0][0]
    else:
        cursor.execute("INSERT INTO ingredients (name) VALUES (?)", (name, ))
        return getIngredientId(cursor, name)

In [None]:
import datetime
def supply(cursor, ingredient_name, count, date):
    ingredient_id = getIngredientId(cursor, ingredient_name)
    cursor.execute("INSERT INTO warehouse (ingredient_id, count, date) VALUES (?, ?, ?)", 
                       (ingredient_id, count, date.timestamp()))

In [None]:
c.execute("DELETE FROM warehouse");
c.execute("SELECT * FROM warehouse")
results = c.fetchall()
results

In [None]:
c.execute("SELECT * FROM ingredients")
results = c.fetchall()
results

In [None]:
supply(c, 'Мука', 10, datetime.datetime.now())
supply(c, 'Авокадо', 10, datetime.datetime.now())

In [None]:
prettyWarehouse(c)

In [None]:
c.execute("SELECT * FROM ingredients")
results = c.fetchall()
results

In [None]:
# We can also close the connection if we are done with it.
# Just be sure any changes have been committed or they will be lost.
conn.close()

### SQLAlchemy

In [None]:
# https://docs.sqlalchemy.org/en/13/dialects/sqlite.html