# Основы работы с базами данных

Ядром любой базы данных является модель данных. С помощью модели данных могут быть представлены объекты предметной области и взаимосвязи между ними.
Модель данных - это совокупность структур данных и операций их обработки. Выделяют большое количество моделей данных:
Логические модели:
-	Иерархическая модель
-	Сетевая модель
-	Реляционная модель
-	Модель «сущность — связь» (ER)
-	Модель «сущность — атрибут — значение» (EAV)
-	Объектно-ориентированная модель (из ООП)
-	Документная модель
-	Звёздная модель и модель снежинки

Физические модели:
-	Плоская модель
-	Табличная модель
-	Инвертированная модель

Прочие модели:
-	Ассоциативная модель
-	Корреляционная модель
-	Семантическая модель
-	Модель XML
-	MultiValue
-	Семантическая паутина и именованные графы
-	Склад троек

Рассмотрим четыре основных типа моделей данных: иерархическую, сетевую, реляционную и объектно-ориентированную.

Иерархическая модель представляет собой совокупность элементов, расположенных в порядке их подчинения от общего к частному и образующих перевернутое по структуре дерево (граф).

К основным понятиям иерархической структуры относятся уровень, узел и связь. Узел - это совокупность атрибутов данных, описывающих некоторый объект. На схеме иерархического дерева узлы представляются вершинами графа. Каждый узел на более низком уровне связан только с одним узлом, находящимся на более высоком уровне. Иерархическое дерево имеет только одну вершину, не подчиненную никакой другой вершине и находящуюся на самом верхнем - первом уровне. Зависимые (подчиненные) узлы находятся на втором, третьем и т. д. уровнях. Количество деревьев в базе данных определяется числом корневых записей. К каждой записи базы данных существует только один иерархический путь от корневой записи.
В сетевой структуре при тех же основных понятиях (уровень, узел, связь) каждый элемент может быть связан с любым другим элементом.

![Сетевая структура БД](http://edu.tltsu.ru/er/er_files/page27984/img/image050.jpg)

Реляционная модель данных объекты и связи между ними представляет в виде таблиц, при этом связи тоже рассматриваются как объекты. Все строки, составляющие таблицу в реляционной базе данных, должны иметь первичный ключ. Все современные средства СУБД поддерживают реляционную модель данных.

![Реляционная модель базы данных](https://cdn.otus.ru/media/public/63/5d/11-20219-635d9f.jpg)

Эта модель характеризуется простотой структуры данных, удобным для пользователя табличным представлением и возможностью использования формального аппарата алгебры отношений и реляционного исчисления для обработки данных.
Каждая реляционная таблица представляет собой двумерный массив и обладает следующими свойствами:
1.	Каждый элемент таблицы соответствует одному элементу данных.
2.	Все столбцы в таблице однородные, т.е. все элементы в столбце имеют одинаковый тип и длину.
3.	Каждый столбец имеет уникальное имя.
4.	Одинаковые строки в таблице отсутствуют.
5.	Порядок следования строк и столбцов может быть произвольным.

Объектная и объектно-ориентированная – данные в таких базах представляют из себя объекты с определенными наборами свойств, методов и поведения. Отношения данных объектов строятся на основе обобщения свойств, методов и поведения различных объектов по отношению друг к другу.

На практике же мы будем сталкиваться скорее с другой классификацией баз данных.

## Плоские файлы

Самый простой вариант хранения структурированных данных - это плоские файлы. Свое название они получили потому, что имеют минимальную структуру. Если сравнить их со зданиями, то стены этого здания стоят на земле, а не на фундаменте. Плоский файл содержит в себе набор записей данных, которые записываются в определенном формате друг за другом. В файле находятся только данные и ничего кроме них, т.е. список. Файл не содержит метаданных (сведений о структуре хранимой информации). Вот пример такого файла: первая строка - названия колонок, вторая и далее - данные. Между собой значения колонок разделяются запятыми (или иным выбранным символом). Нужно самостоятельно разбираться, какой тип имеет каждая колонка.
Такая форма хранения отлично подходит для простых списков, например e-mail-адреса для рассылки или телефон + ФИО для обзвона. Но для более сложной информации не годится. Например, неудобно хранить в плоском списке информацию, если одной фамилии соответствует несколько телефонов. Их придется перечислять через запятую или делать на каждую фамилию столько строк, сколько у человека телефонных номеров.

## Реляционная модель

Мы уже говорили про нее.

Для работы с реляционными базами данных был разработан язык запросов SQL. Изначально он планировался как доступный после небольшой подготовки неспециалисту, близкий к живому английскому язык запросов. Например: «Выбери всех сотрудников, у которых зарплата больше 100 000». Однако со временем этот язык дорабатывался и усложнялся, но основные команды остались легкими и понятными. Реляционная модель данных строго формализует структуру хранения данных. Если требуется хранить слабоструктурированные данные или разноплановые данные в каждой строке таблицы, то реляционная модель окажется излишне строгой и заставит проектировать гораздо больше таблиц. Реляционные базы лучше всего подходят для однотипных, формализованных данных. Например, каталоги и справочники, стандартизованные документы, которые редко меняются (как в РЖД). Эти базы позволяют быстро получить ответ на вопрос «В каком месяце были самые большие продажи?» или «Какой товар самый популярный в этом квартале и какие клиенты покупали его?»

Неудобно хранить в реляционной базе энциклопедию фильмов: человек может играть несколько ролей в одном фильме, одного героя могут играть несколько актеров (в детстве и зрелом возрасте). Или хранить разноплановые документы, приходящие из разных систем и часто меняющие свою структуру.

## Безмодельный (NoSQL) подход

Чтобы избавиться от недостатков, вызванных строгостью реляционных баз, появился NoSQL-способ структуризации данных. Следует отметить, что NoSQL расшифровывается как Not Only SQL, т.е. «Не только SQL». Он не отрицает запросы, но эти запросы не похожи на стандартный SQL. Базы данных NoSQL используют неструктуризированный подход, они предлагают много более эффективных способов хранения и обработки данных. Но каждый способ применим только в определенных ситуациях. Например, документоориентированные базы хранят информацию в виде иерархических структур данных. При этом они могут хранить объекты с произвольным набором атрибутов, отличающиеся друг от друга. То, что в реляционной БД необходимо разделить на множество взаимосвязанных таблиц, в NoSQL может храниться в виде одного объекта.

Ниже рассмотрены виды NoSQL баз. Каждая из них оптимизирована для решения определенного круга задач.

### Базы данных ключ-значение

Этот тип БД работает только с данными, похожими на словарь, ключ (слово) и значение (словарная статья по этому слову). В такой базе ключем и значением может быть все что угодно.

В такой базе нет структур и связей. Подключившись к серверу, приложение может задать ключ и его значение, а потом получить эти данные. Такие СУБД используются для быстрого сохранения базовых данных, к которым впоследствии нужен быстрый доступ. Такие базы очень быстры и легко масштабируемы. Отлично подходят для хранения данных пользовательской сессии на сайте, кеша, счётчиков посещений или просмотров и т.д.

Недостаток: нет запросов и связей между ячейками, это именно хранилище данных. Такая база не ответит на вопрос «Кто из посетителей сайта смотрел страницу с нашими новостями?»

### Документоориентированные базы данных

Этот тип баз данных ориентирован на хранение документов, имеющих различную структуру в том виде «как есть». Такие NoSQL СУБД допускают большую вложенность и сложность данных (например, документ, вложенный в документ, вложенный в документ). Можно создать сколь угодно сложную структуру данных как документ и сохранить в базе. Эти СУБД имеют ряд своих особенностей. Они удобны для поиска в документах, но не для построения связей между ними. Такая база отлично подойдет под хранение данных о фильмах, из примера, приведенного выше, или историй болезни. В базе хранятся коллекции, внутри коллекций - документы. А в документах в полях (field) хранится информация. Поле может быть отдельным документом, так что внутри документов могут быть вложенные документы.

## Базы данных на основе графов

Базы данных на основе графов хранят данные в древовидных структурах с узлами и связями, соединяющими их. Некоторые операции удобнее (нагляднее) выполнять именно с таким представлением данных. Например, сведения о географических объектах. Загородный санаторий расположен вне населенных пунктов, но находится вблизи от трех городов, двух шоссе. Кроме того, вокруг него расположены интересные места, с которыми он тоже связан. Такая база не подойдет для хранения статистических табличных данных, т.е. время выполнения запросов по таким данным в реляционных базах гораздо меньше.

# Виды баз данных и их особенности реализации

Система хранения данных РЖД построена на экосистеме с открытым исходным кодом Hadoop. Hadoop — это фреймворк, состоящий из набора утилит для разработки и выполнения программ распределенных вычислений.

Идея родилась в 2004 году: Google публикует работу, в которой рассказывает о технологии BigTable и MapReduce (на которой сейчас держатся NoSQL-базы данных). В 2006 году Yahoo выпускает открытую реализацию и дает ей имя Hadoop. В 2010 году была создана экосистема технологий, делающая Hadoop применимой и популярной.

## Зачем нужен Hadoop?

Объем данных за последние несколько лет растет с большой скоростью и обещает продолжать в том же духе. Именно это и послужило предпосылкой для написания Google вышеупомянутой работы: стандартные базы данных больше не могли поддерживать работоспособность при таком темпе.

Обработка, хранение и все вытекающие действия с такими объемами данных и есть Big Data. Hadoop — технология работы с BigData.

## Кем используется?

У Hadoop хороший послужной список: eBay, Amazon, IBM, Facebook и т.д. Нет единой схемы для работы с данными абсолютно любой компании: работа всех сервисов, даже не слишком больших, очень специфична. Поэтому на основной функционал накладываются дополнительные фичи, разработанные специально для конкретных компаний.

## Некоторые инструмены экосистемы:
-	**HBase** — NoSQL СУБД, эффективно поддерживающая случайное чтение и запись;
-	**Pig** — язык обработки данных и среда выполнения;
-	**SPARK** — набор инструментов для реализации распределенных вычислений;
-	**Hive** — хранилище данных с интерфейсом SQL;
-	**HDFS** (Hadoop Distributed File System) – файловая система, предназначенная для хранения файлов больших размеров;
-	**HBase** – нереляционная распределённая база данных;
-	**Hadoop MapReduce** – платформа программирования и выполнения распределённых MapReduce-вычислений с использованием большого количества компьютеров (узлов, nodes), образующих кластер.

И другие, система постоянно развивается. 

Основные – HDFS и MapReduce. Первое — файловая система, второе — фреймворк обработки да

## Подключение к базам данных

В "боевых" условиях вы будете работать с драйвером дял подключения к базе данных Phoenix. Процедура подключения и организация запросов выглядит следующим образом:

```python
db=phoenixdb.connect('http://localhost:8765', autocommit=True)
with db.cursor() as cursor:
    cursor.execute("DROP TABLE IF EXIST test")
    cursor.execute("CREATE TABLE test (id INTEGER PRIMARY KEY, text VARCHAR)")
    cursor.executemany("UPSERT INTO test VALUES (?,?)", [[i, 'text {}'.format(i)] for range(10)])
```

Первая строчка кода - это подключение к базе данных. Далее удаляем таблицу, если существует, создаем таблицу и добавляем 10 строчек данных. В этих запросах используется язык SQL. На учебном кластере мы будем работать с несколько другой базой данных и схемой подключения, но язык запросов останется совершенно таким же. 

`with` - оператор контекста. Позволяет не заботиться о том, котрыли и не забыли ли мы закрыть подключение к базе.

Мы будем работать с базой данных MySQL. Подключение к ней будет выглядеть вот так.

```python
import sqlalchemy

engine = sqlalchemy.create_engine(
                "mysql+pymysql://root:KGM9oZb3Fb9gKME@159.69.219.206:3307/rzd", encoding='utf8', convert_unicode=True
            )

with engine.connect() as session:
    sql="SHOW TABLES"
    r=session.execute(sql)
    print(r.fetchall())
    
```

Основные действия, которые происходят в базах данных, – это:
-	Добавление (`Create`)
-	Чтение (`Read`)
-	Изменение (`Update`)
-	Удаление (`Delete`)
Все эти действия описываются аббревиатурой CRUD. 

Так как в нашем случае данные будут генерироваться другими подсистемами, то мы в основном сосредоточимся на навыках извлечения (`SELECT` данных. 

В первую очередь, нам полезны будут такие команды как показать все таблицы и показать структуру конкретной таблицы. 

```python
with engine.connect() as session: # покажет список всех таблиц базы данных, к которой поключились
    sql="SHOW TABLES;"
    r=session.execute(sql)
    print(r.fetchall())

with engine.connect() as session: # покажет структуру все столбцов таблицы
    sql="SHOW COLUMNS FROM sng_all_station;" 
    r=session.execute(sql)
    print(r.fetchall())

```

Теперь вопробуем получить данные из таблицы. Команда выбора данных всегда начинается со слова “SELECT”, потом перечень полей, которые мы хотим вернуть, или значок `*`, если хотим получить все поля из таблицы, а потом имя самой таблицы.

```python
with engine.connect() as session:
    sql="SELECT * FROM sng_all_station;"
    r=session.execute(sql)
    result=r.fetchall()
print(type(result)) # ><class 'list'>
print(len(result)) # 8475 количество строк
print(result[:5])
```

Для нас же удобнее пользоваться несколько другим способом обращения к базе и чтения сразу в структуру DataFrame.

```python
import pandas as pd
with engine.connect() as session:
    sql="SELECT * FROM sng_all_station;"
    df=pd.read_sql(sql, con=session)
df.sample(5)
```

Часто надо запросить только часть данных. В этом случае в запрос мы добавим паарметр LIMIT и запрос будет выглядеть так 
```sql
SELECT * FROM sng_all_station LIMIT 10```

(выведет только первые 10 строк).

Если мы хотим запросить только некотрые столбцы, то надо перечислить их вместо `*`. Например, 

```sql
SELECT `Наименование`, `Код станции` FROM sng_all_station LIMIT 10
```

Полный синтаксис оператора SELECT:

```sql
SELECT column_list 
FROM table_name 
[WHERE условие] 
[GROUP BY условие] 
[HAVING условие] 
[ORDER BY условие] 
```

Параметр `WHERE` позволяет задавать условия выбора данных.

```sql
SELECT `Наименование`, `Код станции` FROM sng_all_station WHERE `Код железной дороги`=7 AND `Код коммерческих операций`>8
```

Кроме этих операций сравнения могут использоваться: «=» (равно), «>» (больше), «>=» (больше или равно), «<=» (меньше или равно) и «<>» (не равно). И логические операторы AND, OR, NOT.

На стороне сервера чаще проще и быстрее выполнять групировку данных. Для этого используем параметр `GROUP BY`.

```sql
SELECT COUNT(`Наименование`) FROM sng_all_station GROUP BY `Код железной дороги`;
```

Мы использовали функцию `COUNT()` (возвращает количество). Есть еще несколько функций, которые могут быть нам полезны:
- `MAX()` максимальное значение
- `MIN()` минимальное значение
- `SUM()` сумма
- `AVG()` среднее

Оператор `HAVING` работает с результатами оператора `GROUP BY`.

```sql
SELECT COUNT(`Наименование`) AS cnt FROM sng_all_station GROUP BY `Код железной дороги` HAVING cnt>500;
```

Оператор `AS` указывает на псевдоним столбца, который мы хотим использовать. 

Если мы хотим получить только уникальные значения, то надо использовать ключевое слово `DISTINCT`.

```sql
SELECT DISTINCT `Код железной дороги`, `Код коммерческих операций` FROM sng_all_station;
```

Если мы хотим получить отсортированный набор данныз, то надо использовать ключевое слово `ORDER BY`.

```sql
SELECT * FROM sng_all_station ORDER BY `Код железной дороги` DESC;
```

Ключевое слово `DESC` указывает сортировать по убыванию. А ключевое слово `ASC` указывает сортировать по возрастания.

```sql
SELECT * FROM sng_all_station ORDER BY `Код железной дороги` ASC;
```

Если мы хотим получить, например, только 10 последних строк сортировки, можем использовать:

```sql
SELECT * FROM sng_all_station ORDER BY `Код железной дороги` ASC LIMIT 10;
```

SQL запросом можно объединять несколько таблиц. Для этого используем оператор JOIN.

- `(INNER) JOIN`: Возвращает записи, имеющие совпадающие значения в обеих таблицах
- `LEFT JOIN`: Возвращает все записи из левой таблицы и совпадающие записи из правой таблицы
- `RIGHT JOIN`: Возвращает все записи из правой таблицы и совпадающие записи из левой таблицы
- `FULL JOIN`: Возвращает все записи при наличии совпадения в левой или правой таблице.\

У нас есть таблица с названиями дорог.

```python
import pandas as pd
with engine.connect() as session:
    sql="SELECT * FROM sng_name_road;"
    df=pd.read_sql(sql, con=session)
df.sample(5)
```

Пример такого запроса, который объединит таблицы.

```sql
SELECT `Наименование`, `Код станции`, `Наименование железной дороги` FROM sng_all_station t1 JOIN sng_name_road t2 ON t1.`Код железной дороги`=t2.`Код железной дороги`;
```

Запрос можно усложнить.

```sql
SELECT `Наименование` AS `Наим`, `Код станции` AS `КОД`, t2.`Наименование железной дороги` FROM sng_all_station t1 JOIN sng_name_road t2 ON t1.`Код железной дороги`=t2.`Код железной дороги`;
```

### Задание

1. Сгруппируйте и посчитайте количество кодов коммерческих операций в таблице `sng_all_station`
2. Сделайте выборку станнций с кодом коммерческих операций больше 100
3. Объедините таблицы `sng_all_station` и `sng_commercial` по полю `Код коммерческих операций`
4. Измените запрос последней операции так, чтобы он выводил только 10 строк таблицы с самыми большими кодами операций