# PYTHON 3

## Lecture 08
### Базы данных, SQL

<img src="https://avatars.mds.yandex.net/get-entity_search/58808/261054429/S122x122Fit_2x" align="right" style="height: 200px;"/>

### Chupov Dmitrii


MIPT 2024

## Реляционные базы данных

Реляционная база данных представляет собой набор связанных (двумерных) таблиц. 

Каждая из таблиц похожа на электронную таблицу Excel с фиксированным количеством именованных столбцов (атрибутов или свойств таблицы) и любым количеством строк данных.

| Id | Make/Model        | # Wheels | # Doors | Type       |
|----|-------------------|----------|---------|------------|
| 1  | Ford Focus        | 4        | 4       | Sedan      |
| 2  | Tesla Roadster    | 4        | 2       | Sports     |
| 3  | Kawakasi Ninja    | 2        | 0       | Motorcycle |
| 4  | McLaren Formula 1 | 4        | 0       | Race       |
| 5  | Tesla S           | 4        | 4       | Sedan      |

Изучая SQL, цель состоит в том, чтобы научиться отвечать на конкретные вопросы об этих данных, такие как __"Какие типы транспортных средств, находящихся на дороге, имеют менее четырех колес?"__ или __"Сколько моделей автомобилей производит Tesla?"__, чтобы помочь нам принимать более эффективные решения в будущем.

## Примеры

Реляционные базы данных — самые распространённые. Вот лишь самые популярные из них: Oracle, Microsoft SQL Server, PostgreSQL, MySQL. Такие базы данных обеспечивают построчное хранение данных в таблицах, что подразумевает строгую структуру данных.

## ACID

__ACID (от англ. atomicity, consistency, isolation, durability)__ — набор требований к транзакционной системе, обеспечивающий наиболее надёжную и предсказуемую её работу — атомарность, согласованность, изоляция, устойчивость. Cформулированы в конце 1970-х годов Джимом Греем.

___Атомарность___  - гарантирует, что никакая транзакция не будет зафиксирована в системе частично. 

___Консистеность___ - транзакция, достигающая своего нормального завершения и тем самым фиксирующая свои результаты, сохраняет согласованность базы данных.

___Изоляция___ - во время выполнения транзакции параллельные транзакции не должны оказывать влияния на её результат. Изолированность — требование дорогое, поэтому в реальных базах данных существуют режимы, не полностью изолирующие транзакцию (уровни изолированности, допускающие фантомное чтение).

___Устойчивость___ - независимо от проблем на нижних уровнях (к примеру, обесточивание системы или сбои в оборудовании) изменения, сделанные успешно завершённой транзакцией, должны остаться сохранёнными после возвращения системы в работу.

## Что такое SQL?

SQL, или язык структурированных запросов, - это язык, разработанный для того, чтобы позволить как техническим, так и нетехническим пользователям запрашивать, манипулировать и преобразовывать данные из реляционной базы данных. А благодаря своей простоте базы данных SQL обеспечивают безопасное и масштабируемое хранилище для миллионов веб-сайтов и мобильных приложений.

### SQL чтение (EASY)

#### SELECT

Чтобы извлечь данные из базы данных SQL, нам нужно написать инструкции SELECT, которые часто в разговорной речи называются запросами. 

Например, чтобы получить все строчки колон _column_, _another_column_ стоит выполнить этот запрос

In [None]:
SELECT column, another_column
FROM mytable;

Так, например, можно получить все колонки

In [None]:
SELECT *
FROM mytable;

Ежели вам нужны только уникальные строчки, то вы можете применить DISTINCT

In [None]:
SELECT DISTINCT column, another_column
FROM mytable;

#### WHERE

Чтобы отфильтровать возвращаемые определенные результаты, нам нужно использовать предложение WHERE в запросе. Предложение применяется к каждой строке данных путем проверки определенных значений столбца, чтобы определить, следует ли его включать в результаты или нет.

In [None]:
SELECT column, another_column, ...
FROM mytable
WHERE condition
    AND/OR another_condition
    AND/OR ...;

Базовые и простые формы условий. Все работают на числах

|       Operator      | Condition                                            | SQL Example                  |
|:-------------------:|------------------------------------------------------|------------------------------|
|  =, !=, < <=, >, >= | Standard numerical operators                         | col_name != 4                |
|   BETWEEN … AND …   | Number is within range of two values (inclusive)     | col_name BETWEEN 1.5 AND10.5 |
| NOT BETWEEN … AND … | Number is not within range of two values (inclusive) | col_name NOT BETWEEN 1 AND10 |
|        IN (…)       | Number exists in a list                              | col_name IN (2, 4, 6)        |
|      NOT IN (…)     | Number does not exist in a list                      | col_name NOT IN (1, 3, 5)    |

Более хитровыдуманные формы условий. Работают на строках

|                    Operator                   | Condition                                                                                             | Example                         |
|:---------------------------------------------:|-------------------------------------------------------------------------------------------------------|---------------------------------|
|                       =                       | Case sensitive exact string comparison (notice the single equals)                                     | col_name = "abc"                |
|                    != or <>                   | Case sensitive exact string inequality comparison                                                     | col_name != "abcd"              |
|                      LIKE                     | Case insensitive exact string comparison                                                              | col_name LIKE "ABC"             |
|                    NOT LIKE                   | Case insensitive exact string inequality comparison                                                   | col_name NOT LIKE "ABCD"        |
|                       %                       | Used anywhere in a string to match a sequence of zero or more characters (only with LIKE or NOT LIKE) | col_name LIKE "%AT%" (matches "AT", "ATTIC", "CAT" or even "BATS")            |
| _                                             | Used anywhere in a string to match a single character (only with LIKE or NOT LIKE)                    | col_name LIKE "AN_" (matches "AND", but not "AN")            |
| IN (…)                                        | String exists in a list                                                                               | col_name IN ("A", "B", "C")     |
| NOT IN (…)                                    | String does not exist in a list                                                                       | col_name NOT IN ("D", "E", "F") |


Так же вы можете добавлять сюда условия 

In [None]:
SELECT particle_speed / 2.0 AS half_particle_speed,
    particles_speed > 0 as direction
FROM physics_data
WHERE ABS(particle_position) * 10.0 > 500;

#### ORDER BY

SQL предоставляет способ сортировки результатов по заданному столбцу в порядке возрастания или убывания, используя предложение ORDER BY.

In [None]:
SELECT column, another_column, …
FROM mytable
WHERE condition(s)
ORDER BY column ASC/DESC, another_column ASC/DESC;

Когда указано предложение ORDER BY, каждая строка сортируется в алфавитно-цифровом порядке на основе значения указанного столбца. В некоторых базах данных вы также можете указать параметры сортировки для лучшей сортировки данных, содержащих международный текст.

#### LIMIT

Другим предложением, которое обычно используется с предложением ORDER BY, являются предложения LIMIT и OFFSET, которые являются полезной оптимизацией для указания базе данных подмножества результатов, которые вас интересуют.

In [None]:
SELECT column, another_column, …
FROM mytable
WHERE condition(s)
ORDER BY column ASC/DESC
LIMIT num_limit OFFSET num_offset;

LIMIT уменьшит количество возвращаемых строк, а необязательное OFFSET укажет, с чего начинать подсчет количества строк.

### SQL чтение (EASY+)

#### JOIN

Используя предложение JOIN в запросе, мы можем объединить данные строк в двух отдельных таблицах, используя некоторое условие объединения.

![sql joins](https://www.codeproject.com/KB/database/Visual_SQL_Joins/Visual_SQL_JOINS_V2.png)

Пример запроса с JOIN:

In [None]:
SELECT column, another_table_column, …
FROM mytable
INNER JOIN another_table
    ON mytable.id = another_table.id
WHERE condition(s)
ORDER BY column, … ASC/DESC
LIMIT num_limit OFFSET num_offset;

#### Агрегации

SQL также поддерживает использование агрегационных выражений (или функций), которые позволяют суммировать информацию о группе строк данных.

In [None]:
SELECT AGG_FUNC(column_or_expression) AS aggregate_description, …
FROM mytable
WHERE constraint_expression;

| Function                | Description                                                                                                                                                                                     |
|-------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| COUNT(*), COUNT(column) | A common function used to counts the number of rows in the group if no column name is specified. Otherwise, count the number of rows in the group with non-NULL values in the specified column. |
| MIN(column)             | Finds the smallest numerical value in the specified column for all rows in the group.                                                                                                           |
| MAX(column)             | Finds the largest numerical value in the specified column for all rows in the group.                                                                                                            |
| AVG(column)             | Finds the average numerical value in the specified column for all rows in the group.                                                                                                            |
| SUM(column)             | Finds the sum of all numerical values in the specified column for the rows in the group.                                                                                                        |

#### GROUP BY

В дополнение к агрегированию по всем строкам, вы можете вместо этого применить агрегатные функции к отдельным группам данных внутри этой группы (например, кассовые сборы комедий против боевиков).

In [None]:
SELECT AGG_FUNC(column_or_expression) AS aggregate_description, column, …
FROM mytable
WHERE constraint_expression
GROUP BY column;

#### HAVING

GROUP BY выполняется после WHERE, поэтому чтобы отфильтровать значения после группировки, нужно применить слово HAVING

In [None]:
SELECT group_by_column, AGG_FUNC(column_expression) AS aggregate_result_alias, …
FROM mytable
WHERE condition
GROUP BY column
HAVING group_condition;

### SQL запись/изменение

#### Схема бд

В SQL схема базы данных - это то, что описывает структуру каждой таблицы и типы данных, которые может содержать каждый столбец таблицы.

| Id | Make/Model        | # Wheels | # Doors | Type       |
|----|-------------------|----------|---------|------------|
| 1  | Ford Focus        | 4        | 4       | Sedan      |
| 2  | Tesla Roadster    | 4        | 2       | Sports     |
| 3  | Kawakasi Ninja    | 2        | 0       | Motorcycle |
| 4  | McLaren Formula 1 | 4        | 0       | Race       |
| 5  | Tesla S           | 4        | 4       | Sedan      |


> Например, в таблице выше, __Model__ - это string, __Wheels__ - integer...

Эта фиксированная структура - это то, что позволяет базе данных быть эффективной и непротиворечивой, несмотря на хранение миллионов или даже миллиардов строк.

#### INSERT

При вставке данных в базу данных нам нужно использовать инструкцию INSERT, которая объявляет, в какую таблицу производить запись, столбцы данных, которые мы заполняем, и одну или несколько строк данных для вставки.

In [None]:
INSERT INTO mytable
VALUES (value_or_expr, another_value_or_expr, …),
       (value_or_expr_2, another_value_or_expr_2, …),
       …;

Так же мы можем добавлять в таблицу строку не со всеми полями, а только с теми, что можем, остальные заполнятся NULL

In [None]:
INSERT INTO mytable
(column, another_column, …)
VALUES (value_or_expr, another_value_or_expr, …),
      (value_or_expr_2, another_value_or_expr_2, …),
      …;

#### UPDATE

В дополнение к добавлению новых данных, распространенной задачей является обновление существующих данных, что можно сделать с помощью инструкции UPDATE. Аналогично инструкции INSERT, вы должны точно указать, какую таблицу, столбцы и строки следует обновить. Кроме того, данные, которые вы обновляете, должны соответствовать типу данных столбцов в схеме таблицы.

In [None]:
UPDATE mytable
SET column = value_or_expr,
    other_column = another_value_or_expr,
    …
WHERE condition;

#### DELETE

Когда вам нужно удалить данные из таблицы в базе данных, вы можете использовать оператор DELETE, который описывает таблицу, с которой нужно выполнить действие, и строки таблицы для удаления с помощью предложения WHERE.

In [None]:
DELETE FROM mytable
WHERE condition;

#### CREATE TABLE

Когда у вас есть новые сущности и связи для хранения в вашей базе данных, вы можете создать новую таблицу базы данных, используя инструкцию CREATE TABLE.

In [None]:
CREATE TABLE IF NOT EXISTS mytable (
    column DataType TableConstraint DEFAULT default_value,
    another_column DataType TableConstraint DEFAULT default_value,
    …
);

Если таблица с таким же именем уже существует, реализация SQL обычно выдает ошибку, поэтому, чтобы подавить ошибку и пропустить создание таблицы, если она существует, вы можете использовать предложение IF NOT EXISTS.

##### Типы данных

| Тип данных | Описание |
|------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| INTEGER, BOOLEAN | Целочисленные типы. В некоторых реализациях логическое значение просто представляется в виде целого значения, равного всего 0 или 1. |
| FLOAT, DOUBLE, REAL | Типы данных с плавающей запятой. Могут использоваться различные типы в зависимости от точности с плавающей запятой, требуемой для этого значения. |
| CHARACTER(num_chars), VARCHAR(num_chars), TEXT | Текстовые типы данных могут хранить строки и текст во всех видах локалей. Различие между различными типами, как правило, сводится к повышению эффективности базы данных при работе с этими столбцами. Как типы CHARACTER, так и VARCHAR указаны с максимальным количеством символов, которые они могут хранить (более длинные значения могут быть усечены), поэтому может быть более эффективно хранить и запрашивать с помощью больших таблиц. |
| DATE, DATETIME | SQL также может хранить метки даты и времени для отслеживания временных рядов и данных о событиях.|
| BLOB | Наконец, SQL может хранить двоичные данные в виде больших двоичных объектов прямо в базе данных. Эти значения часто непрозрачны для базы данных, поэтому вам обычно приходится хранить их с нужными метаданными, чтобы запросить их. |

##### Ограничения на поля

Каждый столбец может иметь дополнительные табличные ограничения, которые ограничивают количество значений, которые могут быть вставлены в этот столбец. Это неполный список, но он покажет несколько распространенных ограничений, которые могут оказаться полезными.

| Ограничение | Описание |
|--------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| PRIMARY KEY | Это означает, что значения в этом столбце уникальны, и каждое значение может быть использовано для идентификации одной строки в этой таблице. |
| AUTOINCREMENT | Для целочисленных значений это означает, что значение автоматически заполняется и увеличивается с каждой вставкой строки. Поддерживается не во всех базах данных. |
| UNIQUE | Это означает, что значения в этом столбце должны быть уникальными, поэтому вы не можете вставить другую строку с тем же значением в этот столбец, что и в другую строку таблицы. Отличается от `PRIMARY KEY` тем, что он не обязательно должен быть ключом для строки в таблице. |
| NOT NULL | Это означает, что вставленное значение не может быть `NULL`. |
| CHECK (выражение) | Это позволяет вам запустить более сложное выражение, чтобы проверить, являются ли вставленные значения допустимыми. Например, вы можете проверить, являются ли значения положительными, или больше определенного размера, или начинаются с определенного префикса и т.д. |
| FOREIGN KEY | Это проверка согласованности, которая гарантирует, что каждое значение в этом столбце соответствует другому значению в столбце другой таблицы. Например, если есть две таблицы, в одной из которых перечислены все сотрудники по идентификаторам, а в другой - информация об их заработной плате, `FOREIGN KEY` может гарантировать, что каждая строка в таблице заработной платы соответствует действительному сотруднику в главном списке сотрудников. |

Пример схемы: 

In [None]:
CREATE TABLE movies (
    id INTEGER PRIMARY KEY,
    title TEXT,
    director TEXT,
    year INTEGER,
    length_minutes INTEGER
);

#### ALTER TABLE

##### ADD

Для добавления столбца вам необходимо указать тип данных столбца вместе с любыми потенциальными ограничениями таблицы и значениями по умолчанию, которые будут применяться как к существующим, так и к новым строкам.

In [None]:
ALTER TABLE mytable
ADD column DataType OptionalTableConstraint
    DEFAULT default_value;

##### DROP

In [None]:
ALTER TABLE mytable
DROP column_to_be_deleted;

##### RENAME

In [None]:
ALTER TABLE mytable
RENAME TO new_table_name;

#### DROP TABLE

Хотите удалить таблицу - ни слова больше!

In [None]:
DROP TABLE IF EXISTS mytable;

#### Транзакционность

Не все операции с базой данных можно выразить одним запросом. Например, так нельзя сделать с транзакцией, когда нужно перевести деньги с одного счета на другой. 

In [None]:
BEGIN;
SELECT amount FROM accounts WHERE user_id = 10;
UPDATE accounts SET amount = amount - 50 WHERE user_id = 10;
UPDATE accounts SET amount = amount + 50 WHERE user_id = 30;
COMMIT;

### Ссылка на туториал: https://sqlbolt.com/lesson/introduction