# Введение в базы данных. Типы баз данных

База данных - это набор взаимосвязанных данных и правила хранения этих данных.

Система управления базами данных (СУБД) - комплекс программных средств для управления данными.

СУБД выполняет поиск данных по заданным критериям

Типы СУБД:

* Файл-серверные;
* Клиент-серверные;
* Встраиваемые.

Клиент:
* Программа, которая хочет получить информацию
* Физ. устройство, на котором работает программа-клиент

Сервер:
* Специальная программа, которая дает информацию
* Физ. устройство, на котором запущена программа-сервер

### Файл-серверные СУБД

Файлы с информацией хранятся на сервере, а СУБД на клиенте. Проблема возникает с тем, что каждому клиенту нужно ставить себе СУБД

### Клиент-серверные СУБД

СУБД и файлы с информацией находятся на сервере, а клиент обращается за информацией через легковесную вспомогательную программу. Все запросы идут на одну СУБД.

### Встраиваемые СУБД

Файлы, СУБД находятся на стороне клиента. Примеры: телефонные игры, и т.д, что не требует доступа к интернету

![](./static/smdb-pluses-minuses.jpg)

## Типы БД

### Реляционные

Это БД, в которых информация строго структурирована и связана с другой информацией жесткими правилами. Примеры:
* MS Access
* SQLite
* PostgreSQL
* MySQL
* Microsoft SQL

### Нереляционные

Это БД, в которых жёсткие ограничения не требуются ни по структуре, ни по связи между информацией. Примеры:
* Redis
* MongoDB
* Cassandra

![](./static/nosql-db-types.jpg)

Redis - часто используется для кэширования данных, чтобы не нагружать оперативку, и сохранить данные в кэше на долго

Графовые бд - используются для социальных сетей (для хранения друзей, подписок и тд)


## Primary key

Первичный ключ - столбец или набор столбцов, которые уникальным образом идентифицируют строку в рамках всей таблицы.

## Foreign Key

* Внешние ключи позволяют установить связи между таблицами
* Внешний ключ устанавливается для столбцов из зависимой (подчиненной) таблицы и указывает на один из столбцов из главной таблицы
* Как правило, внешний ключ указывает на первичный ключ из главной таблицы

Нормальная форма - требование, предъявляемое к структуре таблиц в теории реляционных баз данных для устранения из базы избыточных функциональных зависимостей между атрибутами. 

## Нормальные формы

1НФ - в одной записи не может быть перечислений. Каждому элементу этого перечисления необходима отдельная запись

2НФ - 1НФ + все неуникальные данные, зависящие не от записи главной таблицы, а зависящие от записи foreign key таблицы, следует выносить как раз в foreign key таблицу

![](./static/example-of-2-nf-table.jpg)

3НФ - 1НФ + 2НФ + разделять все таблицы на удобно редактируемые маленькие

![](./static/example-of-3-nf-table.jpg)

## Установка PostgreSQL Windows

Устаналиваем по установщику с оф. сайта, все оставляем по умолчанию и запоминаем пароль от суперпользователя.

Вместе с PostgreSQL устанавливается утилита psql в терминал cmd, пока что она не работает. На самом деле эта программа просто не зарегистрирована в системе. Заходим в диск C->Program files->PostgreSQL->17->bin. Ищем тут psql. Запоминаем этот путь и регистрируем его следующим образом: открываем свойства пк->доп. настройки системы->переменные окружения->Записываем запомненный путь в окружение системы Path.  

Чтобы теперь подключиться к postgre через консоль, нам нужно подключиться через суперпользователя:

```markdown
psql -U postgres
```

При заходе в эту оболочку postgres может возникнуть ошибка, связанная с кодировкой. В этом случае выходим из нее и в cmd пишем chcp <номер страницы, которая была указана в ворнинге>.

## Установка PostgreSQL Linux

```markdown
$ sudo apt install postgresql
``` 

Затем пытаемся выполнить команду 

```markdown
$ psql
```

И получаем ошибку, что нашего пользователя нет в бд.

Поэтому выполняем:

```markdown
$ sudo -u postgres psql
```

Установим пароль для суперпользователя postgres (в оболочке psql):

```markdown
$ \password postgres
```

Вводим новый пароль.

Теперь установим pgAdmin4



## Создание базы данных Postgre

```markdown
createdb -U postgres <название бд>
```

Для того, чтобы подключиться к бд и управлять ей, используем команду:

```markdown
psql -U postgres -d <название бд>
```

Для того, чтобы удалить бд, нужно использовать команду:

```markdown
dropdb -U postgres <название бд>
```

## SQL, механизм взаимодействия с БД

SQL (structure query language) - язык структурированных запросов. 

### Типы запросов в SQL

* DDL (Data Definition Language) 'управление таблицами' - CREATE, ALTER, DROP
* DML (Data Manipulation Language) 'управление данными внутри таблиц' - SELECT, INSERT, UPDATE, DELETE
* TCL (Transaction Control Language) 'управление транзакциями' - COMMIT, ROLLBACK, SAVEPOINT
* DCL (Data Control Language) 'управление пользователями и их правами'

### Типы данных в Postgre

* integer 'целые числа': `id integer`
* serial 'целые числа с автоинкрементом': `id serial`
* numeric 'десятичные числа': `gpa numeric(3, 2)`

Пример данных такого типа: `1.25`. Его точность (первый аргумент) = 3, а масштаб (второй аргумент) = 2. Точность - это количество цифр в записи числа, не считая запятой, а масштаб - количество цифр справа от запятой.

У типа данных numeric есть брат decimal, который может иметь указанную точность, а может и большую.

* character varying 'строки ограниченной длины': `name varchar(40)`
* text 'строки произвольной длины': `message text`
* date 'дата (без времени)': `birthday date`
* timestamp 'дата + время': `created_at timestamp`
* boolean 'булевые значения': `active boolean`
* jsonb 'json поля': `data jsonb`

### Ограничения столбиков

Ограничения можно распространять и на строчки, и на столбцы.

1) primary key - первичный ключ, обязывает поле быть уникальным и не пустым. Пример: `id serial primary key`

Ограничение на pk показывает, что столбец, или группа столбцов может быть использована как уникальный идентификатор для строк в таблице. По идее, следующее есть одно и то же:

```SQL
CREATE TABLE products (
    product_no integer UNIQUE NOT NULL,
    name text,
    price numeric
);
```

и

```SQL
CREATE TABLE products (
    product_no integer PRIMARY KEY,
    name text,
    price numeric
);
```

Но разница в том, что primary key может называться один столбик, и не более. Остальные получаюстся UNIQUE NOT NULL.

Также можно объявлять несколько столбцов как pk разом (если утверждается, что primary key всего один, то в чем смысл такого множественного определения?):

Так вот смысл в том, что теперь первчиным ключом, однозначно идентифицирующим строчку будет не одно поле, а комбинация двух полей. Это работает так, что (1, 2), (1, 3), (2, 2) - разные строки, (1, 1), (1, 1) - одинаковые. Такого быть не может.

```SQL
CREATE TABLE example (
    a integer,
    b integer,
    c integer,
    PRIMARY KEY (a, c)
);
```

В реляционных базах данных желательно иметь в каждой таблице такие primary key.

2) not null - значение не может быть пустым (не может отсутствовать). Пример: `name varchar(40) not null`

Пример:

```SQL
CREATE TABLE products (
    product_no integer NOT NULL,
    name text NOT NULL,
    price numeric
);
```

Это всегда есть ограничение столбца. По факту это есть то же самое, что и CHECK (column_name IS NOT NULL), но в PostgreSQL ограничение NOT NULL работает быстрее. Таким ограничениям нельзя давать имена.

Ограничению NOT NULL противопоставлено ограничение NULL. В этом случае имеется в виду, что столбец может иметь нулевые значения. Лучше не указывать так, потому что это не всегда позволяет с легкостью с этим работать. В большинстве больших проектов, большинство столбцов обязательно должны быть отмечены как NOT NULL.

3) unique - все значения в этом поле должны быть уникальными. Пример: `tag varchar(40) unique`

Пример:

```SQL
CREATE TABLE products (
    product_no integer UNIQUE,
    name text,
    price numeric
);
```

или, что то же самое, но используемое реже:

```SQL
CREATE TABLE products (
    product_no integer,
    name text,
    price numeric,
    UNIQUE (product_no)
);
```

Можно добавить множественную проверку уникальности:

```SQL
CREATE TABLE example (
    a integer,
    b integer,
    c integer,
    UNIQUE (a, c)
);
```

Такая проверка будет проверять, чтобы пары в полях a, c - уникальны. Не значит ли это, что сами столбцы должны быть уникальны? Нет, не значит. Комбинации в бд- это не комбинации в математике. По умолчанию, два значения NULL не являются повторяющимися в данном сравнении. Это можно изменить ключевым словом:

```SQL
CREATE TABLE products (
    product_no integer UNIQUE NULLS NOT DISTINCT,
    name text,
    price numeric
);
```

Этим ограничениям можно поставить свои имена:

```SQL
CREATE TABLE products (
    product_no integer CONSTRAINT must_be_different UNIQUE,
    name text,
    price numeric
);
```

4) check - добавить проверку значения на описанное условие. Пример: `price numeric check(price > 0)`

Сами ограничения отрабатывают тогда, когда значения в скобках после них true или null.

PostgreSQL предполагает, что условия ограничений неизменяемы, то есть они всегда будут давать один и тот же результат для одной и той же входной строки.

Для ограничения на положительные числа:

```SQL
CREATE TABLE products (
    product_no integer,
    name text,
    price numeric CHECK (price > 0)
);
```

Чтобы задать имя ограничению (так проще возвращаться к ограничению, если в них возникли ошибки):

```SQL
CREATE TABLE products (
    product_no integer,
    name text,
    price numeric CONSTRAINT positive_price CHECK (price > 0)
);
```

Ограничения проверки можно устанавливать и на саму таблицу, скажем:

```SQL
CREATE TABLE products (
    product_no integer,
    name text,
    price numeric CHECK (price > 0),
    discounted_price numeric CHECK (discounted_price > 0),
    CHECK (price > discounted_price)
);
```

Чтобы задать имя такому ограничению таблицы, можно использовать уже знакомый синтаксис: 

```SQL
CREATE TABLE products (
    product_no integer,
    name text,
    price numeric,
    CHECK (price > 0),
    discounted_price numeric,
    CHECK (discounted_price > 0),
    CONSTRAINT valid_discount CHECK (price > discounted_price)
);
```

5) foreign key - внешний ключ, обязывает значение соответствовать значению из другой таблицы `product_id integer references products(id)`

Допустим, есть такая таблица:

```SQL
CREATE TABLE products (
    product_no integer PRIMARY KEY,
    name text,
    price numeric
);
```

И такая таблица:

```SQL
CREATE TABLE orders (
    order_id integer PRIMARY KEY,
    product_no integer REFERENCES products (product_no),
    quantity integer
);
```

Foreign key также можно использовать и для групп столбцов к примеру (тогда количество столбцов и их типы слева должно соответствовать количеству столбцов справа и их типам):

```SQL
CREATE TABLE t1 (
  a integer PRIMARY KEY,
  b integer,
  c integer,
  FOREIGN KEY (b, c) REFERENCES other_table (c1, c2)
);
```
  
Также можно задавать таблицы , у которых один из столбцов будет ссылкой на саму же эту таблицу. Такое отношение называют self-referential и например определяется так:

```SQL
CREATE TABLE tree (
    node_id integer PRIMARY KEY,
    parent_id integer REFERENCES tree,
    name text,
    ...
);
```

Чтобы предоставить таблице возможность создавать связи типов many-to-many, в SQL можно создавать таблицы с множеством FOREIGN KEY:

```SQL
CREATE TABLE products (
    product_no integer PRIMARY KEY,
    name text,
    price numeric
);

CREATE TABLE orders (
    order_id integer PRIMARY KEY,
    shipping_address text,
    ...
);

CREATE TABLE order_items (
    product_no integer REFERENCES products,
    order_id integer REFERENCES orders,
    quantity integer,
    PRIMARY KEY (product_no, order_id)
);
```

В силу того, что таблицы могут быть связаны, возникает проблема с удалением связных элементов. Так в SQL разработаны флаги удаления:

* ON DELETE RESTRICT - запрет на удаление;
* ON DELETE CASCADE - удалить все остальные связные элементы. После удаления можно поставить SET NULL (установить в NULL) или SET DEFAULT (установить в значение по умолчанию);
* NO ACTION - по умолчанию, поднимает ошибку.

Пример использования:

```SQL
CREATE TABLE tenants (
    tenant_id integer PRIMARY KEY
);

CREATE TABLE users (
    tenant_id integer REFERENCES tenants ON DELETE CASCADE,
    user_id integer NOT NULL,
    PRIMARY KEY (tenant_id, user_id)
);

CREATE TABLE posts (
    tenant_id integer REFERENCES tenants ON DELETE CASCADE,
    post_id integer NOT NULL,
    author_id integer,
    PRIMARY KEY (tenant_id, post_id),
    FOREIGN KEY (tenant_id, author_id) REFERENCES users ON DELETE SET NULL (author_id)
);
```

Помимо ON DELETE, существует ON UPDATE. Работает так же, как и ON DELETE.

Если к FOREIGN KEY дописать MATCH FULL, то столбец может быть либо полностью NULL, либо полностью не NULL.

FOREIGN KEY должен ссылаться либо на PRIMARY KEY либо на поле UNIQUE.

(Открытый вопрос) В чем смысл EXCLUDE USING? Пример:

```SQL
CREATE TABLE circles (
    c circle,
    EXCLUDE USING gist (c WITH &&)
);
```

Ограничения можно комбинировать (порядок выполнения проверок неопределен):

```SQL
CREATE TABLE products (
    product_no integer NOT NULL,
    name text NOT NULL,
    price numeric NOT NULL CHECK (price > 0)
);
```

### Создание таблицы при помощи SQL

синтаксис:

```markdown
CREATE TABLE [IF NOT EXISTS] <name> (
    <col_name_1> <col_type_1> [CONSTRAINTS],
    ...
    <col_name_N> <col_type_N> [CONSTRAINTS],
    [CONSTRAINTS],
);
```

Пример:

```SQL
CREATE TABLE IF NOT EXISTS Student (
    Id serial PRIMARY KEY,
    Name varchar(40) NOT NULL,
    GPA real CHECK(GPA>0)
);
```

Чтобы создавать таблицу в БД, нужно подключиться к psql базы данных. Чтобы отличать ключевые слова от столбиков, рекомендуется писать их заглавными буквами.

Создание таблицы пример:

```SQL
CREATE TABLE student (id SERIAL PRIMARY KEY, name VARCHAR(60) NOT NULL);
```

Еще раз создать таблицу еще раз, то будет ошибка. Если прописать после CREATE TABLE IF NOT EXISTS , то тогда таблица создастся, если ее не было и не создастся если была.

```SQL
CREATE TABLE IF NOT EXISTS student (id SERIAL PRIMARY KEY, name VARCHAR(60) NOT NULL);
```

Чтобы изменить столбик:

```SQL
ALTER TABLE student RENAME name TO firstname;
```

Удаление таблицы:

```SQL
DROP TABLE student;
```

## Связи между отношениями

* Один к одному (Foreign key, One-To-One). Пример: пользователь и доп. информация к нему;
* Один ко многим (Many-To-One). Пример: домашние задания на курсе;
* Многие ко многим (Many-To-Many). Пример: студенты и преподаватели.

```SQL
CREATE TABLE IF NOT EXISTS Student (
    email VARCHAR(80) PRIMARY KEY,
    name VARCHAR(40) NOT NULL,
    password VARCHAR(128) NOT NULL
);

CREATE TABLE IF NOT EXISTS StudentInfo(
    email VARCHAR(80) REFERENCES Student (email),
    birthday date,
    city VARCHAR(60),
    roi TEXT
);
```

В этом примере при смене email в одной таблицы, придется вручную менять email в другой. Здесь лучше воспользоваться следующим:

Пример связи типа One-To-One:

```SQL
CREATE TABLE IF NOT EXISTS Student {
    id SERIAL PRIMARY KEY,
    email VARCHAR(80) UNIQUE NOT NULL,
    name VARCHAR(40) NOT NULL,
    PASSWORD VARCHAR(128) NOT NULL
};

CREATE TABLE IF NOT EXISTS StudentInfo {
    id INTEGER PRIMARY KEY REFERENCES Student(id),
    birthday date,
    city VARHCAR(60),
    roi TEXT
};
```

Теперь связь осуществляется через идентификатор. Primary key во второй таблице указывает, что это поле уникальное и ненулевое, и что поле id можно использовать как уникальный идентификатор записей этой таблицы.

Пример связи типа Many-To-One:

```SQL
CREATE TABLE IF NOT EXISTS Course (
    id SERIAL PRIMARY KEY,
    name VARCHAR(60) NOT NULL,
    description TEXT
);

CREATE TABLE IF NOT EXISTS HomeworkTask (
    id SERIAL PRIMARY KEY,
    course_id INTEGER NOT NULL REFERENCES Course(id),
    number INTEGER NOT NULL,
    description TEXT NOT NULL
);
```

В связи типа Many-To-Many необходима промежуточная таблица, которая будет связывать две таблицы (также пример использования составного первичного ключа):

```SQL
CREATE TABLE IF NOT EXISTS CourseStudent (
    course_id INTEGER REFERENCES Course(id),
    student_id INTEGER REFERENCES Student(id),
    CONSTRAINT pk PRIMARY KEY (course_id, student_id)  // ограничение комбинации полей на уникальность.
);
```

Финальный скрипт:

```SQL
CREATE TABLE IF NOT EXISTS Student (
    id SERIAL PRIMARY KEY,
    email VARCHAR(80) UNIQUE NOT NULL,
    name VARCHAR(40) NOT NULL,
    PASSWORD VARCHAR(128) NOT NULL
);

CREATE TABLE IF NOT EXISTS StudentInfo (
    id INTEGER PRIMARY KEY REFERENCES Student(id),
    birthday date,
    city VARCHAR(60),
    roi TEXT
);

CREATE TABLE IF NOT EXISTS Course (
    id SERIAL PRIMARY KEY,
    name VARCHAR(60) NOT NULL,
    description TEXT
);

CREATE TABLE IF NOT EXISTS HomeworkTask (
    id SERIAL PRIMARY KEY,
    course_id INTEGER NOT NULL REFERENCES Course(id),
    number INTEGER NOT NULL,
    description TEXT NOT NULL
);

CREATE TABLE IF NOT EXISTS CourseStudent (
    course_id INTEGER REFERENCES Course(id),
    student_id INTEGER REFERENCES Student(id),
    CONSTRAINT pk PRIMARY KEY (course_id, student_id)
);
```

Смотреть все таблицы в бд можно с помощью команды

```markdown
\dt
```

## Select-запросы, выборки из одной таблицы

Чтобы вставить новое значение в таблицу, необходимо воспользоваться Select-запросом INSERT:

```SQL
INSERT INTO course(name, description)
VALUES('Python', 'Python с нуля');

-- если не указывать отдельные поля, то тогда перечислять придется все:
INSERT INTO course
VALUES(999, 'Java', 'без описания');
```

Данные можно не только вставлять, но еще и обновлять:

```SQL
UPDATE course 
SET description = 'Java с нуля'
WHERE id = 999;
```

Также данные можно удалять из таблицы:
```SQL
DELETE FROM course
WHERE id = 999;
```

### SELECT-запросы

Select-запрос начинается с ключевого слова SELECT

```markdown
-- обязательно
SELECT [DISTINCT | ALL] table_columns
FROM table
-- необязательно, но в строгой последовательности
[WHERE condition]
[GROUP BY table_columns]
[HAVING condition]
[ORDER BY table_columns [ASC | DESC]];

DISTINCT - уникальные значения,
ALL - все значения,
ASC - по возрастанию (ascending),
DESC - по убыванию (descending).
```

Примеры использования SELECT-запросов.

1. Достаем все данные из таблицы:

```SQL
SELECT * FROM film;
```

2. Достаем конкретный столбик из таблицы:

```SQL
SELECT title FROM film;
```

3. Достаем несколько столбиков из таблицы:

```SQL
SELECT title, release_year FROM film;
```

4. Достаем уникальные значения из столбика таблицы:

```SQL
SELECT distinct rating FROM film;
```

5. Применим арифметические операции к результатам:

```SQL
SELECT amount * 70 FROM payment;
SELECT return_date - rental_date FROM rental;
```

6. Достаем выборочные данные по условиям из таблицы:

```SQL
SELECT title, release_year FROM film
WHERE release_year >= 2000;
```

7. Достанем данные по ряду условий:

```SQL
SELECT first_name, last_name FROM staff
WHERE active = true AND NOT store_id = 1;
```

```SQL
SELECT title, length, rental_rate, replacement_cost FROM film
WHERE rental_rate <= 0.99 AND replacement_cost <= 9.99 OR length < 50;
```

Приоритет следующий (1 - наивысший, 2 - наименьший): 
AND - 1
OR - 2

8. Рассмотрим операторы IN / NOT IN / BETWEEN:

```SQL
SELECT title, description, rating FROM film
WHERE rating IN ('R', 'NC-17');
```

```SQL
SELECT title, description, rating FROM film
WHERE rating NOT IN ('G', 'PG');
```

```SQL
SELECT title, rental_rate FROM film
WHERE rental_rate BETWEEN 0.99 AND 3;
```

```SQL
SELECT title, rental_rate FROM film
WHERE rental_rate NOT BETWEEN 0.99 AND 3;
```

Границы включаются!

9. Рассмотрим оператор LIKE:

```SQL
SELECT title, description FROM film
WHERE description LIKE '%Scientist%';
```

Знаки процентов здесь означают неточное совпадение. В таком случае LIKE ищет содержание подстроки в строке. % спереди позволяет перед этой подстрокой строке содержать какие-то символы, а % сзади, делает то же самое только после подстроки.

Также у оператора LIKE есть еще один модификатор: нижнее подчеркивание "_":

```SQL
SELECT actor_id, first_name, last_name FROM actor
WHERE last_name LIKE '%gen_';
```

10. Достанем отсортированную выборку:

```SQL
SELECT title, rental_rate FROM film
ORDER BY rental_rate;
```

В убывающем порядке:

```SQL
SELECT title, rental_rate FROM film
ORDER BY rental_rate DESC;
```

Сортировать можно по нескольким столбикам (в таком случае каждому столбику необходимо указывать порядок сортировки):

```SQL
SELECT title, length, rental_rate FROM film
ORDER BY length DESC, rental_rate DESC;
```

11. Скомбинируем операторы WHERE и ORDER BY:

```SQL
SELECT actor_id, first_name, last_name FROM actor
WHERE last_name LIKE '%li%'
ORDER BY last_name, first_name;
```

12. Ограничим количество выдаваемых записей:

```SQL
SELECT title, length, rental_rate FROM film
ORDER BY length DESC, rental_rate
LIMIT 15;
```

## Агрегирующие функции и выборки из нескольких таблиц

Агрегирующие функции - такие функции, которые выполняют некоторые вычисления над значениями в столбцах. Существует пять агрегирующих функций:

* MAX - находит максимальное значение в столбце. Рассмотрим пример:

```SQL
SELECT MAX(rental_rate) FROM film;
```

* MIN - находит минимальное значение в столбце. Рассмотрим пример:

```SQL
SELECT MIN(rental_rate) FROM film;
```

* AVG - находит среднее значение в столбце. Рассмотрим пример:

```SQL
SELECT AVG(length) FROM film;
```

* COUNT - вычисляет количество строк, присутствующих в ответе. Рассмотрим пример:

```SQL
SELECT COUNT(distinct first_name) FROM actor;
```

При этом COUNT(*) - считает количество строк в таблице

* SUM - считет сумму строк. Рассмотрим пример:

```SQL
SELECT SUM(amount), AVG(amount) FROM payment
WHERE staff_id = 1;
```

### Вложенный запрос.

Вложенный запрос - это запрос, который участвует внутри другого запроса. Каждый вложенный запрос также может содержать один или несколько вложенных запросов. Количество вложенных запросов неограничено.

Рассмотрим пример. Так работать не будет!

```SQL
SELECT title, length FROM film
WHERE length >= AVG(length);
```

А вот так будет:

```SQL
SELECT title, length FROM film
WHERE length >= (SELECT AVG(length) FROM film);
```

Еще пример:

```SQL
SELECT title, rental_rate FROM film
WHERE rental_rate < (SELECT MAX(rental_rate) FROM film)
ORDER BY rental_rate DESC;
```

### Оператор GROUP BY.

Этот оператор позволяет задавать агрегацию по нужным столбцам. Применяется в связке с агрегирующими функциями. 

Скажем так, GROUP BY ищет неуникальные элементы и позволяет выполнять над ними агрегирующие функции

Пример (посчитаем количество актеров в разрезе фамилий, найдем однофамильцев):

```SQL
SELECT last_name, COUNT(*) FROM actor
GROUP BY last_name
ORDER BY COUNT(*) DESC;
```

Если используется группировка, то столбцы в секции SELECT без агрегирующей функции обязательно должны находиться в GROUP BY.

В комбинации с GROUP BY мы можем отфильтровать выборку:

```SQL
SELECT rating, AVG(length) FROM film
WHERE release_year = 2006
GROUP BY rating;
```

### Оператор HAVING

HAVING - оператор, позволяющий отфильтровать данные после группировки, аналог WHERE.

Пример использования HAVING (найдем неповторяющиеся фамилии актеров):

```SQL
SELECT last_name, COUNT(*) FROM actor
GROUP BY last_name
HAVING COUNT(*) = 1;
```

Рекомендуется все возможные фильтрации выполнять до группировки GROUP BY.

### Псевдонимы

ALIAS (псевдонимы) используются для временного переименования таблиц и столбцов.

```SQL
SELECT first_name AS name FROM actor AS act;
```

AS - необязателен, можно написать псевдоним после столбика через пробел.

## Объединение таблиц при помощи JOIN

JOIN - оператор, предназначенный для объединения таблиц по определенном столбцу или связке столбцов, как правило, по первичному ключу.

### Виды объединения таблиц:

* [INNER] JOIN - в выборку попадут только те данные, по которым выполняются условия соединения.
  
Пример:

```SQL
SELECT title, COUNT(*) FROM film f
JOIN film_actor fa ON fa.film_id = f.film_id
GROUP BY f.title
ORDER BY COUNT(*) DESC; 
```

* LEFT [OUTER] JOIN - в выборку попадут все данные из таблицы A и только те данные из таблицы B , по которым выполнится условие соединения. Недостающие данные вместо строк таблицы B будут представлены NULL.

Пример:

```SQL
SELECT first_name, last_name, address FROM staff s
LEFT JOIN address a ON s.address_id = a.address_id;
```

```SQL
SELECT s.last_name, COUNT(amount) FROM payment p
LEFT JOIN staff s ON p.staff_id = s.staff_id
GROUP BY s.last_name;
```

* RIGHT [OUTER] JOIN - в выборку попадут все данные из таблицы B и только те данные из таблицы A , по которым выполнится условие соединения. Недостающие данные вместо строк таблицы А будут представлены NULL.

Легко переделать на лад LEFT JOIN-а

* FULL [OUTER] JOIN - в выборку попадут все строки таблицы A и таблицы B. Если для строк талицы A и таблицы B выполняются условия соединения, то они объединяются в одну строку. Если данных в какой-то таблице нет, то на соответствующие места вставляются NULL.

* CROSS JOIN - объединение каждой строки таблицы А с каждой строкой таблицы В.

Соединять таблицы можно неоднократно:

```SQL
SELECT c.last_name, c.first_name, c.email FROM customer c
JOIN address a ON c.address_id = a.address_id
JOIN city ON a.city_id = city.city_id
JOIN country co ON city.country_id = co.country_id
WHERE country = 'Russian Federation';
```

## Индексы

Индексы - специальные объекты баз данных, которые нужны для ускорения получения данных из них.

Индексы использовать не рекомендуется, когда:

* таблицы в БД небольшие;
* данные в таблицах или столбцах часто меняются;
* в столбце много NULL-значений.

# Работа с PostgreSQL из Python

## Работа с БД из python с помощью драйвера psycopg2

Во-первых, устанавливаем psycopg2-binary, во-вторых, создаем БД от имени postgres и заходим в нее.

Для работы с базой данных из Python, необходимо к ней подключиться функцией connect(). На вход нужно передать название БД, имя пользователя и пароль.

В результате функция выдает объект подключения. Обычно его присваивают conn.

С базой данных нужно работать аккуратно, потому после завершения работы с БД не забываем от нее отключиться. Делается это методом conn.close(). 

Для работы с базой данных, нам необходим "курсор". Чтобы получить его, нам нужно у объекта соединения запросить тот самый курсор методом conn.cursor()

Курсор также необходимо закрывать.

Можно сделать попроще: у курсора есть контекстный менеджер with

Курсор не выполняет сразу все комманды из execute, он сохраняет их у себя и после выполнения команды conn.commit() выполняет транзакцию. Выполняется либо полностью скрипт из буфера курсора, либо не выполняется ничего. В этот момент все курсоры отправят свои изменения в базу данных.

Также помима коммита, можно наоборот сказать объекту подключения проигнорировать все запросы. Делается это командой conn.rollback() , я не знаю зачем это нужно ?

In [2]:
import psycopg2
import os
from dotenv import load_dotenv

path = 'secret.env'

if os.path.exists(path):
    load_dotenv(path)
else:
    raise FileNotFoundError(
    "Конфигурационный файл не был найден. Перепроверьте маршрут")

pw = os.getenv("PASSWORD")

# подключаемся к бд.
conn = psycopg2.connect(database="netology_db", user='postgres', password=pw)

# пример без контекстного менеджера
"""
cur = conn.cursor()
cur.execute("CREATE TABLE IF NOT EXISTS Person (person_id SERIAL PRIMARY KEY, name VARCHAR(120) UNIQUE NOT NULL);")
cur.close()
"""
# пример с контекстным менеджером
with conn.cursor() as cur:
    cur.execute("CREATE TABLE Person(person_id SERIAL PRIMARY KEY, name VARCHAR(120) UNIQUE NOT NULL);")
    conn.commit()

conn.close()

DuplicateTable: ОШИБКА:  отношение "person" уже существует


## Создание таблиц. CRUD

При заполнении таблиц иногда бывает необходимо получить от БД какой-нибудь ответ, чтобы понять, все ли мы делаем правильно. В этом случае можно использовать ключевое слово RETURNING. Это слово работает в связке с методом cur.fetchone(), который возвращает все данные, выведенные в процессе запросов на этом курсоре. Выводит в виде кортежа.

In [7]:
# import psycopg2
# import os
# from dotenv import load_dotenv

path = 'secret.env'

if os.path.exists(path):
    load_dotenv(path)
else:
    raise FileNotFoundError(
    "Конфигурационный файл не был найден. Перепроверьте маршрут")

pw = os.getenv("PASSWORD")

# подключаемся к бд.
conn = psycopg2.connect(database="netology_db", user='postgres', password=pw)

def get_course_id(cursor, name: str) -> int:
    cursor.execute("""
                SELECT id FROM course WHERE name=%s;   
                """, (name, ))
    return cursor.fetchone()[0]


with conn.cursor() as cur:
    cur.execute("""
                DROP TABLE IF EXISTS homework;
                DROP TABLE IF EXISTS course;
                """)


    # создание таблиц
    cur.execute("""
            CREATE TABLE IF NOT EXISTS course (
                id SERIAL PRIMARY KEY, 
                name VARCHAR(40) UNIQUE
            );
            """)
    
    cur.execute("""
            CREATE TABLE IF NOT EXISTS homework (
                id SERIAL PRIMARY KEY,
                number INTEGER NOT NULL,
                description TEXT NOT NULL,
                course_id INTEGER NOT NULL REFERENCES course(id)    
            );
            """)

    conn.commit()  # фиксируем в БД

    # наполнение таблиц (Create из CRUD)
    cur.execute("""
            INSERT INTO course(name) VALUES('Python');   
            """)
    conn.commit()

    # использование RETURNING
    cur.execute("""
            INSERT INTO course(name) VALUES('Java') RETURNING id, name;   
            """)
    
    conn.commit()

    # извлечение данных (Read из CRUD)
    cur.execute("""
            SELECT * FROM course;
            """)
    
    fetch = cur.fetchone()  # это аналог LIMIT 1
    while(fetch != None):
        print(fetch)
        fetch = cur.fetchone()

    # аналог LIMIT N : cur.fetchmany(N)
    cur.execute("""
            SELECT * FROM course;
            """)
    print(cur.fetchmany(2))

    # из-за того, что это питон, а не SQL, тут можно воротить sql запросы на ходу. Но нужно опасаться SQL-инъекций. Подробнее выше
    cur.execute("""
            SELECT id FROM course WHERE name=%s;
            """, ('Python', ))
    print(cur.fetchone())
    
    print(get_course_id(cur, 'Python'))

    # обновление данных (Update из CRUD)
    cur.execute("""
            UPDATE course SET name=%s WHERE id=%s
            """, ('Python Advanced', get_course_id(cur, 'Python')))
    
    conn.commit()

    cur.execute("""SELECT * FROM course;""")

    print(cur.fetchall())

    # удаление данных (Delete из CRUD)

    cur.execute("""
            DELETE FROM course WHERE id=%s;    
            """, (get_course_id(cur, 'Java'), ))
    
    conn.commit()

conn.close()

(1, 'Python')
(2, 'Java')
[(1, 'Python'), (2, 'Java')]
(1,)
1
[(2, 'Java'), (1, 'Python Advanced')]


# Python и БД. ORM

## Абстракции ORM

### Движок

Установим библиотеку SQLAlchemy: 

```markdown
pip install sqlalchemy
```

Также для подключения к базе данных sql alchemy нужен драйвер psycopg2.

В библиотеке sql alchemy есть абстракция для подключения к бд (создание движка): sqlalchemy.create_engine(). На вход эта функция принимает так называемый DSN - data source name - строка подключения к источнику данных. Она формируется следующим образом:

```markdown
'<драйвер подключения>://<логин>:<пароль>@<название сервера>:<порт>/<название бд>'
```

Пример:

```python
password = ''
DSN = 'postgresql://postgres:{}@localhost:5432/netology_db'.format(password)
```

Сам объект engine не подключился к бд. Он лишь может это сделать при необходимости.

### Сессии

Самый распространенный вариант подключения к базе данных - через сессии. Сессии - некий аналог курсора. Создание сессии происходит с помощью функции sessionmaker из библиотеки sqlalchemy.orm:

```python
from sqlalchemy.orm import sessionmaker
Session = sessionmaker(bind=engine)
```

Это означает, что мы создали класс, привязанный к движку. Этот класс умеет создавать сессии.

Создание сессии (не забываем закрывать):

```python
session = Session()

session.close()
```

### Модели

Модели - это очередная абстракция. Модель по сути своей - класс. Для ее создания требуется базовый наследуемый класс Base. Данный класс умеет регистрировать своих наследников и позволяет им создавать новые таблицы в базе данных:

```python
import sqlalchemy as sq
from sqlalchemy.orm import declarative_base, relationship

Base = declarative_base()


class Course(Base):
    __tablename__ = 'course'

    id = sq.Column(sq.Integer, primary_key=True)
    name = sq.Column(sq.String(length=40), unique=True)

    homeworks = relationship("Homework", back_populates="course")

    def __str__(self):
        return f"Course {self.id}: {self.name}"
```

Аттрибут `__tablename__` - название таблицы в postgres. Далее идет перечисление названия полей в postgres. Про relationship позже.

```python
class Homework(Base):
    __tablename__ = 'homework'

    id = sq.Column(sq.Integer, primary_key=True)
    number = sq.Column(sq.Integer, nullable=False)
    description = sq.Column(sq.Text, nullable=False)
    course_id = sq.Column(sq.Integer, sq.ForeignKey("course.id"), nullable=False)

    course = relationship(Course, back_populates="homeworks")

    def __str__(self):
        return f"Homework {self.id}: ({self.number}, {self.description}, {self.course_id})"
```

relationship - описывает, с какой таблицей мы связываемся, и по какому слову можно будет связаться с этой таблицей обратно. В таком случае, если мы прописали relationship в таблицу Homework, то также relationship нужно прописать и в Course. Иногда такой подход неудобен или вовсе невозможен. В таком случае можно сделаеть следующее:

```python
course = relationship(Course, backref=Homeworks)
```

Теперь необязательно прописывать соответствующий аттрибут homeworks в таблице Course

### Создание таблиц в базе данных:

Как раз-таки базовый класс Base может создать таблицы в базе данных, используя движок и модели:

```python
def create_tables(engine):
    Base.metadata.create_all(engine)
```

Данный метод достаточно умный, он понимает, когда таблица была создана, ее создавать повторно не надо. В случае же, если мы хотим удалять все данные, которые были до вызова этой функции, достаточно перед этой строчкой прописать Base.metadata.drop_all(engine)

### Вставка значений в базу данных

Чтобы создать запись в базу данных, необходимо создать экземпляр класса соответствующей таблицы с указанием полей:

```python
course1 = Course(name='Python')
```

Сейчас никаких данных не было отправлено в бд, мы можем это проверить, узнав значение поля id:

```python
print(course1.id)
```

Для того, чтобы зафиксировать все изменения, добавляем сначала все записи в сессию, а затем коммитим:

```python
session.add(course1)
session.commit()

print(course1.id)
```

### Создание связанных данных

Создадим пару домашних заданий, привязанных к первому курсу:

```python
hw1 = Homework(number=1, description='простая домашняя работа', course=course1)
hw2 = Homework(number=2, description='сложная домашняя работа', course=course1)

session.add_all([hw1, hw2])
session.commit()
```

### Извлечение данных из бд

Для извлечения данных используется метод query:

```python
for c in session.query(Course).all():
    print(c)
```

Порой нам нужно достать не все записи, а некоторые, отфильтрованные по каким-либо полям. Для этого есть метод filter():

```python
for c in session.query(Homework).filter(Homework.number > 1).all():
    print(c)
for c in session.query(Homework).filter(Homework.description.like("%сложн%")).all():
    print(c)
```

### Объединение таблиц

Чтобы объединить таблицы используется метод join():

```python
for c in session.query(Course).join(Homework.course).filter(Homework.number == 2).all():
    print(c)
```

### Вложенные подзапросы

Подзапрос обычно называют subq (от слова subquery):

```python
subq = session.query(Homework).filter(Homework.description.like("%сложн%")).subquery()
for c in session.query(Course).join(subq, Course.id == subq.c.course_id):
    print(c)
```

### Обновление данных в таблицах

```python
session.query(Course).filter(Course.name == 'Java').update({'name': 'C++'})
session.commit()
```

### Удаление данных в таблицах

```python
session.query(Course).filter(Course.name == 'C++').delete()
session.commit()
```