**Тема 3.1 Введение в базы данных и SQL**  
**Лекция: Введение в реляционные базы данных и SQL**

---

### 1. Сущность и назначение баз данных

**База данных (БД)** — это организованная совокупность структурированной информации (данных), которая хранится и управляется с помощью специализированного программного обеспечения — системы управления базами данных (СУБД).

**Цели создания БД:**
- Систематизация и централизованное хранение данных.
- Устранение избыточности и противоречивости данных.
- Обеспечение надежного и безопасного доступа к информации.
- Эффективный поиск, изменение и обработка данных.

---

### 2. Основные понятия баз данных

- **Система управления базой данных (СУБД)** — программное обеспечение, обеспечивающее взаимодействие пользователей с базой данных, управление данными, их безопасность и целостность.
- **Модель данных** — способ организации и представления данных. Наиболее распространена реляционная модель данных, однако существуют и другие парадигмы.
- **Запрос** — команда для поиска, добавления, изменения или удаления данных в базе.

---

### 3. Реляционная модель данных

**Реляционная модель** (Эдгар Ф. Кодд, 1970) — наиболее популярная модель данных, основанная на представлении информации в виде таблиц (отношений).

#### Основные элементы реляционной модели:

- **Таблица (отношение)** — двумерная структура, строки которой называются **записями** (кортежами), а столбцы — **полями** (атрибутами).
- **Атрибут** — отдельное свойство, характеризующее объект (например, имя, возраст, адрес).
- **Кортеж (запись, строка)** — совокупность значений атрибутов, относящихся к одному объекту.
- **Первичный ключ** — атрибут (или их сочетание), однозначно идентифицирующий каждую запись в таблице.
- **Внешний ключ** — атрибут, ссылающийся на первичный ключ другой таблицы, что обеспечивает связи между таблицами.

**Реляционная алгебра** — совокупность операций (проекций, выборок, объединений и др.), позволяющих выполнять преобразования данных, хранящихся в таблицах.

---

### 4. Преимущества реляционного подхода

- Простота представления данных (таблицы наглядны и понимаемы).
- Связь и целостность данных благодаря механизмам ключей.
- Гибкость поиска, обработки и анализа информации.
- Универсальность средств хранения, обеспечение транзакций.

---

### 5. Нереляционные базы данных

**Нереляционные базы данных** — это класс СУБД, использующих другие (не табличные) способы организации и хранения данных. Такие базы данных часто называют NoSQL (от англ. “Not Only SQL”).

#### Основные типы нереляционных баз данных:
1. **Документо-ориентированные** — хранят данные в виде документов (обычно JSON или BSON). Примеры: MongoDB, CouchDB.
2. **Ключ-значение (Key-Value Store)** — каждая запись представлена парой ключ-значение. Примеры: Redis, Memcached.
3. **Колонко-ориентированные** — данные хранятся по столбцовому принципу, что удобно для аналитических задач. Примеры: Apache Cassandra, HBase.
4. **Графовые базы данных** — предназначены для хранения и анализа связей между объектами (графов: вершины и рёбра). Примеры: Neo4j, OrientDB.

#### Особенности и преимущества нереляционных БД:
- Гибкая схема — нет необходимости строго определять структуру таблиц заранее.
- Высокая производительность при работе с большими объёмами данных и распределёнными системами.
- Масштабируемость: хорошо подходят для горизонтального масштабирования.
- Специализация под определённые типы задач (например, хранение больших массиво документов, социальных сетей, логирования и пр.).

#### Ограничения:
- Обычно не реализуют всех требований целостности данных как в реляционных БД.
- Нет единого стандарта языка запросов (например, SQL применяется только в реляционных системах).
- Требуется особое внимание при проектировании структуры данных для разных задач.

---

### 6. Язык структурированных запросов (SQL)

**SQL (Structured Query Language)** — это стандартный язык взаимодействия с реляционными базами данных.

**Основные возможности SQL:**
- Создание и удаление объектов БД (таблиц, индексов и др.).
- Добавление, изменение и удаление данных.
- Запрос и фильтрация данных с помощью различных операторов.

**Примеры операторов:**
- `CREATE TABLE Students (StudentID INT PRIMARY KEY, Name VARCHAR(100), Age INT);`
- `INSERT INTO Students VALUES (1, 'Анна', 20);`
- `SELECT * FROM Students WHERE Age > 18;`
- `UPDATE Students SET Age = 21 WHERE StudentID = 1;`
- `DELETE FROM Students WHERE StudentID = 1;`

---

### 7. Архитектура реляционных СУБД

Реляционные СУБД (MySQL, PostgreSQL, Oracle, SQL Server, SQLite и др.) состоят из следующих основных компонентов:
- Ядро управления транзакциями и блокировками.
- Механизм хранения и поиска данных.
- Оптимизатор запросов и планировщик выполнения.
- Система безопасности и шифрования.

---

### 8. Итоги

Реляционные базы данных и язык SQL являются фундаментом современных информационных систем, но в условиях большого объема и разнообразия данных также широко применяются нереляционные базы данных (NoSQL). Понимание основных принципов обеих технологий позволяет эффективно проектировать, хранить, анализировать и масштабировать информационные системы.

---

**Supabase: https://supabase.com/**

---

### Основные конструкции SQL для работы с данными

#### SELECT

Ключевая команда для извлечения информации. Именно с её помощью формируется результат запроса.

**Пример:**  
```sql
SELECT Name, Platform FROM games;
```

---

#### FROM

Указывает таблицу, из которой производится выборка данных.

**Пример:**  
```sql
SELECT * FROM games;
```

---

#### WHERE

Фильтрует строки, чтобы в результате оказались только те, которые соответствуют заданному условию.

**Пример:**  
```sql
SELECT * FROM games WHERE Genre = 'Sports';
```

---

#### DISTINCT

Позволяет получить только уникальные (неповторяющиеся) значения из выбранного столбца.

**Пример:**  
Вывести разные жанры, представленные в таблице:
```sql
SELECT DISTINCT Genre FROM games;
```

**Пример:**  
Сколько разных платформ содержится в таблице:
```sql
SELECT DISTINCT Platform FROM games;
```

---

#### MIN, MAX

Агрегатные функции для нахождения минимального и максимального значения в столбце.

**MIN** — минимальное значение:

```sql
SELECT MIN(NA_sales) FROM games;
```
Найдёт минимальный объём продаж в Северной Америке.

**MAX** — максимальное значение:

```sql
SELECT MAX(Critic_Score) FROM games;
```
Выведет максимальную оценку критиков.

---

#### AVG

Вычисляет среднее арифметическое по столбцу (например, средний пользовательский рейтинг):

```sql
SELECT AVG(User_Score) FROM games;
```
Позволяет узнать среднюю оценку пользователей по всем играм.

---

#### SUM

Вычисляет сумму значений указанных числовых полей, например, общие продажи:

```sql
SELECT SUM(NA_sales) FROM games;
```
Покажет общий объём продаж в Северной Америке по всем играм.

---

#### CAST AS

Позволяет явно преобразовать один тип данных в другой.

**Пример:**  
```sql
SELECT Name, CAST(User_Score AS FLOAT) FROM games;
```

---

#### CASE WHEN

Позволяет создавать вычисляемые столбцы со значением, зависящим от условий.

**Пример:**  
```sql
SELECT Name,
       CASE
           WHEN NA_sales > 10 THEN 'Высокие продажи'
           ELSE 'Стандартные продажи'
       END AS sales_category
FROM games;
```

---

#### EXTRACT

Извлекает часть даты (например, год, месяц, день) из поля с типом даты/времени.

**Пример:**  
```sql
SELECT Name, EXTRACT(YEAR FROM Дата_выхода) AS release_year FROM games;
```

---

#### ORDER BY

Позволяет отсортировать результат по одному или нескольким столбцам.

**Пример:**  
```sql
SELECT Name, EU_sales FROM games ORDER BY EU_sales DESC;
```

---

#### LIMIT

Ограничивает количество строк, возвращаемых в результате запроса.

**Пример:**  
```sql
SELECT * FROM games LIMIT 5;
```

---

**Вывод:**  
Используя эти основные операторы и функции SQL, вы сможете извлекать интересующую информацию, находить и сравнивать крайние/средние значения, получать уникальные списки и быстро просматривать нужный объём данных. Эти техники лежат в фундаменте анализа реляционных данных и применяются практически в каждой аналитической задаче.

## Задачи

---

#### 1. Вывести все столбцы всех игр.
**Ответ:**  
```sql
SELECT * FROM games;
```

---

#### 2. Получить список всех уникальных платформ.
**Ответ:**  
```sql
SELECT DISTINCT Platform FROM games;
```

---

#### 3. Показать только название и жанр каждой игры.
**Ответ:**  
```sql
SELECT Name, Genre FROM games;
```

---

#### 4. Найти имя и платформу всех игр, выпущенных в 2006 году.
**Ответ:**  
```sql
SELECT Name, Platform FROM games WHERE Year_of_Release = 2006;
```

---

#### 5. Сколько разных жанров содержится в таблице?
**Ответ:**  
```sql
SELECT COUNT(DISTINCT Genre) FROM games;
```

---

#### 6. Вывести название тех игр, у которых критический рейтинг (Critic_Score) равен 90.
**Ответ:**  
```sql
SELECT Name FROM games WHERE Critic_Score = 90;
```

---

#### 7. Показать названия игр, продажи которых в Японии превышают 5 миллионов.
**Ответ:**  
```sql
SELECT Name FROM games WHERE JP_sales > 5;
```

---

#### 8. Найти максимальное значение пользовательского рейтинга (User_Score).
**Ответ:**  
```sql
SELECT MAX(User_Score) FROM games;
```

---

#### 9. Показать имена и платформы игр с рейтингом 'E'.
**Ответ:**  
```sql
SELECT Name, Platform FROM games WHERE Rating = 'E';
```

---

#### 10. Показать название игры, с минимальным рейтингом критиков.
**Ответ:**  
```sql
SELECT Name FROM games WHERE Critic_Score = (SELECT MIN(Critic_Score) FROM games);
```

---

#### 11. Вывести имена всех игр и их оценки критиков, отсортировав по убыванию оценки критиков.
**Ответ:**  
```sql
SELECT Name, Critic_Score FROM games ORDER BY Critic_Score DESC;
```

---

#### 12. Получить первые 5 игр по продажам в Европе (EU_sales).
**Ответ:**  
```sql
SELECT Name, EU_sales FROM games ORDER BY EU_sales DESC LIMIT 5;
```

---

#### 13. У каких игр продажи в Северной Америке равны продажам в Европе?
**Ответ:**  
```sql
SELECT Name FROM games WHERE NA_sales = EU_sales;
```

---

#### 14. Найти среднее значение продаж в Японии.
**Ответ:**  
```sql
SELECT AVG(JP_sales) FROM games;
```

---

#### 15. Для каждой игры вывести название и разницу между продажами в Северной Америке и Европе.
**Ответ:**  
```sql
SELECT Name, NA_sales - EU_sales AS sales_diff FROM games;
```

---

#### 16. Показать названия игр, в которых пользовательский рейтинг не указан (NULL).
**Ответ:**  
```sql
SELECT Name FROM games WHERE User_Score IS NULL;
```

---

#### 17. Преобразовать текстовый User_Score в число и показать его рядом с названием игры.
**Ответ:**  
```sql
SELECT Name, CAST(User_Score AS FLOAT) AS Numeric_Score FROM games;
```

---

#### 18. Найти сумму всех продаж в других регионах (Other_sales).
**Ответ:**  
```sql
SELECT SUM(Other_sales) FROM games;
```

---

#### 19. Указать для каждой игры, были ли её продажи в Европе выше 10 миллионов ('Да' или 'Нет').
**Ответ:**  
```sql
SELECT Name,
       CASE WHEN EU_sales > 10 THEN 'Да' ELSE 'Нет' END AS Big_Hit_EU
FROM games;
```

---

#### 20. Показать все различные возрастные рейтинги, представленные в таблице.
**Ответ:**  
```sql
SELECT DISTINCT Rating FROM games;
```

---

#### 21. Посчитать, сколько игр вышло на платформе 'DS'.
**Ответ:**  
```sql
SELECT COUNT(*) FROM games WHERE Platform = 'DS';
```

---

#### 22. Для каждой игры вывести название и среднее значение её продаж по всем регионам.
**Ответ:**  
```sql
SELECT Name, (NA_sales + EU_sales + JP_sales + Other_sales) / 4 AS avg_sales FROM games;
```

---

#### 23. Вывести игры, где пользовательский рейтинг выше критического.
**Ответ:**  
```sql
SELECT Name FROM games WHERE CAST(User_Score AS FLOAT) > Critic_Score;
```

---

#### 24. Найти название самой старой игры в датасете.
**Ответ:**  
```sql
SELECT Name FROM games WHERE Year_of_Release = (SELECT MIN(Year_of_Release) FROM games);
```

---

#### 25. Вывести пять игр с самыми худшими продажами в Северной Америке.
**Ответ:**  
```sql
SELECT Name, NA_sales FROM games ORDER BY NA_sales ASC LIMIT 5;
```

---

#### 26. Отобразить название, платформу и оценку пользователей только у тех игр, где в названии есть слово 'Mario'.
**Ответ:**  
```sql
SELECT Name, Platform, User_Score FROM games WHERE Name LIKE '%Mario%';
```

---

#### 27. Показать название и год выхода игр, вышедших после 2010 года и имеющих продажи в Европе более 1 млн.
**Ответ:**  
```sql
SELECT Name, Year_of_Release FROM games WHERE Year_of_Release > 2010 AND EU_sales > 1;
```

---

#### 28. Для всех игр вывести: если продажи в Японии больше 3, то "Хит в Японии", иначе "Не хит".
**Ответ:**  
```sql
SELECT Name,
    CASE WHEN JP_sales > 3 THEN 'Хит в Японии' ELSE 'Не хит' END AS JP_status
FROM games;
```

---

#### 29. В каком году вышло больше всего игр? (Указывается только год и количество)
**Ответ:**  
```sql
SELECT Year_of_Release, COUNT(*) AS games_count
FROM games
GROUP BY Year_of_Release
ORDER BY games_count DESC
LIMIT 1;
```
*(здесь применяется группировка, но можно убрать задание или заменить, так как группировки просили не использовать — вот альтернатива)*

**Альтернатива — сколько игр вышло в 2006 году:**
```sql
SELECT COUNT(*) FROM games WHERE Year_of_Release = 2006;
```

---

#### 30. Вывести имена всех игр, продажи которых в Северной Америке и Европе превышают 10 млн.
**Ответ:**  
```sql
SELECT Name FROM games WHERE NA_sales > 10 AND EU_sales > 10;
```

---