# 📘 Полное руководство по SQL для аналитика данных

Комплексный конспект для новичков. Включает все темы: от основ до оконных функций и интеграции с Python. Можно использовать как шпаргалку.

📁 **Структура проекта:**
```
sql_analytics_handbook/
├── Complete_SQL_Guide_for_Data_Analysts.ipynb  ← Этот файл
├── data/
│   ├── employees.csv
│   ├── orders.csv
│   └── customers.csv
└── requirements.txt
```

## 1. Основы: SELECT, WHERE, GROUP BY, ORDER BY

### Основные команды:
- `SELECT` — выбор столбцов
- `FROM` — указание таблицы
- `WHERE` — фильтрация строк (до группировки)
- `GROUP BY` — группировка строк по значению
- `HAVING` — фильтрация групп (после агрегации)
- `ORDER BY` — сортировка результата
- `LIMIT` — ограничение количества строк

### Агрегатные функции:
- `COUNT()` — количество строк
- `SUM()` — сумма
- `AVG()` — среднее
- `MIN()`, `MAX()` — минимум и максимум
- Игнорируют `NULL`
- `DISTINCT` удаляет дубликаты

In [None]:
# Пример: Анализ сотрудников
query_basics = '''
SELECT 
    department,
    COUNT(*) AS employee_count,
    AVG(salary) AS avg_salary,
    MIN(hire_date) AS first_hire
FROM employees 
WHERE salary > 50000 
    AND hire_date >= '2020-01-01'
GROUP BY department
HAVING AVG(salary) > 60000
ORDER BY avg_salary DESC
LIMIT 10;
'''

print(query_basics)

## 2. Джойны: соединение таблиц

- `INNER JOIN`: только строки с совпадениями в обеих таблицах
- `LEFT JOIN`: все строки из левой таблицы + совпадения из правой (если нет — NULL)
- `RIGHT JOIN`: все строки из правой таблицы + совпадения из левой
- `FULL OUTER JOIN`: все строки из обеих таблиц
- `CROSS JOIN`: все возможные комбинации (декартово произведение)
- `SELF JOIN`: таблица соединяется сама с собой (через псевдонимы)

In [None]:
# Пример: заказы с информацией о клиентах
query_join = '''
SELECT 
    o.order_id,
    o.order_date,
    o.total_amount,
    c.customer_name,
    c.email
FROM orders o
LEFT JOIN customers c ON o.customer_id = c.customer_id
WHERE o.order_date >= '2023-01-01'
ORDER BY o.order_date DESC;
'''

print(query_join)

## 3. Подзапросы и оконные функции

### Подзапросы
Запрос внутри другого запроса. Может быть в `SELECT`, `FROM`, `WHERE`.

### Оконные функции
Выполняют вычисления по «окну» строк, связанных с текущей. Используют `OVER()`.

Синтаксис: `FUNCTION() OVER ([PARTITION BY] [ORDER BY] [ROWS/RANGE])`

Частые функции:
- `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()` — нумерация и ранжирование
- `LAG()`, `LEAD()` — доступ к предыдущей/следующей строке
- `SUM() OVER`, `AVG() OVER` — скользящие суммы и средние

In [None]:
# Пример: топ-3 сотрудника по зарплате в каждом отделе
query_window = '''
SELECT 
    department,
    employee_name,
    salary,
    RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS dept_rank
FROM employees;
'''

print(query_window)

# Пример: подзапрос для сравнения с средней зарплатой
query_sub = '''
SELECT employee_name, salary
FROM employees
WHERE salary > (SELECT AVG(salary) FROM employees);
'''

print("\n", query_sub)

## 4. Интеграция SQL и Python: pandas + sqlalchemy

### Установка
```bash
pip install pandas sqlalchemy psycopg2-binary jupysql
```

### Рабочий процесс
1. Подключиться к PostgreSQL
2. Выполнить SQL-запрос → получить `DataFrame`
3. Обработать данные с помощью `pandas`
4. Построить график
5. При необходимости — сохранить обратно в БД

In [None]:
# Загружаем расширение для SQL
%load_ext sql

# Подключаемся к PostgreSQL
# Замените user, password, host, port, db на свои
%sql postgresql+psycopg2://user:password@localhost:5432/analytics_db

# Выполняем запрос и получаем DataFrame
result = %sql SELECT * FROM sales LIMIT 5
df = result.DataFrame()

import pandas as pd
print("Данные из PostgreSQL:")
print(df.head())

# Загружаем CSV-файл
df_csv = pd.read_csv('data/employees.csv')
print("\nДанные из CSV:")
print(df_csv.head())

# Сохраняем DataFrame в БД (пример)
# df.to_sql('processed_data', engine, if_exists='replace')

## 5. Практические примеры для аналитики

### Воронка продаж
```sql
WITH user_activity AS (
    SELECT
        u.user_id,
        DATE_TRUNC('month', u.signup_date) AS signup_month,
        MIN(DATE_TRUNC('month', o.order_date)) AS first_order_month
    FROM users u
    LEFT JOIN orders o ON u.user_id = o.user_id AND o.status = 'completed'
    GROUP BY u.user_id, signup_month
)
SELECT
    signup_month,
    COUNT(*) AS new_users,
    SUM(CASE WHEN first_order_month IS NULL THEN 1 ELSE 0 END) AS never_ordered
FROM user_activity
GROUP BY signup_month
ORDER BY signup_month;
```

### A/B-тест
```sql
SELECT
    u.group,
    COUNT(DISTINCT u.user_id) AS users,
    COUNT(DISTINCT o.order_id) AS orders,
    AVG(o.total_amount) AS avg_order_value
FROM users u
LEFT JOIN orders o ON u.user_id = o.user_id AND o.status = 'completed'
WHERE u.group IN ('control', 'test')
GROUP BY u.group;
```

### Кумулятивная сумма
```sql
SELECT
    order_date,
    SUM(revenue) OVER (ORDER BY order_date) AS cumulative_revenue
FROM daily_revenue
ORDER BY order_date;
```

## 6. Создание таблиц и управление данными

- `CREATE TABLE` — создать таблицу
- `ALTER TABLE ADD COLUMN` — добавить столбец
- `DROP TABLE` — удалить таблицу
- `INSERT INTO` — добавить строку
- `UPDATE ... SET ... WHERE` — изменить данные
- `DELETE FROM ... WHERE` — удалить строки
- `BEGIN`, `COMMIT`, `ROLLBACK` — транзакции

## 7. Задания для практики

1. Напишите запрос, который найдёт всех клиентов, сделавших заказы в 2023 году, но ни одного — в 2024.
2. Используя оконную функцию, добавьте ранг товара по выручке в разрезе по регионам.
3. Создайте подзапрос, который найдёт отделы с зарплатой выше средней по компании.
4. Загрузите CSV-файл с продажами, посчитайте выручку по месяцам и постройте график.
5. Напишите `FULL OUTER JOIN`, чтобы показать все продукты и все заказы, включая несвязанные.

## 8. Рекомендуемые книги для новичков

1. **"SQL за 10 минут" (Бен Фортна)** — быстрый старт
2. **"Изучаем SQL" (Алан Бьюли)** — глубокое понимание
3. **"Head First SQL" (Линн Бейгли)** — визуально и понятно
4. **"SQL Cookbook" (Энтони Молинао)** — решения задач
5. **"SQL: Практические задачи" (Сильвия Мостель Василик)** — отработка навыков