# 📘 Полное руководство по SQL для аналитика данных

Комплексный конспект для новичков. Включает все темы: от создания таблиц до аналитики и визуализации.

📁 **Структура проекта:**
```
sql_analytics_handbook/
├── Complete_SQL_Guide_for_Data_Analysts.ipynb
├── data/
│   ├── employees.csv
│   └── sales.xlsx
└── requirements.txt
```

## 9. Создание таблиц и загрузка данных

Перед анализом нужно **создать таблицы** и **загрузить данные**. Это можно сделать:
1. Через SQL (`CREATE TABLE`, `INSERT`)
2. Через Python + `pandas` (из CSV, Excel)
3. Смешанный подход: создать таблицу в SQL, загрузить данные из файла

### 9.1. Создание таблицы в PostgreSQL

Используйте `CREATE TABLE`, чтобы определить структуру.

#### Типы данных в PostgreSQL:
- `INTEGER`, `BIGINT` — целые числа
- `VARCHAR(n)`, `TEXT` — строки
- `DATE`, `TIMESTAMP` — дата и время
- `NUMERIC(p,s)`, `DOUBLE PRECISION` — дробные числа
- `BOOLEAN` — логические значения

In [None]:
# Создаём таблицу вручную через SQL
%%sql
CREATE TABLE IF NOT EXISTS employees (
    employee_id SERIAL PRIMARY KEY,
    first_name VARCHAR(50) NOT NULL,
    last_name VARCHAR(50) NOT NULL,
    email VARCHAR(100) UNIQUE,
    department VARCHAR(50),
    salary NUMERIC(10,2),
    hire_date DATE,
    is_active BOOLEAN DEFAULT TRUE
);

### 9.2. Загрузка данных из CSV

Часто данные приходят в виде CSV. Загрузим их в `pandas`, затем в PostgreSQL.

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Пример: создадим CSV-файл для демонстрации
data = {
    'first_name': ['Иван', 'Мария', 'Петр', 'Анна'],
    'last_name': ['Иванов', 'Петрова', 'Сидоров', 'Кузнецова'],
    'email': ['ivan@example.com', 'maria@example.com', 'petr@example.com', 'anna@example.com'],
    'department': ['IT', 'HR', 'IT', 'Finance'],
    'salary': [80000, 60000, 90000, 70000],
    'hire_date': ['2022-01-15', '2021-03-10', '2022-06-20', '2023-01-05']
}

df_employees = pd.DataFrame(data)
df_employees.to_csv('data/employees.csv', index=False, encoding='utf-8')

print("CSV файл создан:")
print(df_employees)

In [None]:
# Загружаем CSV и записываем в PostgreSQL
df_csv = pd.read_csv('data/employees.csv')

# Создаём подключение к БД
# Замените user, password, host, port, db на свои
engine = create_engine('postgresql+psycopg2://user:password@localhost:5432/analytics_db')

# Записываем DataFrame в таблицу
df_csv.to_sql('employees', engine, if_exists='append', index=False)

print("Данные из CSV успешно загружены в таблицу employees!")

### 9.3. Загрузка данных из Excel

Точно так же можно загрузить `.xlsx` файл.

In [None]:
# Пример: создадим Excel-файл
sales_data = {
    'order_id': [101, 102, 103],
    'product': ['Ноутбук', 'Мышь', 'Клавиатура'],
    'revenue': [50000, 1500, 3000],
    'sale_date': ['2024-01-10', '2024-01-11', '2024-01-11']
}

df_sales = pd.DataFrame(sales_data)
df_sales.to_excel('data/sales.xlsx', index=False)

print("Excel файл создан:")
print(df_sales)

In [None]:
# Загружаем Excel и записываем в БД
df_excel = pd.read_excel('data/sales.xlsx')

# Создаём таблицу sales, если её нет
%%sql
CREATE TABLE IF NOT EXISTS sales (
    order_id INTEGER PRIMARY KEY,
    product VARCHAR(100),
    revenue NUMERIC(10,2),
    sale_date DATE
);

# Записываем данные
df_excel.to_sql('sales', engine, if_exists='append', index=False)

print("Данные из Excel успешно загружены в таблицу sales!")

### 9.4. Проверка данных

Убедимся, что данные загружены.

In [None]:
# Проверим данные в таблице employees
%%sql
SELECT * FROM employees LIMIT 5;

In [None]:
# Проверим sales
%%sql
SELECT * FROM sales;

## 10. Практические примеры аналитики

Теперь, когда данные загружены, можно анализировать.

### Средняя зарплата по отделам
```sql
SELECT 
    department,
    AVG(salary) AS avg_salary
FROM employees
GROUP BY department;
```

### Общая выручка
```sql
SELECT SUM(revenue) AS total_revenue FROM sales;
```