Профессия Data Science  
Блок 2. Подгрузка данных  
**SQL-2. Агрегатные функции**

---

## **✍ Оглавление:**

1. Знакомимся с данными
2. Убираем повторяющиеся значения
3. Агрегатные функции
4. Группировка
5. Фильтрация агрегированных строк

---

## **1. Знакомимся с данными**

Таблица sql.pokemon:

**Название поля** - **Содержимое**  
**id**	            уникальный идентификатор  
**name**	        имя  
**type1**	        основной тип  
**type2**	        дополнительный тип  
**hp**	            количество очков здоровья  
**attack**	        показатели атаки  
**defense**	        показатели защиты  
**speed**	        показатели скорости

## **2. Убираем повторяющиеся значения**

Для начала получим все основные типы покемонов.
***SELECT /*выбор*/  
    type1 /*столбец type1*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/***

Чтобы получить уникальные значения из столбца, воспользуемся ключевым словом **DISTINCT**.

***SELECT DISTINCT /*выбрать уникальные значения*/  
    type1 /*столбец type1*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/***


***SELECT DISTINCT /*выбрать уникальные значения*/  
    type1, /*столбец type1*/  
    type2 /*столбец type2*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/***

## **3. Агрегатные функции**

Давайте посчитаем количество строк в таблице. Для этого применим агрегатную функцию **COUNT**.

SELECT  
    COUNT(*)  
FROM sql.pokemon

COUNT считает строки, а звёздочка (*) в аргументе функции означает, что считаются все строки, которые возвращает запрос.

Если в аргументе функции указать название столбца, функция обработает **только строки с непустым значением.**

Внутри функции COUNT мы можем также применять DISTINCT, чтобы вычислить количество уникальных значений.

***SELECT /*выбор*/  
    COUNT(DISTINCT type1) /*функция подсчёта строк; уникальные значения столбца type1*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/***

**Назовём основные агрегатные функции**, с которыми нам предстоит работать:

**COUNT** — вычисляет число непустых строк;  
**SUM** — вычисляет сумму;  
**AVG** — вычисляет среднее;  
**MAX** — вычисляет максимум;  
**MIN** — вычисляет минимум.

***SELECT   
   max(attack) /*функция подсчёта строк; уникальные значения столбца type1*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/***

Разумеется, вы можете использовать в запросе фильтрацию строк с помощью WHERE, чтобы получить агрегированное значение только для отдельных строк.

**Задание 3.4**  
***SELECT   
  avg(hp)  
FROM sql.pokemon /*из таблицы sql.pokemon*/  
where type1 = 'Dragon'***

Кроме того, мы можем применять несколько агрегатных функций в одном запросе.

***SELECT /*выбор*/  
    COUNT(*) AS "всего травяных покемонов", /*подсчёт всех строк; назначить алиас "всего травяных покемонов"*/  
    COUNT(type2) AS "покемонов с дополнительным типом", /*подсчёт непустых строк в столбце type2; назначить алиас "покемонов с дополнительным типом"*/  
    AVG(attack) AS "средняя атака", /*среднее значение столбца attack; назначить алиас "средняя атака"*/  
    AVG(defense) AS "средняя защита" /*среднее значение столбца defense; назначить алиас "средняя защита"*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/  
WHERE type1 = 'Grass'/*при условии, что значение столбца type1 содержит grass*/***


**Задание 3.5 (External resource)** 
 
***SELECT
    COUNT(*) AS "pokemon_count",  
    AVG(speed) AS "avg_speed",  
    max(hp) AS "max_hp",  
    min(hp) AS "min_hp"  
FROM sql.pokemon  
WHERE type1 = 'Electric'  
and (attack > 50 or defense > 50)  
and type2 is not null***

## **4. Группировка**

**GROUP BY** используется для определения групп выходных строк, к которым могут применяться агрегатные функции.

***SELECT /*выбор*/  
    type1 AS pokemon_type, /*столбец type1; присвоить алиас pokemon_type*/  
    COUNT(*) AS pokemon_count /*подсчёт всех строк; присвоить алиас pokemon_count*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/  
GROUP BY type1 /*группировка по столбцу type1*/  
ORDER BY type1 /*сортировка по столбцу type1*/***

***SELECT /*выбор*/  
    type1 AS pokemon_type, /*столбец type1; присвоить алиас pokemon_type*/  
    COUNT(*) AS pokemon_count /*подсчёт всех строк; присвоить алиас pokemon_count*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/  
GROUP BY pokemon_type /*группировка по столбцу pokemon_type*/  
ORDER BY COUNT(*) DESC /*сортировка в порядке убывания*/***

Мы можем осуществлять группировку по нескольким столбцам.

***SELECT /*выбор*/  
    type1 AS primary_type, /*столбец type1; присвоить алиас primary_type*/  
    type2 AS additional_type, /*столбец type2; присвоить алиас additional_type*/  
    COUNT(*) AS pokemon_count /*подсчёт всех строк присвоить алиас pokemon_count*/    
FROM sql.pokemon /*из таблицы sql.pokemon*/  
GROUP BY 1, 2 /*группировка по столбцам 1 и 2*/   
ORDER BY 1, 2 NULLS FIRST /*сортировка по столбцам 1 и 2; сначала нули*/***

**Обратите внимание!** В группировке можно указывать порядковый номер столбца так же, как мы делали это в прошлом модуле для сортировки.

GROUP BY можно использовать и без агрегатных функций. Тогда его действие будет равносильно действию DISTINCT.

SELECT DISTINCT   
    type1  
FROM sql.pokemon  

SELECT  
    type1  
FROM sql.pokemon  
GROUP BY type1

**Задание 4.1 (External resource)**
***SELECT  
   type1 primary_type,  
   count(DISTINCT type2) additional_types_count,  
   AVG(hp) avg_hp,  
   SUM(attack) attack_sum  
FROM sql.pokemon  
GROUP BY primary_type  
ORDER BY 2 DESC, 1***

## **5. Фильтрация агрегированных строк**

✍ Если ключевое слово WHERE определяет фильтрацию строк до агрегирования, то для фильтрации уже агрегированных данных применяется ключевое слово HAVING.

**Важно! HAVING обязательно пишется после GROUP BY.**

***SELECT /*выбор*/  
    type1 AS primary_type, /*таблица type1; присвоить алиас primary_type*/  
    AVG(attack) AS avg_attack /*расчёт среднего по столбцу attack; присвоить алиас avg_attack*/  
FROM sql.pokemon /*из таблицы sql.pokemon*/   
GROUP BY primary_type /*группировать по столбцу primary_type*/  
HAVING AVG(attack) > 90 /*фильтровать по среднему значению attack, превышающему 90*/***

#### **ВМЕСТО РЕЗЮМЕ**

В общем виде синтаксис оператора SELECT, с учётом имеющихся на данный момент знаний, представляем следующим образом:

**SELECT [ALL | DISTINCT] список_столбцов|  
FROM список_имён_таблиц  
[WHERE условие_поиска]  
[GROUP BY список_имён_столбцов]  
[HAVING условие_поиска]  
[ORDER BY имя_столбца [ASC | DESC],…]**

**Обратите внимание!** В квадратных скобках указаны необязательные предложения: они могут отсутствовать в операторе SELECT.

Задание 5.1 (External resource)

***SELECT /*выбор*/  
   type1 primary_type,  
   type2 additional_types     
FROM sql.pokemon /*из таблицы sql.pokemon*/  
GROUP BY 1, 2 /*группировать по столбцу primary_type*/  
HAVING AVG(attack) > 100 and max(hp) < 80***


Задание 5.2 (External resource)

***SELECT /*выбор*/  
  type1 primary_type,   
  count(*) pokemon_count   
FROM sql.pokemon /*из таблицы sql.pokemon*/  
WHERE name LIKE 'S%'  
GROUP BY 1  /*группировать по столбцу primary_type*/
HAVING AVG(defense) > 80  
order by 2 desc  
limit 3***

# Структура запроса:

**SELECT  
    столбец1 AS новое_название,  
    столбец2,  
    АГРЕГАТ(столбец3)  
FROM таблица  
WHERE (условие1 OR условие2)  
    AND условие3  
GROUP BY столбец1, столбец2  
HAVING АГРЕГАТ(столбец3) > 5  
ORDER BY сортировка1, сортировка2  
OFFSET 1 LIMIT 2**

Задание 6.1

**Задание 6.2**

***SELECT /*выбор*/  
    type1,  
    type2,  
    avg(hp) avg_hp,  
    avg(attack) avg_attack,  
    avg(defense) avg_defense,  
    avg(speed) avg_speed  
FROM sql.pokemon /*из таблицы sql.pokemon*/  
GROUP BY 1, 2 /*группировать по столбцу primary_type*/  
HAVING avg(hp)+avg(attack)+avg(defense)+avg(speed) > 400***

**Задание 6.3**

***SELECT  
    type1,   
    COUNT(*)  
FROM sql.pokemon  
WHERE attack BETWEEN 50 AND 100 OR defense BETWEEN 50 AND 100  
GROUP BY type1  
HAVING MAX(hp) <= 125  
ORDER BY COUNT(*) DESC  
LIMIT 1 OFFSET 4***