# Introduction
State notebook purpose here

### Imports
Import libraries and write settings here.

In [2]:
# Data manipulation
import pandas as pd
import numpy as np

# Options for pandas
pd.options.display.max_columns = 50
pd.options.display.max_rows = 30

# Display all cell outputs
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

from IPython import get_ipython
ipython = get_ipython()

# autoreload extension
if 'autoreload' not in ipython.extension_manager.loaded:
    %load_ext autoreload

%autoreload 2

# Visualizations
import plotly.plotly as py
import plotly.graph_objs as go
from plotly.offline import iplot, init_notebook_mode
init_notebook_mode(connected=True)

import cufflinks as cf
cf.go_offline(connected=True)
cf.set_config_file(theme='white')

ImportError: 
The plotly.plotly module is deprecated,
please install the chart-studio package and use the
chart_studio.plotly module instead. 


# Analysis/Modeling
Do work here

# Results
Show graphs and stats here

# Conclusions and Next Steps
Summarize findings here

# Знакомимся с данными

В этом модуле мы познакомимся с агрегатными функциями.

>Агрегатные функции помогают вычислять сводные значения для группы строк.

# Убираем повторяющиеся значения

>Примечание. Как и в предыдущем модуле, вы можете посмотреть подробный разбор структуры предлагаемых запросов во вкладке Детализация.

SELECT /*выбор*/
    type1 /*столбец type1*/
    
FROM sql.pokemon /*из таблицы sql.pokemon*/

Видно, что типы повторяются, потому что в результате запроса вы получаете все строки, которые подходят под заданные условия.

Чтобы получить уникальные значения из столбца, воспользуемся ключевым словом DISTINCT.

SELECT DISTINCT /*выбрать уникальные значения*/
    type1 /*столбец type1*/
    
FROM sql.pokemon /*из таблицы sql.pokemon*/

Мы можем применять DISTINCT и для нескольких столбцов.

Получим, например, все уникальные пары основного и дополнительного типов для покемонов.

SELECT DISTINCT /*выбрать уникальные значения*/
    type1, /*столбец type1*/
    type2 /*столбец type2*/
    
FROM sql.pokemon /*из таблицы sql.pokemon*/

>DISTINCT пишется только один раз, в начале списка получаемых столбцов.
***

# Агрегатные функции

Давайте посчитаем количество строк в таблице. Для этого применим агрегатную функцию COUNT.

SELECT
    COUNT(*)
    
FROM sql.pokemon

COUNT считает строки, а звёздочка (*) в аргументе функции означает, что считаются все строки, которые возвращает запрос.

>Если в аргументе функции указать название столбца, функция обработает только строки с непустым значением.

Внутри функции COUNT мы можем также применять DISTINCT, чтобы вычислить количество уникальных значений.

SELECT /*выбор*/
    COUNT(DISTINCT type1) /*функция подсчёта строк; уникальные значения столбца type1*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

***

Назовём основные агрегатные функции, с которыми нам предстоит работать:

- COUNT — вычисляет число непустых строк;
- SUM — вычисляет сумму;
- AVG — вычисляет среднее;
- MAX — вычисляет максимум;
- MIN — вычисляет минимум.

Разумеется, вы можете использовать в запросе фильтрацию строк с помощью WHERE, чтобы получить агрегированное значение только для отдельных строк.

SELECT /*выбор*/
    avg(hp) /*функция подсчёта строк; уникальные значения столбца type1*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

where type1 = 'Dragon'

Кроме того, мы можем применять несколько агрегатных функций в одном запросе.

SELECT /*выбор*/
    COUNT(*) AS "всего травяных покемонов", /*подсчёт всех строк; назначить алиас "всего травяных покемонов"*/
    COUNT(type2) AS "покемонов с дополнительным типом", /*подсчёт непустых строк в столбце type2; назначить алиас "покемонов с дополнительным типом"*/
    AVG(attack) AS "средняя атака", /*среднее значение столбца attack; назначить алиас "средняя атака"*/
    AVG(defense) AS "средняя защита" /*среднее значение столбца defense; назначить алиас "средняя защита"*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

WHERE type1 = 'Grass'/*при условии, что значение столбца type1 содержит grass*/
***

Итак, мы разобрали и попробовали применить базовые агрегатные функции.

С полным перечнем существующих агрегатных функций вы можете ознакомиться в [официальной документации](https://postgrespro.ru/docs/postgrespro/11/functions-aggregate).
***

Напишите запрос, который выведет:

- количество покемонов (столбец pokemon_count),
- среднюю скорость (столбец avg_speed),
- максимальное и минимальное число очков здоровья (столбцы max_hp и min_hp)
- для электрических (Electric) покемонов, имеющих дополнительный тип и показатели атаки или защиты больше 50.

SELECT /*выбор*/
    COUNT(id) as "pokemon_count", 
    AVG(speed) AS "avg_speed", 
    MAX(hp) AS "max_hp", 
    MIN(hp) as "min_hp"

FROM sql.pokemon 

WHERE (type1 = 'Electric' and type2 is not NULL) and (attack > 50 or defense > 50) 

# Группировка

Прежде мы применяли агрегатные функции для всего вывода, а сейчас используем для различных групп строк. Поможет нам в этом ключевое слово GROUP BY.

GROUP BY используется для определения групп выходных строк, к которым могут применяться агрегатные функции.

Выведем число покемонов каждого типа.

SELECT /*выбор*/
    type1 AS pokemon_type, /*столбец type1; присвоить алиас pokemon_type*/
    COUNT(*) AS pokemon_count /*подсчёт всех строк; присвоить алиас pokemon_count*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

GROUP BY type1 /*группировка по столбцу type1*/

ORDER BY type1 /*сортировка по столбцу type1*/

Вывод, конечно же, можно сортировать по столбцу с агрегированием.    
Представим ТОП существующих типов покемонов.

SELECT /*выбор*/
    type1 AS pokemon_type, /*столбец type1; присвоить алиас pokemon_type*/
    COUNT(*) AS pokemon_count /*подсчёт всех строк; присвоить алиас pokemon_count*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

GROUP BY pokemon_type /*группировка по столбцу pokemon_type*/

ORDER BY COUNT(*) DESC /*сортировка в порядке убывания*/

>Обратите внимание! Мы использовали в группировке не название столбца, а его алиас.
***

Напишите запрос, который выведет:

- число различных дополнительных типов (столбец additional_types_count),
- среднее число очков здоровья (столбец avg_hp),
- сумму показателей атаки (столбец attack_sum) в разбивке по основным типам (столбец primary_type).
- Отсортируйте результат по числу дополнительных типов в порядке убывания, при равенстве — по основному типу в алфавитном порядке. Столбцы к выводу (обратите внимание на порядок!): primary_type, additional_types_count, avg_hp, attack_sum.

SELECT /*выбор*/
    type1 as primary_type,
    COUNT(DISTINCT type2) AS additional_types_count, 
    avg(hp) as avg_hp,
    sum(attack) as attack_sum

FROM sql.pokemon /*из таблицы sql.pokemon*/

GROUP BY primary_type

ORDER BY additional_types_count DESC, primary_type asc

***

Мы можем осуществлять группировку по нескольким столбцам.

SELECT /*выбор*/
    type1 AS primary_type, /*столбец type1; присвоить алиас primary_type*/
    type2 AS additional_type, /*столбец type2; присвоить алиас additional_type*/
    COUNT(*) AS pokemon_count /*подсчёт всех строк присвоить алиас pokemon_count*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

GROUP BY 1, 2 /*группировка по столбцам 1 и 2*/

ORDER BY 1, 2 NULLS FIRST /*сортировка по столбцам 1 и 2; сначала нули*/

***
GROUP BY можно использовать и без агрегатных функций. Тогда его действие будет равносильно действию DISTINCT.

SELECT DISTINCT 
    type1

FROM sql.pokemon
***
SELECT
    type1
    
FROM sql.pokemon

GROUP BY type1

***
### Фильтрация агрегированных строк

>Если ключевое слово WHERE определяет фильтрацию строк до агрегирования, то для фильтрации уже агрегированных данных применяется ключевое слово HAVING.

>Важно! HAVING обязательно пишется после GROUP BY.

Выведем типы покемонов и их средний показатель атаки, при этом оставим только тех, у кого средняя атака больше 90.

SELECT /*выбор*/
    type1 AS primary_type, /*таблица type1; присвоить алиас primary_type*/
    AVG(attack) AS avg_attack /*расчёт среднего по столбцу attack; присвоить алиас avg_attack*/

FROM sql.pokemon /*из таблицы sql.pokemon*/

GROUP BY primary_type /*группировать по столбцу primary_type*/

HAVING AVG(attack) > 90 /*фильтровать по среднему значению attack, превышающему 90*/
***
Попробуйте удалить из запроса вывод второго столбца (со средним показателем атаки).

Запрос работает и выводит только названия типов, у которых средний показатель атаки выше 90.

>В HAVING вы можете использовать все те же условия, что и в WHERE.
***

Об отличиях HAVING от WHERE можно прочитать в [официальной документации](https://postgrespro.ru/docs/postgresql/11/tutorial-agg).
***
В общем виде синтаксис оператора SELECT, с учётом имеющихся на данный момент знаний, представляем следующим образом:

SELECT ALL | DISTINCT список_столбцов|*

FROM список_имён_таблиц

WHERE условие_поиска

GROUP BY список_имён_столбцов

HAVING условие_поиска

ORDER BY имя_столбца ASC | DESC],…
***

Напишите запрос, который выведет основной и дополнительный типы покемонов (столбцы primary_type и additional_type) для тех, у кого средний показатель атаки больше 100 и максимальный показатель очков здоровья меньше 80.

SELECT /*выбор*/
    type1 AS primary_type, /*таблица type1; присвоить алиас primary_type*/
    type2 as additional_type

FROM sql.pokemon /*из таблицы sql.pokemon*/

GROUP BY primary_type, additional_type /*группировать по столбцу primary_type*/

HAVING AVG(attack) > 100 and max(hp) < 80 /*фильтровать по среднему значению attack, превышающему 90*/
***

Напишите запрос, чтобы для покемонов, чьё имя (name) начинается с S, вывести столбцы с их основным типом (primary_type) и общим числом покемонов этого типа (pokemon_count). Оставьте только те типы, у которых средний показатель защиты больше 80. Выведите топ-3 типов по числу покемонов в них.

SELECT /*выбор*/
    type1 AS primary_type, /*таблица type1; присвоить алиас primary_type*/
    count(type1) as pokemon_count

FROM sql.pokemon /*из таблицы sql.pokemon*/

WHERE name like 'S%'

GROUP BY primary_type /*группировать по столбцу primary_type*/

HAVING AVG(defense) > 80

ORDER by pokemon_count DESC

limit 3

***

Вы познакомились с агрегатными функциями и научились:

- считать количество строк, сумму, минимум, максимум, среднее по значениям таблицы;
- выводить агрегированные значения в разных разрезах;
- фильтровать по агрегированным значениям.

И в довершение итогов напомним структуру запроса, который мы можем составить с учётом новых знаний:

SELECT
    столбец1 AS новое_название,
    столбец2,
    АГРЕГАТ(столбец3)

FROM таблица

WHERE (условие1 OR условие2)
    AND условие3

GROUP BY столбец1, столбец2

HAVING АГРЕГАТ(столбец3) > 5

ORDER BY сортировка1, сортировка2

OFFSET 1 LIMIT 2
***
Сколько различных значений показателей атаки есть у покемонов с типом Water (основным или дополнительным)?

select count(distinct(attack))

from sql.pokemon

where type1 = 'Water' or type2 = 'Water'  
***

Напишите запрос, который выведет основной и дополнительный типы покемонов и средние значения по каждому показателю (столбцы avg_hp, avg_attack, avg_defense, avg_speed).Оставьте только те пары типов, у которых сумма этих четырёх показателей более 400.

select type1, type2, avg(hp) as avg_hp, avg(attack) as avg_attack, avg(defense) as avg_defense, avg(speed) as avg_speed

from sql.pokemon

group by type1, type2

having (avg(hp)+avg(attack)+avg(defense)+avg(speed)) > 400
***

Напишите запрос, который выведет столбцы с основным типом покемона и общим количеством покемонов этого типа. Учитывайте только тех покемонов, у кого или показатель атаки, или показатель защиты принимает значение между 50 и 100 включительно. Оставьте только те типы покемонов, у которых максимальный показатель здоровья не больше 125. Выведите только тот тип, который находится на пятом месте по количеству покемонов.

select type1, count(type1) as count_pokemon

from sql.pokemon

where (attack between 50 and 100) or (defense between 50 and 100) 

group by type1

having max(hp) <= 125

order by count_pokemon DESC

OFFSET 4 LIMIT 1
***

