# Семинар 3: Массивы `numpy` и графики `matplotlib`

In [None]:
# Загрузка пакетов и подготовка
import numpy as np
import pandas as pd  # пакет для обработки табличных данных, здесь он нужен для загрузки данных из Excel
import matplotlib.pyplot as plt
%matplotlib inline

## Задача 1. Анализ коммерческого грузооборота транспорта РФ

В Excel-файле `data/freight_turnover.xslx` содержатся данные о коммерческом грузообороте транспорта в РФ с 1995 по 2019 годы (источник - [Единый архив экономических и социологических данных НИУ ВШЭ](http://sophist.hse.ru/hse/1/tables/TRP_M_CARG.htm)
Грузооборот указан в миллиардах тонно-километров

In [None]:
freight_table = pd.read_excel('data/freight_turnover.xlsx') # Загрузка из файла Excel
freight_table.info() # краткая информация о таблице данных
freight_table

Данные представляют собой ежемесячные значения. Сейчас они загружены в датафрейм `pandas`. На этом семинаре мы тренируемся в работе с `numpy`, поэтому данные необходимо переструктурировать и преобразовать в массив `numpy`. В дальнейшем мы изучим и магию `pandas` тоже.

In [None]:
freight_table['year'] = freight_table['period'].dt.year # извлекаем год из даты
freight_table['month'] = freight_table['period'].dt.month # извлекаем месяц из даты
# делаем сводную таблицу, год - в столбцы, месяц - в строки
freight_pivot = pd.pivot_table(freight_table, values='freight_turnover', columns=['year'], index='month')
freight_pivot

Получили нужную структуру данных: столбцы таблицы - годы, с 1995 по 2019, строки - месяцы, в ячейках - значения грузооборота в млрд т-км.

Преобразуем данные в массив `freight`, с которым дальше будем работать.

In [None]:
freight = freight_pivot.values 
print(type(freight))

Большие массивы `numpy` печатаются непонятно, поэтому лучше для вывода сначала преобразовать этот массив назад в таблицу `pandas`, которая выглядит в блокноте лучше. В заголовках столбцов и строк печатаются индексы элементов массива.

In [None]:
pd.DataFrame(freight)

### 1.1. Характеристики массива

Для начала, определимся с характеристиками массива: размерностью, формой, типом данных и количеством элементов

In [None]:
# Ваш код здесь

### 1.2. Срез данных

Сейчас в данных содержатся данные за 25 лет. Получите массив `freight5`, в котором содержатся данные только за последние 5 лет от имеющихся данных. 

**Замечание:** по умолчанию срезы в `numpy` используют те же данные, что и исходный массив. Как сделать, чтобы массив `freight5` был полностью независим от `freight`?


In [None]:
# Ваш код здесь

### 1.3. Еще срезы

Используя массив `freight5`, выведите с помощью срезов:

1. Грузооборот за месяцы первого квартала (все годы)
2. Грузооборот за месяцы второго квартала (последние 3 года)
3. Грузооборот за месяц, соответствующий концу квартала (март, июнь, сентябрь, декабрь)

In [None]:
# Ваш код здесь

### 1.4. Вычисления и статистика

Используя массив `freight5`:

1. Рассчитайте, на сколько грузооборот в каждом месяце 2019 года изменился по отношению к грузообороту за этот же месяц в 2018 году
2. Рассчитайте для каждого месяца каждого года его [индекс роста](https://profmeter.com.ua/Encyclopedia/detail.php?ID=985) по отношению к первому месяцу этого года (т.е. отношение грузооборота в соответствующие месяцы). Округлите индекс роста до 2 десятичных знаков с помощью функции `np.round()`.
3. Рассчитайте суммарный грузооборот за 5 лет
4. Рассчитайте сколько, в среднем, составляет грузооборот за месяц (без деления по месяцам)
5. Рассчитайте суммарный грузооборот за каждый год
6. Рассчитайте, сколько, в среднем, составляет грузооборот за каждый месяц (отдельно для каждого месяца)
7. Рассчитайте для каждого года наибольший грузооборот. В каком месяце он был достигнут?

In [None]:
# Ваш код здесь

### 1.5. Условия

Используя массив `freight5`, посчитайте:

1. Сколько было месяцев с грузооборотом свыше 450 млрд т-км?
2. Сколько это процентов от общего числа наблюдений?
3. Сколько было месяцев, в которые грузооборот составил от 450 до 470 млрд т-км?
4. Выведите массив с текстовыми значениями `выше` или `ниже`, в зависимости от того, превысил ли грузооборот среднемесячный или нет.

In [None]:
# Ваш код здесь

### 1.6. Визуализация динамики грузооборота

Используя полный массив данных `freight`, нарисуйте динамику коммерческого грузооборота транспорта с 1995 по 2019 годы.  

Необходимо в точности воспроизвести оформление графика:
![](pics/freight.png)

**Подсказка:** Источник можно указать с помощью текстовой аннотации, `plt.text()`

In [None]:
# Ваш код здесь

### 1.7. Визуализация сезонности грузооборота

На основе данных массива `freight5`, рассчитайте для каждого месяца коэффициент сезонности. Он равен грузообороту за месяц, деленному на среднегодовой оборот для этого же года.

Убедитесь, что вы правильно посчитали сезонные индексы - их сумма для каждого года должна быть равна 12 (или, что то же самое, - среднее значение должно быть равно 1).

Нарисуйте график сезонных индексов для каждого года (2015 - 2019). Оформление графика необходимо воспроизвести в точности.

С чем может быть связан сезонный спад грузооборота в феврале?


![](pics/freight_seasonality.png)

In [None]:
# Ваш код здесь

## Задача 2. Угадай художника


Компьютерное изображение состоит из точек-пикселей, цвета которых задаются компонентами - красный, зеленый и синий (Red, Green, Blue или RGB). Меняя интенсивность цветовых компонентов, [можно получить любой оттенок цвета](https://ru.qwe.wiki/wiki/RGB_color_model).


Тем, кто занимается цифровой фотографией, знаком такой инструмент анализа изображений, как гистограмма. Гистограмма изображения показывает распределение интенсивностей цветовых компонентов. 


Здесь мы видим на гистограмме, что во всех цветовых компонентах больше всего пикселей с низкой интенсивностью, а само изображение кошки - темное:


![](pics/cat_hist.png)


В этом примере фотография светлая и не имеет выраженного оттенка. На гистограмме мы видим, что все цветовые компоненты содержат больше светлых пикселей, причем формы распределений их интенсивностей практически совпадают:

![](pics/fox_hist.png)

А в следующем примере гистограмма показывает, что распределение синего компонента смещено в сторону больших интенсивностей, а само изображение имеет синеватый оттенок:

![](pics/fox2_hist.png)

В этом задании вам предложено проанализировать три файла данных, в которых содержатся цветовые компоненты пикселей трех картин:

 - Vincent van Gogh "Seascape near Les Saintes-Maries-de-la-Mer" (June 1888)
![](pics/van_gogh.png)

 - Иван Константинович Айвазовский "Девятый вал" (1850) 
![](pics/aivazovsky.png)


 - Aernout Smit Shipping in a stormy sea off a rocky coast (ca 1600-1700)
![](pics/smit.png)

Пиксели перемешаны случайным образом, поэтому восстановить картину из файла данных не получится.

Однако распределение интенсивностей цветовых компонентов сохранилось, поэтому, построив гистограмму, можно понять, какие оттенки присутствуют на изображении и определить картину.

### Подготовка

Загрузим данные в три массива `numpy` - `p1`, `p2`, `p3`, соответствующие трем картинам.

In [None]:
paintings = np.load('data/paintings.npz')
p1 = paintings['arr_0']
p2 = paintings['arr_1']
p3 = paintings['arr_2']

Каждый массив содержит три столбца, в которых содержатся, соответственно, интенсивности красного, зеленого и синего компонентов:

In [None]:
p1[:5]

### 2.1. Функция для построения гистограмм


Напишите функцию `plot_hist()`, которая будет принимать на вход массив пикселов (`p1`, `p2` или `p3`) и строить гистограмму распределения интенсивностей цветовых компонентов. Необходимо в точности передать вид графика. 

![](pics/painting_hist.png)

**Подсказка:** В нашем примере количество интервалов гистограммы - 64  
**Подсказка:** отображение вертикальной оси можно выключить так:

`<имя объекта, содержащего координатную систему>.get_yaxis().set_visible(False)`

[stack overflow](https://stackoverflow.com/questions/2176424/hiding-axis-text-in-matplotlib-plots)

In [None]:
# Ваш код здесь

### 2.2. Анализ картин

Примените свою функцию к данным о трех картинах. 


Напишите имя художника, картина которого содержится в каждой переменной. Поясните, почему вы так считаете.


**Переменная p1** - <художник>.
Обоснование, почему вы так считаете

**Переменная p2** - <художник>.
Обоснование, почему вы так считаете

**Переменная p3** - <художник>.
Обоснование, почему вы так считаете


In [None]:
# Ваш код здесь