# Семинар 3: Массивы `numpy` и графики `matplotlib`

In [None]:
# Загрузка пакетов и подготовка
import numpy as np
import pandas as pd  # пакет для обработки табличных данных, здесь он нужен для загрузки данных из Excel
import matplotlib.pyplot as plt
%matplotlib inline

## Задача 1. Анализ коммерческого грузооборота транспорта РФ

В Excel-файле `data/freight_turnover.xslx` содержатся данные о коммерческом грузообороте транспорта в РФ с 1995 по 2019 годы (источник - [Единый архив экономических и социологических данных НИУ ВШЭ](http://sophist.hse.ru/hse/1/tables/TRP_M_CARG.htm)
Грузооборот указан в миллиардах тонно-километров

In [None]:
freight_table = pd.read_excel('data/freight_turnover.xlsx') # Загрузка из файла Excel
freight_table.info() # краткая информация о таблице данных
freight_table

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 2 columns):
period              300 non-null datetime64[ns]
freight_turnover    300 non-null float64
dtypes: datetime64[ns](1), float64(1)
memory usage: 4.8 KB


Unnamed: 0,period,freight_turnover
0,1995-01-01,295.2
1,1995-02-01,270.4
2,1995-03-01,317.0
3,1995-04-01,281.8
4,1995-05-01,312.6
5,1995-06-01,293.4
6,1995-07-01,289.1
7,1995-08-01,292.6
8,1995-09-01,282.9
9,1995-10-01,304.1


Данные представляют собой ежемесячные значения. Сейчас они загружены в датафрейм `pandas`. На этом семинаре мы тренируемся в работе с `numpy`, поэтому данные необходимо переструктурировать и преобразовать в массив `numpy`. В дальнейшем мы изучим и магию `pandas` тоже.

In [None]:
freight_table['year'] = freight_table['period'].dt.year # извлекаем год из даты
freight_table['month'] = freight_table['period'].dt.month # извлекаем месяц из даты
# делаем сводную таблицу, год - в столбцы, месяц - в строки
freight_pivot = pd.pivot_table(freight_table, values='freight_turnover', columns=['year'], index='month')
freight_pivot

year,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,295.2,287.7,283.0,278.6,277.7,296.6,301.0,311.4,340.2,362.8,...,385.4,405.0,426.9,420.9,0.0,417.7,422.4,456.9,462.8,473.4
2,270.4,271.8,266.8,251.6,252.1,286.1,280.7,297.9,315.7,345.5,...,357.1,377.0,393.6,384.5,387.0,382.6,398.4,414.1,423.1,431.5
3,317.0,289.4,288.5,283.4,291.4,303.4,311.0,328.0,353.1,377.6,...,402.3,406.5,424.8,419.2,422.0,425.4,425.1,453.8,474.1,484.6
4,281.8,279.2,273.0,265.8,277.1,287.5,299.1,315.6,336.5,367.4,...,387.8,396.3,406.7,407.2,405.6,401.3,404.7,433.8,455.7,466.4
5,312.6,284.3,267.4,258.5,282.1,293.4,307.7,323.5,347.7,372.6,...,390.6,413.8,413.8,414.7,420.6,405.8,409.7,450.1,464.1,469.0
6,293.4,271.6,255.8,255.8,271.9,286.2,297.3,312.0,339.8,359.2,...,367.4,394.6,392.5,389.4,401.2,389.4,395.7,432.4,441.8,444.5
7,289.1,275.0,260.1,258.2,276.2,292.0,299.4,321.3,346.5,367.3,...,378.3,395.1,402.3,399.9,400.0,409.7,416.2,442.5,462.0,456.9
8,292.6,272.0,256.9,258.4,281.2,290.0,302.5,321.7,350.2,374.0,...,380.9,387.2,403.9,405.1,400.4,402.9,415.8,450.2,462.4,459.0
9,282.9,272.2,261.2,247.5,275.2,285.8,299.9,322.0,342.5,366.6,...,379.8,381.6,404.9,412.3,405.9,411.3,429.1,442.9,452.7,452.8
10,304.1,291.7,274.4,275.9,292.8,307.8,326.9,341.7,367.4,384.7,...,406.8,410.5,415.3,441.6,427.6,450.3,447.7,470.3,478.4,477.7


Получили нужную структуру данных: столбцы таблицы - годы, с 1995 по 2019, строки - месяцы, в ячейках - значения грузооборота в млрд т-км.

Преобразуем данные в массив `freight`, с которым дальше будем работать.

In [None]:
freight = freight_pivot.values 
print(type(freight))

<class 'numpy.ndarray'>


Большие массивы `numpy` печатаются непонятно, поэтому лучше для вывода сначала преобразовать этот массив назад в таблицу `pandas`, которая выглядит в блокноте лучше. В заголовках столбцов и строк печатаются индексы элементов массива.

In [None]:
pd.DataFrame(freight)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
0,295.2,287.7,283.0,278.6,277.7,296.6,301.0,311.4,340.2,362.8,...,385.4,405.0,426.9,420.9,0.0,417.7,422.4,456.9,462.8,473.4
1,270.4,271.8,266.8,251.6,252.1,286.1,280.7,297.9,315.7,345.5,...,357.1,377.0,393.6,384.5,387.0,382.6,398.4,414.1,423.1,431.5
2,317.0,289.4,288.5,283.4,291.4,303.4,311.0,328.0,353.1,377.6,...,402.3,406.5,424.8,419.2,422.0,425.4,425.1,453.8,474.1,484.6
3,281.8,279.2,273.0,265.8,277.1,287.5,299.1,315.6,336.5,367.4,...,387.8,396.3,406.7,407.2,405.6,401.3,404.7,433.8,455.7,466.4
4,312.6,284.3,267.4,258.5,282.1,293.4,307.7,323.5,347.7,372.6,...,390.6,413.8,413.8,414.7,420.6,405.8,409.7,450.1,464.1,469.0
5,293.4,271.6,255.8,255.8,271.9,286.2,297.3,312.0,339.8,359.2,...,367.4,394.6,392.5,389.4,401.2,389.4,395.7,432.4,441.8,444.5
6,289.1,275.0,260.1,258.2,276.2,292.0,299.4,321.3,346.5,367.3,...,378.3,395.1,402.3,399.9,400.0,409.7,416.2,442.5,462.0,456.9
7,292.6,272.0,256.9,258.4,281.2,290.0,302.5,321.7,350.2,374.0,...,380.9,387.2,403.9,405.1,400.4,402.9,415.8,450.2,462.4,459.0
8,282.9,272.2,261.2,247.5,275.2,285.8,299.9,322.0,342.5,366.6,...,379.8,381.6,404.9,412.3,405.9,411.3,429.1,442.9,452.7,452.8
9,304.1,291.7,274.4,275.9,292.8,307.8,326.9,341.7,367.4,384.7,...,406.8,410.5,415.3,441.6,427.6,450.3,447.7,470.3,478.4,477.7


### 1.1. Характеристики массива

Для начала, определимся с характеристиками массива: размерностью, формой, типом данных и количеством элементов

In [None]:
print('Количество измерений (осей):', freight.ndim)
print('Форма:', freight.shape)
print('Количество элементов:', freight.size)
print('Тип данных:', freight.dtype)

Количество измерений (осей): 2
Форма: (12, 25)
Количество элементов: 300
Тип данных: float64


### 1.2. Срез данных

Сейчас в данных содержатся данные за 25 лет. Получите массив `freight5`, в котором содержатся данные только за последние 5 лет от имеющихся данных. 

**Замечание:** по умолчанию срезы в `numpy` используют те же данные, что и исходный массив. Как сделать, чтобы массив `freight5` был полностью независим от `freight`?


In [None]:
freight5 = freight.copy()
freight5 = np.array([freight[:, 20], freight[:, 21], freight[:, 22], freight[:, 23], freight[:, 24]])
print('Грузооборот за последние 5 лет:')
freight5 = freight5.T
print(freight5)

Грузооборот за последние 5 лет:
[[ 417.7  422.4  456.9  462.8  473.4]
 [ 382.6  398.4  414.1  423.1  431.5]
 [ 425.4  425.1  453.8  474.1  484.6]
 [ 401.3  404.7  433.8  455.7  466.4]
 [ 405.8  409.7  450.1  464.1  469. ]
 [ 389.4  395.7  432.4  441.8  444.5]
 [ 409.7  416.2  442.5  462.   456.9]
 [ 402.9  415.8  450.2  462.4  459. ]
 [ 411.3  429.1  442.9  452.7  452.8]
 [ 450.3  447.7  470.3  478.4  477.7]
 [ 434.9  446.2  453.4  464.4  457.2]
 [ 450.1  464.6  466.2  481.7  472.1]]


### 1.3. Еще срезы

Используя массив `freight5`, выведите с помощью срезов:

1. Грузооборот за месяцы первого квартала (все годы)
2. Грузооборот за месяцы второго квартала (последние 3 года)
3. Грузооборот за месяц, соответствующий концу квартала (март, июнь, сентябрь, декабрь)

In [None]:
print('1. Грузооборот за месяцы первого квартала (все годы):')
print(np.array([freight5[0, :], freight5[1, :], freight5[2, :]]))

1. Грузооборот за месяцы первого квартала (все годы):
[[ 417.7  422.4  456.9  462.8  473.4]
 [ 382.6  398.4  414.1  423.1  431.5]
 [ 425.4  425.1  453.8  474.1  484.6]]


In [None]:
print('2. Грузооборот за месяцы второго квартала (последние 3 года):')
print(np.array([freight5[3, 2:], freight5[4, 2:], freight5[5, 2:]]))

2. Грузооборот за месяцы второго квартала (последние 3 года):
[[ 433.8  455.7  466.4]
 [ 450.1  464.1  469. ]
 [ 432.4  441.8  444.5]]


In [None]:
print('Грузооборот за месяц, соответствующий концу квартала (март, июнь, сентябрь, декабрь):')
print(np.array([freight5[2, :], freight5[5, :], freight5[8, :], freight5[11, :]]))

Грузооборот за месяц, соответствующий концу квартала (март, июнь, сентябрь, декабрь):
[[ 425.4  425.1  453.8  474.1  484.6]
 [ 389.4  395.7  432.4  441.8  444.5]
 [ 411.3  429.1  442.9  452.7  452.8]
 [ 450.1  464.6  466.2  481.7  472.1]]


### 1.4. Вычисления и статистика

Используя массив `freight5`:

1. Рассчитайте, на сколько грузооборот в каждом месяце 2019 года изменился по отношению к грузообороту за этот же месяц в 2018 году
2. Рассчитайте для каждого месяца каждого года его [индекс роста](https://profmeter.com.ua/Encyclopedia/detail.php?ID=985) по отношению к первому месяцу этого года (т.е. отношение грузооборота в соответствующие месяцы). Округлите индекс роста до 2 десятичных знаков с помощью функции `np.round()`.
3. Рассчитайте суммарный грузооборот за 5 лет
4. Рассчитайте сколько, в среднем, составляет грузооборот за месяц (без деления по месяцам)
5. Рассчитайте суммарный грузооборот за каждый год
6. Рассчитайте, сколько, в среднем, составляет грузооборот за каждый месяц (отдельно для каждого месяца)
7. Рассчитайте для каждого года наибольший грузооборот. В каком месяце он был достигнут?

In [None]:
print('1. На сколько грузооборот в каждом месяце 2019 года изменился по отношению к грузообороту за этот же месяц в 2018 году')
freight5_changes = (np.array(freight5[:, 4])) - (np.array(freight5[:, 3]))
pd.DataFrame(freight5_changes)

1. На сколько грузооборот в каждом месяце 2019 года изменился по отношению к грузообороту за этот же месяц в 2018 году


Unnamed: 0,0
0,10.6
1,8.4
2,10.5
3,10.7
4,4.9
5,2.7
6,-5.1
7,-3.4
8,0.1
9,-0.7


In [None]:
print('2. Индекс роста:')
freight5_firstmonth = np.array(freight5[0, :])
freight5_index = (np.round(freight5 / freight5_firstmonth, 2))
print(freight5_index)

2. Индекс роста:
[[ 1.    1.    1.    1.    1.  ]
 [ 0.92  0.94  0.91  0.91  0.91]
 [ 1.02  1.01  0.99  1.02  1.02]
 [ 0.96  0.96  0.95  0.98  0.99]
 [ 0.97  0.97  0.99  1.    0.99]
 [ 0.93  0.94  0.95  0.95  0.94]
 [ 0.98  0.99  0.97  1.    0.97]
 [ 0.96  0.98  0.99  1.    0.97]
 [ 0.98  1.02  0.97  0.98  0.96]
 [ 1.08  1.06  1.03  1.03  1.01]
 [ 1.04  1.06  0.99  1.    0.97]
 [ 1.08  1.1   1.02  1.04  1.  ]]


In [None]:
print('3. Cуммарный грузооборот за 5 лет =', np.round(freight5.sum(), 2))

3. Cуммарный грузооборот за 5 лет = 26491.9


In [None]:
print('4. Cколько, в среднем, составляет грузооборот за месяц?')
freight5_averange = np.round(np.mean(freight5), 2)
print(freight5_averange)

4. Cколько, в среднем, составляет грузооборот за месяц?
441.53


In [None]:
print('5. Суммарный грузооборот за каждый год:', np.round(freight5.sum(axis = 0), 2))

5. Суммарный грузооборот за каждый год: [ 4981.4  5075.6  5366.6  5523.2  5545.1]


In [None]:
print('6. Сколько, в среднем, составляет грузооборот за каждый месяц (отдельно для каждого месяца)?')
freight5_averange_month = (np.round(np.mean(freight5, axis = 1), 2))
pd.DataFrame(freight5_averange_month)

6. Сколько, в среднем, составляет грузооборот за каждый месяц (отдельно для каждого месяца)?


Unnamed: 0,0
0,446.64
1,409.94
2,452.6
3,432.38
4,439.74
5,420.76
6,437.46
7,438.06
8,437.76
9,464.88


In [None]:
print('Расчет наибольшего грузооборота для каждого года.')
print(freight5.max(axis = 0))
print('В каком месяце он был достигнут?')
print(freight5.argmax(axis = 0))

Расчет наибольшего грузооборота для каждого года.
[ 450.3  464.6  470.3  481.7  484.6]
В каком месяце он был достигнут?
[ 9 11  9 11  2]


### 1.5. Условия

Используя массив `freight5`, посчитайте:

1. Сколько было месяцев с грузооборотом свыше 450 млрд т-км?
2. Сколько это процентов от общего числа наблюдений?
3. Сколько было месяцев, в которые грузооборот составил от 450 до 470 млрд т-км?
4. Выведите массив с текстовыми значениями `выше` или `ниже`, в зависимости от того, превысил ли грузооборот среднемесячный или нет.

In [None]:
print('1. Сколько было месяцев с грузооборотом свыше 450 млрд т-км?')
freight5_450 = (freight5 > 450).sum(axis=0)
print(freight5_450)

1. Сколько было месяцев с грузооборотом свыше 450 млрд т-км?
[ 2  1  7 10 10]


In [None]:
print('2. Сколько это процентов от общего числа наблюдений?')
print((freight5_450 / 12 * 100))

2. Сколько это процентов от общего числа наблюдений?
[ 16.66666667   8.33333333  58.33333333  83.33333333  83.33333333]


In [None]:
print('3. Сколько было месяцев, в которые грузооборот составил от 450 до 470 млрд т-км?')
freight5_470 = (freight5 > 470).sum(axis=0)
print(freight5_450 - freight5_470)

3. Сколько было месяцев, в которые грузооборот составил от 450 до 470 млрд т-км?
[2 1 6 7 6]


In [None]:
print('4. Массив с текстовыми значениями выше или ниже, в зависимости от того, превысил ли грузооборот среднемесячный или нет?')
freight5_true = freight5 > freight5_averange
freight5_true = np.where(freight5_true, 'выше', 'ниже')
print(freight5_true)

4. Массив с текстовыми значениями выше или ниже, в зависимости от того, превысил ли грузооборот среднемесячный или нет?
[['ниже' 'ниже' 'выше' 'выше' 'выше']
 ['ниже' 'ниже' 'ниже' 'ниже' 'ниже']
 ['ниже' 'ниже' 'выше' 'выше' 'выше']
 ['ниже' 'ниже' 'ниже' 'выше' 'выше']
 ['ниже' 'ниже' 'выше' 'выше' 'выше']
 ['ниже' 'ниже' 'ниже' 'выше' 'выше']
 ['ниже' 'ниже' 'выше' 'выше' 'выше']
 ['ниже' 'ниже' 'выше' 'выше' 'выше']
 ['ниже' 'ниже' 'выше' 'выше' 'выше']
 ['выше' 'выше' 'выше' 'выше' 'выше']
 ['ниже' 'выше' 'выше' 'выше' 'выше']
 ['выше' 'выше' 'выше' 'выше' 'выше']]
