In [51]:
import pandas as pd
pd.set_option('display.max_rows', 5)

In [10]:
data = pd.read_csv('./module03_files/power.zip')

In [11]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189482 entries, 0 to 1189481
Data columns (total 4 columns):
country     1189482 non-null object
year        1189482 non-null int64
quantity    1189482 non-null float64
category    1189482 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 36.3+ MB


In [13]:
data.shape

(1189482, 4)

## МЕТОД FILTER
Для подсчета среднего значения, по которому мы будем фильтровать, подходят сразу несколько способов. Используем первый вариант:

In [20]:
average_level = data['quantity'].mean()
average_level

184264.77005012965

Метод filter позволяет фильтровать датафрейм по столбцам и индексам (т. е. номерам строк в первом столбце). Давайте немного упростим вид таблицы, оставив только нужные нам столбцы: название страны и потребленную энергию. Если ваш датафрейм содержит много столбцов, то этот нехитрый прием улучшит читаемость данных и ускорит вычисления:

In [21]:
#Зочем фильтор??

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


## ЗАПРОСЫ QUERY
Таблицу мы максимально упростили, теперь отфильтруем строки. Давайте оставим только те строки, у которых значение столбца quantity превышает среднее потребление average_level. Используем метод query и посмотрим первые 5 строк результата:

In [22]:
country_stats.query('quantity > 184264.77005012965').head()

Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0


Ответ верный, но вставлять численные значения в код это крайне неуниверсальное решение. Т. к. при любом изменении переменной average_level нам пришлось бы вручную менять все значения во всем скрипте. Давайте перепишем строку запроса с помощью метода format. Это наиболее удобный способ подстановки переменных внутрь строки в питоне:

In [23]:
'quantity > {}'.format(average_level)

'quantity > 184264.77005012965'

Теперь можем написать запрос к таблице грамотно. В итоге получим таблицу с потреблением выше среднего:

In [24]:
above_average = country_stats.query('quantity > {}'.format(average_level))

## Упражнение
(1 возможный балл)
Посчитайте какое количество строк в этом датафрейме пришлось на каждую страну. Напомним, что для этого в Pandas достаточно одной команды. Какая страна окажется на втором месте этого рейтинга?

In [29]:
country_stats.country.value_counts().head()
#Получается США, хотя правильный ответ на сайте - Китай

Germany          20422
United States    19847
Poland           19802
Austria          17440
Romania          17357
Name: country, dtype: int64

## Упражнение
(1 возможный балл)
Найдите в датафрейме страны, которые содержат в названии слово 'state'. Сколько таких стран в нашем датасете?

In [43]:
data.loc[data['country']
         .str.contains('state', case=False), 
         'country'].nunique()

6

## ФИЛЬТР НА НЕСКОЛЬКО УСЛОВИЙ
Нам осталось отфильтровать исходный датафрейм data по странам. Перечислить несколько условий можно, указав их последовательно в скобках. Если требуется выполнение хотя бы одного условия, то используем оператор |.
Если нужно комбинировать фильтры различных типов, то их можно разделять дополнительными скобками. Итак, применяем фильтры на страны:

In [44]:
filtered_countries = data[(data['country']=='Russian Federation') | (data['country']=='Belarus')]
filtered_countries.head()

Unnamed: 0,country,year,quantity,category
6940,Russian Federation,2014,12714.0,3
6941,Russian Federation,2013,11285.0,3
6942,Russian Federation,2012,11302.0,3
6943,Russian Federation,2011,7611.0,3
6944,Russian Federation,2010,9263.0,3


## ФИЛЬТР НА СТРОКИ И СТОЛБЦЫ
Наконец, давайте рассморим метод loc, который дополняет предыдущий способ фильтрации возможностью добавлять условия на столбцы. Допустим, нам надо проверить нет ли ошибочных значений в стране и потреблении в строках с 100 по 105. Для этого используем метод loc:

In [45]:
data.loc[100:105, ['country', 'quantity']]

Unnamed: 0,country,quantity
100,Netherlands,276.0
101,Netherlands,302.0
102,Netherlands,271.0
103,Netherlands,244.0
104,Netherlands,251.0
105,Netherlands,364.0


Также этот метод удобен, если требуется получить значения столбца для определенного фильтра. Например, все значения потребления за 2014 год:

In [46]:
data.loc[data['year'] == 2014, 'quantity']

2               0.00
26            119.00
45              2.00
57              4.00
86            390.00
106             0.00
114             4.00
120             0.00
127            54.00
128          2484.00
166             0.00
172             8.00
177            36.00
187          5240.00
194           302.00
203            58.00
221            12.00
262            89.00
286           221.00
311             0.00
323          1538.00
331           199.00
354           103.00
358            46.00
373            39.00
381           454.00
406           665.00
426           318.00
433           317.00
441            79.00
             ...    
1189063       116.30
1189068       256.00
1189083       152.10
1189097      7676.00
1189117     12111.00
1189142       219.10
1189144         1.00
1189151        15.70
1189162      6201.00
1189176        96.00
1189194         7.09
1189196         6.00
1189208         4.00
1189215      1070.00
1189229     52013.00
1189254       273.45
1189270      

## СОРТИРОВКА ПО СТОЛБЦУ
Без сортировки данных не обходится ни одна значимая аналитическая задача: анализ лучших и худших показателей, рейтингов, построение наглядных графиков и множество других. Также сортировки помогают находить аномалии в данных, в чем мы сейчас поупражняемся.

Для сортировки значений по столбцам в Pandas используется метод sort_values. Запишем знакомый нам датасет power.csv в датафрейм data и отсортируем его по столбцу quantity. Тем самым мы проверим категории и страны с минимальным потреблением:

In [49]:
data.sort_values(by='quantity').head()

Unnamed: 0,country,year,quantity,category
832375,United States,2000,-864348.0,42
832373,United States,2002,-562414.0,42
832362,United States,2013,-551490.0,42
832380,United States,1995,-493380.0,42
832322,Ukraine,2010,-477263.0,42


Результат вышел довольно неожиданным - оказывается в данных есть довольно большие отрицательные значения.

По умолчанию сортировка столбцов происходит по возрастанию. Чтобы изменить порядок сортировки используйте параметр ascending = False:

In [53]:
data.sort_values(by='quantity', ascending=False)

Unnamed: 0,country,year,quantity,category
492581,United States,2014,6.680329e+09,31
492267,United States,2014,6.680329e+09,31
...,...,...,...,...
832373,United States,2002,-5.624140e+05,42
832375,United States,2000,-8.643480e+05,42


## СОРТИРОВКА ПО НЕСКОЛЬКИМ СТОЛБЦАМ
Сортировки по одному столбцу часто недостаточно. Например, нам нужна таблица для построения графика потребления энергии по годам и странам для заданной категории. Для этого нужно отсортировать таблицу по стране и году в порядке возрастания. К тому же сможем проверить нет ли в таблице "лишних" строк, которые следует сложить. Синтаксис будет следующим:

In [54]:
data.sort_values(by=['country', 'year'], ascending=[True, True]).head()

Unnamed: 0,country,year,quantity,category
9996,Afghanistan,1990,3.0,4
12134,Afghanistan,1990,3.0,4
14904,Afghanistan,1990,3.0,4
17054,Afghanistan,1990,3.0,4
21688,Afghanistan,1990,0.0,4


Видно, что для одной страны, года и категории есть дубликаты. Может это не дубликаты, а совпадения значений в различных строках, которые следует сложить? Посмотрим какие значения будут в первых строках, если добавить в результат сортировку по столбцу quantity по убыванию.

In [55]:
transactions = pd.read_csv('./module_2_files/transactions.csv', sep=';')

In [57]:
transactions.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2012.0,1.0,t001,A1,7.0,2904.0,20328.0,1200.0
1,2012.0,1.0,t002,A2,2.0,1896.0,3792.0,1100.0
2,2012.0,2.0,t003,A1,5.0,2904.0,14520.0,1200.0
3,2012.0,2.0,t004,A4,1.0,8618.0,8618.0,4200.0
4,2012.0,2.0,t005,A5,3.0,5175.0,15525.0,500.0


In [58]:
transactions.sort_values(by='Cost')[transactions.Product == '_8']

  """Entry point for launching an IPython kernel.


Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
22,2012.0,6.0,t023,_8,10.0,3760.0,37600.0,200.0
37,2012.0,9.0,t038,_8,1.0,3760.0,3760.0,700.0
...,...,...,...,...,...,...,...,...
12,2012.0,4.0,t013,_8,3.0,3760.0,11280.0,1200.0
54,2012.0,12.0,t055,_8,2.0,3760.0,7520.0,2400.0


# Домашнее задание

## ПОСТАНОВКА ЗАДАЧИ
Вам необходимо посчитать заданную метрику по данным файла power.csv: каково суммарное потребление стран Прибалтики категорий 4, 12 и 21 за период с 2005 по 2010 года? Не учитывайте в расчетах отрицательные значения quantity.

Итого по шагам:

1. Выясните как называются в датасете Латвия, Литва и Эстония (берем только эти страны). Отфильтруйте датасет по этим странам.

2. Оставьте в датафрейме только те строки, год которых приходится на период с 2005 по 2010 включительно.

3. Удалите строки со значением столбца quantity < 0.

4. Оставьте в датафрейме только строки со значением столбца category, равным 4, 12 или 21. Проще всего использовать метод isin.

5. Посчитайте сумму столбца quantity.

In [73]:
country_mask = data['country'].isin(['Latvia', 'Lithuania', 'Estonia'])
quantity_mask = data['quantity'] > 0
year_mask = data['year'].isin(range(2005, 2011))
cat_mask = data['category'].isin([4, 12, 21])

In [75]:
data.loc[country_mask & quantity_mask & year_mask & cat_mask, 'quantity'].sum()

240580.0