# DataFrames и реальные данные

Pandas поддерживает загрузку данных в различных форматах:
    * CSV
    * Excel
    * HTML
    * pickle
    * SQL
    * Google BigQuery

Pandas может брать данные из Excel, для этого нужно установить модуль xlrd.

In [3]:
import pandas as pd

In [4]:
!ls

bas_stops.csv  lesson2.ipynb	    nothing
ds1	       lesson2_part2.ipynb  Russia-2015.xlsx
lesson1.ipynb  lesson3.ipynb	    Russia-2016.xlsx


In [24]:
pd.options.display.float_format = '{:.2f}'.format

## Проанализируем данные из Excel

Cкачаем данные Всемирного банка по экспорту РФ за 2015 и 2016 годы.

После этого загрузим оба файла в DataFrame-ы, объединим их и посмотрим в какие страны и на каие суммы Россия экспортирует товары.

Добавим при открытии номер вкладки, из которой мы хотим прочитать данные. sheet=1 либо sheet_name='Partner'

In [25]:
export_2015 = pd.read_excel('Russia-2015.xlsx', sheet_name='Partner')
export_2016 = pd.read_excel('Russia-2016.xlsx', sheet_name='Partner')

In [26]:
export_2015.head()

Unnamed: 0,Reporter Name,Partner Name,Year,Trade Flow,No Of exported HS6 digit Products,Export Share in Total Products (%),Export (US$ Thousand),Export Partner Share (%)
0,Russian Federation,Aruba,2015,Export,,,,
1,Russian Federation,Afghanistan,2015,Export,183.0,4.23,148012.8,0.04
2,Russian Federation,Angola,2015,Export,286.0,6.61,139394.17,0.04
3,Russian Federation,Anguila,2015,Export,,,,
4,Russian Federation,Albania,2015,Export,86.0,1.99,66986.54,0.02


In [27]:
export_2016.head()

Unnamed: 0,Reporter Name,Partner Name,Year,Trade Flow,No Of exported HS6 digit Products,Export Share in Total Products (%),Export (US$ Thousand),Export Partner Share (%)
0,Russian Federation,Aruba,2016,Export,2.0,0.05,21610.42,0.01
1,Russian Federation,Afghanistan,2016,Export,125.0,2.87,184160.51,0.06
2,Russian Federation,Angola,2016,Export,340.0,7.82,567915.73,0.2
3,Russian Federation,Albania,2016,Export,86.0,1.98,57932.4,0.02
4,Russian Federation,Andorra,2016,Export,41.0,0.94,2363.46,0.0


## Объединение файлов

Так как количество и название колонок у файлов одинаковое, их объединение происходит очень просто:

In [28]:
export = pd.concat([export_2015, export_2016])

In [29]:
export.sample(10)

Unnamed: 0,Reporter Name,Partner Name,Year,Trade Flow,No Of exported HS6 digit Products,Export Share in Total Products (%),Export (US$ Thousand),Export Partner Share (%)
229,Russian Federation,"Congo, Dem. Rep.",2016,Export,56.0,1.29,22011.95,0.01
25,Russian Federation,Belarus,2015,Export,3886.0,89.75,12428309.69,3.61
94,Russian Federation,India,2015,Export,1361.0,31.43,4549940.9,1.32
12,Russian Federation,Austria,2016,Export,544.0,12.51,1051945.76,0.37
61,Russian Federation,Ecuador,2015,Export,166.0,3.83,260885.29,0.08
85,Russian Federation,Grenada,2016,Export,,,,
165,Russian Federation,Poland,2015,Export,1584.0,36.58,9513335.86,2.77
93,Russian Federation,Haiti,2016,Export,8.0,0.18,5266.28,0.0
98,Russian Federation,Iraq,2015,Export,440.0,10.16,447600.96,0.13
125,Russian Federation,Latvia,2016,Export,1804.0,41.47,4844183.24,1.7


## Сводная таблица

Сводная таблица позволяет посмотреть итоги (суммы, средние и т.д.) по даннм исходной таблицы. В методе pivot_table параметр index - столбцы по которым делается группировка, values - столбец с данными над которыми мы проведем операцию и aggfunc - то как считаем результат:


## Сводная таблица по нескольким колонкам

Параметр index может принимать несколько колонок, группировка будет происходить в порядке перечисления:



In [31]:
export.pivot_table(index=['Year', 'Partner Name'], values='Export (US$ Thousand)', aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2015,World,343907651.83
2015,Afghanistan,148012.80
2015,Albania,66986.54
2015,Algeria,1192403.64
2015,American Samoa,0.00
2015,Andorra,3907.17
2015,Angola,139394.17
2015,Anguila,0.00
2015,Antarctica,0.00
2015,Antigua and Barbuda,0.00


## Как поменять представление больших чисел

По умолчанию pandas использует `экспоненциальное представление` (scientific notation) для больших чисел. Для большинства из нас такая запись непривычна и ее можно поменять.

`pd.options.display.float_format = '{:.2f}'.format`

## Сортировка

Сортировка производится методом sort_values который мы применяли для Series. Но в отличии от Series для DataFrame нужно явно yказать, по каким колонкам сортировать: 

In [36]:
export.pivot_table(index=['Year', 'Partner Name'], values='Export (US$ Thousand)', aggfunc='sum')\
    .sort_values('Export (US$ Thousand)', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2015,World,343907651.83
2016,World,285491052.01
2015,Europe & Central Asia,188344810.70
2016,Europe & Central Asia,185198488.33
2015,East Asia & Pacific,63818526.25
2016,East Asia & Pacific,54840276.37
2015,Unspecified,53098256.49
2015,Netherlands,40198496.43
2016,Netherlands,29254623.87
2015,China,28334954.57


## Базовая фильтрация

Давайте уберем из таблицы то, что не является страной:

In [37]:
export_filtered = export[export['Partner Name'] != 'Europe & Central Asia']

export_filtered.pivot_table(index=['Year', 'Partner Name'],
    values='Export (US$ Thousand)', aggfunc='sum')\
    .sort_values('Export (US$ Thousand)', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2015,World,343907651.83
2016,World,285491052.01
2015,East Asia & Pacific,63818526.25
2016,East Asia & Pacific,54840276.37
2015,Unspecified,53098256.49
2015,Netherlands,40198496.43
2016,Netherlands,29254623.87
2015,China,28334954.57
2016,China,28021250.17
2016,Germany,21258480.74


## Фильтрация по списку

Мы можем использовать более сложные фильтры, в данном случае мы используем знак - который обозначает не и метод isin которы обозначает входит в спиоск:

In [38]:
exclude = ['Europe & Central Asia', 'East Asia & Pacific', ' World',
    'Unspecified', 'Middle East & North Africa']
export_filtered = export[-export['Partner Name'].isin(exclude)]

export_filtered.pivot_table(index=['Year', 'Partner Name'], 
                values='Export (US$ Thousand)', aggfunc='sum')\
            .sort_values('Export (US$ Thousand)', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2015,Netherlands,40198496.43
2016,Netherlands,29254623.87
2015,China,28334954.57
2016,China,28021250.17
2016,Germany,21258480.74
2015,Italy,16204284.05
2015,Germany,15906242.25
2015,Japan,14426352.10
2016,Belarus,14050696.99
2016,Turkey,13698261.43


## Сложная сортировка

Метод sort_values позволяет сортировать по нескольким переметрам:

In [39]:
export_pivot = export_filtered.pivot_table(index=['Year', 'Partner Name'], 
                values='Export (US$ Thousand)', aggfunc='sum')\
            .sort_values(
                ['Year', 'Export (US$ Thousand)'],
                ascending=[True, False]
            )

In [40]:
export_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2015,Netherlands,40198496.43
2015,China,28334954.57
2015,Italy,16204284.05
2015,Germany,15906242.25
2015,Japan,14426352.10
2015,"Korea, Rep.",13196117.47
2015,Belarus,12428309.69
2015,Turkey,11703271.07
2015,Kazakhstan,10301605.71
2015,Poland,9513335.86


## Фильтрация в сводных таблицах

В нашей сводной таблице мы создали индекс сотоящий из нескольких колонок, он называется MultiIndex. И задача отфильтровать данные за оперделнный год может быть сложной:

In [41]:
export_pivot[export_pivot.index.get_level_values('Year') == 2015]

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2015,Netherlands,40198496.43
2015,China,28334954.57
2015,Italy,16204284.05
2015,Germany,15906242.25
2015,Japan,14426352.10
2015,"Korea, Rep.",13196117.47
2015,Belarus,12428309.69
2015,Turkey,11703271.07
2015,Kazakhstan,10301605.71
2015,Poland,9513335.86


In [42]:
export_pivot[export_pivot.index.get_level_values('Year') == 2016]

Unnamed: 0_level_0,Unnamed: 1_level_0,Export (US$ Thousand)
Year,Partner Name,Unnamed: 2_level_1
2016,Netherlands,29254623.87
2016,China,28021250.17
2016,Germany,21258480.74
2016,Belarus,14050696.99
2016,Turkey,13698261.43
2016,Italy,11931332.88
2016,"Korea, Rep.",10027147.25
2016,North America,9845390.05
2016,Kazakhstan,9426891.45
2016,United States,9425801.96
