# Основы Pandas

### Загрузка данных в датафрейм

In [1]:
import pandas as pd

In [2]:
pd.read_html('http://www.cbr.ru')[3]

Unnamed: 0,0,1
0,рублей за грамм,30.12.2018
1,Золото Au,"2 856,68"
2,Серебро Ag,3416
3,Платина Pt,"1 760,02"
4,Палладий Pd,"2 836,58"


In [3]:
data = pd.read_csv('power.csv')

In [4]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = ',', header=0)
# data.head()

In [5]:
# количество строк в датафрейме

len(data)

1189482

In [None]:
# или так

data.shape

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [7]:
transactions_dataset = pd.read_csv('transactions.csv')

In [11]:
transactions_dataset.describe()

Unnamed: 0,Year,Month,Amount,Price,Total,Cost
count,60.0,60.0,60.0,60.0,60.0,60.0
mean,2017.0,7.25,3.65,4427.183333,14072.183333,1063.333333
std,0.0,3.337638,2.184886,2506.427558,8966.190387,902.297757
min,2017.0,1.0,1.0,1265.0,1896.0,200.0
25%,2017.0,5.0,2.0,1896.0,7584.0,650.0
50%,2017.0,7.0,3.0,3760.0,11280.0,800.0
75%,2017.0,10.25,5.0,5175.0,17236.0,1200.0
max,2017.0,12.0,10.0,8618.0,37600.0,4200.0


### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

In [None]:
data['year'].head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
len(data['category'].unique())

In [26]:
# распределение количества строк по значениям столбца

data['category'].value_counts()

67    133916
27     97645
24     75132
42     64161
37     62156
39     53198
25     52032
21     50229
51     43466
31     42307
35     34558
32     29656
14     28000
18     27352
48     23138
53     22081
38     21374
9      20743
12     19729
4      18171
60     16494
41     15969
62     15706
55     13959
5      12579
36     12461
11     11963
16     11846
7      10885
70     10079
       ...  
58      5313
3       4894
6       4568
10      4154
8       3871
33      3744
20      3649
57      3235
1       3018
45      2624
19      2436
15      2245
46      2170
54      2105
22      2014
50      1962
2       1922
59      1707
52      1617
71      1367
28      1293
23       962
63       953
44       756
47       756
69       684
30       496
26       365
49       105
66        58
Name: category, Length: 71, dtype: int64

In [27]:
data['category'].value_counts(normalize=True)

67    0.112583
27    0.082090
24    0.063164
42    0.053940
37    0.052255
39    0.044724
25    0.043743
21    0.042228
51    0.036542
31    0.035568
35    0.029053
32    0.024932
14    0.023540
18    0.022995
48    0.019452
53    0.018564
38    0.017969
9     0.017439
12    0.016586
4     0.015276
60    0.013867
41    0.013425
62    0.013204
55    0.011735
5     0.010575
36    0.010476
11    0.010057
16    0.009959
7     0.009151
70    0.008473
        ...   
58    0.004467
3     0.004114
6     0.003840
10    0.003492
8     0.003254
33    0.003148
20    0.003068
57    0.002720
1     0.002537
45    0.002206
19    0.002048
15    0.001887
46    0.001824
54    0.001770
22    0.001693
50    0.001649
2     0.001616
59    0.001435
52    0.001359
71    0.001149
28    0.001087
23    0.000809
63    0.000801
44    0.000636
47    0.000636
69    0.000575
30    0.000417
26    0.000307
49    0.000088
66    0.000049
Name: category, Length: 71, dtype: float64

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [28]:
transactions_dataset['Product'].value_counts()

_5    11
_2     8
_8     8
_3     7
_4     7
A5     5
A4     5
A1     5
_6     2
A2     2
Name: Product, dtype: int64

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
average_level = data['quantity'].mean()
average_level

In [None]:
'quantity > {}'.format(average_level)

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

In [None]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('uss', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на строки и столбцы

data.loc[100:105]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year', 'quantity'], ascending=[False, True, False]).head(30)

In [None]:
data.head()

In [None]:
data.sort_values('country', inplace=True)

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [39]:
transactions_dataset[transactions_dataset['Product'] == '_8'].sort_values('Cost', ascending=False).head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
54,2017,12,t055,_8,2,3760,7520,2400
12,2017,4,t013,_8,3,3760,11280,1200
8,2017,4,t009,_8,3,3760,11280,1000
26,2017,6,t027,_8,3,3760,11280,800
41,2017,10,t042,_8,3,3760,11280,800
