# Основы Pandas

### Загрузка данных в датафрейм

In [1]:
import pandas as pd

In [2]:
pd.read_html('http://www.cbr.ru')[3]

Unnamed: 0,0,1
0,рублей за грамм,16.03.2019
1,Золото Au,"2 739,87"
2,Серебро Ag,3204
3,Платина Pt,"1 752,05"
4,Палладий Pd,"3 276,95"


In [3]:
data = pd.read_csv('../data/power.csv')

In [4]:
type(data)

pandas.core.frame.DataFrame

In [5]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [6]:
# количество строк в датафрейме

len(data)

1189482

In [7]:
# или так

data.shape

(1189482, 4)

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [9]:
df = pd.read_csv('../data/transactions.csv')
print(df.shape)

(60, 8)


### Основные сведения о датафрейме

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189482 entries, 0 to 1189481
Data columns (total 4 columns):
country     1189482 non-null object
year        1189482 non-null int64
quantity    1189482 non-null float64
category    1189482 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 36.3+ MB


In [11]:
# немного статистики

data.describe()

Unnamed: 0,year,quantity,category
count,1189482.0,1189482.0,1189482.0
mean,2002.852,184264.8,36.24763
std,7.167345,15856630.0,18.09968
min,1990.0,-864348.0,1.0
25%,1997.0,14.0,24.0
50%,2003.0,189.0,35.0
75%,2009.0,2265.0,51.0
max,2014.0,6680329000.0,71.0


In [12]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [13]:
data['year'].head()

0    1996
1    1995
2    2014
3    2013
4    2012
Name: year, dtype: int64

In [14]:
# уникальные значения в столбце

data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71])

In [15]:
len(data['category'].unique())

71

In [16]:
# распределение количества строк по значениям столбца

data['category'].value_counts()

67    133916
27     97645
24     75132
42     64161
37     62156
39     53198
25     52032
21     50229
51     43466
31     42307
35     34558
32     29656
14     28000
18     27352
48     23138
53     22081
38     21374
9      20743
12     19729
4      18171
60     16494
41     15969
62     15706
55     13959
5      12579
36     12461
11     11963
16     11846
7      10885
70     10079
       ...  
58      5313
3       4894
6       4568
10      4154
8       3871
33      3744
20      3649
57      3235
1       3018
45      2624
19      2436
15      2245
46      2170
54      2105
22      2014
50      1962
2       1922
59      1707
52      1617
71      1367
28      1293
23       962
63       953
44       756
47       756
69       684
30       496
26       365
49       105
66        58
Name: category, Length: 71, dtype: int64

In [17]:
data['category'].value_counts(normalize=True)

67    0.112583
27    0.082090
24    0.063164
42    0.053940
37    0.052255
39    0.044724
25    0.043743
21    0.042228
51    0.036542
31    0.035568
35    0.029053
32    0.024932
14    0.023540
18    0.022995
48    0.019452
53    0.018564
38    0.017969
9     0.017439
12    0.016586
4     0.015276
60    0.013867
41    0.013425
62    0.013204
55    0.011735
5     0.010575
36    0.010476
11    0.010057
16    0.009959
7     0.009151
70    0.008473
        ...   
58    0.004467
3     0.004114
6     0.003840
10    0.003492
8     0.003254
33    0.003148
20    0.003068
57    0.002720
1     0.002537
45    0.002206
19    0.002048
15    0.001887
46    0.001824
54    0.001770
22    0.001693
50    0.001649
2     0.001616
59    0.001435
52    0.001359
71    0.001149
28    0.001087
23    0.000809
63    0.000801
44    0.000636
47    0.000636
69    0.000575
30    0.000417
26    0.000307
49    0.000088
66    0.000049
Name: category, Length: 71, dtype: float64

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [18]:
df = pd.read_csv('../data/transactions.csv')
df_product_vals = df['Product'].value_counts()

In [31]:
df['Product'].value_counts().head(1)

_5    11
Name: Product, dtype: int64

# Фильтры

In [33]:
data = pd.read_csv('../data/power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [34]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [35]:
average_level = data['quantity'].mean()
average_level

184264.77005012965

In [36]:
'quantity > {}'.format(average_level)

'quantity > 184264.77005012965'

In [37]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0


In [38]:
# самый популярный способ

data[ data.quantity > average_level ].head()

Unnamed: 0,country,year,quantity,category
3228,United States,2014,367987.0,2
3229,United States,2013,384439.0,2
3230,United States,2012,370625.0,2
3231,United States,2011,310909.0,2
3232,United States,2010,335418.0,2


In [39]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

array(['Austria', 'Brunei Darussalam', 'Australia', 'Russian Federation',
       'USSR (former)', 'Mauritius', 'Belarus', 'Cyprus',
       'Bonaire, St Eustatius, Saba'], dtype=object)

In [40]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

Unnamed: 0,country,year,quantity,category
6940,Russian Federation,2014,12714.0,3
6941,Russian Federation,2013,11285.0,3
6942,Russian Federation,2012,11302.0,3
6943,Russian Federation,2011,7611.0,3
6944,Russian Federation,2010,9263.0,3


In [41]:
filtered_countries['country'].unique()

array(['Russian Federation', 'Belarus'], dtype=object)

In [42]:
data[ ['country', 'quantity'] ].head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [43]:
# фильтры на строки

data.loc[1000:1005]

Unnamed: 0,country,year,quantity,category
1000,Austria,1998,-14.0,1
1001,Austria,1997,5.0,1
1002,Austria,1996,-1.0,1
1003,Austria,1995,-10.0,1
1004,Austria,1994,-8.0,1
1005,Austria,1993,-11.0,1


# Сортировка

In [44]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

Unnamed: 0,country,year,quantity,category
832375,United States,2000,-864348.0,42
832373,United States,2002,-562414.0,42
832362,United States,2013,-551490.0,42
832380,United States,1995,-493380.0,42
832322,Ukraine,2010,-477263.0,42


In [45]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

Unnamed: 0,country,year,quantity,category
492581,United States,2014,6680329000.0,31
492267,United States,2014,6680329000.0,31
492047,China,2014,5462672000.0,31
492345,China,2014,5462672000.0,31
122392,USSR (former),1990,3257000000.0,12


In [46]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year', 'quantity'], ascending=[False, True, False]).head(50)

Unnamed: 0,country,year,quantity,category
492605,Zimbabwe,1990,7355000.0,31
491540,Zimbabwe,1990,5820000.0,31
492291,Zimbabwe,1990,1535000.0,31
122097,Zimbabwe,1990,965000.0,12
122399,Zimbabwe,1990,965000.0,12
492003,Zimbabwe,1990,734000.0,31
957330,Zimbabwe,1990,75283.0,55
959523,Zimbabwe,1990,75283.0,55
962492,Zimbabwe,1990,75283.0,55
964131,Zimbabwe,1990,75283.0,55


In [47]:
data.sort_values('country', ascending=True, inplace=True)

In [48]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [49]:
df.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


In [56]:
df[df['Product']=="_8"].sort_values(by=['Cost'], ascending=False)['ID'].head(1)

54    t055
Name: ID, dtype: object