# Основы Pandas

### Загрузка данных в датафрейм

In [1]:
import pandas as pd

In [18]:
data = pd.read_csv('power.csv')

In [19]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [4]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = ',', header=0)
# data.head()

In [6]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [5]:
# количество строк в датафрейме

len(data)

1189482

In [8]:
# или так

data.shape

(1189482, 4)

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [13]:
data = pd.read_csv('transactions.csv')

In [14]:
data.shape

(60, 8)

### Основные сведения о датафрейме

In [15]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 8 columns):
Year       60 non-null int64
Month      60 non-null int64
ID         60 non-null object
Product    60 non-null object
Amount     60 non-null int64
Price      60 non-null int64
Total      60 non-null int64
Cost       60 non-null int64
dtypes: int64(6), object(2)
memory usage: 3.8+ KB


In [16]:
# немного статистики

data.describe()

Unnamed: 0,Year,Month,Amount,Price,Total,Cost
count,60.0,60.0,60.0,60.0,60.0,60.0
mean,2017.0,7.25,3.65,4427.183333,14072.183333,1063.333333
std,0.0,3.337638,2.184886,2506.427558,8966.190387,902.297757
min,2017.0,1.0,1.0,1265.0,1896.0,200.0
25%,2017.0,5.0,2.0,1896.0,7584.0,650.0
50%,2017.0,7.0,3.0,3760.0,11280.0,800.0
75%,2017.0,10.25,5.0,5175.0,17236.0,1200.0
max,2017.0,12.0,10.0,8618.0,37600.0,4200.0


In [20]:
# уникальные значения в столбце

data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71])

In [21]:
# распределение количества строк по значениям столбца

data['country'].value_counts()

Germany                                     20422
United States                               19847
Poland                                      19802
Austria                                     17440
Romania                                     17357
France                                      17236
Japan                                       17037
Czechia                                     16588
Italy                                       16312
Netherlands                                 15955
Spain                                       15815
Hungary                                     15778
Australia                                   15652
United Kingdom                              15536
Canada                                      15453
Russian Federation                          15020
Finland                                     14982
Belgium                                     14914
Korea, Republic of                          14849
Slovakia                                    14676


### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [22]:
d =  pd.read_csv('transactions.csv')

In [23]:
d.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


In [25]:
d['Product'].value_counts()

_5    11
_8     8
_2     8
_3     7
_4     7
A4     5
A1     5
A5     5
_6     2
A2     2
Name: Product, dtype: int64

# ВИЗУАЛИЗАЦИЯ В python
Константин Башевой: matplotlib
Константин Башевой: seaborn, plotly
Константин Башевой: bokeh
Константин Башевой: https://habr.com/company/ods/blog/323210/

# Фильтры

In [26]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [27]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

In [None]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('rus', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & - условие AND
# скобки обязательны

filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
# фильтры на строки и столбцы

data.loc[100:105, ['country', 'quantity']]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values(by='quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year'], ascending=[True, True]).head()

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [47]:
d= d[d['Product'] == '_8']

In [51]:
d.loc([0], ['ID'])

TypeError: __call__() takes from 1 to 2 positional arguments but 3 were given