# Основы Pandas

### Загрузка данных в датафрейм

In [2]:
import pandas as pd

In [3]:
data = pd.read_csv('power.csv')

In [4]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = ',', header=0)
# data.head()

In [5]:
# количество строк в датафрейме

len(data)

1189482

In [None]:
# или так

data.shape

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
# распределение количества строк по значениям столбца

data['country'].value_counts()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [3]:
data = pd.read_csv('power.csv')
data.head()


Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [5]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [4]:
# самый популярный способ

data[ data.quantity > average_level ].head()

NameError: name 'average_level' is not defined

In [None]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('rus', case=False) ]['country'].unique()

In [9]:
# фильтр на несколько условий сразу
# | - условие ИЛИ

data[ data['country']=='Russian Federation' ].head()

Unnamed: 0,country,year,quantity,category
6940,Russian Federation,2014,12714.0,3
6941,Russian Federation,2013,11285.0,3
6942,Russian Federation,2012,11302.0,3
6943,Russian Federation,2011,7611.0,3
6944,Russian Federation,2010,9263.0,3


In [None]:
# фильтры на строки и столбцы

data.loc[100:105, ['country', 'quantity']]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values(by='quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year'], ascending=[True, True]).head()

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [3]:
data = pd.read_csv('transactions.csv')
data.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


In [None]:
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]


In [7]:

data = data.sort_values(by=['Cost'], ascending=[False])
filtered_data=data[ (data['Product']=='_8')]
filtered_data.head(20)

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
54,2017,12,t055,_8,2,3760,7520,2400
12,2017,4,t013,_8,3,3760,11280,1200
8,2017,4,t009,_8,3,3760,11280,1000
26,2017,6,t027,_8,3,3760,11280,800
41,2017,10,t042,_8,3,3760,11280,800
58,2017,12,t059,_8,3,3760,11280,800
37,2017,9,t038,_8,1,3760,3760,700
22,2017,6,t023,_8,10,3760,37600,200
