# Основы pandas

In [None]:
import pandas as pd

In [15]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
type(data)

In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [None]:
# количество строк в датафрейме

len(data)

In [None]:
# или так

data.shape

### Упражнение
Вам дана статистика продаж в файле transactions.csv. 
Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.



In [10]:
import pandas as pd
new_data = pd.read_csv('transactions.csv')
new_data.shape
x,y = new_data.shape
print(f' В файле {x} строк и {y} столбцов')
new_data.head()


 В файле 60 строк и 8 столбцов


Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


### Основные сведения о датафрейме

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189482 entries, 0 to 1189481
Data columns (total 4 columns):
country     1189482 non-null object
year        1189482 non-null int64
quantity    1189482 non-null float64
category    1189482 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 36.3+ MB


In [None]:
# немного статистики

data.describe()

### Отдельный столбец

In [None]:
data['year'].head()

In [None]:
# или так

data.year.head()

In [None]:
type(data['year'])

In [18]:
# уникальные значения в столбце

data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71], dtype=int64)

In [17]:
len(data['category'].unique())

71

In [None]:
data['category'].head()

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts().tail(10)

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. 
Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [38]:
new_data['Product'].value_counts().sort_values(ascending = False).head()

_5    11
_2     8
_8     8
_3     7
_4     7
Name: Product, dtype: int64

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [44]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [39]:
# или так

data[['country', 'quantity']].head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


### Отфильтруем строки с потреблением выше среднего

In [40]:
average_level = data['quantity'].mean()
average_level

184264.77005012863

In [41]:
'quantity > {}'.format(average_level)

'quantity > 184264.77005012863'

In [45]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0


In [46]:
data[ ... ]

KeyError: Ellipsis

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

### Как определить используемый вариант названия страны?

In [None]:
data['country'].unique()

In [47]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

array(['Austria', 'Brunei Darussalam', 'Australia', 'Russian Federation',
       'USSR (former)', 'Mauritius', 'Belarus', 'Cyprus',
       'Bonaire, St Eustatius, Saba'], dtype=object)

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на номер строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [None]:
data.sort_values('country', ascending=True)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 