# Основы Pandas

### Загрузка данных в датафрейм

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('power.csv')

In [3]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [15]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [4]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = ',', header=0)
# data.head()

In [5]:
# количество строк в датафрейме
len(data)

1189482

In [6]:
# или так
data.shape

(1189482, 4)

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

In [17]:
transactions = pd.read_csv('transactions.csv')
pd.read_csv('transactions.csv').shape

(60, 8)

### Основные сведения о датафрейме

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189482 entries, 0 to 1189481
Data columns (total 4 columns):
country     1189482 non-null object
year        1189482 non-null int64
quantity    1189482 non-null float64
category    1189482 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 36.3+ MB


In [14]:
# немного статистики
data.describe()

Unnamed: 0,year,quantity,category
count,1189482.0,1189482.0,1189482.0
mean,2002.852,184264.8,36.24763
std,7.167345,15856630.0,18.09968
min,1990.0,-864348.0,1.0
25%,1997.0,14.0,24.0
50%,2003.0,189.0,35.0
75%,2009.0,2265.0,51.0
max,2014.0,6680329000.0,71.0


In [18]:
# уникальные значения в столбце
data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71])

In [19]:
# распределение количества строк по значениям столбца
data['country'].value_counts()

Germany                                     20422
United States                               19847
Poland                                      19802
Austria                                     17440
Romania                                     17357
France                                      17236
Japan                                       17037
Czechia                                     16588
Italy                                       16312
Netherlands                                 15955
Spain                                       15815
Hungary                                     15778
Australia                                   15652
United Kingdom                              15536
Canada                                      15453
Russian Federation                          15020
Finland                                     14982
Belgium                                     14914
Korea, Republic of                          14849
Slovakia                                    14676


### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

In [23]:
transactions['Product'].value_counts()[0]

11

# Фильтры

In [24]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [25]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [26]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0


In [27]:
# самый популярный способ

data[ data.quantity > average_level ].head()

Unnamed: 0,country,year,quantity,category
3228,United States,2014,367987.0,2
3229,United States,2013,384439.0,2
3230,United States,2012,370625.0,2
3231,United States,2011,310909.0,2
3232,United States,2010,335418.0,2


In [28]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('rus', case=False) ]['country'].unique()

array(['Brunei Darussalam', 'Russian Federation', 'Belarus', 'Cyprus'],
      dtype=object)

In [29]:
# фильтр на несколько условий сразу
# | - условие ИЛИ

filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

Unnamed: 0,country,year,quantity,category
6940,Russian Federation,2014,12714.0,3
6941,Russian Federation,2013,11285.0,3
6942,Russian Federation,2012,11302.0,3
6943,Russian Federation,2011,7611.0,3
6944,Russian Federation,2010,9263.0,3


In [30]:
# фильтры на строки и столбцы

data.loc[100:105, ['country', 'quantity']]

Unnamed: 0,country,quantity
100,Netherlands,276.0
101,Netherlands,302.0
102,Netherlands,271.0
103,Netherlands,244.0
104,Netherlands,251.0
105,Netherlands,364.0


# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values(by='quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year'], ascending=[True, True]).head()

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 