# Основы Pandas

### Загрузка данных в датафрейм

In [1]:
import pandas as pd

In [4]:
!pip install html5lib

Collecting html5lib
  Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
     ------------------------------------ 112.2/112.2 kB 407.7 kB/s eta 0:00:00
Installing collected packages: html5lib
Successfully installed html5lib-1.1


In [2]:
import html5lib

In [3]:
pd.read_html('http://www.cbr.ru')[3]

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

In [4]:
data = pd.read_csv('power.csv')

In [5]:
type(data)

pandas.core.frame.DataFrame

In [6]:
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [11]:
# количество строк в датафрейме

len(data)

1189482

In [12]:
# или так

data.shape

(1189482, 4)

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189482 entries, 0 to 1189481
Data columns (total 4 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   country   1189482 non-null  object 
 1   year      1189482 non-null  int64  
 2   quantity  1189482 non-null  float64
 3   category  1189482 non-null  int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 36.3+ MB


In [14]:
# немного статистики

data.describe()

Unnamed: 0,year,quantity,category
count,1189482.0,1189482.0,1189482.0
mean,2002.852,184264.8,36.24763
std,7.167345,15856630.0,18.09968
min,1990.0,-864348.0,1.0
25%,1997.0,14.0,24.0
50%,2003.0,189.0,35.0
75%,2009.0,2265.0,51.0
max,2014.0,6680329000.0,71.0


In [15]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [16]:
data['year'].head()

0    1996
1    1995
2    2014
3    2013
4    2012
Name: year, dtype: int64

In [17]:
# уникальные значения в столбце

data['category'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 13, 12, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71], dtype=int64)

In [None]:
# количество уникальных значений в столбце

len(data['category'].unique())

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts()

In [None]:
# если надо в процентах

data['category'].value_counts(normalize=True)

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [7]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [8]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [9]:
average_level = data['quantity'].mean()
average_level

184264.77005012965

In [10]:
'quantity > {}'.format(average_level)

'quantity > 184264.77005012965'

In [12]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head(7)

Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0
3233,United States,230589.0
3234,United States,226570.0


In [13]:
# самый популярный способ

data[ data.quantity > average_level ].head()

Unnamed: 0,country,year,quantity,category
3228,United States,2014,367987.0,2
3229,United States,2013,384439.0,2
3230,United States,2012,370625.0,2
3231,United States,2011,310909.0,2
3232,United States,2010,335418.0,2


In [14]:
# фильтр на подстроку
# найдем как называется Россия в этом датафрейме

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

array(['Austria', 'Brunei Darussalam', 'Australia', 'Russian Federation',
       'USSR (former)', 'Mauritius', 'Belarus', 'Cyprus',
       'Bonaire, St Eustatius, Saba'], dtype=object)

In [18]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

Unnamed: 0,country,year,quantity,category
6940,Russian Federation,2014,12714.0,3
6941,Russian Federation,2013,11285.0,3
6942,Russian Federation,2012,11302.0,3
6943,Russian Federation,2011,7611.0,3
6944,Russian Federation,2010,9263.0,3


In [19]:
filtered_countries['country'].unique()

array(['Russian Federation', 'Belarus'], dtype=object)

In [20]:
data[ ['country', 'quantity'] ].head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [21]:
# фильтры на строки

data.loc[1000:1005]

Unnamed: 0,country,year,quantity,category
1000,Austria,1998,-14.0,1
1001,Austria,1997,5.0,1
1002,Austria,1996,-1.0,1
1003,Austria,1995,-10.0,1
1004,Austria,1994,-8.0,1
1005,Austria,1993,-11.0,1


# Сортировка

In [22]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

Unnamed: 0,country,year,quantity,category
832375,United States,2000,-864348.0,42
832373,United States,2002,-562414.0,42
832362,United States,2013,-551490.0,42
832380,United States,1995,-493380.0,42
832322,Ukraine,2010,-477263.0,42


In [23]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

Unnamed: 0,country,year,quantity,category
492581,United States,2014,6680329000.0,31
492267,United States,2014,6680329000.0,31
492047,China,2014,5462672000.0,31
492345,China,2014,5462672000.0,31
122392,USSR (former),1990,3257000000.0,12


In [24]:
# сортировка по нескольким столбцам

data.sort_values(by=['country', 'year', 'quantity'], ascending=[False, True, False]).head(50)

Unnamed: 0,country,year,quantity,category
492605,Zimbabwe,1990,7355000.0,31
491540,Zimbabwe,1990,5820000.0,31
492291,Zimbabwe,1990,1535000.0,31
122097,Zimbabwe,1990,965000.0,12
122399,Zimbabwe,1990,965000.0,12
492003,Zimbabwe,1990,734000.0,31
957330,Zimbabwe,1990,75283.0,55
959523,Zimbabwe,1990,75283.0,55
962492,Zimbabwe,1990,75283.0,55
964131,Zimbabwe,1990,75283.0,55


In [None]:
data.sort_values('country', ascending=True, inplace=True)

In [None]:
# параметр inplace

data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [26]:
data_1 = pd.read_csv('transactions.csv')
data_1.head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
0,2017,1,t001,A1,7,2904,20328,1200
1,2017,1,t002,A2,2,1896,3792,1100
2,2017,2,t003,A1,5,2904,14520,1200
3,2017,2,t004,A4,1,8618,8618,4200
4,2017,2,t005,A5,3,5175,15525,500


In [29]:
data_1.sort_values('Cost', ascending=False).head()

Unnamed: 0,Year,Month,ID,Product,Amount,Price,Total,Cost
3,2017,2,t004,A4,1,8618,8618,4200
21,2017,5,t022,_5,4,5175,20700,4200
9,2017,4,t010,_4,2,8618,17236,3400
38,2017,9,t039,_4,2,8618,17236,2400
15,2017,5,t016,A4,3,8618,25854,2400
