# Основы pandas

In [3]:
import pandas as pd

Пример забора данных с сайтов

In [None]:
pd.read_html('http://www.cbr.ru')[2]

In [None]:
page_url = 'https://www.finanz.ru/valyuty/usd-rub'

# Импортируем нужную нам страницу в df
# attrs = {'class': 'news_table'} ---> указываем какой именно блок нам нужен
# encoding='utf-8' ---> указываем кодировку страниц для корректного отображения кириллицы
df = pd.read_html(page_url, attrs = {'class': 'news_table'}, encoding='utf-8')

In [None]:
df[:5]

Импорт данных из файла

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
data.tail()

In [None]:
type(data)

In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [None]:
# количество строк в датафрейме

len(data)

In [None]:
# или так

data.shape

Простые вычисления для нового столбца

In [None]:
data['year_plus_one'] = data['year'] + 1
data.head()

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

### Отдельный столбец (тип Series)

In [None]:
data['year'].head()

In [None]:
# или так

data.year.head()

In [None]:
type(data['year'])

In [None]:
data.head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
len(data['category'].unique())

In [None]:
data['category'].head()

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts().head(10)

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [4]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [5]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


In [6]:
# или так

data[['country', 'quantity']].head()

Unnamed: 0,country,quantity
0,Austria,5.0
1,Austria,17.0
2,Belgium,0.0
3,Belgium,0.0
4,Belgium,35.0


### Отфильтруем строки с потреблением выше среднего

In [7]:
average_level = data['quantity'].mean()
average_level

184264.77005012965

In [8]:
'quantity > {}'.format(average_level)

'quantity > 184264.77005012965'

In [9]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

Unnamed: 0,country,quantity
3228,United States,367987.0
3229,United States,384439.0
3230,United States,370625.0
3231,United States,310909.0
3232,United States,335418.0


In [10]:
# самый популярный способ

data[ data.quantity > average_level ].head()

Unnamed: 0,country,year,quantity,category
3228,United States,2014,367987.0,2
3229,United States,2013,384439.0,2
3230,United States,2012,370625.0,2
3231,United States,2011,310909.0,2
3232,United States,2010,335418.0,2


### Как определить используемый вариант названия страны?

In [11]:
data['country'].unique()

array(['Austria', 'Belgium', 'Czechia', 'Finland', 'France', 'Greece',
       'Hungary', 'Italy', 'Korea, Republic of', 'Netherlands', 'Romania',
       'Serbia', 'Slovakia', 'Ukraine', 'United Kingdom', 'United States',
       'Brunei Darussalam', 'Bulgaria', 'Canada', 'Chile', 'Croatia',
       'Iran (Islamic Rep. of)', 'Jordan', 'Lithuania', 'Mexico', 'Oman',
       'Other Asia', 'Poland', 'Portugal', 'Spain', 'Sweden',
       'Switzerland', 'T.F.Yug.Rep. Macedonia', 'Turkey', 'Uzbekistan',
       'Argentina', 'Colombia', 'Germany', 'Norway', 'Australia',
       'China, Macao SAR', 'Japan', 'Denmark', 'Ireland', 'Philippines',
       'Bangladesh', 'Eritrea', 'Ethiopia', 'Lesotho', 'Nepal', 'Niger',
       'Pakistan', 'Serbia and Montenegro', 'Tunisia', 'Botswana',
       'Georgia', 'Republic of Moldova', 'Peru', 'South Africa',
       'Iceland', 'Latvia', 'Luxembourg', 'Cuba', 'Kyrgyzstan',
       'Singapore', 'Thailand', 'United Arab Emirates', 'Uruguay',
       'Armenia', 'Fiji', 

In [12]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

array(['Austria', 'Brunei Darussalam', 'Australia', 'Russian Federation',
       'USSR (former)', 'Mauritius', 'Belarus', 'Cyprus',
       'Bonaire, St Eustatius, Saba'], dtype=object)

In [13]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

Unnamed: 0,country,year,quantity,category
6940,Russian Federation,2014,12714.0,3
6941,Russian Federation,2013,11285.0,3
6942,Russian Federation,2012,11302.0,3
6943,Russian Federation,2011,7611.0,3
6944,Russian Federation,2010,9263.0,3


In [14]:
filtered_countries['country'].unique()

array(['Russian Federation', 'Belarus'], dtype=object)

In [15]:
# фильтры на номер строки

data.loc[1000:1005]

Unnamed: 0,country,year,quantity,category
1000,Austria,1998,-14.0,1
1001,Austria,1997,5.0,1
1002,Austria,1996,-1.0,1
1003,Austria,1995,-10.0,1
1004,Austria,1994,-8.0,1
1005,Austria,1993,-11.0,1


# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [None]:
data.head()

In [None]:
data.sort_values('country', ascending=True, inplace=rewrite)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 