# Основы pandas

In [1]:
import pandas as pd

Пример забора данных с сайтов

In [8]:
pd.read_html('http://www.cbr.ru')

[  Курсы валют на 27.03.2020 на 28.03.2020
 0  Доллар США      78,7223₽      77,7325₽
 1        Евро      85,9648₽      85,7389₽]

In [3]:
page_url = 'https://www.finanz.ru/valyuty/usd-rub'

# Импортируем нужную нам страницу в df
# attrs = {'class': 'news_table'} ---> указываем какой именно блок нам нужен
# encoding='utf-8' ---> указываем кодировку страниц для корректного отображения кириллицы
df = pd.read_html(page_url, attrs = {'class': 'news_table'}, encoding='utf-8')

In [4]:
df[:5]

[       Дата  Закрытие  Открытие  Максимум  Минимум
 0  27.03.20    793000    773545    793085   772440
 1  26.03.20    773560    785795    790445   770005
 2  25.03.20    784560    782922    794255   769800
 3  24.03.20    782900    795235    796066   781625
 4  23.03.20    795665    802270    813770   793735
 5  22.03.20    798695    796745    805745   795395
 6  21.03.20    799780    799780    799780   799780
 7  20.03.20    800126    797505    801825   773905
 8  19.03.20    797495    809485    826660   785405
 9  18.03.20    809528    753320    829725   749940,
        Имя  Unnamed: 1      %    курс                 Дата
 0  EUR/RUB         NaN  28518  878375  28.03.2020 00:00:00
 1  USD/RUB         NaN  25131     793  28.03.2020 00:29:00
 2  CHF/RUB         NaN   7134  833695  28.03.2020 07:37:00
 3  JPY/RUB         NaN   6548    7347  28.03.2020 07:37:00
 4  GBP/RUB         NaN   6658  987643  28.03.2020 07:37:00
 5  NOK/RUB         NaN   6696   75614  28.03.2020 07:37:00
 6  AUD

Импорт данных из файла

In [5]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [6]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [7]:
type(data)

pandas.core.frame.DataFrame

In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [None]:
# количество строк в датафрейме

len(data)

In [None]:
# или так

data.shape

Простые вычисления для нового столбца

In [None]:
data['year_plus_one'] = data['year'] + 1
data.head()

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

### Отдельный столбец (тип Series)

In [None]:
data['year'].head()

In [None]:
# или так

data.year.head()

In [None]:
type(data['year'])

In [None]:
data.head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
len(data['category'].unique())

In [None]:
data['category'].head()

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts().head(10)

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
# или так

data[['country', 'quantity']].head()

### Отфильтруем строки с потреблением выше среднего

In [None]:
average_level = data['quantity'].mean()
average_level

In [None]:
'quantity > {}'.format(average_level)

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

### Как определить используемый вариант названия страны?

In [None]:
data['country'].unique()

In [None]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на номер строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [None]:
data.head()

In [None]:
data.sort_values('country', ascending=True, inplace=rewrite)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 