# Основы pandas

In [1]:
import pandas as pd

Пример забора данных с сайтов

In [4]:
pd.read_html('http://www.cbr.ru')[0]

Unnamed: 0,Курсы валют,с 24.09.2020,с 25.09.2020
0,Доллар США,"76,3545₽","77,1780₽"
1,Евро,"89,2508₽","89,9818₽"


In [5]:
page_url = 'https://www.finanz.ru/valyuty/usd-rub'

# Импортируем нужную нам страницу в df
# attrs = {'class': 'news_table'} ---> указываем какой именно блок нам нужен
# encoding='utf-8' ---> указываем кодировку страниц для корректного отображения кириллицы
df = pd.read_html(page_url, attrs = {'class': 'news_table'}, encoding='utf-8')

In [6]:
df[:5]

[       Дата  Закрытие  Открытие  Максимум  Минимум
 0  24.09.20    770338    770595    774925   767465
 1  23.09.20    768223    760542    771100   759813
 2  22.09.20    760545    763942    765222   757240
 3  21.09.20    763944    755840    765814   754476
 4  20.09.20    755145    756125    758570   755145
 5  19.09.20    756995    756995    756995   756995
 6  18.09.20    756502    751236    757755   748595
 7  17.09.20    751237    749084    754510   748668
 8  16.09.20    749083    750900    754345   746570
 9  15.09.20    750901    753332    753755   746975,
        Имя  Unnamed: 1      %    курс                 Дата
 0  EUR/RUB         NaN  -3273  896352  25.09.2020 10:43:00
 1  USD/RUB         NaN   -358   76758  25.09.2020 10:43:00
 2  CHF/RUB         NaN  -2369  829301  25.09.2020 10:44:00
 3  JPY/RUB         NaN  -3238    7284  25.09.2020 10:44:00
 4  GBP/RUB         NaN   -371  981894  25.09.2020 10:44:00
 5  NOK/RUB         NaN  -4558   80756  25.09.2020 10:44:00
 6  AUD

Импорт данных из файла

In [7]:
data = pd.read_csv('power.csv')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [8]:
data.tail()

Unnamed: 0,country,year,quantity,category
1189477,Viet Nam,2012,92.0,71
1189478,Viet Nam,2011,87.0,71
1189479,Viet Nam,2010,50.0,71
1189480,Viet Nam,2009,10.0,71
1189481,Viet Nam,2008,1.0,71


In [9]:
type(data)

pandas.core.frame.DataFrame

In [10]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [11]:
# количество строк в датафрейме

len(data)

1189482

In [12]:
# или так

data.shape

(1189482, 4)

Простые вычисления для нового столбца

In [13]:
data['year_plus_one'] = data['year'] + 1
data.head()

Unnamed: 0,country,year,quantity,category,year_plus_one
0,Austria,1996,5.0,1,1997
1,Austria,1995,17.0,1,1996
2,Belgium,2014,0.0,1,2015
3,Belgium,2013,0.0,1,2014
4,Belgium,2012,35.0,1,2013


### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

### Отдельный столбец (тип Series)

In [None]:
data['year'].head()

In [None]:
# или так

data.year.head()

In [None]:
type(data['year'])

In [None]:
data.head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
len(data['category'].unique())

In [None]:
data['category'].head()

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts().head(10)

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
# или так

data[['country', 'quantity']].head()

### Отфильтруем строки с потреблением выше среднего

In [None]:
average_level = data['quantity'].mean()
average_level

In [None]:
'quantity > {}'.format(average_level)

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

### Как определить используемый вариант названия страны?

In [None]:
data['country'].unique()

In [None]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на номер строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [None]:
data.head()

In [None]:
data.sort_values('country', ascending=True, inplace=rewrite)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 

In [14]:
df[df['Product']=='_8']
df.sort_values(by='Cost').head(1)

TypeError: list indices must be integers or slices, not str