# Основы pandas

In [1]:
import pandas as pd

### Типы фильтров

In [13]:
df = pd.DataFrame(
    {
        'date': ['2021-01-01', '2021-01-02', '2021-01-02', '2021-01-01', '2021-01-02', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03', '2021-01-03'],
        'city': ['Новосибирск', 'Москва', 'Владивосток', 'Новосибирск', 'Москва', 'Владивосток', 'Владивосток', 'Тула', 'Новосибирск', 'Москва'],
        'sales': [140, 135, 290, 95, 100, 50, 40, 120, 190, 200],
    }
)
df

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
2,2021-01-02,Владивосток,290
3,2021-01-01,Новосибирск,95
4,2021-01-02,Москва,100
5,2021-01-01,Владивосток,50
6,2021-01-02,Владивосток,40
7,2021-01-02,Тула,120
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


# query

In [3]:
%%time

df.query('city == "Новосибирск"')

CPU times: user 2.74 ms, sys: 1.44 ms, total: 4.18 ms
Wall time: 8.38 ms


Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
3,2021-01-01,Новосибирск,95
8,2021-01-03,Новосибирск,190


# Фильтр индексированный (в скобках)

In [None]:
if city == 'Новосибирск'

In [4]:
%%time

df[df['city'] == 'Новосибирск']

CPU times: user 641 µs, sys: 211 µs, total: 852 µs
Wall time: 1.56 ms


Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
3,2021-01-01,Новосибирск,95
8,2021-01-03,Новосибирск,190


### Логические условия
- ИЛИ | == выполнено хотя бы одно из двух условий
- И & == выполнены ОБА условия

In [None]:
if city == '...' and / or sales > 100  # or |  and &

In [None]:
df.sales  # атрибуты класса

In [12]:
# все столбцы

df.columns = ['date', 'city', 'продажи']
df

Unnamed: 0,date,city,продажи
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
2,2021-01-02,Владивосток,290
3,2021-01-01,Новосибирск,95
4,2021-01-02,Москва,100
5,2021-01-01,Владивосток,50
6,2021-01-02,Владивосток,40
7,2021-01-02,Тула,120
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


In [8]:
# исключения для оборащения через точку:
# - если название столбца пишется в несколько слов df['city of country']
# - если столбец совпадает со служебным методом

df[(df['city'] == 'Новосибирск') | (df.sales > 100)]

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
2,2021-01-02,Владивосток,290
3,2021-01-01,Новосибирск,95
7,2021-01-02,Тула,120
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


In [6]:
df[(df['city'] == 'Новосибирск') & (df.sales > 100)]

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
8,2021-01-03,Новосибирск,190


In [15]:
df[(df['city'] == 'Новосибирск') | (df.city == 'Москва')]

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
3,2021-01-01,Новосибирск,95
4,2021-01-02,Москва,100
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


In [None]:
if city in ['Новосибирск', 'Москва']

In [None]:
df[df['city'].isin(['Новосибирск', 'Москва'])]  # столбец с значениями True/False

### Если фильтров много?

In [16]:
(2 + 2) * 2  # скобки имеют наивысший приоритет

6

In [17]:
(2 * 2) + 2

6

In [18]:
# сначала фильтра на города и потом фильтра на sales
df[
    (
        (df['city'] == 'Новосибирск') |  # комментарий почему это так
        (df.city == 'Москва')
    ) & 
    (df.sales > 100)
]

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


In [19]:
# Москва + условие на sales - это отдельный фильтр
df[
    (df['city'] == 'Новосибирск') | 
    (
        (df.city == 'Москва') & (df.sales > 100)
    )
]

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
3,2021-01-01,Новосибирск,95
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


### Фильтры с помощью функций
Пишем функцию, которая для каждой строчки возвращает True, либо False.
В зависимости от значений.

In [None]:
df.head()

In [None]:
# .isin(['Новосибирск', 'Москва'])
df[
    df['city'].apply(lambda city: city in ['Москва', 'Новосибирск'])
]

In [20]:
df.head()

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
2,2021-01-02,Владивосток,290
3,2021-01-01,Новосибирск,95
4,2021-01-02,Москва,100


In [21]:
def complex_filter(row):
    """Фильтрует строки, соответствующие продажам в новогоднюю акцию"""
    date = row['date']
    city = row['city']
    sales = row['sales']
    
    if date == '2021-01-01':
        if city in ['Москва', 'Владивосток']:
            return True
        
    if date == '2021-01-02':
        if sales > 100 and city == 'Тула':
            return True
        
    return False

In [22]:
df[df.apply(complex_filter, axis=1)]

Unnamed: 0,date,city,sales
5,2021-01-01,Владивосток,50
7,2021-01-02,Тула,120


### Фильтр с отрицанием условия
Ставим значок тильда

In [23]:
df[~df.apply(complex_filter, axis=1)]

Unnamed: 0,date,city,sales
0,2021-01-01,Новосибирск,140
1,2021-01-02,Москва,135
2,2021-01-02,Владивосток,290
3,2021-01-01,Новосибирск,95
4,2021-01-02,Москва,100
6,2021-01-02,Владивосток,40
8,2021-01-03,Новосибирск,190
9,2021-01-03,Москва,200


# Пример забора данных с сайтов
- Поискать API с этими данными
- Нет ли доступа к базе данных, из которых это берется
- Не используйте метод read_html для важных регулярных выгрузок

In [27]:
pd.read_html('http://www.cbr.ru')

ValueError: No tables found

In [26]:
df_list = pd.read_html('https://rosstat.gov.ru/opendata/7708234640-ca1502036', encoding='utf-8')
df_list[0]

Unnamed: 0,№,Характеристика,Значение
0,1,Оцените востребованность набора,
1,2,Идентификационный номер (код) набора данных,7708234640-ca1502036
2,3,Наименование набора данных,Реестр вакансий Управления Федеральной службы ...
3,4,Описание набора данных,Перечень вакансий Хабаровскстата и основные да...
4,5,Владелец набора данных,Федеральная служба государственной статистики
5,6,Ответственное лицо,Волкова Валентина Владимировна
6,7,Телефон ответственного лица,84956073012
7,8,Адрес электронной почты ответственного лица,volkova@gks.ru
8,9,Гиперссылка (URL) на набор,data-20220331-structure-20220331.csv
9,10,Формат набора открытых данных,CSV


# BeautifulSoup

Как можно из информации сайта узнать наименование таблиц?

In [None]:
page_url = 'https://www.finanz.ru/valyuty/usd-rub'

# Импортируем нужную нам страницу в df
# attrs = {'class': 'news_table'} ---> указываем какой именно блок нам нужен
# encoding='utf-8' ---> указываем кодировку страниц для корректного отображения кириллицы
df = pd.read_html(page_url, attrs = {'class': 'news_table'}, encoding='utf-8')

In [None]:
df[:5]

Импорт данных из файла

### CSV - comma separatted values

In [34]:
?pd.read_csv

In [33]:
111_222.33

111222.33

In [None]:
111.222,33  # thousands='.' decimal=','

In [30]:
data = pd.read_csv('power.csv', sep=',', nrows=1000, thousands='.', decimal=',')
data.head()

Unnamed: 0,country,year,quantity,category
0,Austria,1996,5.0,1
1,Austria,1995,17.0,1
2,Belgium,2014,0.0,1
3,Belgium,2013,0.0,1
4,Belgium,2012,35.0,1


In [None]:
type(data)

In [None]:
# если надо указать свои заголовки и разделитель
# data = pd.read_csv('power.csv', names = ['страна', 'год', 'количество', 'категория'], sep = '\t', header=0)
# data.head()

In [None]:
# количество строк в датафрейме

len(data)

In [None]:
# или так

data.shape

In [None]:
data.head(1000).to_excel('data.xlsx', index=False)

Простые вычисления для нового столбца

In [None]:
data['year_plus_one'] = data['year'] + 1
data.head()

### Упражнение
Вам дана статистика продаж в файле transactions.csv. Вам необходимо загрузить этот файл в датафрейм и посчитать его размеры.

### Основные сведения о датафрейме

In [None]:
data.info()

In [None]:
# немного статистики

data.describe()

### Отдельный столбец (тип Series)

In [None]:
data['year'].head()

In [None]:
# или так

data.year.head()

In [None]:
type(data['year'])

In [None]:
data.head()

In [None]:
# уникальные значения в столбце

data['category'].unique()

In [None]:
len(data['category'].unique())

In [None]:
data['category'].head()

In [None]:
# распределение количества строк по значениям столбца

data['category'].value_counts().head(10)

In [None]:
data['category'].value_counts(normalize=True).head()

### Упражнение
Используем файл transactions.csv. Определите какой товар (столбец Product) упоминается в файле чаще всего?

# Фильтры

In [None]:
data = pd.read_csv('power.csv')
data.head()

In [None]:
# выбрать несколько столбцов

country_stats = data.filter(items = ['country', 'quantity'])
country_stats.head()

In [None]:
# или так

data[['country', 'quantity']].head()

### Отфильтруем строки с потреблением выше среднего

In [None]:
average_level = data['quantity'].mean()
average_level

In [None]:
'quantity > {}'.format(average_level)

In [None]:
# строки с потреблением больше среднего

average_level = data['quantity'].mean()
country_stats.query('quantity > {}'.format(average_level)).head()

In [None]:
# самый популярный способ

data[ data.quantity > average_level ].head()

### Как определить используемый вариант названия страны?

In [None]:
data['country'].unique()

In [None]:
# найдем как называется Россия и Беларусь в этом датафрейме
# фильтр на подстроку - смотрим все страны, содержащие в названии 'us'

data[ data['country'].str.contains('us', case=False) ]['country'].unique()

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data[ (data['country']=='Russian Federation') | (data['country']=='Belarus') ]

filtered_countries.head()

In [None]:
filtered_countries['country'].unique()

In [None]:
# фильтры на номер строки

data.loc[1000:1005]

# Сортировка

In [None]:
# Сортировка по столбцу

data.sort_values(by='quantity').head()

In [None]:
# сортировка по убыванию

data.sort_values('quantity', ascending=False).head()

In [None]:
# сортировка по нескольким столбцам

data.sort_values(by=['year', 'country', 'quantity'], ascending=[False, True, False]).head(50)

### Параметр inplace

In [None]:
data.head()

In [None]:
data.sort_values('country', ascending=True, inplace=rewrite)

In [None]:
data = data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data.sort_values(by=['country', 'year', 'quantity'], ascending=[True, True, False], inplace=True)

### Упражнение
Используем transactions.csv.

Для какой транзакции (столбец ID) были наибольшие расходы (столбец Cost) в категории "_8" (столбец Product)? 