https://github.com/jakevdp/PythonDataScienceHandbook

In [28]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# pd.options.display.float_format = '{:,.2f}'.format

In [None]:
import requests 
import io
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/airline-passengers.csv"
s = requests.get(url).content
data = pd.read_csv(io.StringIO(s.decode('utf-8'))) 

Очень важно использовать `np.nan `когда нужно.  
Это позволяет не использовать в рассчетах столбца эти знчения.  
Если мы изменяем столбец и у нас например нету значения, то чтобы потом этот новый столбец использовать в sum, mean и прочее,  
то лучше эти пустые значения устанваливть как `np.nan`, а не сбрасывать в 0 или подобное.  

# Table of Contents
* [Add column level](#add-column-level)
* [stack](#stack)
* [cumulitive sum after groupby ](#cum-sum-after-groupby)
* [Style ](#style)
* [from-list-in-cell-to-new-columns ](#from-list-in-cell-to-new-columns)
* [melt (from many columns to one) ](#melt)



За счет чего можно ускорить работу pandas
- указываем формат, когда парсим дату, иначе пандас будет перебирать много разных форматов и смотерть какой подходит
`pd.to_datetime(df[column_name_with_datetime], format='%d/%m/%y %H:%M')`
- текстовые поля переводим в категориальный тип, если это категория    
Когда мы указываем, что тип категориальный, то пандас создает словарь, клчюами идут ай ди, а значениями наши исходные занчения.  
Таким образом у нас будут храниться только уникальные значения строк и при этом в самом датафрейме будут использоваться индексы из словаря,  
а когда нужно будет значения, то они будут браться из словаря.  
- используем параметр `nrows` в `pd.read_csv`, чтобы загрузить несколько строк.  
Затем смотрим какие столбцы нам нужны (остальыне не грузим прям при загрузке), смотрим какие типы данных нам лучше указать.  
И загружем весь датафрейм, но указав загрузку только нужных столбцов, указав минимальные типы которые наму нужны.  
Не забываем про категориальный тип, он очень сильно экономит память.  
И важно это все делать при загрузке. 
- работаем с векторами, а не отдельными записями. Векторная операция в разы быстрее  
Каждый раз, когда нам нужно что-то сделать со столбцами, думаем а можно тут применить функцию numpy  
например округление значений столбца, лучше либо отадть столбец функции `np.ceil`, либо сделать `apply` и туда отдать `np.ceil`  
Таким способом мы будем проводить операцию со всем столбцом как с вектором, что значительно ускорит процесс.  
Поэтому свои функции для обработки занчений столбцов, в которых мы работаем с каждым значением пишем только в самом крайнем случае  
- используем `pandarallel`
- думаем о датафрейме как о наборе столбцов, тогда выбор методов для работы уже будут более быстрыми  
Если у нас датафрейм пользователей и есть имя, возраст, рост, то мы воспринимаем это как выборка имен, выборка ростов и выборка возрастов    
- не используем циклы для работы с датафреймами
Так как в памяти датафрейм хранится колонками и колонки не идут по порядку, они могут в памяти лежать где угодно рандомно  
И когда мы начинаем итерировать датафрейм, то пандас начинает сопоставлять индексы разных колонок и искать где что лежит по индексу для каждой колонки  
и это будет на каждой итерации. И для каждой колонки нужно найти ее индекс, потом собрать это в строчку и так далее.  
Поэтому вообще любые использования loc и iloc должны быть без циклов, так как каждая такая опреация занимает много времени на поиска элемента в памяти по индексу.  
- стараемся всегда использовать булевы маски, когда нужно фильтровать фрейм
- вместо loc и iloc используем, когда это возможно, pd.cut  
Вообще когда нам нужно провести операции над датафреймом, то стараемся делать это операциями с колонками,  
поэтому сначал формируем колонки, которых у нас нет, но они нужны для расчетов и потом умножаем колонки
например, у нас есть столбец с датой и столбец со стоимостью тарифа и мы хотим с 0 до 8 увеличить в 2 раза, с 8 до 16 в 3 раза, а с 16 до 0 увеличить в 4 раза  
Так медленно, потому что несколько рэнжей, потом нескоько Loc, при которых будет выбираться куски из общего дата фреймя
```
peak_hours = df.index.hour.isin(range(0, 9))
middle_hours = df.index.hour.isin(range(9, 17))
low_hours = df.index.hour.isin(range(17, 25))

df.loc[peak_hours, 'cost_cents'] = df.loc[peak_hours, 'energy_kw'] * 2
df.loc[middle_hours, 'cost_cents'] = df.loc[middle_hours, 'energy_kw'] * 3
df.loc[low_hours, 'cost_cents'] = df.loc[low_hours, 'energy_kw'] * 4
```
Так лучше, так как мы сформировали колонку в которой у нас будет 2 для значений от 0 до 8, 3 для значений от 8 до 16, и 3 для значений от 16 до 24  
и потом просто умножили эту колонку на нашу колонку с киловатами  
```
cents_per_kw = pd.cut(x=df.index.hour,
                      bins=[0, 8, 17, 24],
                      include_lowest=True,
                      labels=[2, 3, 4]).astype(int)
df['cost_cents'] = cents_per_kw * df['energy_kw']
```
* 

pandas_profiling

In [None]:
from pandas_profiling import ProfileReport

df = pd.DataFrame({'number': [3, 1, 2, 1, 4]})
ProfileReport(df)

# если нужно больше информации, то активируем опцию explorative
report = ProfileReport(df, title='My report', explorative=True)

# если нужно ускорить, то можно отказаться от scatterplot
ProfileReport(df, minimal=True)

Можно в вдие виджета

In [None]:
report.to_widgets()

In [7]:
# Таблицы можно выводить с помощью display
from IPython.display import display
df = pd.DataFrame({'number': [3, 1, 2, 1, 4]})
display(df)

Unnamed: 0,number
0,3
1,1
2,2
3,1
4,4


По умолчанию датафрейм panda может показывать только ограниченное количество строк и столбцов. Но мы можем изменить значение по умолчанию.  
Вариант 1:

In [None]:
import pandas as pd

pd.options.display.max_rows = 100
pd.options.display.max_columns = 50

Вариант 2:

In [None]:
pd.set_option("display.max_rows", 100)
pd.set_option("display.max_columns", 50)

ускорить pandas

In [None]:
from tqdm.auto import tqdm
tqdm.pandas()

In [8]:
arr = np.random.rand(100_000, 3)
df = pd.DataFrame(arr, columns=['col1', 'col2', 'col3'])
df.head()

Unnamed: 0,col1,col2,col3
0,0.176631,0.588987,0.282701
1,0.926761,0.841678,0.320499
2,0.651742,0.657272,0.47451
3,0.850902,0.549545,0.507875
4,0.157473,0.345946,0.505806


In [9]:
def func(row):
    return row['col1'] ** row['col2'] / row['col3']
df['res'] = df.progress_apply(func, axis=1)

  0%|          | 0/100000 [00:00<?, ?it/s]

параллельное выполнение в pandas

https://nalepae.github.io/pandarallel/

In [None]:
!pip install pandarallel

In [None]:
from pandarallel import pandarallel
from tqdm.auto import tqdm
tqdm.pandas()
pandarallel.initialize(progress_bar=True)

In [31]:
df = pd.DataFrame(
    dict(col1 = ['a' if i < 30 else 'b' for i in range(100)],
    col2 = [i for i in range(100)])
)
df.head()

Unnamed: 0,col1,col2
0,a,0
1,a,1
2,a,2
3,a,3
4,a,4


In [38]:
def func(row):
    pass
df.groupby('col1').parallel_apply(np.mean)

VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=1), Label(value='0 / 1'))), HBox(c…

Unnamed: 0_level_0,col2
col1,Unnamed: 1_level_1
a,14.5
b,64.5


progress_apply показывает время выполнения без разпараллеливания  
(просто покажет бар динамики выполнения)

In [None]:
def func(row):
    pass
df["sample-word"] = df.progress_apply(func, axis=1)

parallel_apply - распараллеливает apply

In [6]:
def func(row):
    pass
df["sample-word"] = df.parallel_apply(func, axis=1)

VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=50), Label(value='0 / 50'))), HBox…

В пандас можно считывать из арихва

In [None]:
pd.read_csv('path/to/file', compression='zip')

In [None]:
import sqlite3
conn = sqlite3.connect('my_database.db')
query = 'SELECT * FROM bookings.aircrafts'
df = pd.read_sql(query, conn)
conn.close()

In [None]:
import psycopg2

# инициализируем соединение с базой данных
with psycopg2.connect(dbname='demo',
                        user='postgres',
                        host='127.0.0.1',
                        port='5432',
                        password='root') as conn:
    # получаем все строки ответа
    query = 'SELECT * FROM bookings.aircrafts'
    df = pd.read_sql(query, conn)
df.head()

Если нужно записать в базу данных, то нужно использвоать sqlalchemy  
так как df.to_sql работает только с sqlalchemy

In [None]:
import sqlalchemy as db
 
engine = db.create_engine('dialect+driver://user:pass@host:port/db')
# conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/db_ds_students'
# for mysql dialect+driver = mysql+pymysql
with engine.connect() as connect:
    df.to_sql('Name of SQL table', con=engine, if_exists='append')

In [None]:
# для тяжелых запросов к MySQL можно использовать SSDictCursor
import pymysql

with pymysql.connect(
                host = 'dbhost',
                port = 3306,
                user = 'dbuser',
                password = 'dbpass',
                db = 'db',
                cursorclass = pymysql.cursors.SSDictCursor) as conn:
    pass

Когда нужно загрузить много файлов и сделать из них дата сеты, то удобно делать так  

In [None]:
import pandas as pd 
# Загрузка файлов 

datasets = ['calls', 'internet', 'messages', 'tariffs', 'users']
dfs = {}
for dataset in datasets:
    dfs[dataset] = pd.read_csv('datasets/' + dataset + '.csv')

Если мы не хотим грузить все строки в pandas, то нужно использовать параметр nrows.  
Тогда загрузится только указанное количество строк.  
Удобно загрузить, посмотреть типы, разделители, потом настроить параметры парсинга и загрузки и загрузить все)

In [None]:
pd.read_csv('dataset',nrows=5)

Загрузить из google sheets

- в гугл таблицах публикуем файл как csv
- берем ссылку на таблицу  и вставляем   

Если файл опубликован, то мжно самому сделать ссылку для пандаса
- убираем в конце все до id (хэш)
- добавляем в конце `/export?format=csv`

In [None]:
pd.read_csv('https://docs.google.com/spreadsheets/d/1pJzqls08bSUbk5531RyqDsu0cMOV23Nydlu6AWOXT_Q/export?format=csv')

Загрузить с гугл диска 

In [None]:
url='https://drive.google.com/file/d/0B6GhBwm5vaB2ekdlZW5WZnppb28/view?usp=sharing'
url='https://drive.google.com/uc?id=' + url.split('/')[-2]
df = pd.read_csv(url)

Парсинг сайтов   
в match  
указываем любое слово из таблицы, если несколько таблиц с таким словом,   
то все они будут в списке  
pd.read_html возвращает список датафреймов  

In [4]:
tables = pd.read_html(
    'https://en.wikipedia.org/wiki/ISO_4217',
    match='code')
tables[0].head()

Unnamed: 0,Code,Num,D[a],Currency,Locations listed for this currency[b]
0,AED,784,2,United Arab Emirates dirham,United Arab Emirates
1,AFN,971,2,Afghan afghani,Afghanistan
2,ALL,8,2,Albanian lek,Albania
3,AMD,51,2,Armenian dram,Armenia
4,ANG,532,2,Netherlands Antillean guilder,"Curaçao (CW), Sint Maarten (SX)"


In [2]:
df = pd.read_json('test.json')
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4723897926680576,Heavy Rain,hr,NE,2020-06-20T18:28:31.731018Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,77
1,5424697472712704,Light Rain,lr,NE,2020-06-20T15:28:31.713244Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,75
2,5918873591218176,Light Rain,lr,NNE,2020-06-20T12:28:31.907804Z,2020-06-20,18.98,28.18,27.485,3.746674,27.740008,1014.0,64,14.28346,75
3,5531583773671424,Heavy Rain,hr,NNE,2020-06-20T09:28:32.329702Z,2020-06-20,18.985,28.65,27.44,3.5765,30.292134,1014.0,63,12.658574,77
4,6432472222924800,Light Rain,lr,NE,2020-06-20T06:28:31.423102Z,2020-06-20,18.28,29.665,29.515,3.217347,34.011018,1014.0,56,14.14769,75


Как посмотреть дублирующиеся записи в таблице

In [3]:
df[df.duplicated(keep=False)]

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability


In [3]:
import json
with open('test.json') as f:
    json_l = json.load(f)
df = pd.json_normalize(json_l)
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4723897926680576,Heavy Rain,hr,NE,2020-06-20T18:28:31.731018Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,77
1,5424697472712704,Light Rain,lr,NE,2020-06-20T15:28:31.713244Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,75
2,5918873591218176,Light Rain,lr,NNE,2020-06-20T12:28:31.907804Z,2020-06-20,18.98,28.18,27.485,3.746674,27.740008,1014.0,64,14.28346,75
3,5531583773671424,Heavy Rain,hr,NNE,2020-06-20T09:28:32.329702Z,2020-06-20,18.985,28.65,27.44,3.5765,30.292134,1014.0,63,12.658574,77
4,6432472222924800,Light Rain,lr,NE,2020-06-20T06:28:31.423102Z,2020-06-20,18.28,29.665,29.515,3.217347,34.011018,1014.0,56,14.14769,75


In [6]:
df = pd.read_excel('test.xlsx', sheet_name='list_2')

In [7]:
df.head()

Unnamed: 0,Date,Consumer Price Index for All Urban Consumers: All Items Less Food and Energy in U.S. City Average,10-Year Real Interest Rate,Total Nonfarm Payroll
0,2021-11-01,283.201,0.097715,148611
1,2021-10-01,281.695,0.163998,148401
2,2021-09-01,280.017,0.087901,147855
3,2021-08-01,279.338,-0.194731,147476
4,2021-07-01,279.054,-0.261019,146993


In [14]:

df.to_excel('test.xlsx', sheet_name='list_3', index=None)

In [15]:
with pd.ExcelWriter('test.xlsx', mode='a') as writer:  # doctest: +SKIP
    df.to_excel(writer, sheet_name='Sheet_name_1')
    df.to_excel(writer, sheet_name='Sheet_name_2') 

In [None]:
df = pd.read_csv('wgi_fh.csv', sep=';', decimal=',')

In [3]:
df = pd.DataFrame(list(zip([1,2,3,4], ['2010-04-11', '2010-04-23', '2010-05-03', '2010-05-05'])), columns=['col1', 'date'])
# очень важно писать формат для парсинга даты, так как тогда пандас будет быстрее парсить, ему не нужно будет сравнивать его кучу разных форматов
df.date = pd.to_datetime(df.date, format='%Y-%m-%d')
df = df.set_index('date')
df

Unnamed: 0_level_0,col1
date,Unnamed: 1_level_1
2010-04-11,1
2010-04-23,2
2010-05-03,3
2010-05-05,4


In [4]:
df.reset_index(inplace=True)
df['day_name'] = df['date'].dt.day_name()
df

Unnamed: 0,date,col1,day_name
0,2010-04-11,1,Sunday
1,2010-04-23,2,Friday
2,2010-05-03,3,Monday
3,2010-05-05,4,Wednesday


df.values превращает датафрейм в numpy array

In [5]:
df.values

array([[Timestamp('2010-04-11 00:00:00'), 1, 'Sunday'],
       [Timestamp('2010-04-23 00:00:00'), 2, 'Friday'],
       [Timestamp('2010-05-03 00:00:00'), 3, 'Monday'],
       [Timestamp('2010-05-05 00:00:00'), 4, 'Wednesday']], dtype=object)

Merged columns with known format


разделитель столбцов  
sep=  
десятичный разделитель
decimal=  

In [None]:
df = pd.read_csv(
    infile,
    parse_dates={'mydatetime': ['My Date', 'My Time']},
    # mydatetime will contain my_date and my_time separated by a single space
    date_format={'mydatetime': '%Y-%m-%d %H:%M:%S'}
)

resample группирует по временному промежутку  
на выходе тот же результат как после групп бай, то есть группы  
и мы можем либо агрегировать стандартной функцией, либо использовать apply  
и сделать из группы, что хотим, при чем можем и не схлопывать в apply  

In [15]:
df.resample('M').sum()

Unnamed: 0_level_0,col1
date,Unnamed: 1_level_1
2010-04-30,3
2010-05-31,7


In [18]:
df = df.reset_index()
df.groupby(df['date'].dt.to_period('M')).agg(my_sum=('col1', 'sum'))

Unnamed: 0_level_0,my_sum
date,Unnamed: 1_level_1
2010-04,3
2010-05,7


Если у нас вместо списка в ячейках строка со списком, то лучше сразу ее загружать правильно,   
так как функция `eval` работет медленно  
В `read_csv` можно указать параметр `converters` и туда передается словарь ключи - название столбца, а занчение это функция, которую нужно применить 

In [None]:
# literal_eval аналогична eval
from ast import literal_eval
df = pd.read_csv('path_to_file', converters={'col1': literal_eval, 'col2:': literal_eval})

In [2]:
date_parser = lambda x: pd.datetime.strptime(x, '%Y-%m-%d')
df = pd.read_csv('click_stream.csv', header=None, names = ['ID','page','date', 'device', 'gender'], parse_dates= ['date'], date_parser=date_parser)
# or in latest versions Pandas
# df = pd.read_csv('click_stream.csv', header=None, names = ['ID','page','date', 'device', 'gender'], parse_dates= ['date'], date_format={'My DateTime': '%Y-%m-%d'})
df.head()

  """Entry point for launching an IPython kernel.


Unnamed: 0,ID,page,date,device,gender
0,313593,1_home_page,2015-02-26,Desktop,Female
1,468315,1_home_page,2015-02-21,Desktop,Male
2,264005,1_home_page,2015-03-25,Desktop,Female
3,290784,1_home_page,2015-03-14,Desktop,Male
4,639104,1_home_page,2015-01-03,Desktop,Female


Если нужно взять первые знчения из группы,  
при этом порядок определяется несколькими полями,  
то сначала сортируем, а потом группируем

In [3]:
df.sort_values(['date', 'ID']).groupby('device').first()

Unnamed: 0_level_0,ID,page,date,gender
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Desktop,6386,1_home_page,2015-01-01,Female
Mobile,1659,1_home_page,2015-01-01,Female


Бывает удобно не указывть в сводной таблице `index` или `column`

In [3]:
data = dict(
    col1 = ['a', 'a', 'b', 'a', 'b']
    , col2 = ['c', 'd', 'd', 'c', 'c']
    , col3 = [1, 2, 3, 4, 5]
)
df = pd.DataFrame(data)
df.pivot_table(columns='col2', values='col3')

col2,c,d
col3,3.333333,2.5


In [7]:
df.pivot_table(index='col1', values='col3')

Unnamed: 0_level_0,col3
col1,Unnamed: 1_level_1
a,2.333333
b,4.0


Если хотим вывести знаки процентов после pivot table и не хотим использовать style

In [7]:
df.pivot_table(index='col1', columns='col2', values='col3', aggfunc=lambda x: f'{x.mean():.2%}')

col2,c,d
col1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,250.00%,200.00%
b,500.00%,300.00%


In [5]:
df_pivot = df.pivot_table(index=df.date.dt.to_period('M'), columns=['gender', 'device', 'page'], values='ID', aggfunc='count')
df_pivot

gender,Female,Female,Female,Female,Female,Female,Female,Female,Male,Male,Male,Male,Male,Male,Male,Male
device,Desktop,Desktop,Desktop,Desktop,Mobile,Mobile,Mobile,Mobile,Desktop,Desktop,Desktop,Desktop,Mobile,Mobile,Mobile,Mobile
page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page
date,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
2015-01,7546,3851,625,33,3868,3062,618,76,7504,3678,596,27,3682,2963,551,53
2015-02,7448,3800,605,26,3751,3020,630,60,7602,3832,586,28,3799,3035,591,59
2015-03,7512,3707,162,6,3738,747,175,20,7538,3663,134,8,3812,762,160,10
2015-04,7491,3733,138,9,3721,756,147,11,7559,3836,164,13,3829,755,148,13


In [6]:
df_pivot.droplevel(1, axis=1)

gender,Female,Female,Female,Female,Female,Female,Female,Female,Male,Male,Male,Male,Male,Male,Male,Male
page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
2015-01,7546,3851,625,33,3868,3062,618,76,7504,3678,596,27,3682,2963,551,53
2015-02,7448,3800,605,26,3751,3020,630,60,7602,3832,586,28,3799,3035,591,59
2015-03,7512,3707,162,6,3738,747,175,20,7538,3663,134,8,3812,762,160,10
2015-04,7491,3733,138,9,3721,756,147,11,7559,3836,164,13,3829,755,148,13


In [6]:
df_pivot.columns.levels[0]

Index(['Female', 'Male'], dtype='object', name='gender')

In [7]:
df_pivot.columns.levels[1]

Index(['Desktop', 'Mobile'], dtype='object', name='device')

In [4]:
df_pivot[('Female', 'Desktop')]

page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-01,7546,3851,625,33
2015-02,7448,3800,605,26
2015-03,7512,3707,162,6
2015-04,7491,3733,138,9


In [8]:
for gender in df_pivot.columns.levels[0]:
    for device in df_pivot.columns.levels[1]:
        df_pivot[(gender, device)] = df_pivot[(gender, device)].apply(lambda x: round(x / x[0] * 100, 2), axis=1).copy()
df_pivot  

gender,Female,Female,Female,Female,Female,Female,Female,Female,Male,Male,Male,Male,Male,Male,Male,Male
device,Desktop,Desktop,Desktop,Desktop,Mobile,Mobile,Mobile,Mobile,Desktop,Desktop,Desktop,Desktop,Mobile,Mobile,Mobile,Mobile
page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page
date,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
2015-01,100.0,51.03,8.28,0.44,100.0,79.16,15.98,1.96,100.0,49.01,7.94,0.36,100.0,80.47,14.96,1.44
2015-02,100.0,51.02,8.12,0.35,100.0,80.51,16.8,1.6,100.0,50.41,7.71,0.37,100.0,79.89,15.56,1.55
2015-03,100.0,49.35,2.16,0.08,100.0,19.98,4.68,0.54,100.0,48.59,1.78,0.11,100.0,19.99,4.2,0.26
2015-04,100.0,49.83,1.84,0.12,100.0,20.32,3.95,0.3,100.0,50.75,2.17,0.17,100.0,19.72,3.87,0.34


In [9]:
pd.concat([df_pivot[('Female', 'Desktop')], df_pivot[('Male', 'Desktop')]], axis=1, keys=['Female', 'Male'])

Unnamed: 0_level_0,Female,Female,Female,Female,Male,Male,Male,Male
page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page,1_home_page,2_search_page,3_payment_page,4_payment_confirmation_page
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2015-01,100.0,51.03,8.28,0.44,100.0,49.01,7.94,0.36
2015-02,100.0,51.02,8.12,0.35,100.0,50.41,7.71,0.37
2015-03,100.0,49.35,2.16,0.08,100.0,48.59,1.78,0.11
2015-04,100.0,49.83,1.84,0.12,100.0,50.75,2.17,0.17


In [4]:
df[3:5]

Unnamed: 0,ID,page,date,device,gender
3,290784,1_home_page,2015-03-14,Desktop,Male
4,639104,1_home_page,2015-01-03,Desktop,Female


In [2]:
tmp = pd.DataFrame({'a': [[1,2,3], [11, 22, 33], [111, 222, 333]]})
tmp

Unnamed: 0,a
0,"[1, 2, 3]"
1,"[11, 22, 33]"
2,"[111, 222, 333]"


In [3]:
tmp = tmp['a'].apply(lambda x: pd.Series(x))
tmp

Unnamed: 0,0,1,2
0,1,2,3
1,11,22,33
2,111,222,333


In [4]:
tmp.sort_values([0, 2], ascending=(True, False))

Unnamed: 0,0,1,2
0,1,2,3
1,11,22,33
2,111,222,333


In [5]:
tmp = tmp.T.unstack().reset_index(level=1, drop=True).to_frame().rename({0: 'a'}, axis=1)
tmp

Unnamed: 0,a
0,1
0,2
0,3
1,11
1,22
1,33
2,111
2,222
2,333


В обратную сторону

In [7]:
tmp = tmp.reset_index().rename({'index': 'my_col'}, axis=1)
tmp.head()

Unnamed: 0,my_col,a
0,0,1
1,0,2
2,0,3
3,1,11
4,1,22


In [8]:
tmp.groupby('my_col').agg(lambda x: list(x))

Unnamed: 0_level_0,a
my_col,Unnamed: 1_level_1
0,"[1, 2, 3]"
1,"[11, 22, 33]"
2,"[111, 222, 333]"


In [26]:
def func(x):
    return list(x)
tmp.groupby('my_col').agg(func)

Unnamed: 0_level_0,a
my_col,Unnamed: 1_level_1
0,"[1, 2, 3]"
1,"[11, 22, 33]"
2,"[111, 222, 333]"


In [3]:
pdd = pd.DataFrame([1,2,3], index=['r1', 'r1', 'r3'], columns=['A'])
pdd

Unnamed: 0,A
r1,1
r1,2
r3,3


In [8]:
pdd['A']

r1    1
r1    2
r3    3
Name: A, dtype: int64

In [None]:
pdd.columns = ['B']
pdd.index = ['a', 'b', 3]
pdd

In [94]:
df = df.drop('date', axis=1)
df.head()

Unnamed: 0,ID,page,device,gender
0,313593,1_home_page,Desktop,Female
1,468315,1_home_page,Desktop,Male
2,264005,1_home_page,Desktop,Female
3,290784,1_home_page,Desktop,Male
4,639104,1_home_page,Desktop,Female


In [93]:
new_index = ['row1', 'row2'] + df.index.to_list()
new_columns = df.columns[:2].to_list() + ['my_col1', 'my_col2'] + df.columns[2:].to_list()

In [95]:
df.reindex(index=new_index, fill_value=0, columns=new_columns)

Unnamed: 0,ID,page,my_col1,my_col2,date,device,gender
row1,0,0,0,0,0,0,0
row2,0,0,0,0,0,0,0
0,313593,1_home_page,0,0,0,Desktop,Female
1,468315,1_home_page,0,0,0,Desktop,Male
2,264005,1_home_page,0,0,0,Desktop,Female
...,...,...,...,...,...,...,...
142077,397473,4_payment_confirmation_page,0,0,0,Mobile,Female
142078,860829,4_payment_confirmation_page,0,0,0,Mobile,Female
142079,371291,4_payment_confirmation_page,0,0,0,Mobile,Female
142080,263707,4_payment_confirmation_page,0,0,0,Mobile,Female


In [43]:
df.index = df.device
df.head()

Unnamed: 0_level_0,device,page,gender,ID
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
313593,313593,1_home_page,Desktop,Female
468315,468315,1_home_page,Desktop,Male
264005,264005,1_home_page,Desktop,Female
290784,290784,1_home_page,Desktop,Male
639104,639104,1_home_page,Desktop,Female


У текстовых срезов правый конец включается

In [46]:
df.loc[:, 'page':'gender']

Unnamed: 0_level_0,page,gender
device,Unnamed: 1_level_1,Unnamed: 2_level_1
313593,1_home_page,Desktop
468315,1_home_page,Desktop
264005,1_home_page,Desktop
290784,1_home_page,Desktop
639104,1_home_page,Desktop
...,...,...
397473,4_payment_confirmation_page,Mobile
860829,4_payment_confirmation_page,Mobile
371291,4_payment_confirmation_page,Mobile
263707,4_payment_confirmation_page,Mobile


In [None]:
pdd[['C', 'D']] = pd.DataFrame([[11,111], [22, 222], [33, 333]], index=['a', 'b', 3])
pdd


In [54]:
pdd.loc['a':'b', 'C':'D']

Unnamed: 0,C,D
a,11,111
b,22,222


In [55]:
pdd.loc[['a', 3], ['B', 'D']]

Unnamed: 0,B,D
a,1,111
3,3,333


In [56]:
pdd.loc['a':'b', ['B', 'D']]

Unnamed: 0,B,D
a,1,111
b,2,222


In [3]:
df[['col1', 'col2', 'col3', 'col4']] = 1, 2, 3, 4
df.head()

Unnamed: 0,ID,page,date,device,gender,col1,col2,col3,col4
0,313593,1_home_page,2015-02-26,Desktop,Female,1,2,3,4
1,468315,1_home_page,2015-02-21,Desktop,Male,1,2,3,4
2,264005,1_home_page,2015-03-25,Desktop,Female,1,2,3,4
3,290784,1_home_page,2015-03-14,Desktop,Male,1,2,3,4
4,639104,1_home_page,2015-01-03,Desktop,Female,1,2,3,4


In [97]:
df.loc[:, 'col1':'col3'].apply(np.log).head()

Unnamed: 0,col1,col2,col3
0,0.0,0.693147,1.098612
1,0.0,0.693147,1.098612
2,0.0,0.693147,1.098612
3,0.0,0.693147,1.098612
4,0.0,0.693147,1.098612


In [69]:
df.loc[:, 'col1':'col3'].mean(axis=0).head()

col1    1.0
col2    2.0
col3    3.0
dtype: float64

In [73]:
df.loc[:, 'col1':'col3'].mean(axis=1).head()

device
313593    2.0
468315    2.0
264005    2.0
290784    2.0
639104    2.0
dtype: float64

In [75]:
df.loc[:, 'col1':'col3'].sum(axis=0).head()

col1    142082
col2    284164
col3    426246
dtype: int64

In [77]:
df.loc[:, 'col1':'col3'].count(axis=0).head()

col1    142082
col2    142082
col3    142082
dtype: int64

In [78]:
df.loc[:, 'col1':'col3'].count(axis=1).head()

device
313593    3
468315    3
264005    3
290784    3
639104    3
dtype: int64

In [86]:
df.loc[:, 'col1':'col3'].apply(lambda x: x.max() - x.min(), axis=1).head()

device
313593    2
468315    2
264005    2
290784    2
639104    2
dtype: int64

In [89]:
def func(x):
    print(type(x))
df.loc[:, ['col1','col3']].apply(func).head()

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


col1    None
col3    None
dtype: object

groupby создает объект генератор, который генерирует список пар коретежей  
каждый кортеж состоит из уникального значения группы (когда мы группируем, то у нас получаются уникальные значения)  
и датафрейм для этой группы

In [99]:
list(df.groupby('device'))

[('Desktop',
              ID                         page   device  gender  col1  col2  \
  0       313593                  1_home_page  Desktop  Female     1     2   
  1       468315                  1_home_page  Desktop    Male     1     2   
  2       264005                  1_home_page  Desktop  Female     1     2   
  3       290784                  1_home_page  Desktop    Male     1     2   
  4       639104                  1_home_page  Desktop  Female     1     2   
  ...        ...                          ...      ...     ...   ...   ...   
  142065  572199  4_payment_confirmation_page  Desktop    Male     1     2   
  142066  604207  4_payment_confirmation_page  Desktop    Male     1     2   
  142068  779484  4_payment_confirmation_page  Desktop  Female     1     2   
  142074  131772  4_payment_confirmation_page  Desktop    Male     1     2   
  142081  892101  4_payment_confirmation_page  Desktop    Male     1     2   
  
          col3  col4  
  0          3     4  
  

In [100]:
list(df.groupby('device'))[0]

('Desktop',
             ID                         page   device  gender  col1  col2  \
 0       313593                  1_home_page  Desktop  Female     1     2   
 1       468315                  1_home_page  Desktop    Male     1     2   
 2       264005                  1_home_page  Desktop  Female     1     2   
 3       290784                  1_home_page  Desktop    Male     1     2   
 4       639104                  1_home_page  Desktop  Female     1     2   
 ...        ...                          ...      ...     ...   ...   ...   
 142065  572199  4_payment_confirmation_page  Desktop    Male     1     2   
 142066  604207  4_payment_confirmation_page  Desktop    Male     1     2   
 142068  779484  4_payment_confirmation_page  Desktop  Female     1     2   
 142074  131772  4_payment_confirmation_page  Desktop    Male     1     2   
 142081  892101  4_payment_confirmation_page  Desktop    Male     1     2   
 
         col3  col4  
 0          3     4  
 1          3     

Следовательно мы можем перебирать в цикле обект после группировки

In [102]:
for val, df_in in df.groupby('device'):
    print(f'val = {val}')
    print(f'df_in = \n{df_in}')
    break

val = Desktop
df_in = 
            ID                         page   device  gender  col1  col2  \
0       313593                  1_home_page  Desktop  Female     1     2   
1       468315                  1_home_page  Desktop    Male     1     2   
2       264005                  1_home_page  Desktop  Female     1     2   
3       290784                  1_home_page  Desktop    Male     1     2   
4       639104                  1_home_page  Desktop  Female     1     2   
...        ...                          ...      ...     ...   ...   ...   
142065  572199  4_payment_confirmation_page  Desktop    Male     1     2   
142066  604207  4_payment_confirmation_page  Desktop    Male     1     2   
142068  779484  4_payment_confirmation_page  Desktop  Female     1     2   
142074  131772  4_payment_confirmation_page  Desktop    Male     1     2   
142081  892101  4_payment_confirmation_page  Desktop    Male     1     2   

        col3  col4  
0          3     4  
1          3     4  
2

Когда мы после groupby пишем сразу методы или используем agg,  
то мы применяем этот метод или аггрегацию отдельно к каждому датафрейму для каждого значения группы

In [105]:
df.groupby('device').sum()

Unnamed: 0_level_0,ID,col1,col2,col3,col4
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Desktop,46573967322,93460,186920,280380,373840
Mobile,24239678005,48622,97244,145866,194488


In [113]:
df.groupby('device').agg('sum')

Unnamed: 0_level_0,ID,col1,col2,col3,col4
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Desktop,46573967322,93460,186920,280380,373840
Mobile,24239678005,48622,97244,145866,194488


In [111]:
df.groupby('device').agg({'col1': 'sum'})

Unnamed: 0_level_0,col1
device,Unnamed: 1_level_1
Desktop,93460
Mobile,48622


In [110]:
df.groupby('device').agg(my_sum=('col1', 'sum'))

Unnamed: 0_level_0,my_sum
device,Unnamed: 1_level_1
Desktop,93460
Mobile,48622


In [120]:
def func(x):
    print(type(x), ' ', x.name)
df.groupby('device').agg(func)

<class 'pandas.core.series.Series'>   ID
<class 'pandas.core.series.Series'>   ID
<class 'pandas.core.series.Series'>   page
<class 'pandas.core.series.Series'>   page
<class 'pandas.core.series.Series'>   gender
<class 'pandas.core.series.Series'>   gender
<class 'pandas.core.series.Series'>   col1
<class 'pandas.core.series.Series'>   col1
<class 'pandas.core.series.Series'>   col2
<class 'pandas.core.series.Series'>   col2
<class 'pandas.core.series.Series'>   col3
<class 'pandas.core.series.Series'>   col3
<class 'pandas.core.series.Series'>   col4
<class 'pandas.core.series.Series'>   col4


Unnamed: 0_level_0,ID,page,gender,col1,col2,col3,col4
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,,,,,,,
Mobile,,,,,,,


In [139]:
def func(x):
    if x.name in ['ID', 'page', 'gender']:
        return x.value_counts()[0]
    else:
        return x.sum()
df.groupby('device').agg(func)

Unnamed: 0_level_0,ID,page,gender,col1,col2,col3,col4
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,46573967322,60200,46768,93460,186920,280380,373840
Mobile,24239678005,30200,24400,48622,97244,145866,194488


In [142]:

def func(x):
    if x.name in ['ID', 'page', 'gender']:
        return x.value_counts()[0]
    else:
        return x.sum()
df.groupby('device').agg(
    ID_mode=('ID', func)
    , page_mode=('page', func)
    , gender_mode=('gender', func)
    , col1_sum=('col1', func)
    , col2_sum=('col2', func)
    , col3_sum=('col3', func)
    
)

Unnamed: 0_level_0,ID_mode,page_mode,gender_mode,col1_sum,col2_sum,col3_sum
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Desktop,46573967322,60200,46768,93460,186920,280380
Mobile,24239678005,30200,24400,48622,97244,145866


In [4]:
def func(x):
    print(type(x), ' ', x.name)
df.groupby('device').agg(new_col=('col1', func), new_col2=('col2', pd.Series.mode))

<class 'pandas.core.series.Series'>   col1
<class 'pandas.core.series.Series'>   col1


Unnamed: 0_level_0,new_col,new_col2
device,Unnamed: 1_level_1,Unnamed: 2_level_1
Desktop,,2
Mobile,,2


In [5]:
df.groupby('device')['col1'].agg(agg_col1='mean', agg_col2='median', agg_col3='sum')

Unnamed: 0_level_0,agg_col1,agg_col2,agg_col3
device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Desktop,1.0,1.0,93460
Mobile,1.0,1.0,48622


In [143]:
df.head()           

Unnamed: 0,ID,page,device,gender,col1,col2,col3,col4
0,313593,1_home_page,Desktop,Female,1,2,3,4
1,468315,1_home_page,Desktop,Male,1,2,3,4
2,264005,1_home_page,Desktop,Female,1,2,3,4
3,290784,1_home_page,Desktop,Male,1,2,3,4
4,639104,1_home_page,Desktop,Female,1,2,3,4


In [147]:
df_reindex = df.set_index(['device', 'gender', 'page'])
df_reindex.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ID,col1,col2,col3,col4
device,gender,page,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,Female,1_home_page,313593,1,2,3,4
Desktop,Male,1_home_page,468315,1,2,3,4
Desktop,Female,1_home_page,264005,1,2,3,4
Desktop,Male,1_home_page,290784,1,2,3,4
Desktop,Female,1_home_page,639104,1,2,3,4


In [150]:
df_reindex.index[:5]

MultiIndex([('Desktop', 'Female', '1_home_page'),
            ('Desktop',   'Male', '1_home_page'),
            ('Desktop', 'Female', '1_home_page'),
            ('Desktop',   'Male', '1_home_page'),
            ('Desktop', 'Female', '1_home_page')],
           names=['device', 'gender', 'page'])

In [155]:
df_reindex.loc['Desktop'].head()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,col1,col2,col3,col4
gender,page,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,1_home_page,313593,1,2,3,4
Male,1_home_page,468315,1,2,3,4
Female,1_home_page,264005,1,2,3,4
Male,1_home_page,290784,1,2,3,4
Female,1_home_page,639104,1,2,3,4


In [183]:
df_reindex.loc[['Desktop']].head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ID,col1,col2,col3,col4
device,gender,page,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,Female,1_home_page,313593,1,2,3,4
Desktop,Male,1_home_page,468315,1,2,3,4
Desktop,Female,1_home_page,264005,1,2,3,4
Desktop,Male,1_home_page,290784,1,2,3,4
Desktop,Female,1_home_page,639104,1,2,3,4


In [159]:
df_reindex.loc['Desktop', 'Male'].head()

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,ID,col1,col2,col3,col4
page,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1_home_page,468315,1,2,3,4
1_home_page,290784,1,2,3,4
1_home_page,943143,1,2,3,4
1_home_page,729374,1,2,3,4
1_home_page,899940,1,2,3,4


In [164]:
df_reindex.loc['Desktop'].loc['Male'].head()

Unnamed: 0_level_0,ID,col1,col2,col3,col4
page,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1_home_page,468315,1,2,3,4
1_home_page,290784,1,2,3,4
1_home_page,943143,1,2,3,4
1_home_page,729374,1,2,3,4
1_home_page,899940,1,2,3,4


In [174]:
df_reindex.loc[(['Desktop', 'Mobile'], ['Male', 'Female'], '1_home_page')]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ID,col1,col2,col3,col4
device,gender,page,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,Male,1_home_page,468315,1,2,3,4
Desktop,Male,1_home_page,290784,1,2,3,4
Desktop,Male,1_home_page,943143,1,2,3,4
Desktop,Male,1_home_page,729374,1,2,3,4
Desktop,Male,1_home_page,899940,1,2,3,4
...,...,...,...,...,...,...,...
Mobile,Female,1_home_page,787726,1,2,3,4
Mobile,Female,1_home_page,778498,1,2,3,4
Mobile,Female,1_home_page,527712,1,2,3,4
Mobile,Female,1_home_page,836673,1,2,3,4


In [180]:
df_reindex.reset_index(level=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,gender,ID,col1,col2,col3,col4
device,page,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,1_home_page,Female,313593,1,2,3,4
Desktop,1_home_page,Male,468315,1,2,3,4
Desktop,1_home_page,Female,264005,1,2,3,4
Desktop,1_home_page,Male,290784,1,2,3,4
Desktop,1_home_page,Female,639104,1,2,3,4
...,...,...,...,...,...,...,...
Mobile,4_payment_confirmation_page,Female,397473,1,2,3,4
Mobile,4_payment_confirmation_page,Female,860829,1,2,3,4
Mobile,4_payment_confirmation_page,Female,371291,1,2,3,4
Mobile,4_payment_confirmation_page,Female,263707,1,2,3,4


In [181]:
df_reindex.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ID,col1,col2,col3,col4
device,gender,page,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,Female,1_home_page,313593,1,2,3,4
Desktop,Female,1_home_page,264005,1,2,3,4
Desktop,Female,1_home_page,639104,1,2,3,4
Desktop,Female,1_home_page,223223,1,2,3,4
Desktop,Female,1_home_page,819741,1,2,3,4
...,...,...,...,...,...,...,...
Mobile,Male,4_payment_confirmation_page,169165,1,2,3,4
Mobile,Male,4_payment_confirmation_page,211983,1,2,3,4
Mobile,Male,4_payment_confirmation_page,436153,1,2,3,4
Mobile,Male,4_payment_confirmation_page,86629,1,2,3,4


In [182]:
df_reindex.sort_index(level=2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ID,col1,col2,col3,col4
device,gender,page,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Desktop,Female,1_home_page,313593,1,2,3,4
Desktop,Female,1_home_page,264005,1,2,3,4
Desktop,Female,1_home_page,639104,1,2,3,4
Desktop,Female,1_home_page,223223,1,2,3,4
Desktop,Female,1_home_page,819741,1,2,3,4
...,...,...,...,...,...,...,...
Mobile,Male,4_payment_confirmation_page,169165,1,2,3,4
Mobile,Male,4_payment_confirmation_page,211983,1,2,3,4
Mobile,Male,4_payment_confirmation_page,436153,1,2,3,4
Mobile,Male,4_payment_confirmation_page,86629,1,2,3,4


# pipe

https://pdpipe.github.io/pdpipe/doc/pdpipe/

Три основных инструмента: pipe, assign и query.

In [None]:
!pip install pdpipe

In [None]:
import pdpipe as pdp

In [None]:
If you have
>>> func(g(h(df), arg1=a), arg2=b, arg3=c)  # doctest: +SKIP
You can write

>>> (df.pipe(h)
...    .pipe(g, arg1=a)
...    .pipe(func, arg2=b, arg3=c)
... )  # doctest: +SKIP

In [4]:
df.head()

Unnamed: 0,ID,page,date,device,gender
0,313593,1_home_page,2015-02-26,Desktop,Female
1,468315,1_home_page,2015-02-21,Desktop,Male
2,264005,1_home_page,2015-03-25,Desktop,Female
3,290784,1_home_page,2015-03-14,Desktop,Male
4,639104,1_home_page,2015-01-03,Desktop,Female


In [6]:
# function to find mean
def f1(dataframe, col):
   
    # groups the data by a column and 
    # returns the mean age per group
    return dataframe.groupby(col).count()
   
# function to convert to uppercase
def f2(dataframe):
   
    # Converts all the column names into uppercase
    dataframe.columns = dataframe.columns.str.upper()
     
    # And returns them
    return dataframe  

In [7]:
pipeline = df.pipe(f1, col='gender').pipe(f2)

In [8]:
pipeline

Unnamed: 0_level_0,ID,PAGE,DATE,DEVICE
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,71092,71092,71092,71092
Male,70990,70990,70990,70990


In [10]:
df.head()

Unnamed: 0,ID,page,date,device,gender
0,313593,1_home_page,2015-02-26,Desktop,Female
1,468315,1_home_page,2015-02-21,Desktop,Male
2,264005,1_home_page,2015-03-25,Desktop,Female
3,290784,1_home_page,2015-03-14,Desktop,Male
4,639104,1_home_page,2015-01-03,Desktop,Female


In [None]:
df.gender.str.c

In [20]:
df.assign(
    new_col1 = df.ID * 2 + 1
    , newcol2 = lambda _df: _df['page'].str.upper()
    , new_col3 = 'pandas'
    # если в названии новой колонки нужен пробел, то используем словарь
    , **{"new col4": 'pipe'}
).head()

Unnamed: 0,ID,page,date,device,gender,new_col1,newcol2,new_col3,new col4
0,313593,1_home_page,2015-02-26,Desktop,Female,627187,1_HOME_PAGE,pandas,pipe
1,468315,1_home_page,2015-02-21,Desktop,Male,936631,1_HOME_PAGE,pandas,pipe
2,264005,1_home_page,2015-03-25,Desktop,Female,528011,1_HOME_PAGE,pandas,pipe
3,290784,1_home_page,2015-03-14,Desktop,Male,581569,1_HOME_PAGE,pandas,pipe
4,639104,1_home_page,2015-01-03,Desktop,Female,1278209,1_HOME_PAGE,pandas,pipe


In [23]:
df.query("gender == 'Female'").head()

Unnamed: 0,ID,page,date,device,gender
0,313593,1_home_page,2015-02-26,Desktop,Female
2,264005,1_home_page,2015-03-25,Desktop,Female
4,639104,1_home_page,2015-01-03,Desktop,Female
6,708793,1_home_page,2015-04-24,Mobile,Female
8,417894,1_home_page,2015-04-02,Mobile,Female


In [24]:
df.query("ID.isin([468315, 290784])").head()

Unnamed: 0,ID,page,date,device,gender
1,468315,1_home_page,2015-02-21,Desktop,Male
3,290784,1_home_page,2015-03-14,Desktop,Male


query отлично использовать, когда нам нужно что-то сделтаь с фреймом и потом выбрать удовлетворядщие условию строки и   
и при этом в условии нам нужно использовать переменные

In [25]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : [2, 2, 2, 7, 1, 5],
    'user_id' : [1, 2, 3, 4, 5, 6],
})

Например, у нас для каждого уникального значения в col1 должно быть одно и то же значение в col2  
проверим это

In [30]:
df.groupby('col1')[['col2']].nunique().query('col2 > 1')

Unnamed: 0_level_0,col2
col1,Unnamed: 1_level_1
y,3


where заменяет на nan значения, где False  
и заполнитель уже заполняет эти False

In [28]:
df.where(df.gender == 'Male', 7).head()

Unnamed: 0,ID,page,date,device,gender
0,7,7,7,7,7
1,468315,1_home_page,2015-02-21 00:00:00,Desktop,Male
2,7,7,7,7,7
3,290784,1_home_page,2015-03-14 00:00:00,Desktop,Male
4,7,7,7,7,7


Проще запонить, что mask это инверсия where  
mask ставить nan, где условие Тrue  
и потом их заполняет заполнителем

In [29]:
df.mask(df.gender == 'Male').head()

Unnamed: 0,ID,page,date,device,gender
0,313593.0,1_home_page,2015-02-26,Desktop,Female
1,,,NaT,,
2,264005.0,1_home_page,2015-03-25,Desktop,Female
3,,,NaT,,
4,639104.0,1_home_page,2015-01-03,Desktop,Female


In [30]:
df.mask(df.gender == 'Male', 7).head()

Unnamed: 0,ID,page,date,device,gender
0,313593,1_home_page,2015-02-26 00:00:00,Desktop,Female
1,7,7,7,7,7
2,264005,1_home_page,2015-03-25 00:00:00,Desktop,Female
3,7,7,7,7,7
4,639104,1_home_page,2015-01-03 00:00:00,Desktop,Female


In [36]:
df.ID.where(df.gender == 'Male', -df.ID).head()

0   -313593
1    468315
2   -264005
3    290784
4   -639104
Name: ID, dtype: int64

# Add column level <a class="anchor" id="add-column-level"></a>

In [192]:
df = pd.DataFrame(index=list('abcde'), data={'A': range(5), 'B': range(5), 'C': range(5), 'D': range(5)})
df

Unnamed: 0,A,B,C,D
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


In [193]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Если имеем только один уроверь

In [194]:
df.columns = [df.columns, ['AA', 'BB', 'AC', 'AA']]
df

Unnamed: 0_level_0,A,B,C,D
Unnamed: 0_level_1,AA,BB,AC,AA
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


In [195]:
df.columns

MultiIndex([('A', 'AA'),
            ('B', 'BB'),
            ('C', 'AC'),
            ('D', 'AA')],
           )

Если уровней не 1, то писать df.columns нельзя,  
так как это уже мульти, но можно вручную устанавливать любые значения в индексе

In [201]:
df.columns = [['A', 'B', 'C', 'D'], ['AA', 'AA', 'CC', 'DD']]
df

Unnamed: 0_level_0,A,B,C,D
Unnamed: 0_level_1,AA,AA,CC,DD
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


In [225]:
df.columns = [
        ['A', 'A', 'C', 'D']
        , ['AC', 'AA', 'AA', 'AC']
        , [1, 2 ,3, 4]
]
df

Unnamed: 0_level_0,A,A,C,D
Unnamed: 0_level_1,AC,AA,AA,AC
Unnamed: 0_level_2,1,2,3,4
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


In [228]:
df.index = [
    [11, 22, 33, 44, 55]
    , ['a', 'b', 'c', 'd', 'e']
    , ['aa', 'bb', 'cc', 'dd', 'ee']
]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,AA,AA,1,11
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,CA,CA,2,22
Unnamed: 0_level_2,Unnamed: 1_level_2,Unnamed: 2_level_2,F,T,3,33
Unnamed: 0_level_3,Unnamed: 1_level_3,Unnamed: 2_level_3,P,P,4,44
Unnamed: 0_level_4,Unnamed: 1_level_4,Unnamed: 2_level_4,O,O,5,55
11,a,aa,0,0,0,0
22,b,bb,1,1,1,1
33,c,cc,2,2,2,2
44,d,dd,3,3,3,3
55,e,ee,4,4,4,4


Если уже мультииндекс, то можно

In [204]:
df.columns = df.columns.set_levels(['AA', 'BB', 'AC', 'AB'], level=0)
df

Unnamed: 0_level_0,AA,BB,AC,AB
Unnamed: 0_level_1,AA,AA,CC,DD
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


In [205]:
df.swaplevel(0, 1, 1)

Unnamed: 0_level_0,AA,AA,CC,DD
Unnamed: 0_level_1,AA,BB,AC,AB
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


In [226]:
multi = [('AA', 'CA', 'F', 'P', 'O')
         , ('AA', 'CA', 'T', 'P', 'O')
         , (1, 2, 3, 4, 5)
         , (11, 22, 33, 44, 55)]
df.columns = pd.MultiIndex.from_tuples(multi)
df

Unnamed: 0_level_0,AA,AA,1,11
Unnamed: 0_level_1,CA,CA,2,22
Unnamed: 0_level_2,F,T,3,33
Unnamed: 0_level_3,P,P,4,44
Unnamed: 0_level_4,O,O,5,55
a,0,0,0,0
b,1,1,1,1
c,2,2,2,2
d,3,3,3,3
e,4,4,4,4


# Stack <a class="anchor" id="stack"></a>

In [256]:
import pandas as pd
import numpy as np
from random import randint, sample
from itertools import combinations
tmp = 'abcdefghij'
a = [' '.join(sample(tmp, randint(2,9))) for _ in range(9)]
id = [i for i in range(11,100,11)]
df = pd.DataFrame({'id': id, 'desc': a})
df

Unnamed: 0,id,desc
0,11,a c
1,22,g h a f i j b
2,33,h b i g c j e a d
3,44,i c
4,55,a c e i
5,66,h c i g
6,77,f c a b e g
7,88,f h
8,99,h a e


In [257]:
# создание списка пар различных товаров из списка покупок в чеке
df.desc = df.desc.map(lambda x: list(combinations(x.split(), 2)))
 
# количество чеков
df['cnt'] = 1

In [236]:
df

Unnamed: 0,id,desc,cnt
0,11,"[(f, i), (f, e), (f, a), (f, b), (f, d), (f, j...",1
1,22,"[(b, a)]",1
2,33,"[(c, e), (c, a), (c, g), (e, a), (e, g), (a, g)]",1
3,44,"[(e, d), (e, h), (e, a), (e, b), (e, f), (e, j...",1
4,55,"[(h, b), (h, c), (h, g), (h, e), (h, d), (h, i...",1
5,66,"[(j, i), (j, h), (j, c), (j, b), (j, e), (j, a...",1
6,77,"[(a, f), (a, d), (a, b), (a, j), (f, d), (f, b...",1
7,88,"[(h, f), (h, a), (h, d), (h, e), (h, g), (h, b...",1
8,99,"[(f, i), (f, d), (f, j), (f, b), (f, e), (i, d...",1


In [258]:
# "развертывание" списка в строке по строкам фрейма
def func(x):
    new_cols = ['id'] + [f'col_{i}' for i in range(len(x['desc']))] + ['cnt']
    new_series = [x['id']] + x['desc'] + [x['cnt']]
    return pd.Series(new_series, index=new_cols)
df = df.apply(func, axis=1)
df.head()



Unnamed: 0,cnt,col_0,col_1,col_10,col_11,col_12,col_13,col_14,col_15,col_16,...,col_33,col_34,col_35,col_4,col_5,col_6,col_7,col_8,col_9,id
0,1,"(a, c)",,,,,,,,,...,,,,,,,,,,11
1,1,"(g, h)","(g, a)","(h, b)","(a, f)","(a, i)","(a, j)","(a, b)","(f, i)","(f, j)",...,,,,"(g, j)","(g, b)","(h, a)","(h, f)","(h, i)","(h, j)",22
2,1,"(h, b)","(h, i)","(b, c)","(b, j)","(b, e)","(b, a)","(b, d)","(i, g)","(i, c)",...,"(e, a)","(e, d)","(a, d)","(h, j)","(h, e)","(h, a)","(h, d)","(b, i)","(b, g)",33
3,1,"(i, c)",,,,,,,,,...,,,,,,,,,,44
4,1,"(a, c)","(a, e)",,,,,,,,...,,,,"(c, i)","(e, i)",,,,,55


In [259]:
df = df.set_index(['cnt', 'id'], append=True)
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,col_0,col_1,col_10,col_11,col_12,col_13,col_14,col_15,col_16,col_17,...,col_32,col_33,col_34,col_35,col_4,col_5,col_6,col_7,col_8,col_9
Unnamed: 0_level_1,cnt,id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
0,1,11,"(a, c)",,,,,,,,,,...,,,,,,,,,,
1,1,22,"(g, h)","(g, a)","(h, b)","(a, f)","(a, i)","(a, j)","(a, b)","(f, i)","(f, j)","(f, b)",...,,,,,"(g, j)","(g, b)","(h, a)","(h, f)","(h, i)","(h, j)"
2,1,33,"(h, b)","(h, i)","(b, c)","(b, j)","(b, e)","(b, a)","(b, d)","(i, g)","(i, c)","(i, j)",...,"(j, d)","(e, a)","(e, d)","(a, d)","(h, j)","(h, e)","(h, a)","(h, d)","(b, i)","(b, g)"
3,1,44,"(i, c)",,,,,,,,,,...,,,,,,,,,,
4,1,55,"(a, c)","(a, e)",,,,,,,,,...,,,,,"(c, i)","(e, i)",,,,


In [261]:
df = df.stack()
df.head()

   cnt  id        
0  1    11  col_0     (a, c)
1  1    22  col_0     (g, h)
            col_1     (g, a)
            col_10    (h, b)
            col_11    (a, f)
dtype: object

In [267]:
df = df.reset_index(level=3, drop=True).reset_index('cnt').set_index(0, append=True)
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,cnt
Unnamed: 0_level_1,id,0,Unnamed: 3_level_1
0,11,"(a, c)",1
1,22,"(g, h)",1
1,22,"(g, a)",1
1,22,"(h, b)",1
1,22,"(a, f)",1


In [270]:
df = df.unstack(level=-1, fill_value=0)
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt,cnt
Unnamed: 0_level_1,Unnamed: 1_level_1,"(a, b)","(a, c)","(a, d)","(a, e)","(a, f)","(a, g)","(a, i)","(a, j)","(b, a)","(b, c)",...,"(i, b)","(i, c)","(i, d)","(i, e)","(i, g)","(i, j)","(j, a)","(j, b)","(j, d)","(j, e)"
Unnamed: 0_level_2,id,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
0,11,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,22,1,0,0,0,1,0,1,1,0,0,...,1,0,0,0,0,1,0,1,0,0
2,33,0,0,1,0,0,0,0,0,1,1,...,0,1,1,1,1,1,1,0,1,1
3,44,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
4,55,0,1,0,1,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [272]:
df.sum(axis=0).head()

cnt  (a, b)    2
     (a, c)    2
     (a, d)    1
     (a, e)    3
     (a, f)    1
dtype: int64

# cumulitive sum after groupby <a class="anchor" id="cum-sum-after-groupby"></a>


In [37]:
data = [[1, 8, 2], [1, 2, 5], [2, 6, 9]]
df = pd.DataFrame(data, columns=["a", "b", "c"],
                index=["fox", "gorilla", "lion"])
df

Unnamed: 0,a,b,c
fox,1,8,2
gorilla,1,2,5
lion,2,6,9


Когда делаем cumsum  
то пропадает столбец, по которому группируем  
поэтому, если нужно его сохранить, то сначала его нужно сделать индексом  
либо указать после группировки

In [38]:
df.groupby("a").cumsum()

Unnamed: 0,b,c
fox,8,2
gorilla,10,7
lion,6,9


In [39]:
# df.groupby("a").groups
df.groupby("a")[df.columns].cumsum()

Unnamed: 0,a,b,c
fox,1,8,2
gorilla,2,10,7
lion,2,6,9


In [26]:
df.set_index('a', append=True).groupby("a").cumsum()

Unnamed: 0_level_0,Unnamed: 1_level_0,b,c
Unnamed: 0_level_1,a,Unnamed: 2_level_1,Unnamed: 3_level_1
fox,1,8,2
gorilla,1,10,7
lion,2,6,9


In [2]:
df = pd.DataFrame({'col1' : ['A', 'B', 'A', 'A', 'B'], 'col2' : ['D', 'C', 'C', 'C', 'D'], 'col3' : [1, 2, 3, 4, 5]})
df

Unnamed: 0,col1,col2,col3
0,A,D,1
1,B,C,2
2,A,C,3
3,A,C,4
4,B,D,5


In [3]:
df = df.set_index(['col1', 'col2']).groupby('col1').cumsum()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,col3
col1,col2,Unnamed: 2_level_1
A,D,1
B,C,2
A,C,4
A,C,8
B,D,7


In [4]:
df.index = df.index.set_names(['first_level', 'second_level'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,col3
first_level,second_level,Unnamed: 2_level_1
A,D,1
B,C,2
A,C,4
A,C,8
B,D,7


In [6]:
df.rename_axis(index={'first_level': 'FIRST_INDEX'})

Unnamed: 0_level_0,Unnamed: 1_level_0,col3
FIRST_INDEX,second_level,Unnamed: 2_level_1
A,D,1
B,C,2
A,C,4
A,C,8
B,D,7


In [11]:
df = df.rename_axis("my_cols", axis="columns")
df

Unnamed: 0_level_0,my_cols,col3
first_level,second_level,Unnamed: 2_level_1
A,D,1
B,C,2
A,C,4
A,C,8
B,D,7


In [13]:
df.rename_axis(columns={'my_cols': 'columns'})

Unnamed: 0_level_0,columns,col3
first_level,second_level,Unnamed: 2_level_1
A,D,1
B,C,2
A,C,4
A,C,8
B,D,7


# Style <a class="anchor" id="style"></a>

In [2]:
df = pd.DataFrame({'col1' : [11, None, 13, 14, 15], 'col2' : [None, 22, 23, 24, 25], 'col3' : [1, 2, 3, 4, None]})
df

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,


Если нужно вывести 2 таблицы рядом

In [4]:
import numpy as np
import pandas as pd   
from IPython.display import display_html 

In [None]:
from IPython.core.display import display, HTML

def display_side_by_side(dfs:list, captions:list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes("style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

In [26]:
df2 = pd.DataFrame({'col1' : [11, None, 13, 14, 15], 'col2' : [None, 22, 23, 24, 25], 'col3' : [1, 2, 3, 4, None]})
space = "\xa0" * 3
df1_styler = df.style.set_table_attributes("style='display:inline'").set_caption('Caption table 1')
df2_styler = df2.style.set_table_attributes("style='display:inline'").set_caption('Caption table 2')
display_html(df1_styler._repr_html_() + space + df2_styler._repr_html_(), raw=True)
display_html(df1_styler._repr_html_() + space + df2_styler._repr_html_(), raw=True)

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,


Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,


In [None]:
display_html(df.style.set_table_attributes("style='display:inline'") + df.info())

Если нужно вывести не просто рядом, а ещё хотим, чтобы подн одним датафреймом был другой

In [14]:
from ipywidgets import widgets, Layout
from IPython import display
import pandas as pd
import numpy as np
import mpld3


# sample data
df1 = pd.DataFrame(np.random.randn(8, 3))
df2 = pd.DataFrame(np.random.randn(8, 3))

# create output widgets
widget1 = widgets.Output()
widget2 = widgets.Output()
widget3 = widgets.Output()

# # render in output widgets
with widget1:
    display.display(df1.style.set_caption('First dataframe'))
    df1.info()
with widget2:
    display.display(df2.style.set_caption('Second dataframe'))
    df1.info()
# with widget3:
    # display.display_html(df1.style.set_table_attributes("style='display:inline'"))
    # display.display_html('<h4>Title</h4>')
   

# widget3 = widgets.HTML(df1.style.set_table_attributes('class="table"').render())
# add some CSS styles to distribute free space
box_layout = Layout(display='flex',
                    flex_flow='row',
                    # justify_content='space-around',
                    width='auto'
                   )
    
# create Horisontal Box container
hbox = widgets.HBox([widget1, widget2], layout=box_layout)

# render hbox
# display.display_html('<h4>Title</h4>', raw=True)
display.display_markdown('**Bold text**', raw=True)

**Bold text**

График и таблица рядом 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import mpld3
from IPython.display import display_html
from bs4 import BeautifulSoup
import inspect

plt.ioff() # prevent plots from being displayed in the output of Jupyter Notebook

def getFig():
    iris_df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
    fig, ax = plt.subplots()
    for species, group in iris_df.groupby('species'):
        ax.scatter(group['sepal_length'], group['sepal_width'], label=species)
    ax.set_xlabel('Sepal Length')
    ax.set_ylabel('Sepal Width')
    ax.legend() 
    return fig
    
def get_html_df(caption="iris_df.groupby('species').mean()"):
    iris_df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
    html_df = iris_df.groupby('species')[['sepal_length','sepal_width']].mean()\
    .style.set_table_attributes("style='display:inline'")\
    .set_caption(caption)._repr_html_()
    return html_df
    
def main(fig,
         term = 3, # 1, 2 or 3,
         head="Plot", file="deleteme.jpg", caption="HTML-repr's caption tag",
         width=300.0, height=300.0
        ):
       
    html_plot = main_mpld3(fig, width=width, height=height) 
    
    frame = inspect.currentframe()
    args, _, _, values = inspect.getargvalues(frame)
    kwargs = {arg: values[arg] for arg in args}
    [kwargs.pop(key, None) for key in ["fig", "term"]]
    
    match term:
        case 1:
            mpld3.enable_notebook()
            # html_plot not modified
        case 2:
            html_plot = fig2file2html(plt=plt, **kwargs)
        case 3:
            html_plot = fig2file2html(html_plot=html_plot, **kwargs)
    plt.close()
    return html_plot

def main_mpld3(fig, width, height):
    html_plot = mpld3.fig_to_html(fig)
    # print(html_plot)
    
    html_plot = editHTML(html_plot, width, height)
    # print(html_plot)
    return html_plot

def editHTML(html_plot, width, height):
    soup = BeautifulSoup(html_plot, 'html.parser')
    aux = soup.prettify()

    toMatch = '"width": 640.0, "height": 480.0'
    toReplace = f'"width": {width}, "height": {height}' # shows plot, but not inline
    # toReplace = f'"width": {width}, "height": {height}, "style"="display:inline;"' # NOT shows plot
    # toReplace = f'"width": {width}, "height": {height}, "display"="inline"' # NOT shows plot
    modified_html = aux.replace(toMatch, toReplace)
    
    # no effect to inline
    toMatch = '"drawstyle": "default"'
    toReplace = '"drawstyle": "inline"'
    modified_html = modified_html.replace(toMatch, toReplace)
    
    # no effect to inline
    toMatch = '<style>\n</style>'
    toReplace = ''
    modified_html = modified_html.replace(toMatch, toReplace)
    
    soup = BeautifulSoup(modified_html, 'html.parser')
    aux = soup.prettify()
    
    return aux

def fig2file2html(plt=None, html_plot=None, head="Plot", file="deleteme.jpg", caption="HTML-repr's caption tag",
                 width=300.0, height=300.0):
    if (plt is None) and (html_plot is None):
        return Error
    if plt is not None:
        plt.savefig(file)
        html_img = f'<img src={file} alt="" border=3 height={height} width={width}></img>'
    if html_plot is not None:
        hr = 4*"&nbsp;"
        html_img = hr + html_plot + hr
    
    # <img> --> no inline
    html_plot= html_img.replace("<img", "<img style='display:inline ")
    
    # <div> --> no inline
    html_plot= f"""<div style='display:inline'>
    {html_img}
    </div>
    """
    
    # <table> --> YES inline
    html_plot= f"""<table style='display:inline'>
    <caption>{caption}</caption>
    <tr><th>{head}</th><tr>
    <tr><td>
    {html_img}
    </td></tr>
    </table>
    """
    return html_plot


def test01():
    fig = getFig()
    html_df = get_html_df()
    html_plot = main(fig)
    
    print("2 dfs inline:")
    display_html(html_df + html_df, raw=True) # YES success!
    print("df and plot inline:")
    display_html(html_df + html_plot, raw=True) # inline if term=3 or term=2

def test02():
    fig = getFig()
    html_df = get_html_df(caption="")
    html_plot = main(fig,
                     term = 3, # 1, 2 or 3
                     head="", file="deleteme.jpg", caption="",
                     width=650.0, height=650.0,
                    )
    display_html(html_df + html_plot, raw=True)
#test01()
test02()

In [39]:
df.style.set_caption('caption')

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,


Метод set_table_styles позволяет отформатировать выбранный объект.   
В данном случае нас интересует 'caption' (подпись). В качестве параметра 'props' передаём список,     
где каждый элемент – кортеж формата (параметр, значение). Например, укажем новый цвет ('color') и размер шрифта ('font-size'):  

In [40]:
(df
 .style
 .set_caption('Это название таблицы')
 .set_table_styles([{'selector': 'caption', 
                     'props': [('color', 'green'), ('font-size', '15px')]
                     }])
)

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,


Выделять пропущенные значения можно с помощью highlight_null()

In [41]:
df.style.highlight_null()

Unnamed: 0,col1,col2,col3
0,11.0,,1.0
1,,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,


In [42]:
df = df.fillna(0)

In [43]:
df.style.background_gradient(cmap='RdYlGn')

Unnamed: 0,col1,col2,col3
0,11.0,0.0,1.0
1,0.0,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,0.0


highlight_max – подсвечивает цветом наибольшее значение. Можно применить либо к каждой строке (axis=0/'index'), либо к каждой колонке (axis=1/'columns').

In [44]:
df.style.highlight_max(axis=1)

Unnamed: 0,col1,col2,col3
0,11.0,0.0,1.0
1,0.0,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,0.0


In [45]:
df.style.highlight_max(axis=0, color='green')

Unnamed: 0,col1,col2,col3
0,11.0,0.0,1.0
1,0.0,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,0.0


Визуализировать значения можно прямо в таблице с помощью .bar(). Данный метод принимает несколько аргументов:

subset – колонки, для которых нужно построить небольшой барплот  
color – цвет  
align – выравнивание столбиков (mid – центр ячейки в (max-min)/2; zero – ноль находится в центре ячейки; left – минимальное значение находится в левой части ячейки)

In [46]:
(df.style
.bar(subset=['col3'], color='#67A5EB'))

Unnamed: 0,col1,col2,col3
0,11.0,0.0,1.0
1,0.0,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,0.0


Иногда может понадобиться определенное число знаков после запятой,   
значок валюты, удаление ненужных символов и так далее. Для этого существует метод .format().

In [47]:
df['col4'] = ['as df', 'sa df', 'sad fdas', 'sa dfa', 's df']

В format можно передать словарь с названиями колонок для изменения


In [61]:
import re
(df.style
 .format({'col4': lambda x: x.upper(), 
          'col4': lambda x: re.sub(r'[ /]', '_', x.lower())})
 .highlight_max(subset='col3')
 .format('${:.2f}', subset='col2')
)

Unnamed: 0,col1,col2,col3,col4
0,11.0,$0.00,1.0,as_df
1,0.0,$22.00,2.0,sa_df
2,13.0,$23.00,3.0,sad_fdas
3,14.0,$24.00,4.0,sa_dfa
4,15.0,$25.00,0.0,s_df


Скрыть индекс 

In [52]:
df.style.set_caption('It is caption').hide_index()

col1,col2,col3,col4
11.0,0.0,1.0,as df
0.0,22.0,2.0,sa df
13.0,23.0,3.0,sad fdas
14.0,24.0,4.0,sa dfa
15.0,25.0,0.0,s df


Скрытиь колонку

In [54]:
df.style.hide_columns('col4')

Unnamed: 0,col1,col2,col3
0,11.0,0.0,1.0
1,0.0,22.0,2.0
2,13.0,23.0,3.0
3,14.0,24.0,4.0
4,15.0,25.0,0.0


Еще один полезный метод – set_properties, позволяет более гибко настроить другие параметры отображения.   
Например, выровнять текст по левому краю ('text-align'), сделать фон черным ('background-color'), а текст – оранжевым ('color'):

In [58]:
(df.style.set_caption('Это название таблицы')
 .hide_index()
 .set_table_styles([{
    'selector': 'caption',
    'props': [('color', 'black'),('font-size', '14px')
    ]}])
 .set_properties(**{'text-align': 'left',
                    'background-color': 'black',    
                    'color': 'darkorange'})
)

col1,col2,col3,col4
11.0,0.0,1.0,as df
0.0,22.0,2.0,sa df
13.0,23.0,3.0,sad fdas
14.0,24.0,4.0,sa dfa
15.0,25.0,0.0,s df


# from-list-in-cell-to-new-columns <a class="anchor" id="from-list-in-cell-to-new-columns"></a>

In [4]:
df = pd.DataFrame({'a': [[1,2,3], [2,4], [1]], 'b': [[3], [5,2,4], [7,1]]})
df

Unnamed: 0,a,b
0,"[1, 2, 3]",[3]
1,"[2, 4]","[5, 2, 4]"
2,[1],"[7, 1]"


In [6]:
def func(row):
    res = []
    for index, val in row.items():
        index = [(index, i) for i in range(len(val))]
        res.append(pd.Series(val, index=index))
    return pd.concat(res)
df = df.apply(func, axis=1)
df

Unnamed: 0_level_0,a,a,a,b,b,b
Unnamed: 0_level_1,0,1,2,0,1,2
0,1.0,2.0,3.0,3.0,,
1,2.0,4.0,,5.0,2.0,4.0
2,1.0,,,7.0,1.0,


In [8]:
df.stack().reset_index(-1, drop=True)

Unnamed: 0,a,b
0,1.0,3.0
0,2.0,
0,3.0,
1,2.0,5.0
1,4.0,2.0
1,,4.0
2,1.0,7.0
2,,1.0


# melt (from many columns to one) <a class="anchor" id="melt"></a>

У нас есть колонки, которые мы не хотим менять, их указываем в `id_vars`,  
и у нас есть колонки, которые мы хотим 'расплавить' 
то есть сделать из них одну каетгориальную переменную, в которой названия колонок будут занчения    
Изначально у нас есть, например, 2 колонки для плавки, у которых 2 имени и значения  
имена попадают в одну колонку (указываем в параметре `value_vars`), а значения в другую (колонка будет автоматиче  ски создана)  
имена у этих новых двух колонок можно менять в `var_name='myVarname', value_name='myValname'`  
Также если у нас индекс со значениями, то его нужно сначала сбросить и указать эту колонку в `id_vars`,  
так как индекс у итоговй колонки свой и старый пропадает

In [10]:
df = pd.DataFrame({'A1': {0: 'a', 1: 'b', 2: 'c'},
                   'A2': {0: 'aa', 1: 'bb', 2: 'cc'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})
df

Unnamed: 0,A1,A2,B,C
0,a,aa,1,2
1,b,bb,3,4
2,c,cc,5,6


In [11]:
df.melt(id_vars=['A1', 'A2'], value_vars=['B'])

Unnamed: 0,A1,A2,variable,value
0,a,aa,B,1
1,b,bb,B,3
2,c,cc,B,5


In [10]:
df.melt(id_vars=['A'], value_vars=['B', 'C'])

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


In [12]:
df.melt(id_vars=['A'], value_vars=['B', 'C'],
        var_name='myVarname', value_name='myValname')

Unnamed: 0,A,myVarname,myValname
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


можно сохранить исходный индексы

In [14]:
df.melt(id_vars=['A'], value_vars=['B', 'C'], ignore_index=False)

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
0,a,C,2
1,b,C,4
2,c,C,6


In [15]:
df.columns = [list('ABC'), list('DEF')]
df

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,D,E,F
0,a,1,2
1,b,3,4
2,c,5,6


In [18]:
df.melt(col_level=0, id_vars=['A'], value_vars=['B'])

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [17]:
df.melt(id_vars=[('A', 'D')], value_vars=[('B', 'E')])

Unnamed: 0,"(A, D)",variable_0,variable_1,value
0,a,B,E,1
1,b,B,E,3
2,c,B,E,5


In [12]:
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [13]:
temp = df.melt(id_vars=['A'], value_vars=['B', 'C'], ignore_index=False)
temp

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
0,a,C,2
1,b,C,4
2,c,C,6


Если в pivot_table колонку в `values` указать в квадратных скобках, то будет мультииндекс, то есть название будет уровнем

In [20]:
temp.pivot_table(index='A', columns=['variable'], values=['value'])

Unnamed: 0_level_0,value,value
variable,B,C
A,Unnamed: 1_level_2,Unnamed: 2_level_2
a,1,2
b,3,4
c,5,6


In [21]:
temp.pivot_table(index='A', columns=['variable'], values='value')

variable,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,2
b,3,4
c,5,6


In [29]:
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [9]:
df.append({'A': 'f', 'B': 7, 'C': 9}, ignore_index=True)


Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6
3,f,7,9


iloc нельзя ставить индекс несуществующий  
поэтому чтобы добавить новую строку можно использовать либо   
append, либо loc[новый индекс]

In [30]:
df.loc[3] = ['d', 4, 8]
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6
3,d,4,8


In [33]:
df[df.B.between(3, 5)]

Unnamed: 0,A,B,C
1,b,3,4
2,c,5,6
3,d,4,8


In [32]:
df[df.B.between(3, 5, 'neither')]

Unnamed: 0,A,B,C
3,d,4,8


In [17]:
df = pd.DataFrame({'A': np.random.random(5), 'B': np.random.random(5)})
df

Unnamed: 0,A,B
0,0.175511,0.444826
1,0.382371,0.707147
2,0.135403,0.011961
3,0.07323,0.246665
4,0.177908,0.075272


In [18]:
df.round({'A':2, 'B':3})

Unnamed: 0,A,B
0,0.18,0.445
1,0.38,0.707
2,0.14,0.012
3,0.07,0.247
4,0.18,0.075


In [24]:
df[['A']].shift(2, fill_value='-')

Unnamed: 0,A
0,-
1,-
2,0.175511
3,0.382371
4,0.135403


In [2]:
df = pd.DataFrame({'number': np.random.randint(1, 100, 10)})
df

Unnamed: 0,number
0,70
1,99
2,33
3,41
4,73
5,15
6,98
7,7
8,35
9,31


In [7]:
df['intervals'] = pd.cut(df.number, 10)
df

Unnamed: 0,number,intervals
0,61,"(54.5, 62.8]"
1,73,"(71.1, 79.4]"
2,13,"(12.917, 21.3]"
3,19,"(12.917, 21.3]"
4,86,"(79.4, 87.7]"
5,20,"(12.917, 21.3]"
6,84,"(79.4, 87.7]"
7,93,"(87.7, 96.0]"
8,96,"(87.7, 96.0]"
9,26,"(21.3, 29.6]"


In [8]:
bins=[1, 20, 40, 60, 80, 100]
df['intervals'] = pd.cut(df.number,bins=bins)
df

Unnamed: 0,number,intervals
0,61,"(60, 80]"
1,73,"(60, 80]"
2,13,"(1, 20]"
3,19,"(1, 20]"
4,86,"(80, 100]"
5,20,"(1, 20]"
6,84,"(80, 100]"
7,93,"(80, 100]"
8,96,"(80, 100]"
9,26,"(20, 40]"


In [10]:
labels=['1 to 20', '21 to 40', '41 to 60', '61 to 80', '81 to 100']
bins=[1, 20, 40, 60, 80, 100]
df['intervals'] = pd.cut(df.number,bins=bins, labels=labels)
df

Unnamed: 0,number,intervals
0,61,61 to 80
1,73,61 to 80
2,13,1 to 20
3,19,1 to 20
4,86,81 to 100
5,20,1 to 20
6,84,81 to 100
7,93,81 to 100
8,96,81 to 100
9,26,21 to 40


right меняет края интервалов  
если right = True, то правый включается, а левый нет,    
если False, то наоборо  

In [13]:
bins=[1, 20, 40, 60, 80, 100]
df['intervals'] = pd.cut(df.number,bins=bins, right=True)
df

Unnamed: 0,number,intervals
0,61,"(60, 80]"
1,73,"(60, 80]"
2,13,"(1, 20]"
3,19,"(1, 20]"
4,86,"(80, 100]"
5,20,"(1, 20]"
6,84,"(80, 100]"
7,93,"(80, 100]"
8,96,"(80, 100]"
9,26,"(20, 40]"


qcut разбивает на перцентили, то есть упорядочивает данные и делит на интервалы,  
чтобы в каждом было одинаковое количество элементов и потом получаются границы интервалов  
А обычный cut просто берет размах от макс до мин, делит на равные части, это границы интервалов,  
и теперь распределяет по этим интервалам

qcut нужно все одинаковые элементы отнести в один bin,  
поэтому, если например у нас 5 значений и среди них 2 одинаковых и мы хотим разбить на  
5 частей, то будет ошибка

In [3]:
df = pd.DataFrame({'number': [3, 1, 2, 1, 4]})
df

Unnamed: 0,number
0,3
1,1
2,2
3,1
4,4


In [4]:
pd.qcut(df.number, 5)

ValueError: Bin edges must be unique: array([1. , 1. , 1.6, 2.4, 3.2, 4. ]).
You can drop duplicate edges by setting the 'duplicates' kwarg

нужно сначала отранжировать

In [14]:
df.rank(method='first')

Unnamed: 0,number
0,4.0
1,1.0
2,3.0
3,2.0
4,5.0


In [10]:
pd.qcut(df.number.rank(method='first'), 5)

0    (0.999, 1.8]
1      (1.8, 2.6]
2      (2.6, 3.4]
3      (3.4, 4.2]
4      (4.2, 5.0]
Name: number, dtype: category
Categories (5, interval[float64, right]): [(0.999, 1.8] < (1.8, 2.6] < (2.6, 3.4] < (3.4, 4.2] < (4.2, 5.0]]

In [3]:
df = pd.DataFrame({'number': np.random.randint(1, 100, 10)})
df

Unnamed: 0,number
0,16
1,92
2,25
3,84
4,7
5,60
6,69
7,57
8,99
9,33


In [9]:
pd.qcut(df.number, 5)

0    (6.999, 23.2]
1     (85.6, 99.0]
2     (23.2, 47.4]
3     (63.6, 85.6]
4    (6.999, 23.2]
5     (47.4, 63.6]
6     (63.6, 85.6]
7     (47.4, 63.6]
8     (85.6, 99.0]
9     (23.2, 47.4]
Name: number, dtype: category
Categories (5, interval[float64, right]): [(6.999, 23.2] < (23.2, 47.4] < (47.4, 63.6] < (63.6, 85.6] < (85.6, 99.0]]

rolling это типа скользящее среднее, если мы используем mean  
можем использовать любую функцию вместо mean 
смысл в том, что мы идем в окне последних n значений и считаем по ним значение и вносим в ячейку 
первые n-1 ячеек будут nan, а потом у нас будет скользить окно размером n и считаться статистика  

In [11]:
df = pd.DataFrame({'a': range(20)})
df['rolling'] = df.a.rolling(10).mean().head(20)
df

Unnamed: 0,a,rolling
0,0,
1,1,
2,2,
3,3,
4,4,
5,5,
6,6,
7,7,
8,8,
9,9,4.5


Аналог оконных функций sql

In [41]:
data = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [3, 1, 2, 4, 4, 6]
})

# Здесь добавляете ранги внутри каждой из групп
data['rank'] = data \
    .groupby('key_1', as_index=False)['key_2'] \
    .rank(method='first', ascending=True)
data

Unnamed: 0,key_1,key_2,rank
0,x,3,3.0
1,x,1,1.0
2,x,2,2.0
3,y,4,1.0
4,y,4,2.0
5,y,6,3.0


Если после groupby поставить apply, то туда по очереди придут группы  
Далее с ними можно сделать что угодно, и в зависимотси какие индексы мы вернем из функции  
в apply у нас будет разный результат,  
если мы не изменим индекс, то он будет как был,  
но если мы в каждой группе изменим индекс,  
то в итоговом фрейме у нас будет мультииндекс  
он будет состоять из имени группы и индекса, который мы сделали внутри функции для каждой группы

In [58]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [6, 5, 6, 8, 4, 8],
    'key_3' : [1, 2, 3, 4, 5, 6]
})
group_name = df.key_1.unique()
def func(x):
    print(x)
    return x
df.groupby('key_1').apply(func)

  key_1  key_2  key_3
0     x      6      1
1     x      5      2
2     x      6      3
  key_1  key_2  key_3
3     y      8      4
4     y      4      5
5     y      8      6


Unnamed: 0,key_1,key_2,key_3
0,x,6,1
1,x,5,2
2,x,6,3
3,y,8,4
4,y,4,5
5,y,8,6


In [60]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [6, 5, 6, 8, 4, 8],
    'key_3' : [1, 2, 3, 4, 5, 6]
})
group_name = df.key_1.unique()
def func(x):
    print(x)
    return x.reset_index(drop=True)
df.groupby('key_1').apply(func)

  key_1  key_2  key_3
0     x      6      1
1     x      5      2
2     x      6      3
  key_1  key_2  key_3
3     y      8      4
4     y      4      5
5     y      8      6


Unnamed: 0_level_0,Unnamed: 1_level_0,key_1,key_2,key_3
key_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
x,0,x,6,1
x,1,x,5,2
x,2,x,6,3
y,0,y,8,4
y,1,y,4,5
y,2,y,8,6


In [63]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [6, 5, 6, 8, 4, 8],
    'key_3' : [1, 2, 3, 4, 5, 6]
})
group_name = df.key_1.unique()
def func(x):
    print(x)
    x.index = [1 for el in x.index]
    return x
df.groupby('key_1').apply(func)

  key_1  key_2  key_3
0     x      6      1
1     x      5      2
2     x      6      3
  key_1  key_2  key_3
3     y      8      4
4     y      4      5
5     y      8      6


Unnamed: 0_level_0,Unnamed: 1_level_0,key_1,key_2,key_3
key_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
x,1,x,6,1
x,1,x,5,2
x,1,x,6,3
y,1,y,8,4
y,1,y,4,5
y,1,y,8,6


by in plot

In [9]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [6, 5, 6, 8, 4, 8],
    'key_3' : [1, 2, 3, 4, 5, 6]
})
df

Unnamed: 0,key_1,key_2,key_3
0,x,6,1
1,x,5,2
2,x,6,3
3,y,8,4
4,y,4,5
5,y,8,6


In [None]:
df.key_2.hist(by=df.key_1)

Цветовые палитры

Чтобы уставноить значения по дефолту меняем настройки матплотлиб  
Важно plt.cm для cycle выбирать дискретные

In [63]:
import matplotlib.pyplot as plt
import matplotlib as mpl
plt.rcParams['image.cmap'] = 'viridis'
cmap = mpl.colormaps['viridis']
plt.rcParams['axes.prop_cycle'] = plt.cycler(color=plt.cm.Set3.colors)

In [None]:
plt.plot([1,2,3])

fillna, когда нужно заоплнить не одним значением  
Если мы в fillna передадим фрейм такого же значения, то 
для заополнения возьмуться соответствующие занчения    
Это очень удобно, если мы хотим заполнить пропуски медианой врутри групп    
Мы делаем фрейм с медианами и всталяем в fillna  

In [23]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y'],
    'key_2' : [6, None, 6, 7, 8, 4, None, 3],
    'key_3' : [1, None, 3, 2, None, 5, 6, 9]
})
df

Unnamed: 0,key_1,key_2,key_3
0,x,6.0,1.0
1,x,,
2,x,6.0,3.0
3,x,7.0,2.0
4,y,8.0,
5,y,4.0,5.0
6,y,,6.0
7,y,3.0,9.0


In [26]:
df.fillna(pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y'],
    'key_2' : [6, 111, 6, 7, 8, 4, 222, 3],
    'key_3' : [1, 444, 3, 2, 333, 5, 6, 9]
}))

Unnamed: 0,key_1,key_2,key_3
0,x,6.0,1.0
1,x,111.0,444.0
2,x,6.0,3.0
3,x,7.0,2.0
4,y,8.0,333.0
5,y,4.0,5.0
6,y,222.0,6.0
7,y,3.0,9.0


transform работает как оконная функция в sql  
Эта функция применяет переданную ей функцию к группе и заполняет каждую ячейку в группе этим значением  
без схлопывания  
При расчетах она не учитывает ячейки с null

Важно  
на вход `transform` получает `Series` значений группы и на выходе должна быть Series с таким же размером и  
и количеством элементов.  

In [3]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y'],
    'key_2' : [6, 1, 6, 7, 8, 4, 2, 3],
})
df

Unnamed: 0,key_1,key_2,key_3
0,x,6,1
1,x,1,1
2,x,6,3
3,x,7,2
4,y,8,3
5,y,4,5
6,y,2,6
7,y,3,9


In [4]:
def func(x):
    print(type(x))
key_3_median = df.groupby('key_1')[['key_3']].transform(func)

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [5]:
def func(x):
    print(type(x))
key_3_median = df.groupby('key_1')['key_3'].transform(func)

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [6]:
key_3_median = df.groupby('key_1')['key_3'].transform('median')
key_3_median

0    1.5
1    1.5
2    1.5
3    1.5
4    5.5
5    5.5
6    5.5
7    5.5
Name: key_3, dtype: float64

In [40]:
df = pd.DataFrame({
    'key_1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'key_2' : [2, 9, 6, 7, 1, 5],
})
df.groupby('key_1').mean().sort_values('key_2').style.format({'key_2': '{:.2%}'})

Unnamed: 0_level_0,key_2
key_1,Unnamed: 1_level_1
y,433.33%
x,566.67%


join используется, когда нужно соеденить по индексам,  
особенно когда мульти индекс 

In [13]:
df1 = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : [2, 9, 6, 7, 1, 5],
    'user_id' : [1, 2, 3, 4, 5, 6],
})
df2 = pd.DataFrame({
    'user_id' : [1, 2, 3, 4, 5, 6],
    'col1' : [1, 2, 3, 4, 5, 6],
})

In [14]:
df1

Unnamed: 0,col1,col2,user_id
0,x,2,1
1,x,9,2
2,x,6,3
3,y,7,4
4,y,1,5
5,y,5,6


In [15]:
df1 = df1.set_index(['user_id', 'col1'])
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,col2
user_id,col1,Unnamed: 2_level_1
1,x,2
2,x,9
3,x,6
4,y,7
5,y,1
6,y,5


In [16]:
df2

Unnamed: 0,user_id,col1
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6


In [33]:
df1.merge(df2, on='user_id')

Unnamed: 0,user_id,col2,col1
0,1,2,1
1,2,9,2
2,3,6,3
3,4,7,4
4,5,1,5
5,6,5,6


In [35]:
df1.merge(df2.set_index('user_id'), left_index=True, right_index=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,col2,col1
user_id,col1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,x,2,1
2,x,9,2
3,x,6,3
4,y,7,4
5,y,1,5
6,y,5,6


In [27]:
# так как у нас нет у колонок общих индексов, то нужно указать по какому полю соединяем  
# у второй таблицы возьмется это поле, а у первой индекс
df1.join(df2, on='user_id')

Unnamed: 0_level_0,Unnamed: 1_level_0,col2,user_id,col1
user_id,col1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,x,2,2.0,2.0
2,x,9,3.0,3.0
3,x,6,4.0,4.0
4,y,7,5.0,5.0
5,y,1,6.0,6.0
6,y,5,,


In [28]:
# если у обоих таблиц есть общий индекс, то можно ничего не указывать 
# и в этом случае у нас будет только одни user_id  
# так как они оба индексы и останется только один
df1.join(df2.set_index('user_id'))

Unnamed: 0_level_0,Unnamed: 1_level_0,col2,col1
user_id,col1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,x,2,1
2,x,9,2
3,x,6,3
4,y,7,4
5,y,1,5
6,y,5,6


Изменение типов столбцов

In [2]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : ['2', 9, 6, 7, 1, 5],
    'user_id' : [1, '2', 3, 4, 5, 6],
})
df.dtypes

col1       object
col2       object
user_id    object
dtype: object

In [5]:
dict_types = dict(col1=float
                  , co2_id=int)
df = df.astype(dict_types)
df.dtypes

col1        object
col2       float64
user_id      int32
dtype: object

In [6]:
sys.getsizeof(df)

976

Если нам нужно получить начало месяца или начало недели, то лучше использовать приведение типов следующего вида

In [2]:
import pandas as pd

In [52]:
df = pd.DataFrame({
    'col1' : ['2022-01-04 11:34', '2022-06-01', '2023-05-01', '2024-08-26 10:34']
}, dtype='datetime64[ns]')
df.dtypes

col1    datetime64[ns]
dtype: object

In [7]:
df

Unnamed: 0,col1
0,2022-07-22 11:34:00
1,2022-08-02 12:34:00
2,2022-02-26 11:44:00
3,2022-11-21 14:34:00


Если нужно начало месяца

In [11]:
df.col1.astype('datetime64[M]')

0   2022-01-01
1   2022-08-01
2   2022-02-01
3   2022-11-01
Name: col1, dtype: datetime64[ns]

Если нужно начало недели  
Нужно помнить, что начало недели в начале года перепрыгнет на предыдущий год

ВАЖНО  
начало недели это четверг в этом случае

In [14]:
df.col1.astype('datetime64[W]')

0   2021-12-30
1   2022-07-28
2   2022-02-24
3   2024-08-22
Name: col1, dtype: datetime64[ns]

Если нужно вытащить количество месяцев из timedelta  
важно сначала округлить, так как при деление может вместо 11 получиться 10.91 и чтобы не потерять месяц

In [54]:
pd.Series(((df.col1[2] - df.col1[1]) / np.timedelta64(1, 'M'))).round().astype('int')

0    11
dtype: int32

Можно ещё так получить разность между датами в месяцах

In [58]:
def diff_month(d1, d2):
    return (d1.year - d2.year) * 12 + d1.month - d2.month
diff_month(df.col1[2], df.col1[1])

11

In [None]:
def diff_month(d1, d2):
    return (d1.year - d2.year) * 12 + d1.month - d2.month

Метод expanding() в Pandas позволяет применить функцию к расширяющемуся окну значений.

По мере прохождения DataFrame окно рассматриваемых строк растёт от начала до текущей строки, что позволяет проводить кумулятивные вычисления.

Кроме того, Pandas позволяет указать минимальное количество наблюдений, которое должно быть представлено перед выполнением вычисления. 
Это может быть особенно полезно в ранних строках DataFrame, когда определённые статистики должны быть рассчитаны только при наличии достаточного количества данных.

In [15]:
df = pd.DataFrame(
    [i for i in range(100)],
    columns=["a"]
)
df.head()

Unnamed: 0,a
0,0
1,1
2,2
3,3
4,4


In [19]:
df.expanding(3).sum().head()

Unnamed: 0,a
0,
1,
2,3.0
3,6.0
4,10.0


Использование map со словарем  
Если нам нужно заменить значение в столбце на значения медианы по группе, то у нас есть   
2 варинта  
- использовать `groupby` и `transform`
- использовать `map` и словарь

In [2]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : [2, 9, 6, 7, 1, 5],
    'user_id' : [1, 2, 3, 4, 5, 6]})
df

Unnamed: 0,col1,col2,user_id
0,x,2,1
1,x,9,2
2,x,6,3
3,y,7,4
4,y,1,5
5,y,5,6


In [8]:
df.groupby('col1')['col2'].transform(lambda x: x.median())

0    6.0
1    6.0
2    6.0
3    5.0
4    5.0
5    5.0
Name: col2, dtype: float64

In [9]:
cat_d = df.groupby('col1')['col2'].median().to_dict()
cat_d

{'x': 6.0, 'y': 5.0}

In [10]:
df['col1'].map(cat_d)

0    6.0
1    6.0
2    6.0
3    5.0
4    5.0
5    5.0
Name: col1, dtype: float64

Concat

In [5]:
df1 = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : [2, 9, 6, 7, 1, 5],
    'user_id' : [1, 2, 3, 4, 5, 6],
})
df2 = pd.DataFrame({
    'user_id' : [1, 2, 3, 4, 5, 6, 7],
    'col3' : [1, 2, 3, 4, 5, 6, 7],
})

Если названия столбцов одинаковые и мы выбрали axis = 0  
то у нас просто вертикально объединятся две таблицы и будут те же названия столбцов

Но если названия столбцов раызне для axis = 0  
то в итоговом датафрейме будут все столбцы, но у первого датафрейма будут nan, в колонке второго датафрейма,  
и аналогично у второго будут nan для колонок первого датафрейма

In [6]:
pd.concat([df1, df2])

Unnamed: 0,col1,col2,user_id,col3
0,x,2.0,1,
1,x,9.0,2,
2,x,6.0,3,
3,y,7.0,4,
4,y,1.0,5,
5,y,5.0,6,
0,,,1,1.0
1,,,2,2.0
2,,,3,3.0
3,,,4,4.0


Для axis = 1 будет аналогично, но только сравниваться будут названия строк,  
то есть тут одинаковые индексы создадут одну строку,  
а разные индексы создадут 2 строки и у каждой строки будет nan, для другого датафрейма

In [7]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,col1,col2,user_id,user_id.1,col3
0,x,2.0,1.0,1,1
1,x,9.0,2.0,2,2
2,x,6.0,3.0,3,3
3,y,7.0,4.0,4,4
4,y,1.0,5.0,5,5
5,y,5.0,6.0,6,6
6,,,,7,7


nlargest и nsmalest

In [9]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : [2, 9, 6, 7, 1, 5],
    'user_id' : [1, 2, 3, 4, 5, 6],
})

In [13]:
df.nlargest(3, 'col2')

Unnamed: 0,col1,col2,user_id
1,x,9,2
3,y,7,4
2,x,6,3


In [15]:
df.nsmallest(3, ['col2'])

Unnamed: 0,col1,col2,user_id
4,y,1,5
0,x,2,1
5,y,5,6


notna

In [17]:
col = pd.Series([1,2,None, None, 3, None])
col

0    1.0
1    2.0
2    NaN
3    NaN
4    3.0
5    NaN
dtype: float64

In [18]:
col.notna()

0     True
1     True
2    False
3    False
4     True
5    False
dtype: bool

In [20]:
col[col.notna()] = 7
col

0    7.0
1    7.0
2    NaN
3    NaN
4    7.0
5    NaN
dtype: float64

Замена чисел в виде строки на числовой тип

Без доп параметров мы либо преобразуем верно, либо получим исключение, где будет указана причина,  
и самое главное индекс строки

In [7]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : ['2', '"9"', '6', '7', '1', '5']})
pd.to_numeric(df['col2'])

ValueError: Unable to parse string ""9"" at position 1

Если в параметр `errors` передать `coerce`, то все что не может преобразовать переведет в Nan

In [6]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : ['2', '"9"', '6', '7', '1', '5']})
pd.to_numeric(df['col2'], errors='coerce')

0    2.0
1    NaN
2    6.0
3    7.0
4    1.0
5    5.0
Name: col2, dtype: float64

Если нужно не просто посмотреть количество элементов каждого униклаьного значения в категориальной переменной,  
а нужно посмотерть сколько процентов каждая из них занимает, то используем `value_counts(normolize=True`

In [3]:
df = pd.DataFrame({
    'col1' : ['x', 'x', 'x', 'y', 'y', 'y'],
    'col2' : ['2', '"9"', '6', '7', '1', '5']})
df.col1.value_counts(normalize=True)

x    0.5
y    0.5
Name: col1, dtype: float64

Наложение масок на датафрейм

Допустим я хочу првоерить есть ли в датафрейме определенные строки

In [3]:
temp = pd.DataFrame({'a': [1,2,3,4], 'b': [11, 22, 33, 44], 'c': [111, 222, 333, 444]})
temp

Unnamed: 0,a,b,c
0,1,11,111
1,2,22,222
2,3,33,333
3,4,44,444


In [4]:
temp2 = temp.iloc[:2]

In [5]:
temp[['a', 'b', 'c']].isin(temp2)

Unnamed: 0,a,b,c
0,True,True,True
1,True,True,True
2,False,False,False
3,False,False,False


Теперь можно использвать метод `all`

In [6]:
temp[['a', 'b', 'c']].isin(temp2).all(axis=1)

0     True
1     True
2    False
3    False
dtype: bool

Если нужно разбить строку в колонке по пробелу и взять только первый элемент

In [3]:
df = pd.DataFrame({'a': ['sadf sdfaskf sadfas sdafasf', 'asdfasf asdfasf asdfasf asdfasf', 'asdfasf asdfasf asdfasf asdfasf']})

In [6]:
df.a.str.split().str[1:3]

0     [sdfaskf, sadfas]
1    [asdfasf, asdfasf]
2    [asdfasf, asdfasf]
Name: a, dtype: object

Если нужно извлечь из строк в столбце данные и разделить в отдельные строки

In [17]:
df = pd.DataFrame({'a': ['Smith, (344 BC-34545 DT)', 'Monty, (354 BR-34545 DT)', 'Shant, (344 TC-34565 DE)']})

In [18]:
df.a.str.extract(r'(?P<name>\w+), \((?P<data>.+)\)')

Unnamed: 0,name,data
0,Smith,344 BC-34545 DT
1,Monty,354 BR-34545 DT
2,Shant,344 TC-34565 DE


Если нам нужно отобрать столбцы с определенными названиями

In [24]:
df = pd.DataFrame({'user_id': [1, 2, 3], 'order_id': [1, 2, 3], 'age_new': [1, 2, 3], 'agefull': [11, 22, 33]})

Если в items передать список с названиями колонок, то работает как обычная индексация

axis указывает ищем по колонкам или строкам

In [20]:
df.filter(items=['user_id', 'age'])

Unnamed: 0,user_id,age
0,1,1
1,2,2
2,3,3


Если в like передать выражение, то будет работать как like в sql

In [21]:
df.filter(like='id')

Unnamed: 0,user_id,order_id
0,1,1
1,2,2
2,3,3


Также можно использовать регулярные выражения для поиска.

In [27]:
df.filter(regex=r'age_?')

Unnamed: 0,age_new,agefull
0,1,11
1,2,22
2,3,33


Чтобы достать данные из определенного уровня мультииндеса используем `.xs`

In [38]:
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})

In [54]:
df.columns = pd.MultiIndex.from_tuples([('A', 'B', 'col1'), ('A', 'C', 'col2')])

In [55]:
df

Unnamed: 0_level_0,A,A
Unnamed: 0_level_1,B,C
Unnamed: 0_level_2,col1,col2
0,1,4
1,2,5
2,3,6


В методе .xs параметр level может принимать либо название уровня индекса, либо его числовой индекс (позицию), если названия уровней не заданы.

В key указываем название колонки, которое хотим извлечь, а в level уроень.

In [56]:
df.xs(key='A', level=0, axis=1)

Unnamed: 0_level_0,B,C
Unnamed: 0_level_1,col1,col2
0,1,4
1,2,5
2,3,6


In [57]:
df.xs(key='C', level=1, axis=1)

Unnamed: 0_level_0,A
Unnamed: 0_level_1,col2
0,4
1,5
2,6


In [58]:
df.xs(key='C', level=1, axis=1, drop_level=False)

Unnamed: 0_level_0,A
Unnamed: 0_level_1,C
Unnamed: 0_level_2,col2
0,4
1,5
2,6


Можно делать проще и испльзовать кортеж при индксации, но тогда нужно прописывать полный путь индеков  
Если мы передаем кортеж, то пандас это воспринимает не как список колонок, а как индексацию по мультииндексу.  
Каждое значение после запятой это следующий уровень

In [59]:
df

Unnamed: 0_level_0,A,A
Unnamed: 0_level_1,B,C
Unnamed: 0_level_2,col1,col2
0,1,4
1,2,5
2,3,6


In [64]:
df[('A', 'C')]

Unnamed: 0,col2
0,4
1,5
2,6


In [66]:
df[('A', 'C', 'col2')]

0    4
1    5
2    6
Name: (A, C, col2), dtype: int64

Чтобы преварить датафрейм из широкого в длинный можно использовать melt, а можно  использовать   
wide_to_long

In [67]:
data = {
    'id': [1, 2, 3],
    'product': ['A', 'B', 'C'],
    'sales_jan': [100, 150, 200],
    'sales_feb': [120, 160, 210],
    'sales_mar': [130, 170, 220]
}

df = pd.DataFrame(data)
df

Unnamed: 0,id,product,sales_jan,sales_feb,sales_mar
0,1,A,100,120,130
1,2,B,150,160,170
2,3,C,200,210,220


- stubnames='sales': Указывает, что столбцы, начинающиеся с sales, нужно объединить в один столбец.
- i=['id', 'product']: Указывает, какие столбцы использовать в качестве идентификаторов (индексов).
- j='month': Указывает имя нового столбца, который будет содержать суффиксы из исходных столбцов (например, jan, feb, mar).
- sep='_': Указывает разделитель между stubnames и суффиксом.
- suffix='\\w+': Указывает, что суффикс может быть любым словом (регулярное выражение).

In [69]:
df_long = pd.wide_to_long(df, 
                        stubnames='sales', 
                        i=['id', 'product'], 
                        j='month', 
                        sep='_', 
                        suffix=r'\w+').reset_index()
df_long

Unnamed: 0,id,product,month,sales
0,1,A,jan,100
1,1,A,feb,120
2,1,A,mar,130
3,2,B,jan,150
4,2,B,feb,160
5,2,B,mar,170
6,3,C,jan,200
7,3,C,feb,210
8,3,C,mar,220


Функция explode в библиотеке Pandas используется для преобразования списков в отдельных строках DataFrame. Это полезно, когда у вас есть столбец, содержащий списки, и вы хотите "развернуть" эти списки так, чтобы каждый элемент списка стал отдельной строкой.

In [None]:
# Создаем DataFrame
data = {
    'id': [1, 2, 3],
    'items': [['apple', 'banana'], ['orange'], ['grape', 'kiwi', 'melon']]
}

df = pd.DataFrame(data)

print("Исходный DataFrame:")
print(df)

# Используем explode для развертывания списков в столбце 'items'
df_exploded = df.explode('items')

print("\nDataFrame после применения explode:")
print(df_exploded)

Исходный DataFrame:
   id                 items
0   1       [apple, banana]
1   2              [orange]
2   3  [grape, kiwi, melon]

DataFrame после применения explode:
   id   items
0   1   apple
0   1  banana
1   2  orange
2   3   grape
2   3    kiwi
2   3   melon


Если нам нужно посчитать срднее количество по какому-то признаку и потом в неделю, то   
нужно посчитать значение за месяц и разделить на количество недель в месяце.  
Для этого нужно взять количество дней в неделе и разделить на 7.  
Это самый рабочий вариант, такак мы тогда учитываем все дни недели.


In [None]:
df_for_fig = (df_orders.merge(df_customers, how='left', on='customer_id')
            .set_index('order_purchase_dt')
            .groupby([pd.Grouper(freq='ME'), 'customer_unique_id'])
            .size()
            .reset_index(name='order_cnt')
)
df_for_fig['weeks_in_month_cnt'] = df_for_fig.order_purchase_dt.dt.days_in_month
df_for_fig['avg_orders_per_week'] = df_for_fig['order_cnt'] / df_for_fig['weeks_in_month_cnt']
df_for_fig.sort_values('avg_orders_per_week', ascending=False).head(10)