<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/21-reshaping.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Изменение формы таблиц
#### [Ссылка на видео](https://youtu.be/GUOpj50HHO0)

In [None]:
import pandas as pd
import seaborn as sns
import os

Читаем таблицу

In [None]:
path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl).drop(['shop_id', 'pos_id', 'closest_boss_pos_id', 'mgmt_flag', 'salary_fork'], axis=1)
empl.head()

In [None]:
empl_agg = (empl
    .groupby(['report_dt', 'pos_name'])
    [['salary']]
    .mean()
)
empl_agg.head()

## stack, unstack и pivot
 
stack - перекидывает шапку таблицы в индекс

unstack - перекидывает индекс в шапку таблицы

pivot - перекидывает колонку из тела таблицы в шапку

In [None]:
empl_agg.unstack(1).head()

In [None]:
empl_agg.unstack('pos_name').head()

In [None]:
unstacked = (empl_agg
             .reset_index()
             .pivot(columns='pos_name', index='report_dt')
             .head()
            )

unstacked.head()

In [None]:
unstacked.stack(1).head()

In [None]:
unstacked.stack('pos_name').head()

### melt

In [None]:
path_marks = '../tables/оценки.xlsx' if os.path.exists('../tables/оценки.xlsx') else 'https://drive.google.com/uc?id=17f4DXx53J0WooNkhO13xidseZJ-O2obs'

marks = pd.read_excel(path_marks)
marks.head()

#### Все значения кроме тех, что в id_vars попадают в колонку value

In [None]:
marks.melt(id_vars=['ФИО', 'Пол']).query('ФИО == "Суханова Маргарита Богдановна"')

#### В колонку value можно положить только определенные колонки

In [None]:
marks.melt(id_vars=['ФИО', 'Пол'], value_vars=['Математика', 'Русский язык']).sample(5, random_state=15)

In [None]:
sns.barplot(marks.melt(value_vars=['Математика', 'Русский язык']), x='variable', y='value', estimator='std')

#### Обратную операцию можно выполнить при помощи метода pivot

In [None]:
(marks
    .melt(id_vars=['ФИО', 'Пол'])
    .pivot(index=['ФИО', 'Пол'], columns='variable', values='value')
    .reset_index()
    .head()
)

### get_dummies

Создание дамми переменных

In [None]:
empl['pos_name']

In [None]:
pd.get_dummies(empl['pos_name']).head()

In [None]:
pd.get_dummies(empl['pos_name'], drop_first=True).head()

#### Дамми переменные можно автоматически добавлять к датафрейму

In [None]:
pd.get_dummies(empl, columns=['pos_name']).head()

In [None]:
pd.get_dummies(empl, columns=['pos_name', 'sex']).head()

#### У строчных колонок есть метод .str.get_dummies(), который работает так же

In [None]:
empl['pos_name'].str.get_dummies().head()

### from_dummies

Обратная операция к get_dummies

In [None]:
pd.from_dummies(empl['pos_name'].str.get_dummies()).head()

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

На основе таблицы с сотрдуниками создайте таблицу, в которой названия колонок будут означать номер магазина, а в теле таблицы будут перечисленны сотрудники, работающие в каждом магазине по состоянию на 31 декабря 2022 года. То есть в колонке 1 будет лежеть список сотрудников магазина 1, в колонке 2 - список сотрудников магазина 2 и так далее

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

### Задание 2

Найдите топ 30 пар категорий товаров, которые встерчаются в одном чеке чаще всего.
Необходимо вывести таблицу с колонками: название категории 1, название категории 2, в скольки чеках встечалась такая пара. (Например: юбка, платье, 1234)

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_2022 на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_2022 = '../tables/sales_2022.parquet' if os.path.exists('../tables/sales_2022.parquet') else 'https://drive.google.com/uc?id=17e7FwXVdsWc2aziK9s5KidIvPcfKt9F5'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_2022)
sales.head()

In [None]:
path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 3

Посчитайте накопленный средний чек по каждому магазину за каждый месяц. Например, если вы берете 31 марта 2020 года по магазину 1, то нужно взять все чеки, которые были пробиты в этом магазине до этой даты (не только март 2020 года, а все вплоть до 2015 года) и посчитать по ним среднее.

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample = '../tables/sales_sample.parquet' if os.path.exists('../tables/sales_sample.parquet') else 'https://drive.google.com/uc?id=1BgxAxPauzC4LObY3N65PgAvnU3f5QRj2'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 4

Привлечение одного клиента в серднем стоит 1000 рублей. Себестоимоть товара оцените в 40% от обычной цены (поле price в таблице с ценами). Посчитайте сколько дней в среднем требуется, чтобы покупатель окупил затраты магазина на привлечение. 

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample = '../tables/sales_sample.parquet' if os.path.exists('../tables/sales_sample.parquet') else 'https://drive.google.com/uc?id=1BgxAxPauzC4LObY3N65PgAvnU3f5QRj2'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 5

Посчитайте ежемесячное удержание клиентов. Для этого для каждого месяца найдите номера клиентов, которые пришли в магазин в этом месяце впервые. Затем посчитайте какой процент из них вернулся через месяц, через 2 месяца и тд.

В итоге должна получиться таблица, в индексе у которой находится дата первого посещения (месяц Х). В шапке таблицы должна быть дата посещения (месяц У). А в каждой ячейке должен быть указан процент людей, который вернулся в магазин в месяце У из тех людей, что впервые пришли в магазин в месяце Х. 

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample = '../tables/sales_sample.parquet' if os.path.exists('../tables/sales_sample.parquet') else 'https://drive.google.com/uc?id=1BgxAxPauzC4LObY3N65PgAvnU3f5QRj2'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 6

За каждый месяц найдите накопленное число уникальных клиентов в каждом магазине

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample = '../tables/sales_sample.parquet' if os.path.exists('../tables/sales_sample.parquet') else 'https://drive.google.com/uc?id=1BgxAxPauzC4LObY3N65PgAvnU3f5QRj2'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 7

Найдите магазины, в которых зарплата между сотрудниками одного магазина на конец 2021 года отличалась больше всего и меньше всего

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь