<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/07-columns-and-index.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Изменение названий колонок и индексов
#### [Ссылка на видео](https://youtu.be/CXJ-U-x7Kks)

In [None]:
import pandas as pd
import os

#### Колонки:
1. check_id - Номер чека
2. customer_id - Номер клиента
3. purchase_date - Дата покупки
4. shop_id - Номер магазина
5. product_code_3 - Код продукта 3 (артикул)
6. price - Цена
7. goods_number - Количество

In [None]:
path_sales_2021 = '../tables/sales_2021.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.google.com/uc?id=1Xy4a_aAnTAG5fzsQDdwYiQxpNYRMyLkr"

sales = pd.read_parquet(path_sales_2021)[
    ['check_id', 'customer_id', 'purchase_date', 'shop_id',
     'product_code_3', 'price', 'goods_number']]
sales.head()

#### Обращение к названиям колонок

In [None]:
sales.columns

#### Обращение к индексу

In [None]:
sales.index

#### Если обратиться к атрибутам columns или index, то можно увидеть список всех методов и атрибутов

In [None]:
sales.columns.

In [None]:
dir(sales.columns)

### Метод tolist()

In [None]:
empty_df = pd.DataFrame(columns=[f'Колонка {i + 1}' for i in range(150)])
empty_df

In [None]:
empty_df.columns

In [None]:
empty_df.columns.tolist()

#### Метод tolist есть у объектов Series

In [None]:
sales['customer_id'].tolist()

### repeat 
дублирует индекс несколько раз

In [None]:
# Продублировали индекс 2 раза
sales.index.repeat(2)

In [None]:
sales['goods_number'].head()

#### Продублировали индекс согласно колонке goods_number

In [None]:
sales.index.repeat(sales['goods_number'])

#### Продублировали каждую строку столько раз, сколько единиц товара было куплено

In [None]:
sales.loc[sales.index.repeat(sales['goods_number'])].head()

In [None]:
sales.columns

#### Перепишем названия колонок заглавными буквами

In [None]:
sales.columns = [
    'CHECK_ID',
    'CUSTOMER_ID',
    'PURCHASE_DATE',
    'SHOP_ID',
    'PRODUCT_CODE_3',
    'PRICE',
    'GOODS_NUMBER'
]

In [None]:
sales.head(3)

In [None]:
sales.columns

#### Дадим колонкам русские названия

1. __Список должен быть той же длинны, что и число колонок в таблице__ 
2. __Названия колонок не должны повторяться__

In [None]:
sales.columns = [
    'Номер чека',
    'Номер клиента',
    'Дата покупки',
    'Номер магазина',
    'Код продукта 3',
    'Цена',
    'Количество'
]

In [None]:
sales.head(3)

#### Вернем как было

In [None]:
sales.columns = [
    'check_id',
    'customer_id',
    'purchase_date',
    'shop_id',
    'product_code_3',
    'price',
    'goods_number'
]

#### Методы для работы со строками

Приведем названия колонок написанию с заглавной буквы

In [None]:
sales.columns

In [None]:
sales.columns[0]

In [None]:
sales.columns[1]

In [None]:
print(sales.columns[0].lower()) # Приведение к нижнему регистру
print('--------------------')
print(sales.columns[0].upper()) # Приведение к верхнему регистру
print('--------------------')
print(sales.columns[0].capitalize()) # 1 символ в верхнем регисттре,
                                     # остальные в нижнем

In [None]:
sales.columns

In [None]:
[col.capitalize() for col in sales.columns]

In [None]:
sales.columns = [col.capitalize() for col in sales.columns]

In [None]:
sales.head(3)

### rename

Метод возвращает DataFrame или Series с переименованными колонками или индексами

В него передается словарь или функция 

#### Синтаксис для переименования колонок: 

1. df.rename(columns=словарь или функция)
2. df.rename(словарь или функция, axis=1)
3. df.rename(словарь или функция, axis='columns')

#### Структура словаря:
{'старое название колонки': 'новое название колонки'}

In [None]:
sales.columns

#### Передаем словарь в парметр columns

In [None]:
(sales
    .rename(columns={'Check_id': 'Номер чека',
                     'Customer_id': 'Номер клиента'})
    .head(3)
)

#### Передаем 1 в параметр axis

In [None]:
(sales
    .rename({'Check_id': 'Номер чека',
             'Customer_id': 'Номер клиента'}, axis=1)
    .head(3)
)

#### Передаем 'columns' в параметр axis

In [None]:
# Указываем ось равную 'columns'
(sales
    .rename({'Check_id': 'Номер чека',
             'Customer_id': 'Номер клиента'},
             axis='columns')
    .head(3)
)

#### То же самое можно сделать и с индексом

In [None]:
sales.rename({0: 'первая строчка'}).head(3)

### Частые ошибки при работе с методом

#### Старое название колонки написано с ошибкой
Ошибка в названии колонки customer_id

In [None]:
# ошибка есть
(sales
    .rename(columns={'Check_id': 'Номер чека',
                     'Castomer_id': 'Номер клиента'})
    .head(3)
)

In [None]:
# Ошибки нет
(sales
    .rename(columns={'Check_id': 'Номер чека',
                     'Customer_id': 'Номер клиента'})
    .head(3)
)

#### Не указана ось

In [None]:
# Ошибка есть
(sales
    .rename({'Check_id': 'Номер чека',
             'Customer_id': 'Номер клиента'})
    .head(3)
)

Если ось указать, то все начинает работать

In [None]:
# Ошибки нет
(sales
    .rename({'Check_id': 'Номер чека',
             'Customer_id': 'Номер клиента'}, axis=1)
    .head(3)
)

### Функции

In [None]:
def calculate_hypotenuse(cat1, cat2):
#     считаем сумму квадратов катетов
    hypotenuse_squered = cat1 ** 2 + cat2 ** 2
#     считаем гипотенузу
    hypotenuse = hypotenuse_squered ** 0.5
#     возвращаем значение
    return hypotenuse

In [None]:
calculate_hypotenuse(3, 4)

In [None]:
calculate_hypotenuse(5, 12)

#### Функции с таблицами

In [None]:
sales.columns

In [None]:
def make_lowercase_string(string):
    return string.lower()

In [None]:
make_lowercase_string('PANDAS')

In [None]:
# Все три строчки работают одинакого
sales.rename(columns=make_lowercase_string).head()
sales.rename(make_lowercase_string, axis=1).head()
sales.rename(make_lowercase_string, axis='columns').head()

### Возможные ошибки

#### Вызов функции внутри метода. sales.rename(columns=__make_lowercase_string()__ ) - круглые скобки после названия функции лишние. Правильно: sales.rename(columns=make_lowercase_string)

In [None]:
# Это работать не будет
sales.rename(columns=make_lowercase_string())

In [None]:
sales.rename(columns=make_lowercase_string)

#### На вход в функцию подаются строки, хотя в таблице названия колонок представлены целыми числами

In [None]:
pd.DataFrame(columns=[1, 2, 3, 4])

In [None]:
pd.DataFrame(columns=[1, 2, 3, 4]).rename(columns=make_lowercase_string)

#### Функция на вход принимает более одного обязательного параметра

In [None]:
# Эта функция принимает на вход 2 обязательных аргумента
def concatinate_strings(string1, string2):
    return string1 + ' ' +  string2

In [None]:
def make_lowercase_string(string):
    return string.lower()

In [None]:
concatinate_strings('Аргумент 1', 'Аргумент 2')

In [None]:
sales.rename(columns=concatinate_strings)

### Использование lambda функций

In [None]:
def make_lowercase_string(string):
    return string.lower()

In [None]:
(sales
    .rename(lambda x: x.lower(), axis=1)
    .head(3)
)

#### Метод rename принимает на вход не только функции, но любые другие вызываемые объекты

In [None]:
sales = sales.rename(str.lower, axis=1)
sales.head(3)

### set_axis

Как и метод rename меняет названия колонок. 

#### Синтаксис

1. df.set_axis(список с новыми названиями колонок, axis=1)
2. df.set_axis(список с новыми названиями колонок, axis='columns')

In [None]:
sales.set_axis([
        'Номер чека',
        'Номер клиента',
        'Дата покупки',
        'Номер магазина',
        'Код продукта 3',
        'Цена',
        'Количество'
    ], axis=1).head(3)

In [None]:
sales.set_axis([
        'Номер чека',
        'Номер клиента',
        'Дата покупки',
        'Номер магазина',
        'Код продукта 3',
        'Цена',
        'Количество'
    ], axis='columns').head(3)

### Параметра columns у метода нет

In [None]:
# Данный вариант работать не будет!!!
sales.set_axis(columns=[
        'Номер чека',
        'Номер клиента',
        'Дата покупки',
        'Номер магазина',
        'Код продукта 3',
        'Цена',
        'Количество'
    ]).head(3)

### add_suffix

Добавляет строку в конец названия каждой колонки

#### Синтаксис

df.add_suffix('строка')

In [None]:
sales.add_suffix('12345').head(3)

### add_prefix

Добавляет строку в начало названия каждой колонки

#### Синтаксис

df.add_prefix('строка')

In [None]:
sales.add_prefix('12345').head(3)

## Работа с мультииндексом

In [None]:
sales_agg = (sales
    .assign(month_end_date = lambda x: x['purchase_date'].dt.normalize()
            + pd.offsets.MonthEnd(0))

    .assign(price_mul_number = lambda x: x['price'] * x['goods_number'])
             
    .assign(total_goods_per_check = lambda x: x
            .groupby('check_id')['goods_number'].transform('sum'))

    .assign(total_sum_per_check = lambda x: x
            .groupby('check_id')['price_mul_number'].transform('sum'))

    [['customer_id', 'month_end_date', 'total_goods_per_check',
      'total_sum_per_check', 'check_id', 'shop_id']]
             
    .drop_duplicates()
             
    .groupby(['month_end_date', 'customer_id', 'shop_id'])
             
    .agg({'total_goods_per_check': ['min', 'max', 'mean'],
          'total_sum_per_check': ['min', 'max', 'mean'],
          'check_id': 'count'})
             
    .rename({'total_goods_per_check': 'число товаров в чеке',
            'total_sum_per_check': 'cумма покупки',
            'check_id': 'id чека',
            'min': 'минимум',
            'max': 'максимум',
            'mean': 'среднее',
            'count': 'количество'}, axis=1)
             
    .rename_axis(['месяц', 'id клиента', 'id магазина'])
)
sales_agg.head()

In [None]:
# Отобразим первые 5 элементов индекса
sales_agg.index[:5]

In [None]:
sales_agg.columns

### Уровни мультииндекса

In [None]:
sales_agg.head(2)

Уровень ноль имеет самая левая колонока

In [None]:
sales_agg.index.levels[0]

In [None]:
sales_agg.index.levels[1]

#### У названий колонок тоже есть уровни

In [None]:
sales_agg.head(2)

In [None]:
sales_agg.columns.levels[0]

In [None]:
sales_agg.columns.levels[1]

#### Уровни могут иметь названия, а могут не иметь

Сейчас колонки в индексе имеют названия (месяц, id клиента, id магазина), а строки в шапке таблицы нет

In [None]:
sales_agg.head()

В большинстве методов, работающих с уровнями, можно указывать как номера уровней, так и их названия

### Уровни можно менять местами

### swaplevel

Синтаксис: 

df.swaplevel(уровень 1, уровень 2) - для того, чтобы поменять 2 уровня местами в индексе

df.swaplevel(уровень 1, уровень 2, axis=1) - для того, чтобы поменять 2 уровня местами в индексе

In [None]:
sales_agg.head(3)

In [None]:
sales_agg.swaplevel(2, 0).head(3)

In [None]:
sales_agg.swaplevel(2, 'месяц').head(3)

#### Меняем уровни в колонках

In [None]:
sales_agg.swaplevel(0, 1, axis=1).head(3)

#### Уровням можно давать названия
### rename_axis

#### Синтаксис:
1. df.rename_axis(список из названий осей) - для переименования оси индексов
2. df.rename_axis(список из названий осей, axis=1) - для переименования оси колонок
3. df.rename_axis(index=список из названий осей или словарь (старое название: новое название) или функциия) - для переименования оси индексов
4. df.rename_axis(columns=список из названий осей или словарь (старое название: новое название) или функциия) - для переименования оси колонок

In [None]:
sales_agg.head(2)

In [None]:
sales_agg.rename_axis(['Название показателя', 'Статистика'], axis=1).head(2)

#### Уровни можно выкидывать

### droplevel

#### Синитаксис:
1. df.droplevel(уровень или список уровней) - для удаления колонок из индексов
2. df.droplevel(уровень или список уровней, axis=1) - для удаления строк названий колонок из шапки



In [None]:
sales_agg.droplevel('месяц').head(3)

In [None]:
sales_agg.droplevel(0, axis=1).head(3)

In [None]:
sales_agg.droplevel(1, axis=1).head(3)

## Удаление мультииндекса из шапки таблицы

In [None]:
sales_agg.head(0)

In [None]:
sales_agg.columns

Мултииндекс это просто пары значений. И мы можем их соединить

In [None]:
sales_agg.columns[0]

In [None]:
'_'.join(sales_agg.columns[0])

In [None]:
sales_agg.columns.map('   строка с разделителем    '.join)

In [None]:
['_'.join(i) for i in sales_agg.columns]

In [None]:
[i + '_' + j for i, j in sales_agg.columns]

In [None]:
(sales_agg
    .set_axis(sales_agg.columns.map('_'.join), axis=1)
    .head(1)
)    

In [None]:
sales_agg.set_axis(['число товаров в чеке_минимум',
    'число товаров в чеке_максимум',
    'число товаров в чеке_среднее',
    'cумма покупки_минимум',
    'cумма покупки_максимум',
    'cумма покупки_среднее',
    'id чека_количество'
                    ], axis=1).head(2)

## Работа с индексом

In [None]:
sales.head(3)

In [None]:
sales_idx = sales.set_index(['check_id', 'customer_id',  'shop_id'])
sales_idx.head(3)

### reset_index
метод перекидывает колонки из индекса в тело таблицы

#### Параметры:
1. level - название (или номер) уровня или список из названий (номеров) уровней, которые надо сбросить (по умолчанию сбрасываются все колонки индекса
2. drop - выкидывать колонки из таблицы (True если выкидывать, False если нет. По умолчанию False)
3. names - список из названий, с которыми сбрасывать колонки (то есть колонки автоматически поменяют названия)

In [None]:
# Колонки check_id, customer_id и shop_id перешли из индекса в тело таблицы
sales_idx.reset_index().head(3)

In [None]:
# Исходная таблица
sales_idx.head(3)

#### drop=True удаляет колонки из таблицы

In [None]:
# Колонки check_id, customer_id и shop_id были удалены
sales_idx.reset_index(drop=True).head(3)

#### Можно сбрасывать некоторые колонки

In [None]:
# Исходная таблица
sales_idx.head(3)

Cбрасываем только первую колонку индекса

In [None]:
sales_idx.reset_index(level=0).head(3)

Выкидываем вторую колонку (customer_id) и колонку shop_id

In [None]:
sales_idx.reset_index(level=[1, 'shop_id'], drop=True).head(3)

### Set_index

Метод перекидывает колонку из тела таблицы в индекс

df.set_index(название колонки или список из названий колонок)

In [None]:
# Исходная таблица
sales_idx.head(3)

Кладем в индекс колонку purchase_date. При использовании метода старый индекс удаляется

In [None]:
sales_idx.set_index('purchase_date').head(3)

Чтобы добавить колонку к существующему индексу необходимо в параметр append передать значение True

In [None]:
sales_idx.set_index('purchase_date', append=True).head(3)

In [None]:
sales_idx.set_index(['purchase_date', 'product_code_3'], append=True).head(3)

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables)

### Задание 1

Приведите названия колонок в таблице shops к верхнему регистру

In [None]:
import os
import pandas as pd

path_shops = '../tables/shops.xlsx' if os.path.exists('../tables/shops.xlsx') else 'https://drive.google.com/uc?id=1gfnmceJa3Mc1X06NftTx9G9QfKfprjEB'

shops = pd.read_excel(path_shops)
shops.head()

In [None]:
# Напишите свой код здесь

### Задание 2

К названиям колонок таблицы ltc добавьте префикс 'deal_'. То есть итоговые названия колонок должны выглядить как deal_date, deal_price, deal_volume

In [None]:
import os
import pandas as pd
path_ltc_sample = '../tables/ltc_sample.parquet' if os.path.exists('../tables/ltc_sample.parquet') else 'https://drive.google.com/uc?id=1XaThogOOqKjJj50LvfJ9WqutjMAC5AxA'

ltc = pd.read_parquet(path_ltc_sample)
ltc.head()

In [None]:
# Напишите свой код здесь

### Задание 3

В таблице empl замените название колонок report_dt на "Отчетная дата", i_pernr на "Табельный номер", а education на "уровень образования"

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# Напишите свой код здесь

### Задание 4

Посмотрите как выглядят названия колонок в таблице people. 

Приведите их к нижнему регистру, после чего замените пробелы в названиях на знаки нижнего подчеркивания. 

Вы можете использовать любой из способов. Однако проще всего это сделать через функцию, использующую внутри себя метод lower и метод replace.

Метод replace имеет следующий синтаксис: "строка".replace("символ, который надо заменить", "символ, который надо вствить")

Методы можно применять друг за другом. 

Подробнее про методы строк можете посмотреть здесь:

https://www.youtube.com/watch?v=TEF-0UXRybg&list=PLA0M1Bcd0w8yWHh2V70bTtbVxJICrnJHd&index=10

или здесь:

https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html

In [None]:
import os
import pandas as pd

path_people = '../tables/people.parquet' if os.path.exists('../tables/people.parquet') else 'https://drive.google.com/uc?id=1iI1Lde5ya3ruztGYmjpprSCUoCU9rBeS'

people = pd.read_parquet(path_people)
people.head()

In [None]:
# Напишите свой код здесь

### Задание 5

Выкиньте верхнюю строчку из шапки таблицы marks_agg1

In [None]:
import os
import pandas as pd

path_marks = '../tables/оценки.xlsx' if os.path.exists('../tables/оценки.xlsx') else 'https://drive.google.com/uc?id=17f4DXx53J0WooNkhO13xidseZJ-O2obs'

marks_agg1 = pd.read_excel(path_marks).groupby('Пол').agg({'Математика': ['mean', 'std']})
marks_agg1

In [None]:
# Напишите свой код здесь

### Задание 6

Объедините первые 2 строчки в шапке таблицы marks_agg2 в одну так, чтобы назания колонок не повторялись

In [None]:
import os
import pandas as pd

path_marks = '../tables/оценки.xlsx' if os.path.exists('../tables/оценки.xlsx') else 'https://drive.google.com/uc?id=17f4DXx53J0WooNkhO13xidseZJ-O2obs'

marks_agg2 = pd.read_excel(path_marks).drop('ФИО', axis=1).groupby('Пол').agg(['mean', 'std'])
marks_agg2

In [None]:
# Напишите свой код здесь

### Задание 7

В таблице stocks перекиньте из индекса в тело таблицы колонку с датами

In [None]:
import os
import pandas as pd

path_stocks = '../tables/stocks.parquet' if os.path.exists('../tables/stocks.parquet') else 'https://drive.google.com/uc?id=1weGquTtmR92mKYAeZhZCFHJjndyoSXZt'

stocks = pd.read_parquet(path_stocks)
stocks.head()

In [None]:
# Напишите свой код здесь

### Задание 8

В таблице stocks удалите колонку с датами

In [None]:
import os
import pandas as pd

path_stocks = '../tables/stocks.parquet' if os.path.exists('../tables/stocks.parquet') else 'https://drive.google.com/uc?id=1weGquTtmR92mKYAeZhZCFHJjndyoSXZt'

stocks = pd.read_parquet(path_stocks)
stocks.head()

In [None]:
# Напишите свой код здесь

### Задание 9

В таблице goods_descr перенесите колонку product_code_3 в инедекс. После этого добавьте к ней колонку product_code_2.

То есть вам необходимо 2 раза подряд применить метод  set_index вот так:

(goods_descr

    .set_index(...)
    .set_index(...)
)

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# Напишите свой код здесь

### Задание 10

Посмотрите на таблицу xdg_usdt. В ней содержаться данные по торговли криптовалютами xdg и usdt

Дайте названиям колонок значения 'Дата', 'Цена', 'Объем'

In [None]:
import os
import pandas as pd
path_xdg_usdt = '../tables/XDGUSDT.csv' if os.path.exists('../tables/XDGUSDT.csv') else 'https://drive.google.com/uc?id=1oLjCNOsdKbd87sIgW0_OWDpD2DVHAAAV'
xdg_usdt = pd.read_csv(path_xdg_usdt, header=None)
xdg_usdt.head()

In [None]:
# Напишите свой код здесь