<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/08-get-and-set-column.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Изменение и создание колонок таблиц
#### [Ссылка на видео](https://youtu.be/W7M8Yp1EVio)

In [1]:
import pandas as pd
import numpy as np
import os

Читаем таблицу

In [2]:
path_df = '../tables/people.parquet' if os.path.exists('../tables/people.parquet') else 'https://drive.google.com/uc?id=1iI1Lde5ya3ruztGYmjpprSCUoCU9rBeS'

df = pd.read_parquet(path_df)
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Илья,Васильев,0,56.3,1996-11-30,False
1,Антон,Алексеев,2,77.0,1976-02-29,True
2,Надежда,Гусева,3,103.1,1964-09-26,True
3,Артем,Павлов,5,134.9,1980-05-18,True
4,Александр,Николаев,1,47.0,1959-02-24,True
5,Дмитрий,Печенкин,2,61.0,1939-04-05,False
6,Дарья,Воробева,3,,1997-07-23,True


# Обращение и изменение через квадратные скобки

In [3]:
df['Число детей']

0    0
1    2
2    3
3    5
4    1
5    2
6    3
Name: Число детей, dtype: int64

In [4]:
# [] это просто сокращение от такой записи
df.__getitem__('Число детей')

0    0
1    2
2    3
3    5
4    1
5    2
6    3
Name: Число детей, dtype: int64

In [5]:
# Сначала считается правая часть равенства, а затем идет присваивание
df['Число детей'] = df['Число детей'] + 1
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Илья,Васильев,1,56.3,1996-11-30,False
1,Антон,Алексеев,3,77.0,1976-02-29,True
2,Надежда,Гусева,4,103.1,1964-09-26,True
3,Артем,Павлов,6,134.9,1980-05-18,True
4,Александр,Николаев,2,47.0,1959-02-24,True
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False
6,Дарья,Воробева,4,,1997-07-23,True


Создаем новую колонку на основе одного значения и списка, ndarray или Series

In [6]:
df['size'] = 'M'
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,M
1,Антон,Алексеев,3,77.0,1976-02-29,True,M
2,Надежда,Гусева,4,103.1,1964-09-26,True,M
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,M
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,M


Длинна массива должна быть равна количеству строк в таблице

In [7]:
df['size'] = ['L', 'L', 'S', 'M', 'XXL', 'M', 'XL']
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Сопоставление идет по индексу

In [8]:
pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
          index=[3, 4, 5, 6, 7, 8, 9])

3      L
4      L
5      S
6      M
7    XXL
8      M
9     XL
dtype: object

In [9]:
df['size'] = pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
                       index=[3, 4, 5, 6, 7, 8, 9])
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,
1,Антон,Алексеев,3,77.0,1976-02-29,True,
2,Надежда,Гусева,4,103.1,1964-09-26,True,
3,Артем,Павлов,6,134.9,1980-05-18,True,L
4,Александр,Николаев,2,47.0,1959-02-24,True,L
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,S
6,Дарья,Воробева,4,,1997-07-23,True,M


In [10]:
df['size'] = pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
                       index=[3, 4, 5, 6, 7, 8, 9]).reset_index(drop=True)
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [11]:
df['size'] = pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
                       index=[3, 4, 5, 6, 7, 8, 9]).tolist()
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


#### Выбор нескольких колонок

In [12]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [13]:
df[['Имя', 'Фамилия']]

Unnamed: 0,Имя,Фамилия
0,Илья,Васильев
1,Антон,Алексеев
2,Надежда,Гусева
3,Артем,Павлов
4,Александр,Николаев
5,Дмитрий,Печенкин
6,Дарья,Воробева


Изменим очередность колонок

In [14]:
df[['Фамилия', 'Имя', 'Число детей',
    'Дата рождения', 'size',
     'Женат/Замужем', 'Площадь дома']]

Unnamed: 0,Фамилия,Имя,Число детей,Дата рождения,size,Женат/Замужем,Площадь дома
0,Васильев,Илья,1,1996-11-30,L,False,56.3
1,Алексеев,Антон,3,1976-02-29,L,True,77.0
2,Гусева,Надежда,4,1964-09-26,S,True,103.1
3,Павлов,Артем,6,1980-05-18,M,True,134.9
4,Николаев,Александр,2,1959-02-24,XXL,True,47.0
5,Печенкин,Дмитрий,3,1939-04-05,M,False,61.0
6,Воробева,Дарья,4,1997-07-23,XL,True,


Если передать в метод список, то вернется DataFrame, а если просто строку, то вернется Series

In [15]:
df[['Имя']]

Unnamed: 0,Имя
0,Илья
1,Антон
2,Надежда
3,Артем
4,Александр
5,Дмитрий
6,Дарья


In [16]:
df['Имя']

0         Илья
1        Антон
2      Надежда
3        Артем
4    Александр
5      Дмитрий
6        Дарья
Name: Имя, dtype: object

In [17]:
df['Имя'].to_frame()

Unnamed: 0,Имя
0,Илья
1,Антон
2,Надежда
3,Артем
4,Александр
5,Дмитрий
6,Дарья


### [ ] при работе с колонками таблицы и объектами Series

In [18]:
names = df['Имя']
names

0         Илья
1        Антон
2      Надежда
3        Артем
4    Александр
5      Дмитрий
6        Дарья
Name: Имя, dtype: object

К объектам Series можно обращаться через название индекса

In [19]:
names[0]

'Илья'

In [20]:
names[4]

'Александр'

In [21]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Поменяем имя Александр на Олег

In [22]:
names[4] = 'Олег'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  names[4] = 'Олег'


In [23]:
names

0       Илья
1      Антон
2    Надежда
3      Артем
4       Олег
5    Дмитрий
6      Дарья
Name: Имя, dtype: object

Значение поменялось не только в переменной names, но и в таблице

In [24]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Олег,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Обратно вернем имя Александр

In [25]:
names[4] = 'Александр'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  names[4] = 'Александр'


In [26]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Чтобы значение менялось только в переменной необходимо использовать метод copy

In [27]:
names = df['Имя'].copy()
names

0         Илья
1        Антон
2      Надежда
3        Артем
4    Александр
5      Дмитрий
6        Дарья
Name: Имя, dtype: object

In [28]:
names[4] = 'Олег'

In [29]:
names

0       Илья
1      Антон
2    Надежда
3      Артем
4       Олег
5    Дмитрий
6      Дарья
Name: Имя, dtype: object

In [30]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [31]:
df1 = df.copy()
df1

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Вунтри функций никогда не будет лишней такая строчка

In [None]:
def some_func(df):
    df = df.copy()
    
    # Код функции
    

# Метод drop

Метод для удаления коложнок из таблицы

#### Синтаксис:

1. df.drop(columns='название колонки' или спискок из названий колонок)
2. df.drop('название колонки' или спискок из названий колонок, axis=1)
3. df.drop('название колонки' или спискок из названий колонок, axis='columns')

Кроме того, с помощью этого метода можно удалять индексы

df.drop(название индекса или спискок из ненужных индексов)

In [32]:
df[['Фамилия', 'Число детей', 'Площадь дома',
    'Дата рождения', 'Женат/Замужем']]

Unnamed: 0,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Васильев,1,56.3,1996-11-30,False
1,Алексеев,3,77.0,1976-02-29,True
2,Гусева,4,103.1,1964-09-26,True
3,Павлов,6,134.9,1980-05-18,True
4,Николаев,2,47.0,1959-02-24,True
5,Печенкин,3,61.0,1939-04-05,False
6,Воробева,4,,1997-07-23,True


In [33]:
df.drop(columns='Имя')
df.drop('Имя', axis=1)
df.drop('Имя', axis='columns')

Unnamed: 0,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Васильев,1,56.3,1996-11-30,False,L
1,Алексеев,3,77.0,1976-02-29,True,L
2,Гусева,4,103.1,1964-09-26,True,S
3,Павлов,6,134.9,1980-05-18,True,M
4,Николаев,2,47.0,1959-02-24,True,XXL
5,Печенкин,3,61.0,1939-04-05,False,M
6,Воробева,4,,1997-07-23,True,XL


In [34]:
df.drop(columns=['Имя', 'size'])
df.drop(['Имя', 'size'], axis=1)
df.drop(['Имя', 'size'], axis='columns')

Unnamed: 0,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Васильев,1,56.3,1996-11-30,False
1,Алексеев,3,77.0,1976-02-29,True
2,Гусева,4,103.1,1964-09-26,True
3,Павлов,6,134.9,1980-05-18,True
4,Николаев,2,47.0,1959-02-24,True
5,Печенкин,3,61.0,1939-04-05,False
6,Воробева,4,,1997-07-23,True


In [35]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [None]:
# df = df.drop(columns=['Имя', 'size'])

# Метод assign

Метод необходим для создания новых колонок.

#### Синтаксис:

df.assign(название колонки без кавычек = значение, которое надо присвоить колонке)

__Ограничения на названия колонок в методе assign:__
1. Допускаются только символы латинского алфавита, цифры и _
2. Название не должно начинасться на цифру
3. Название не должно содержать пробелов

In [None]:
(df
    .assign(one = 1)
)

In [None]:
df['one'] = 1
df

In [None]:
df = df.drop('one', axis=1)
df

In [None]:
df.assign(range_1_7 = [1, 2, 3, 4, 5, 6, 7])

In [None]:
(df
    .assign(size = lambda x: x['size'].str.lower())
)

In [None]:
(df
    .assign(house_square = lambda x: x['Площадь дома'] * 2)
)

In [None]:
(df
    .assign(house_square = lambda x: x['Площадь дома'] * 2)
    .assign(house_square_1 = lambda x: x['house_square'])
)

__Ограничения на названия колонок в методе assign:__
1. Допускаются только символы латинского алфавита, цифры и _
2. Название не должно начинасться на цифру
3. Название не должно содержать пробелов

#### Создание колонок на русском языке

In [None]:
# Не очень хороший вариант
df.assign(Площадь_квартиры = lambda x: x['Площадь дома'])

In [None]:
df.assign(**{'Площадь кваратиры': lambda x: x['Площадь дома']})

In [None]:
(df
    .assign(flat_square = lambda x: x['Площадь дома'])
    .rename({'flat_square': 'Площадь кваратиры'}, axis=1)
)

# Атрибуты loc и iloc

Методы loc и iloc очень похожи. Метод loc позволяет образаться к столбцам таблицы, строкам и ячейкам по названию колонок и индексов, а метод iloc по их номерам

In [None]:
df = df.set_index('Фамилия')
df

**Если передать в [ ] атрибута loc или iloc один аргумент, то вернется строка таблицы**

In [None]:
df.loc['Васильев']

In [None]:
df.iloc[0]

#### В них можно передавать списки

In [None]:
df

In [None]:
df.loc[['Васильев', 'Павлов']]

In [None]:
df.iloc[[0, 3]]

Если продублировать один и тот же индекс несколько раз, то соответствующая строка вернется несколько раз

In [None]:
df.loc[['Васильев', 'Павлов', 'Васильев']]

In [None]:
df.iloc[[0, 3, 0]]

#### Срезы

In [None]:
df

In [None]:
df.loc['Алексеев': 'Николаев']

In [None]:
df.iloc[1:5]

In [None]:
df.loc['Алексеев':]

In [None]:
df.iloc[1:]

In [None]:
df.loc['Алексеев':'Николаев':2]

In [None]:
df.iloc[1:5:2]

In [None]:
df.loc['Алексеев'::2]

In [None]:
df.iloc[1::2]

**В методы можно передавать 2 аргумента. Тогда первый аргумент будет отвечать за выбор строки, а второй за выбор столбца**

In [None]:
df

In [None]:
df.loc[['Алексеев', 'Павлов'], 'Имя': 'Дата рождения']

In [None]:
df.iloc[[0, 3], :4]

**Чтобы выбрать колонку таблицы, необходимо в качестве первого аргумента передать двоеточие**

In [None]:
df.loc[:, 'Дата рождения']

In [None]:
df.iloc[:, 3]

In [None]:
df.iloc[:, [3]]

In [None]:
df.loc[:, ['Дата рождения']]

In [None]:
df.iloc[:, -3:]

**Выбираем отдельные ячейки**

In [None]:
df.loc['Алексеев', 'Имя']

In [None]:
df.iloc[1, 0]

#### Обращение к мультииндексу

In [41]:
(pd.read_parquet(path_sales_2021)
             
    [['check_id', 'customer_id', 'purchase_date', 'shop_id',
     'product_code_3', 'price', 'goods_number']]

    .assign(month_end_date = lambda x: x['purchase_date'].dt.normalize()
            + pd.offsets.MonthEnd(0))

    .assign(price_mul_number = lambda x: x['price'] * x['goods_number'])
 
    .groupby(['customer_id', 'month_end_date', 'check_id'])
    [['price_mul_number', 'goods_number']]
    
    .sum()
    .reset_index()
    .groupby(['month_end_date', 'customer_id'])
    .agg({'goods_number': ['min', 'max', 'mean'],
          'price_mul_number': ['min', 'max', 'mean'],
          'check_id': 'count'})
    .rename({'goods_number': 'число товаров в чеке',
            'total_sum_per_check': 'cумма покупки',
            'price_mul_number': 'id чека',
            'min': 'минимум',
            'max': 'максимум',
            'mean': 'среднее',
            'count': 'количество'}, axis=1)
    
 
)

Unnamed: 0_level_0,Unnamed: 1_level_0,число товаров в чеке,число товаров в чеке,число товаров в чеке,id чека,id чека,id чека,check_id
Unnamed: 0_level_1,Unnamed: 1_level_1,минимум,максимум,среднее,минимум,максимум,среднее,количество
month_end_date,customer_id,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2021-01-31,98,2,2,2.0,5260.0,5260.0,5260.0,1
2021-01-31,2939,2,2,2.0,4599.8,4599.8,4599.8,1
2021-01-31,3577,2,2,2.0,3075.0,3075.0,3075.0,1
2021-01-31,4443,1,1,1.0,7099.9,7099.9,7099.9,1
2021-01-31,6436,3,3,3.0,12199.8,12199.8,12199.8,1
2021-01-31,...,...,...,...,...,...,...,...
2021-01-31,390068,1,1,1.0,8499.9,8499.9,8499.9,1
2021-01-31,390069,1,1,1.0,3099.9,3099.9,3099.9,1
2021-01-31,390070,3,3,3.0,7904.9,7904.9,7904.9,1
2021-01-31,390071,2,2,2.0,5399.8,5399.8,5399.8,1


In [36]:
path_sales_2021 = '../tables/sales_2021.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.google.com/uc?id=1Xy4a_aAnTAG5fzsQDdwYiQxpNYRMyLkr"
# В видео была немного дуругая таблица
sales_agg = (pd.read_parquet(path_sales_2021)
             
    [['check_id', 'customer_id', 'purchase_date', 'shop_id',
     'product_code_3', 'price', 'goods_number']]
             
    .assign(month_end_date = lambda x: x['purchase_date'].dt.normalize()
            + pd.offsets.MonthEnd(0))

    .assign(price_mul_number = lambda x: x['price'] * x['goods_number'])
             
    .assign(total_goods_per_check = lambda x: x
            .groupby('check_id')['goods_number'].transform('sum'))

    .assign(total_sum_per_check = lambda x: x
            .groupby('check_id')['price_mul_number'].transform('sum'))

    [['customer_id', 'month_end_date', 'total_goods_per_check',
      'total_sum_per_check', 'check_id']]
             
    .drop_duplicates()
             
    .groupby(['month_end_date', 'customer_id'])
             
    .agg({'total_goods_per_check': ['min', 'max', 'mean'],
          'total_sum_per_check': ['min', 'max', 'mean'],
          'check_id': 'count'})
             
    .rename({'total_goods_per_check': 'число товаров в чеке',
            'total_sum_per_check': 'cумма покупки',
            'check_id': 'id чека',
            'min': 'минимум',
            'max': 'максимум',
            'mean': 'среднее',
            'count': 'количество'}, axis=1)
             
    .rename_axis(['месяц', 'id клиента'])
    .head()
)
sales_agg

Unnamed: 0_level_0,Unnamed: 1_level_0,число товаров в чеке,число товаров в чеке,число товаров в чеке,cумма покупки,cумма покупки,cумма покупки,id чека
Unnamed: 0_level_1,Unnamed: 1_level_1,минимум,максимум,среднее,минимум,максимум,среднее,количество
месяц,id клиента,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2021-01-31,98,2,2,2.0,5260.0,5260.0,5260.0,1
2021-01-31,2939,2,2,2.0,4599.8,4599.8,4599.8,1
2021-01-31,3577,2,2,2.0,3075.0,3075.0,3075.0,1
2021-01-31,4443,1,1,1.0,7099.9,7099.9,7099.9,1
2021-01-31,6436,3,3,3.0,12199.8,12199.8,12199.8,1


#### Метод iloc работает так же как и раньше

In [None]:
sales_agg.iloc[0]

Чтобы получить первую строку, указываем сначала первый индекс, а затем второй индекс в круглых скобках

In [None]:
sales_agg.loc[('2021-01-31', 98)]

Выбираем колонку

In [None]:
sales_agg.loc[:, ('cумма покупки', 'максимум')]

#### Выбор нескольких колонок

In [None]:
sales_agg

Как кортеж списков. Первый список это названия из верхнего уровня колонок, а второй список это названия из нижнего уровня колонок

In [None]:
sales_agg.loc[:, (['cумма покупки', 'число товаров в чеке'], ['минимум', 'максимум'])]

Как список кортежей. В каждом кортеже пара верхнего и нежнего уровней

In [None]:
sales_agg.loc[:, [('cумма покупки', 'минимум'), ('число товаров в чеке', 'максимум')]]

### Присваивание новых значений

In [None]:
df

In [None]:
df.iloc[:, 5] = 'M'
df

In [None]:
df.iloc[4, 5] = 'S'
df

In [None]:
df.loc[:, 'size'] = ['L', 'L', 'S', 'M', 'XXL', 'M', 'XL']

In [None]:
df

**При помощи метода loc можно создавать новые колонки и строки**

In [None]:
df.loc[:, 'n_children'] = df['Число детей'] * 2
df

### Пара слов про numpy

In [None]:
np.arange(20).reshape(-1, 4)

#### [] работают так же как и метод iloc у таблиц

In [None]:
np.arange(20).reshape(-1, 4)[3]

In [None]:
np.arange(20).reshape(-1, 4)[:, 2]

In [None]:
np.arange(20).reshape(-1, 4)[1, 1]

# Обращение через атрибут класса

In [None]:
df

In [None]:
df.n_children

In [None]:
df.Имя

In [None]:
df.size

In [None]:
df.n_children

In [None]:
df.n_children = 1

In [None]:
df

In [None]:
df.one = 1

In [None]:
df

In [None]:
df.one

### Метод item()

Когда в объекте Series всего один элемент, его можно получить при помощи метода item

In [None]:
pd.Series(1)

In [None]:
pd.Series(1).item()

In [None]:
pd.Series(1)[0]

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

Из таблицы goods_descr выберите колонки ['product_code_3', 'gender', 'is_one_size', 'product_type', 'size_long']

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# Напишите свой код здесь

### Задание 2

С помощью метода drop удалите из таблицы sales колонки cashier и shop_assistant	

In [None]:
import os
import pandas as pd

path_sales_2022 = '../tables/sales_2022.parquet' if os.path.exists('../tables/sales_2022.parquet') else 'https://drive.google.com/uc?id=17e7FwXVdsWc2aziK9s5KidIvPcfKt9F5'

sales = pd.read_parquet(path_sales_2022)
sales.head()

In [None]:
# Напишите свой код здесь

### Задание 3

Из таблицы sales возьмите первые 6 колонок.

Можете сдалать это любым способом, но в данном случае это удобно сделать методом iloc[] 

In [None]:
import os
import pandas as pd

path_sales_2022 = '../tables/sales_2022.parquet' if os.path.exists('../tables/sales_2022.parquet') else 'https://drive.google.com/uc?id=17e7FwXVdsWc2aziK9s5KidIvPcfKt9F5'

sales = pd.read_parquet(path_sales_2022)
sales.head()

In [None]:
# Напишите свой код здесь

### Задание 4

В таблице marks_6d при помощи метода assign создайте колонку состоящую из единиц. Дайте ей название indicator

Иногда такие колонки удобно создавать перед соединением двух таблиц, чтобы в уже соединенной таблице понимать, какие наблюдения берутся из одной таблицы, а какие из другой

In [None]:
import os
import pandas as pd
path_marks_6d = '../tables/оценки 6Д.csv' if os.path.exists('../tables/оценки 6Д.csv') else 'https://drive.google.com/uc?id=1aMvwur2zrISbVPRo86qWgbHPEpw5km0n'
marks_6d = pd.read_csv(path_marks_6d)
marks_6d.head()

In [None]:
# Напишите свой код здесь

### Задание 5

В таблице empl при помощи метода assign создайте колонку fio_copy, которая будет содержать в себе копию колонки fio

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# Напишите свой код здесь

### Задание 6

Задание на numpy

С помощью функции np.eye можно созадавать матрицу, у которой по диагонали лежат единицы. Однако у матрицы 2 диагонали. Сделайте так, чтобы в единичной матрице 6 на 6 единицы шли не из верхнего левого угла в нижний правый, а из нижнего левого в верхний правый угол.

Чтобы это сделать необходимо развернуть матрицу (взять все элементы с шагом -1)

In [None]:
import numpy as np
# надо из такой матрицы сделать
np.eye(3)

In [None]:
# вот такую, только размером 6 на 6
np.array([[0., 0., 1.],
          [0., 1., 0.],
          [1., 0., 0.]])

In [None]:
# Напишите свой код здесь

### Задание 7

Задание на numpy

Вы уже знаете, как отразить матрицу в вдоль диагонали выходящей из верхнего левого угла. Для этого необходимо ее транспонировать. Теперь попробуйте отражить ее по другой диагонали

In [None]:
import numpy as np
np.random.seed(234)
matrix = np.random.randint(0, 10, (3, 5))
matrix

In [None]:
# Напишите свой код здесь

In [None]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))