<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/08-get-and-set-column.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Изменение и создание колонок таблиц
#### [Ссылка на видео](https://youtu.be/DQ9ZQe7QRlY)

In [1]:
import pandas as pd
import numpy as np
import os

Читаем таблицу

In [2]:
path_df = '../tables/people.parquet' if os.path.exists('../tables/people.parquet') else 'https://drive.google.com/uc?id=1iI1Lde5ya3ruztGYmjpprSCUoCU9rBeS'

df = pd.read_parquet(path_df)
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Илья,Васильев,0,56.3,1996-11-30,False
1,Антон,Алексеев,2,77.0,1976-02-29,True
2,Надежда,Гусева,3,103.1,1964-09-26,True
3,Артем,Павлов,5,134.9,1980-05-18,True
4,Александр,Николаев,1,47.0,1959-02-24,True
5,Дмитрий,Печенкин,2,61.0,1939-04-05,False
6,Дарья,Воробева,3,,1997-07-23,True


# Обращение и изменение через квадратные скобки

In [3]:
df['Число детей']

0    0
1    2
2    3
3    5
4    1
5    2
6    3
Name: Число детей, dtype: int64

In [4]:
# [] это просто сокращение от такой записи
df.__getitem__('Число детей')

0    0
1    2
2    3
3    5
4    1
5    2
6    3
Name: Число детей, dtype: int64

In [5]:
# Сначала считается правая часть равенства, а затем идет присваивание
df['Число детей'] = df['Число детей'] + 1
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Илья,Васильев,1,56.3,1996-11-30,False
1,Антон,Алексеев,3,77.0,1976-02-29,True
2,Надежда,Гусева,4,103.1,1964-09-26,True
3,Артем,Павлов,6,134.9,1980-05-18,True
4,Александр,Николаев,2,47.0,1959-02-24,True
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False
6,Дарья,Воробева,4,,1997-07-23,True


Создаем новую колонку на основе одного значения и списка, ndarray или Series

In [6]:
df['size'] = 'M'
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,M
1,Антон,Алексеев,3,77.0,1976-02-29,True,M
2,Надежда,Гусева,4,103.1,1964-09-26,True,M
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,M
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,M


Длинна массива должна быть равна количеству строк в таблице

In [7]:
df['size'] = ['L', 'L', 'S', 'M', 'XXL', 'M', 'XL']
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Сопоставление идет по индексу

In [8]:
pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
          index=[3, 4, 5, 6, 7, 8, 9])

3      L
4      L
5      S
6      M
7    XXL
8      M
9     XL
dtype: object

In [9]:
df['size'] = pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
                       index=[3, 4, 5, 6, 7, 8, 9])
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,
1,Антон,Алексеев,3,77.0,1976-02-29,True,
2,Надежда,Гусева,4,103.1,1964-09-26,True,
3,Артем,Павлов,6,134.9,1980-05-18,True,L
4,Александр,Николаев,2,47.0,1959-02-24,True,L
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,S
6,Дарья,Воробева,4,,1997-07-23,True,M


In [None]:
df['size'] = pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
                       index=[3, 4, 5, 6, 7, 8, 9]).reset_index(drop=True)
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [13]:
df['size'] = pd.Series(['L', 'L', 'S', 'M', 'XXL', 'M', 'XL'],
                       index=[3, 4, 5, 6, 7, 8, 9]).tolist()
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


#### Выбор нескольких колонок

In [14]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [15]:
df[['Имя', 'Фамилия']]

Unnamed: 0,Имя,Фамилия
0,Илья,Васильев
1,Антон,Алексеев
2,Надежда,Гусева
3,Артем,Павлов
4,Александр,Николаев
5,Дмитрий,Печенкин
6,Дарья,Воробева


Изменим очередность колонок

In [16]:
df[['Фамилия', 'Имя', 'Число детей',
    'Дата рождения', 'size',
     'Женат/Замужем', 'Площадь дома']]

Unnamed: 0,Фамилия,Имя,Число детей,Дата рождения,size,Женат/Замужем,Площадь дома
0,Васильев,Илья,1,1996-11-30,L,False,56.3
1,Алексеев,Антон,3,1976-02-29,L,True,77.0
2,Гусева,Надежда,4,1964-09-26,S,True,103.1
3,Павлов,Артем,6,1980-05-18,M,True,134.9
4,Николаев,Александр,2,1959-02-24,XXL,True,47.0
5,Печенкин,Дмитрий,3,1939-04-05,M,False,61.0
6,Воробева,Дарья,4,1997-07-23,XL,True,


Если передать в метод список, то вернется DataFrame, а если просто строку, то вернется Series

In [17]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [23]:
df[['Имя']]

Unnamed: 0,Имя
0,Илья
1,Антон
2,Надежда
3,Артем
4,Александр
5,Дмитрий
6,Дарья


In [21]:
df['Имя']

0         Илья
1        Антон
2      Надежда
3        Артем
4    Александр
5      Дмитрий
6        Дарья
Name: Имя, dtype: object

In [24]:
df['Имя'].to_frame()

Unnamed: 0,Имя
0,Илья
1,Антон
2,Надежда
3,Артем
4,Александр
5,Дмитрий
6,Дарья


### [ ] при работе с колонками таблицы и объектами Series

In [25]:
names = df['Имя']
names

0         Илья
1        Антон
2      Надежда
3        Артем
4    Александр
5      Дмитрий
6        Дарья
Name: Имя, dtype: object

К объектам Series можно обращаться через название индекса

In [26]:
names[0]

'Илья'

In [27]:
names[4]

'Александр'

In [28]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Поменяем имя Александр на Олег

In [29]:
names[4] = 'Олег'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  names[4] = 'Олег'


In [30]:
names

0       Илья
1      Антон
2    Надежда
3      Артем
4       Олег
5    Дмитрий
6      Дарья
Name: Имя, dtype: object

Значение поменялось не только в переменной names, но и в таблице

In [31]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Олег,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Обратно вернем имя Александр

In [32]:
names[4] = 'Александр'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  names[4] = 'Александр'


In [33]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Чтобы значение менялось только в переменной необходимо использовать метод copy

In [34]:
names = df['Имя'].copy()
names

0         Илья
1        Антон
2      Надежда
3        Артем
4    Александр
5      Дмитрий
6        Дарья
Name: Имя, dtype: object

In [35]:
names[4] = 'Олег'

In [36]:
names

0       Илья
1      Антон
2    Надежда
3      Артем
4       Олег
5    Дмитрий
6      Дарья
Name: Имя, dtype: object

In [37]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [38]:
df1 = df.copy()
df1

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


Вунтри функций никогда не будет лишней такая строчка

In [39]:
def some_func(df):
    df = df.copy()
    
    # Код функции
    

# Метод drop

Метод для удаления коложнок из таблицы

#### Синтаксис:

1. df.drop(columns='название колонки' или спискок из названий колонок)
2. df.drop('название колонки' или спискок из названий колонок, axis=1)
3. df.drop('название колонки' или спискок из названий колонок, axis='columns')

Кроме того, с помощью этого метода можно удалять индексы

df.drop(название индекса или спискок из ненужных индексов)

In [40]:
df[['Фамилия', 'Число детей', 'Площадь дома',
    'Дата рождения', 'Женат/Замужем']]

Unnamed: 0,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Васильев,1,56.3,1996-11-30,False
1,Алексеев,3,77.0,1976-02-29,True
2,Гусева,4,103.1,1964-09-26,True
3,Павлов,6,134.9,1980-05-18,True
4,Николаев,2,47.0,1959-02-24,True
5,Печенкин,3,61.0,1939-04-05,False
6,Воробева,4,,1997-07-23,True


In [41]:
df.drop(columns='Имя')
df.drop('Имя', axis=1)
df.drop('Имя', axis='columns')

Unnamed: 0,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Васильев,1,56.3,1996-11-30,False,L
1,Алексеев,3,77.0,1976-02-29,True,L
2,Гусева,4,103.1,1964-09-26,True,S
3,Павлов,6,134.9,1980-05-18,True,M
4,Николаев,2,47.0,1959-02-24,True,XXL
5,Печенкин,3,61.0,1939-04-05,False,M
6,Воробева,4,,1997-07-23,True,XL


In [42]:
df.drop(columns=['Имя', 'size'])
df.drop(['Имя', 'size'], axis=1)
df.drop(['Имя', 'size'], axis='columns')

Unnamed: 0,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем
0,Васильев,1,56.3,1996-11-30,False
1,Алексеев,3,77.0,1976-02-29,True
2,Гусева,4,103.1,1964-09-26,True
3,Павлов,6,134.9,1980-05-18,True
4,Николаев,2,47.0,1959-02-24,True
5,Печенкин,3,61.0,1939-04-05,False
6,Воробева,4,,1997-07-23,True


In [43]:
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [None]:
# df = df.drop(columns=['Имя', 'size'])

# Метод assign

Метод необходим для создания новых колонок.

#### Синтаксис:

df.assign(название колонки без кавычек = значение, которое надо присвоить колонке)

__Ограничения на названия колонок в методе assign:__
1. Допускаются только символы латинского алфавита, цифры и _
2. Название не должно начинасться на цифру
3. Название не должно содержать пробелов

In [44]:
df.assign(one = 1)

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,one
0,Илья,Васильев,1,56.3,1996-11-30,False,L,1
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,1
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,1
3,Артем,Павлов,6,134.9,1980-05-18,True,M,1
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,1
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,1
6,Дарья,Воробева,4,,1997-07-23,True,XL,1


In [45]:
df['one'] = 1
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,one
0,Илья,Васильев,1,56.3,1996-11-30,False,L,1
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,1
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,1
3,Артем,Павлов,6,134.9,1980-05-18,True,M,1
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,1
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,1
6,Дарья,Воробева,4,,1997-07-23,True,XL,1


In [46]:
df = df.drop('one', axis=1)
df

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,L
1,Антон,Алексеев,3,77.0,1976-02-29,True,L
2,Надежда,Гусева,4,103.1,1964-09-26,True,S
3,Артем,Павлов,6,134.9,1980-05-18,True,M
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M
6,Дарья,Воробева,4,,1997-07-23,True,XL


In [47]:
df.assign(range_1_7 = [1, 2, 3, 4, 5, 6, 7])

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,range_1_7
0,Илья,Васильев,1,56.3,1996-11-30,False,L,1
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,2
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,3
3,Артем,Павлов,6,134.9,1980-05-18,True,M,4
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,5
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,6
6,Дарья,Воробева,4,,1997-07-23,True,XL,7


In [48]:
df.assign(size = lambda x: x['size'].str.lower())

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
0,Илья,Васильев,1,56.3,1996-11-30,False,l
1,Антон,Алексеев,3,77.0,1976-02-29,True,l
2,Надежда,Гусева,4,103.1,1964-09-26,True,s
3,Артем,Павлов,6,134.9,1980-05-18,True,m
4,Александр,Николаев,2,47.0,1959-02-24,True,xxl
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,m
6,Дарья,Воробева,4,,1997-07-23,True,xl


In [49]:
df.assign(house_square = lambda x: x['Площадь дома'] * 2)

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,house_square
0,Илья,Васильев,1,56.3,1996-11-30,False,L,112.6
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,154.0
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,206.2
3,Артем,Павлов,6,134.9,1980-05-18,True,M,269.8
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,94.0
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,122.0
6,Дарья,Воробева,4,,1997-07-23,True,XL,


In [50]:
(df
    .assign(house_square = lambda x: x['Площадь дома'] * 2)
    .assign(house_square_1 = lambda x: x['house_square'])
)

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,house_square,house_square_1
0,Илья,Васильев,1,56.3,1996-11-30,False,L,112.6,112.6
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,154.0,154.0
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,206.2,206.2
3,Артем,Павлов,6,134.9,1980-05-18,True,M,269.8,269.8
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,94.0,94.0
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,122.0,122.0
6,Дарья,Воробева,4,,1997-07-23,True,XL,,


__Ограничения на названия колонок в методе assign:__
1. Допускаются только символы латинского алфавита, цифры и _
2. Название не должно начинасться на цифру
3. Название не должно содержать пробелов

#### Создание колонок на русском языке

In [51]:
# Не очень хороший вариант
df.assign(Площадь_квартиры = lambda x: x['Площадь дома'])

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,Площадь_квартиры
0,Илья,Васильев,1,56.3,1996-11-30,False,L,56.3
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,77.0
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,103.1
3,Артем,Павлов,6,134.9,1980-05-18,True,M,134.9
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,47.0
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,61.0
6,Дарья,Воробева,4,,1997-07-23,True,XL,


In [52]:
df.assign(**{'Площадь кваратиры': lambda x: x['Площадь дома']})

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,Площадь кваратиры
0,Илья,Васильев,1,56.3,1996-11-30,False,L,56.3
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,77.0
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,103.1
3,Артем,Павлов,6,134.9,1980-05-18,True,M,134.9
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,47.0
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,61.0
6,Дарья,Воробева,4,,1997-07-23,True,XL,


In [53]:
(df
    .assign(flat_square = lambda x: x['Площадь дома'])
    .rename({'flat_square': 'Площадь кваратиры'}, axis=1)
)

Unnamed: 0,Имя,Фамилия,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,Площадь кваратиры
0,Илья,Васильев,1,56.3,1996-11-30,False,L,56.3
1,Антон,Алексеев,3,77.0,1976-02-29,True,L,77.0
2,Надежда,Гусева,4,103.1,1964-09-26,True,S,103.1
3,Артем,Павлов,6,134.9,1980-05-18,True,M,134.9
4,Александр,Николаев,2,47.0,1959-02-24,True,XXL,47.0
5,Дмитрий,Печенкин,3,61.0,1939-04-05,False,M,61.0
6,Дарья,Воробева,4,,1997-07-23,True,XL,


# Атрибуты loc и iloc

Методы loc и iloc очень похожи. Метод loc позволяет образаться к столбцам таблицы, строкам и ячейкам по названию колонок и индексов, а метод iloc по их номерам

In [54]:
df = df.set_index('Фамилия')
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


**Если передать в [ ] атрибута loc или iloc один аргумент, то вернется строка таблицы**

In [55]:
df.loc['Васильев']

Имя                             Илья
Число детей                        1
Площадь дома                    56.3
Дата рождения    1996-11-30 00:00:00
Женат/Замужем                  False
size                               L
Name: Васильев, dtype: object

In [56]:
df.iloc[0]

Имя                             Илья
Число детей                        1
Площадь дома                    56.3
Дата рождения    1996-11-30 00:00:00
Женат/Замужем                  False
size                               L
Name: Васильев, dtype: object

#### В них можно передавать списки

In [57]:
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


In [58]:
df.loc[['Васильев', 'Павлов']]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Павлов,Артем,6,134.9,1980-05-18,True,M


In [59]:
df.iloc[[0, 3]]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Павлов,Артем,6,134.9,1980-05-18,True,M


Если продублировать один и тот же индекс несколько раз, то соответствующая строка вернется несколько раз

In [60]:
df.loc[['Васильев', 'Павлов', 'Васильев']]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Павлов,Артем,6,134.9,1980-05-18,True,M
Васильев,Илья,1,56.3,1996-11-30,False,L


In [61]:
df.iloc[[0, 3, 0]]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Павлов,Артем,6,134.9,1980-05-18,True,M
Васильев,Илья,1,56.3,1996-11-30,False,L


#### Срезы

In [62]:
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


In [63]:
df.loc['Алексеев': 'Николаев']

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL


In [64]:
df.iloc[1:5]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL


In [65]:
df.loc['Алексеев':]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


In [66]:
df.iloc[1:]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


In [67]:
df.loc['Алексеев':'Николаев':2]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Павлов,Артем,6,134.9,1980-05-18,True,M


In [68]:
df.iloc[1:5:2]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Павлов,Артем,6,134.9,1980-05-18,True,M


In [None]:
df.loc['Алексеев'::2]

In [69]:
df.iloc[1::2]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алексеев,Антон,3,77.0,1976-02-29,True,L
Павлов,Артем,6,134.9,1980-05-18,True,M
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M


**В методы можно передавать 2 аргумента. Тогда первый аргумент будет отвечать за выбор строки, а второй за выбор столбца**

In [70]:
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


In [71]:
df.loc[['Алексеев', 'Павлов'], 'Имя': 'Дата рождения']

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алексеев,Антон,3,77.0,1976-02-29
Павлов,Артем,6,134.9,1980-05-18


In [72]:
df.iloc[[0, 3], :4]

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Васильев,Илья,1,56.3,1996-11-30
Павлов,Артем,6,134.9,1980-05-18


**Чтобы выбрать колонку таблицы, необходимо в качестве первого аргумента передать двоеточие**

In [73]:
df.loc[:, 'Дата рождения']

Фамилия
Васильев   1996-11-30
Алексеев   1976-02-29
Гусева     1964-09-26
Павлов     1980-05-18
Николаев   1959-02-24
Печенкин   1939-04-05
Воробева   1997-07-23
Name: Дата рождения, dtype: datetime64[us]

In [74]:
df.iloc[:, 3]

Фамилия
Васильев   1996-11-30
Алексеев   1976-02-29
Гусева     1964-09-26
Павлов     1980-05-18
Николаев   1959-02-24
Печенкин   1939-04-05
Воробева   1997-07-23
Name: Дата рождения, dtype: datetime64[us]

In [76]:
type(df.iloc[:, [3]])

pandas.core.frame.DataFrame

In [77]:
df.loc[:, ['Дата рождения']]

Unnamed: 0_level_0,Дата рождения
Фамилия,Unnamed: 1_level_1
Васильев,1996-11-30
Алексеев,1976-02-29
Гусева,1964-09-26
Павлов,1980-05-18
Николаев,1959-02-24
Печенкин,1939-04-05
Воробева,1997-07-23


In [78]:
df.iloc[:, -3:]

Unnamed: 0_level_0,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Васильев,1996-11-30,False,L
Алексеев,1976-02-29,True,L
Гусева,1964-09-26,True,S
Павлов,1980-05-18,True,M
Николаев,1959-02-24,True,XXL
Печенкин,1939-04-05,False,M
Воробева,1997-07-23,True,XL


**Выбираем отдельные ячейки**

In [79]:
df.loc['Алексеев', 'Имя']

'Антон'

In [80]:
df.iloc[1, 0]

'Антон'

#### Обращение к мультииндексу

In [81]:
(pd.read_parquet(path_sales_2021)
             
    [['check_id', 'customer_id', 'purchase_date', 'shop_id',
     'product_code_3', 'price', 'goods_number']]

    .assign(month_end_date = lambda x: x['purchase_date'].dt.normalize()
            + pd.offsets.MonthEnd(0))

    .assign(price_mul_number = lambda x: x['price'] * x['goods_number'])
 
    .groupby(['customer_id', 'month_end_date', 'check_id'])
    [['price_mul_number', 'goods_number']]
    
    .sum()
    .reset_index()
    .groupby(['month_end_date', 'customer_id'])
    .agg({'goods_number': ['min', 'max', 'mean'],
          'price_mul_number': ['min', 'max', 'mean'],
          'check_id': 'count'})
    .rename({'goods_number': 'число товаров в чеке',
            'total_sum_per_check': 'cумма покупки',
            'price_mul_number': 'id чека',
            'min': 'минимум',
            'max': 'максимум',
            'mean': 'среднее',
            'count': 'количество'}, axis=1)
    
 
)

NameError: name 'path_sales_2021' is not defined

In [82]:
path_sales_2021 = '../tables/sales_2021.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.google.com/uc?id=1Xy4a_aAnTAG5fzsQDdwYiQxpNYRMyLkr"
# В видео была немного дуругая таблица
sales_agg = (pd.read_parquet(path_sales_2021)
             
    [['check_id', 'customer_id', 'purchase_date', 'shop_id',
     'product_code_3', 'price', 'goods_number']]
             
    .assign(month_end_date = lambda x: x['purchase_date'].dt.normalize()
            + pd.offsets.MonthEnd(0))

    .assign(price_mul_number = lambda x: x['price'] * x['goods_number'])
             
    .assign(total_goods_per_check = lambda x: x
            .groupby('check_id')['goods_number'].transform('sum'))

    .assign(total_sum_per_check = lambda x: x
            .groupby('check_id')['price_mul_number'].transform('sum'))

    [['customer_id', 'month_end_date', 'total_goods_per_check',
      'total_sum_per_check', 'check_id']]
             
    .drop_duplicates()
             
    .groupby(['month_end_date', 'customer_id'])
             
    .agg({'total_goods_per_check': ['min', 'max', 'mean'],
          'total_sum_per_check': ['min', 'max', 'mean'],
          'check_id': 'count'})
             
    .rename({'total_goods_per_check': 'число товаров в чеке',
            'total_sum_per_check': 'cумма покупки',
            'check_id': 'id чека',
            'min': 'минимум',
            'max': 'максимум',
            'mean': 'среднее',
            'count': 'количество'}, axis=1)
             
    .rename_axis(['месяц', 'id клиента'])
    .head()
)
sales_agg

Unnamed: 0_level_0,Unnamed: 1_level_0,число товаров в чеке,число товаров в чеке,число товаров в чеке,cумма покупки,cумма покупки,cумма покупки,id чека
Unnamed: 0_level_1,Unnamed: 1_level_1,минимум,максимум,среднее,минимум,максимум,среднее,количество
месяц,id клиента,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2021-01-31,98,2,2,2.0,5260.0,5260.0,5260.0,1
2021-01-31,2939,2,2,2.0,4599.8,4599.8,4599.8,1
2021-01-31,3577,2,2,2.0,3075.0,3075.0,3075.0,1
2021-01-31,4443,1,1,1.0,7099.9,7099.9,7099.9,1
2021-01-31,6436,3,3,3.0,12199.8,12199.8,12199.8,1


#### Метод iloc работает так же как и раньше

In [83]:
sales_agg.iloc[0]

число товаров в чеке  минимум          2.0
                      максимум         2.0
                      среднее          2.0
cумма покупки         минимум       5260.0
                      максимум      5260.0
                      среднее       5260.0
id чека               количество       1.0
Name: (2021-01-31 00:00:00, 98), dtype: float64

Чтобы получить первую строку, указываем сначала первый индекс, а затем второй индекс в круглых скобках

In [84]:
sales_agg.loc[('2021-01-31', 98)]

число товаров в чеке  минимум          2.0
                      максимум         2.0
                      среднее          2.0
cумма покупки         минимум       5260.0
                      максимум      5260.0
                      среднее       5260.0
id чека               количество       1.0
Name: (2021-01-31 00:00:00, 98), dtype: float64

Выбираем колонку

In [None]:
sales_agg.loc[:, ('cумма покупки', 'максимум')]

#### Выбор нескольких колонок

In [86]:
sales_agg

Unnamed: 0_level_0,Unnamed: 1_level_0,число товаров в чеке,число товаров в чеке,число товаров в чеке,cумма покупки,cумма покупки,cумма покупки,id чека
Unnamed: 0_level_1,Unnamed: 1_level_1,минимум,максимум,среднее,минимум,максимум,среднее,количество
месяц,id клиента,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2021-01-31,98,2,2,2.0,5260.0,5260.0,5260.0,1
2021-01-31,2939,2,2,2.0,4599.8,4599.8,4599.8,1
2021-01-31,3577,2,2,2.0,3075.0,3075.0,3075.0,1
2021-01-31,4443,1,1,1.0,7099.9,7099.9,7099.9,1
2021-01-31,6436,3,3,3.0,12199.8,12199.8,12199.8,1


Как кортеж списков. Первый список это названия из верхнего уровня колонок, а второй список это названия из нижнего уровня колонок

In [85]:
sales_agg.loc[:, (['cумма покупки', 'число товаров в чеке'], ['минимум', 'максимум'])]

Unnamed: 0_level_0,Unnamed: 1_level_0,cумма покупки,cумма покупки,число товаров в чеке,число товаров в чеке
Unnamed: 0_level_1,Unnamed: 1_level_1,минимум,максимум,минимум,максимум
месяц,id клиента,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2021-01-31,98,5260.0,5260.0,2,2
2021-01-31,2939,4599.8,4599.8,2,2
2021-01-31,3577,3075.0,3075.0,2,2
2021-01-31,4443,7099.9,7099.9,1,1
2021-01-31,6436,12199.8,12199.8,3,3


Как список кортежей. В каждом кортеже пара верхнего и нежнего уровней

In [None]:
sales_agg.loc[:, [('cумма покупки', 'минимум'), ('число товаров в чеке', 'максимум')]]

### Присваивание новых значений

In [87]:
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


In [88]:
df.iloc[:, 5] = 'M'
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,M
Алексеев,Антон,3,77.0,1976-02-29,True,M
Гусева,Надежда,4,103.1,1964-09-26,True,M
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,M
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,M


In [89]:
df.iloc[4, 5] = 'S'
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,M
Алексеев,Антон,3,77.0,1976-02-29,True,M
Гусева,Надежда,4,103.1,1964-09-26,True,M
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,S
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,M


In [90]:
df.loc[:, 'size'] = ['L', 'L', 'S', 'M', 'XXL', 'M', 'XL']

In [91]:
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L
Алексеев,Антон,3,77.0,1976-02-29,True,L
Гусева,Надежда,4,103.1,1964-09-26,True,S
Павлов,Артем,6,134.9,1980-05-18,True,M
Николаев,Александр,2,47.0,1959-02-24,True,XXL
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M
Воробева,Дарья,4,,1997-07-23,True,XL


**При помощи метода loc можно создавать новые колонки и строки**

In [92]:
df.loc[:, 'n_children'] = df['Число детей'] * 2
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,n_children
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L,2
Алексеев,Антон,3,77.0,1976-02-29,True,L,6
Гусева,Надежда,4,103.1,1964-09-26,True,S,8
Павлов,Артем,6,134.9,1980-05-18,True,M,12
Николаев,Александр,2,47.0,1959-02-24,True,XXL,4
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M,6
Воробева,Дарья,4,,1997-07-23,True,XL,8


### Пара слов про numpy

In [93]:
np.arange(20).reshape(-1, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

#### [] работают так же как и метод iloc у таблиц

In [94]:
np.arange(20).reshape(-1, 4)[3]

array([12, 13, 14, 15])

In [95]:
np.arange(20).reshape(-1, 4)[:, 2]

array([ 2,  6, 10, 14, 18])

In [96]:
np.arange(20).reshape(-1, 4)[1, 1]

5

# Обращение через атрибут класса

In [97]:
df

Unnamed: 0_level_0,Имя,Число детей,Площадь дома,Дата рождения,Женат/Замужем,size,n_children
Фамилия,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Васильев,Илья,1,56.3,1996-11-30,False,L,2
Алексеев,Антон,3,77.0,1976-02-29,True,L,6
Гусева,Надежда,4,103.1,1964-09-26,True,S,8
Павлов,Артем,6,134.9,1980-05-18,True,M,12
Николаев,Александр,2,47.0,1959-02-24,True,XXL,4
Печенкин,Дмитрий,3,61.0,1939-04-05,False,M,6
Воробева,Дарья,4,,1997-07-23,True,XL,8


In [98]:
df.n_children

Фамилия
Васильев     2
Алексеев     6
Гусева       8
Павлов      12
Николаев     4
Печенкин     6
Воробева     8
Name: n_children, dtype: int64

In [99]:
df.Имя

Фамилия
Васильев         Илья
Алексеев        Антон
Гусева        Надежда
Павлов          Артем
Николаев    Александр
Печенкин      Дмитрий
Воробева        Дарья
Name: Имя, dtype: object

In [100]:
df.size

49

In [None]:
df.n_children

In [None]:
df.n_children = 1

In [None]:
df

In [101]:
df.one = 1

In [None]:
df

In [None]:
df.one

### Метод item()

Когда в объекте Series всего один элемент, его можно получить при помощи метода item

In [102]:
pd.Series(1)

0    1
dtype: int64

In [103]:
pd.Series(1).item()

1

In [None]:
pd.Series(1)[0]

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

Из таблицы goods_descr выберите колонки ['product_code_3', 'gender', 'is_one_size', 'product_type', 'size_long']

In [104]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

Unnamed: 0,product_name,brand,description,product_code_1,product_code_2,product_code_3,gender,is_no_size,is_one_size,product_type,size_long,size_short,seller,colour,url
0,River Island slim shacket in brown,River Island,Shirts by River Island Do the smart thing Spre...,0,204638347,204638356,Men,False,False,Рубашки,XS - Chest 32-34,XS,,Brown,https://www.asos.com/river-island/river-island...
1,River Island slim shacket in brown,River Island,Shirts by River Island Do the smart thing Spre...,0,204638347,204638358,Men,False,False,Рубашки,S - Chest 35-37,S,,Brown,https://www.asos.com/river-island/river-island...
2,River Island slim shacket in brown,River Island,Shirts by River Island Do the smart thing Spre...,0,204638347,204638360,Men,False,False,Рубашки,M - Chest 38-40,M,,Brown,https://www.asos.com/river-island/river-island...
3,River Island slim shacket in brown,River Island,Shirts by River Island Do the smart thing Spre...,0,204638347,204638351,Men,False,False,Рубашки,L - Chest 41-43,L,,Brown,https://www.asos.com/river-island/river-island...
4,River Island slim shacket in brown,River Island,Shirts by River Island Do the smart thing Spre...,0,204638347,204638354,Men,False,False,Рубашки,XL - Chest 44-46,XL,,Brown,https://www.asos.com/river-island/river-island...


In [108]:
goods_descr[["product_code_3", "gender", "is_one_size", "product_type", "size_long"]]

Unnamed: 0,product_code_3,gender,is_one_size,product_type,size_long
0,204638356,Men,False,Рубашки,XS - Chest 32-34
1,204638358,Men,False,Рубашки,S - Chest 35-37
2,204638360,Men,False,Рубашки,M - Chest 38-40
3,204638351,Men,False,Рубашки,L - Chest 41-43
4,204638354,Men,False,Рубашки,XL - Chest 44-46
...,...,...,...,...,...
81853,201010345,Women,False,Леггинсы,UK 14
81854,201010348,Women,False,Леггинсы,UK 16
81855,22842063,Women,False,Брюки,UK 8
81856,22841683,Women,False,Брюки,UK 6


### Задание 2

С помощью метода drop удалите из таблицы sales колонки cashier и shop_assistant	

In [109]:
import os
import pandas as pd

path_sales_2022 = '../tables/sales_2022.parquet' if os.path.exists('../tables/sales_2022.parquet') else 'https://drive.google.com/uc?id=17e7FwXVdsWc2aziK9s5KidIvPcfKt9F5'

sales = pd.read_parquet(path_sales_2022)
sales.head()

Unnamed: 0,check_id,customer_id,purchase_date,shop_id,product_code_1,product_code_2,product_code_3,cashier,shop_assistant,price,goods_number
0,5018720,397529,2022-01-01 10:00:10,23,5296,203797948,203797952,1400,1261,1199.9,1
1,5018720,397529,2022-01-01 10:00:10,23,3469,204154277,204154280,1400,1261,2299.9,1
2,5018721,398014,2022-01-01 10:00:12,22,7195,203131402,203131442,1421,1224,4720.0,1
3,5018721,398014,2022-01-01 10:00:12,22,7195,203131375,203131509,1421,1224,5899.9,1
4,5018722,118702,2022-01-01 10:00:41,8,6227,203635921,203635948,298,1462,8999.9,1


In [111]:
sales = sales.drop(columns=['cashier', 'shop_assistant'])
sales

Unnamed: 0,check_id,customer_id,purchase_date,shop_id,product_code_1,product_code_2,product_code_3,price,goods_number
0,5018720,397529,2022-01-01 10:00:10,23,5296,203797948,203797952,1199.9,1
1,5018720,397529,2022-01-01 10:00:10,23,3469,204154277,204154280,2299.9,1
2,5018721,398014,2022-01-01 10:00:12,22,7195,203131402,203131442,4720.0,1
3,5018721,398014,2022-01-01 10:00:12,22,7195,203131375,203131509,5899.9,1
4,5018722,118702,2022-01-01 10:00:41,8,6227,203635921,203635948,8999.9,1
...,...,...,...,...,...,...,...,...,...
2435792,6366370,214640,2022-12-31 21:59:25,12,15573,204111179,204111183,2999.9,1
2435793,6366370,214640,2022-12-31 21:59:25,12,28483,202104809,202104818,1995.0,1
2435794,6366371,280757,2022-12-31 21:59:41,17,9548,202893505,202893522,2880.0,1
2435795,6366371,280757,2022-12-31 21:59:41,17,60,202608730,202608738,3600.0,1


### Задание 3

Из таблицы sales возьмите первые 6 колонок.

Можете сдалать это любым способом, но в данном случае это удобно сделать методом iloc[] 

In [None]:
import os
import pandas as pd

path_sales_2022 = '../tables/sales_2022.parquet' if os.path.exists('../tables/sales_2022.parquet') else 'https://drive.google.com/uc?id=17e7FwXVdsWc2aziK9s5KidIvPcfKt9F5'

sales = pd.read_parquet(path_sales_2022)
sales.head()

In [115]:
sales

Unnamed: 0,check_id,customer_id,purchase_date,shop_id,product_code_1,product_code_2,product_code_3,price,goods_number
0,5018720,397529,2022-01-01 10:00:10,23,5296,203797948,203797952,1199.9,1
1,5018720,397529,2022-01-01 10:00:10,23,3469,204154277,204154280,2299.9,1
2,5018721,398014,2022-01-01 10:00:12,22,7195,203131402,203131442,4720.0,1
3,5018721,398014,2022-01-01 10:00:12,22,7195,203131375,203131509,5899.9,1
4,5018722,118702,2022-01-01 10:00:41,8,6227,203635921,203635948,8999.9,1
...,...,...,...,...,...,...,...,...,...
2435792,6366370,214640,2022-12-31 21:59:25,12,15573,204111179,204111183,2999.9,1
2435793,6366370,214640,2022-12-31 21:59:25,12,28483,202104809,202104818,1995.0,1
2435794,6366371,280757,2022-12-31 21:59:41,17,9548,202893505,202893522,2880.0,1
2435795,6366371,280757,2022-12-31 21:59:41,17,60,202608730,202608738,3600.0,1


In [121]:
sales.iloc[:, :6]

Unnamed: 0,check_id,customer_id,purchase_date,shop_id,product_code_1,product_code_2
0,5018720,397529,2022-01-01 10:00:10,23,5296,203797948
1,5018720,397529,2022-01-01 10:00:10,23,3469,204154277
2,5018721,398014,2022-01-01 10:00:12,22,7195,203131402
3,5018721,398014,2022-01-01 10:00:12,22,7195,203131375
4,5018722,118702,2022-01-01 10:00:41,8,6227,203635921
...,...,...,...,...,...,...
2435792,6366370,214640,2022-12-31 21:59:25,12,15573,204111179
2435793,6366370,214640,2022-12-31 21:59:25,12,28483,202104809
2435794,6366371,280757,2022-12-31 21:59:41,17,9548,202893505
2435795,6366371,280757,2022-12-31 21:59:41,17,60,202608730


### Задание 4

В таблице marks_6d при помощи метода assign создайте колонку состоящую из единиц. Дайте ей название indicator

Иногда такие колонки удобно создавать перед соединением двух таблиц, чтобы в уже соединенной таблице понимать, какие наблюдения берутся из одной таблицы, а какие из другой

In [123]:
import os
import pandas as pd
path_marks_6d = '../tables/оценки 6Д.csv' if os.path.exists('../tables/оценки 6Д.csv') else 'https://drive.google.com/uc?id=1aMvwur2zrISbVPRo86qWgbHPEpw5km0n'
marks_6d = pd.read_csv(path_marks_6d)
marks_6d.head()

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура
0,Большакова Ольга Захаровна,женский,4,5,5,4,5,5
1,Михайлов Артем Артемович,мужской,5,5,5,4,4,4
2,Афанасьев Леонид Артурович,мужской,4,4,3,4,3,5
3,Козлов Николай Артёмович,мужской,3,4,4,4,3,5
4,Крылова Марина Сергеевна,женский,5,5,4,4,4,5


In [125]:
marks_6d = marks_6d.assign(indicator = 1)
marks_6d

Unnamed: 0,ФИО,Пол,Математика,Русский язык,Литература,Физика,История,Физическая культура,indicator
0,Большакова Ольга Захаровна,женский,4,5,5,4,5,5,1
1,Михайлов Артем Артемович,мужской,5,5,5,4,4,4,1
2,Афанасьев Леонид Артурович,мужской,4,4,3,4,3,5,1
3,Козлов Николай Артёмович,мужской,3,4,4,4,3,5,1
4,Крылова Марина Сергеевна,женский,5,5,4,4,4,5,1
5,Елизаров Денис Кириллович,мужской,3,3,3,3,3,5,1
6,Рыбаков Андрей Захарович,мужской,4,5,5,3,5,5,1
7,Мартынова Елизаваета Фёдоровна,женский,3,3,3,4,3,4,1
8,Лазарева Мария Артемовна,женский,5,5,4,5,5,5,1
9,Фадеева Анна Руслановна,женский,4,5,4,5,5,3,1


### Задание 5

В таблице empl при помощи метода assign создайте колонку fio_copy, которая будет содержать в себе копию колонки fio

In [126]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11.0,0,0,1971-07-07,среднее профессиональное,5.0,20000.0
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12.0,0,0,1974-11-29,среднее общее,5.0,12600.0
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12.0,0,0,1969-11-01,среднее общее,3.0,12600.0
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11.0,0,0,1988-07-17,среднее общее,,15400.0


In [127]:
empl = empl.assign(fio_copy = lambda x: x['fio'])
empl

Unnamed: 0,report_dt,i_pernr,fio,sex,shop_id,pos_name,pos_id,closest_boss_pos_id,mgmt_flag,salary_fork,birth_date,education,employee_evaluation,salary,fio_copy
0,2015-01-31,100000,Кожевников Андрей Максимович,мужской,1,Директор магазина,11,,1,0,1987-03-11,высшее,5.0,45700.0,Кожевников Андрей Максимович
1,2015-01-31,0,Дубинина Надежда Николаевна,женский,1,Старший кассир,12,11,0,0,1971-07-07,среднее профессиональное,5.0,20000.0,Дубинина Надежда Николаевна
2,2015-01-31,1,Вишневскиая Валентина Константиновна,женский,1,Кассир,13,12,0,0,1974-11-29,среднее общее,5.0,12600.0,Вишневскиая Валентина Константиновна
3,2015-01-31,2,Литвинов Александр Максимович,мужской,1,Кассир,14,12,0,0,1969-11-01,среднее общее,3.0,12600.0,Литвинов Александр Максимович
4,2015-01-31,3,Черняева Валерия Глебовна,женский,1,Продавец-консультант,17,11,0,0,1988-07-17,среднее общее,,15400.0,Черняева Валерия Глебовна
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29367,2022-12-31,1372,Морозова Раиса Ярославовна,женский,23,Продавец-консультант,2325,232,0,2,1962-01-13,среднее профессиональное,6.0,38000.0,Морозова Раиса Ярославовна
29368,2022-12-31,1615,Фадеева Евгения Данииловна,женский,23,Товаровед,2326,233,0,1,1989-07-12,среднее общее,6.0,31800.0,Фадеева Евгения Данииловна
29369,2022-12-31,1748,Измайлов Григорий Артемович,мужской,23,Товаровед,2327,233,0,0,1989-12-23,среднее общее,3.0,28400.0,Измайлов Григорий Артемович
29370,2022-12-31,1616,Русаков Евгений Тимурович,мужской,23,Мастер по ремонту одежды,2328,232,0,2,1963-09-19,среднее профессиональное,7.0,35500.0,Русаков Евгений Тимурович


### Задание 6

Задание на numpy

С помощью функции np.eye можно созадавать матрицу, у которой по диагонали лежат единицы. Однако у матрицы 2 диагонали. Сделайте так, чтобы в единичной матрице 6 на 6 единицы шли не из верхнего левого угла в нижний правый, а из нижнего левого в верхний правый угол.

Чтобы это сделать необходимо развернуть матрицу (взять все элементы с шагом -1)

In [128]:
import numpy as np
# надо из такой матрицы сделать
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [129]:
# вот такую, только размером 6 на 6
np.array([[0., 0., 1.],
          [0., 1., 0.],
          [1., 0., 0.]])

array([[0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.]])

In [134]:
np.eye(6)[::-1]

array([[0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0.]])

### Задание 7

Задание на numpy

Вы уже знаете, как отразить матрицу в вдоль диагонали выходящей из верхнего левого угла. Для этого необходимо ее транспонировать. Теперь попробуйте отражить ее по другой диагонали

In [135]:
import numpy as np
np.random.seed(234)
matrix = np.random.randint(0, 10, (3, 5))
matrix

array([[8, 4, 9, 1, 3],
       [7, 6, 3, 0, 3],
       [3, 2, 6, 8, 9]])

In [None]:
matrix[::-1]

array([[3, 2, 6, 8, 9],
       [7, 6, 3, 0, 3],
       [8, 4, 9, 1, 3]])

In [137]:
np.fliplr(matrix.T)

array([[3, 7, 8],
       [2, 6, 4],
       [6, 3, 9],
       [8, 0, 1],
       [9, 3, 3]])