In [1]:
import pandas as pd
import numpy as np

# Знакомство с иерархической индексацией

## Мульти индексы

In [2]:
# задаем значнения и индексы серии в явном виде:

s = pd.Series([i for i in range(10, 100,10)], index = [0,1,2,3,4,5,6,7,8])

In [12]:
s

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [15]:
# для того, чтобы был мультииндекс, в индекс надо передать два массива - индекс первого уровня, индекс второго уровня:

index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c' ], 
         [ 0,   1,   2,   3,   4,   5,   6,   7,   8]]


s1 = pd.Series([i for i in range(10, 100,10)], index = index)

In [16]:
s1

a  0    10
   1    20
   2    30
b  3    40
   4    50
   5    60
c  6    70
   7    80
   8    90
dtype: int64

In [18]:
# вытаскиваем данные из мульти индекса:

# все по индексу нулевого уровня:

s1['a']

0    10
1    20
2    30
dtype: int64

In [19]:
s1['b': 'c']

b  3    40
   4    50
   5    60
c  6    70
   7    80
   8    90
dtype: int64

In [20]:
s1.loc[['a', 'c']]

a  0    10
   1    20
   2    30
c  6    70
   7    80
   8    90
dtype: int64

In [21]:
# если мы хотим сразу вытаскивать данные по индексу не с нулевого уровня, а с первого - обращаемся к нему:

s1.loc[:,1] 

# двоеточие говорит о том, что мы игнорируем нулевой индекс, ну или проходимся по нему всему и ищем уже в первом уровне

a    20
dtype: int64

## Раскладываем серию с мультииндексом на датафрейм

In [3]:
s3 = pd.Series([50000, 45000, 40000, 55000, 47000, 45000, 52000, 43000, 41000], 
               index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
                      ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист']])

In [4]:
s3

Тестирование  Начальник     50000
              Эксперт       45000
              Специалист    40000
Разработка    Начальник     55000
              Эксперт       47000
              Специалист    45000
Аналитика     Начальник     52000
              Эксперт       43000
              Специалист    41000
dtype: int64

In [5]:
s3.unstack()

Unnamed: 0,Начальник,Специалист,Эксперт
Аналитика,52000,41000,43000
Разработка,55000,45000,47000
Тестирование,50000,40000,45000


In [7]:
# обратное преобразование датафрейма в серию с мультииндексом:

df = s3.unstack()
df.stack()

In [8]:
# как в данном случае работает !???
df.unstack()

Начальник   Аналитика       52000
            Разработка      55000
            Тестирование    50000
Специалист  Аналитика       41000
            Разработка      45000
            Тестирование    40000
Эксперт     Аналитика       43000
            Разработка      47000
            Тестирование    45000
dtype: int64

## доступ к значениям

In [10]:
data = np.array([[50000, 16],
                 [45000, 15],
                 [40000, 14],
                 [55000, 15],
                 [47000, 13],
                 [45000, 12],
                 [52000, 17],
                 [43000, 15],
                 [41000, 13]])

index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Советник']]

columns = ['Зарплата', 'Уровень']

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,Unnamed: 1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [48]:
df.loc[('Тестирование', 'Начальник')]

Зарплата    50000
Уровень        16
Name: (Тестирование, Начальник), dtype: int32

In [49]:
df.loc[('Тестирование', 'Начальник'), 'Зарплата']

50000

In [None]:
Далее следует Контрольная работа по Мульти индексам.

Папка: stepik_multiindex_lesson_1_v2
    
см. файл : 'stepik_multiindex_lesson_1_v2 / ДЗ - Знакомство с иерархической индексацией (2).ipynb'

# Действия с мультииндексами в датафреймах

In [11]:
data = np.array([[50000, 16],
                 [45000, 15],
                 [40000, 14],
                 [55000, 15],
                 [47000, 13],
                 [45000, 12],
                 [52000, 17],
                 [43000, 15],
                 [41000, 13]],
               
               )

index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Советник']]

columns = [['Москва', 'Москва'], ['Зарплата', 'Уровень']]

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Москва,Москва
Unnamed: 0_level_1,Unnamed: 1_level_1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [56]:
data = np.array([[50000, 16, 50000, 16],
                 [45000, 15, 45000, 15,],
                 [40000, 14, 40000, 14],
                 [55000, 15, 55000, 15],
                 [47000, 13, 47000, 13],
                 [45000, 12, 45000, 12],
                 [52000, 17, 52000, 17],
                 [43000, 15, 43000, 15],
                 [41000, 13, 41000, 13]])

In [57]:
index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Советник']]

columns = [['Москва', 'Москва', 'Казань', 'Казань'], ['Зарплата', 'Уровень', 'Зарплата', 'Уровень']]

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Unnamed: 1_level_1,Зарплата,Уровень,Зарплата,Уровень
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [58]:
df['Москва']

Unnamed: 0,Unnamed: 1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [None]:
# можно переименовать уровни индексов и колонок и обращаться к ним не по номерам - нулевой, первый и т.д, а по именам:

In [59]:
df.index

MultiIndex([('Тестирование',  'Начальник'),
            ('Тестирование',    'Эксперт'),
            ('Тестирование', 'Специалист'),
            (  'Разработка',  'Начальник'),
            (  'Разработка',    'Эксперт'),
            (  'Разработка', 'Специалист'),
            (   'Аналитика',  'Начальник'),
            (   'Аналитика',    'Эксперт'),
            (   'Аналитика',   'Советник')],
           )

In [60]:
df.index.names

FrozenList([None, None])

In [61]:
df.index.names = ['Имя для нулевого уровня', 'Имя для первого уровня']

In [62]:
df.index.names

FrozenList(['Имя для нулевого уровня', 'Имя для первого уровня'])

In [63]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Unnamed: 1_level_1,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [64]:
df.columns

MultiIndex([('Москва', 'Зарплата'),
            ('Москва',  'Уровень'),
            ('Казань', 'Зарплата'),
            ('Казань',  'Уровень')],
           )

In [65]:
df.columns.names

FrozenList([None, None])

In [66]:
df.columns.names = ['Города', 'Показатель']

In [67]:
df

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [None]:
# swaplevel - поменять уровни местами

In [68]:
df.swaplevel(1,0)

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для первого уровня,Имя для нулевого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Начальник,Тестирование,50000,16,50000,16
Эксперт,Тестирование,45000,15,45000,15
Специалист,Тестирование,40000,14,40000,14
Начальник,Разработка,55000,15,55000,15
Эксперт,Разработка,47000,13,47000,13
Специалист,Разработка,45000,12,45000,12
Начальник,Аналитика,52000,17,52000,17
Эксперт,Аналитика,43000,15,43000,15
Советник,Аналитика,41000,13,41000,13


In [69]:
# можно делать swaplevel не по индексам, а по названиям:

df.swaplevel('Имя для первого уровня', 'Имя для нулевого уровня')

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для первого уровня,Имя для нулевого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Начальник,Тестирование,50000,16,50000,16
Эксперт,Тестирование,45000,15,45000,15
Специалист,Тестирование,40000,14,40000,14
Начальник,Разработка,55000,15,55000,15
Эксперт,Разработка,47000,13,47000,13
Специалист,Разработка,45000,12,45000,12
Начальник,Аналитика,52000,17,52000,17
Эксперт,Аналитика,43000,15,43000,15
Советник,Аналитика,41000,13,41000,13


In [None]:
# сортировка мульти индекса

In [71]:
df.sort_index(level = 0, ascending = False)

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Тестирование,Начальник,50000,16,50000,16
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Разработка,Начальник,55000,15,55000,15
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13
Аналитика,Начальник,52000,17,52000,17


In [72]:
df.sort_index(level = 'Имя для первого уровня', ascending = False)

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Эксперт,45000,15,45000,15
Разработка,Эксперт,47000,13,47000,13
Аналитика,Эксперт,43000,15,43000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Специалист,45000,12,45000,12
Аналитика,Советник,41000,13,41000,13
Тестирование,Начальник,50000,16,50000,16
Разработка,Начальник,55000,15,55000,15
Аналитика,Начальник,52000,17,52000,17


In [74]:
df.sort_index(level = 0, axis = 1)

Unnamed: 0_level_0,Города,Казань,Казань,Москва,Москва
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [None]:
# переустановить индексы

In [75]:
df.reset_index()

Города,Имя для нулевого уровня,Имя для первого уровня,Москва,Москва,Казань,Казань
Показатель,Unnamed: 1_level_1,Unnamed: 2_level_1,Зарплата,Уровень,Зарплата,Уровень
0,Тестирование,Начальник,50000,16,50000,16
1,Тестирование,Эксперт,45000,15,45000,15
2,Тестирование,Специалист,40000,14,40000,14
3,Разработка,Начальник,55000,15,55000,15
4,Разработка,Эксперт,47000,13,47000,13
5,Разработка,Специалист,45000,12,45000,12
6,Аналитика,Начальник,52000,17,52000,17
7,Аналитика,Эксперт,43000,15,43000,15
8,Аналитика,Советник,41000,13,41000,13


In [None]:
# собрать обратно мульти индекс set_index

In [None]:
df2 = df.reset_index()

In [78]:
df2.set_index(['Имя для нулевого уровня', 'Имя для первого уровня'])

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


# Суммирование значений с учетом мульти индексов

In [79]:
df

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [80]:
df.sum()

Города  Показатель
Москва  Зарплата      418000
        Уровень          130
Казань  Зарплата      418000
        Уровень          130
dtype: int64

In [81]:
df.sum(level = 0)

  df.sum(level = 0)


Города,Москва,Москва,Казань,Казань
Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Тестирование,135000,45,135000,45
Разработка,147000,40,147000,40
Аналитика,136000,45,136000,45


In [82]:
df.sum(level = 1)

  df.sum(level = 1)


Города,Москва,Москва,Казань,Казань
Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для первого уровня,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Начальник,157000,48,157000,48
Эксперт,135000,43,135000,43
Специалист,85000,26,85000,26
Советник,41000,13,41000,13


In [None]:
Далее идет домашнее задание в отдельном Jupyter Notebooke:

    Папка называется: Homework_multiindex_2

    Файл: ДЗ - Действия с мультииндексами в датафреймах.ipynb

# Учимся соединять датафреймы с помощью merge

In [2]:
df1 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000]})

df2 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Премия': [15000, 12000, 10000, 9000, 3000]})

In [3]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Советник,52000
2,Эксперт,50000
3,Специалист,45000
4,Стажер,30000


In [4]:
df2

Unnamed: 0,Должность,Премия
0,Начальник,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000
4,Стажер,3000


In [9]:
pd.merge(df1, df2)

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,15000
1,Советник,52000,12000
2,Эксперт,50000,10000
3,Специалист,45000,9000
4,Стажер,30000,3000


In [None]:
# Если общих колонок нет - будет ошибка, не по чему мержить...

In [11]:
# Если общих колонок несколько, то можно указать по какой именно производить merge:

pd.merge(df1, df2, on = 'Должность')

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,15000
1,Советник,52000,12000
2,Эксперт,50000,10000
3,Специалист,45000,9000
4,Стажер,30000,3000


In [12]:
# Если в одном датафрейме данных больше, чем во втором - по умолчаню отобразятся только те, которые есть в обоих:

df1 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000]})

df2 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист'],
                    'Премия': [15000, 12000, 10000, 9000]})

In [13]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Советник,52000
2,Эксперт,50000
3,Специалист,45000
4,Стажер,30000


In [14]:
df2

Unnamed: 0,Должность,Премия
0,Начальник,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000


In [15]:
pd.merge(df1, df2)

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,15000
1,Советник,52000,12000
2,Эксперт,50000,10000
3,Специалист,45000,9000


In [16]:
# можно указать как именно мёржить - по аналогии с left join: 
pd.merge(df1, df2, how = 'left')

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,15000.0
1,Советник,52000,12000.0
2,Эксперт,50000,10000.0
3,Специалист,45000,9000.0
4,Стажер,30000,


In [17]:
# how может быть right

df1 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000]})

df2 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Тренер'],
                    'Премия': [15000, 12000, 10000, 9000, 3000]})


In [18]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Советник,52000
2,Эксперт,50000
3,Специалист,45000
4,Стажер,30000


In [19]:
df2

Unnamed: 0,Должность,Премия
0,Начальник,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000
4,Тренер,3000


In [20]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000.0,15000
1,Советник,52000.0,12000
2,Эксперт,50000.0,10000
3,Специалист,45000.0,9000
4,Тренер,,3000


In [24]:
# объединяем всё
pd.merge(df1, df2, how='outer')

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000.0,15000.0
1,Советник,52000.0,12000.0
2,Эксперт,50000.0,10000.0
3,Специалист,45000.0,9000.0
4,Стажер,30000.0,
5,Тренер,,3000.0


In [None]:
Дргуие варианты в документации
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

In [25]:
# Если названия столбцов с одинаковыми индентификаторами различаются: Должность и Должность2 например:

df1 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000]})

df2 = pd.DataFrame({'Должность2': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Тренер'],
                    'Премия': [15000, 12000, 10000, 9000, 3000]})

In [27]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Советник,52000
2,Эксперт,50000
3,Специалист,45000
4,Стажер,30000


In [28]:
df2

Unnamed: 0,Должность2,Премия
0,Начальник,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000
4,Тренер,3000


In [30]:
pd.merge(df1, df2, right_on = 'Должность2', left_on = 'Должность')

Unnamed: 0,Должность,Зарплата,Должность2,Премия
0,Начальник,55000,Начальник,15000
1,Советник,52000,Советник,12000
2,Эксперт,50000,Эксперт,10000
3,Специалист,45000,Специалист,9000


### Дубликаты

In [43]:
df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [55000, 51000, 52000, 50000, 45000, 30000]})

df2 = pd.DataFrame({'Должность': ['Начальник','Начальник', 'Советник', 'Эксперт', 'Специалист', 'Тренер'],
                    'Премия': [15000, 10000, 12000, 10000, 9000, 3000]})

In [44]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник,51000
2,Советник,52000
3,Эксперт,50000
4,Специалист,45000
5,Стажер,30000


In [45]:
df2

Unnamed: 0,Должность,Премия
0,Начальник,15000
1,Начальник,10000
2,Советник,12000
3,Эксперт,10000
4,Специалист,9000
5,Тренер,3000


In [46]:
pd.merge(df1, df2)

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,15000
1,Начальник,55000,10000
2,Начальник,51000,15000
3,Начальник,51000,10000
4,Советник,52000,12000
5,Эксперт,50000,10000
6,Специалист,45000,9000


In [47]:
df3 = pd.merge(df1, df2)

In [53]:
# показываем df3 где есть дубликаты по колонке должность, сохраняем-выводим все дубликаты
df3[df3.duplicated(subset = 'Должность', keep = False)]

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,15000
1,Начальник,55000,10000
2,Начальник,51000,15000
3,Начальник,51000,10000


In [87]:
# Если есть еще одинаковые колонки, но мы объединяем не по ним:

df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [55000, 51000, 52000, 50000, 45000, 30000]})

df2 = pd.DataFrame({'Должность': ['Начальник','Начальник', 'Советник', 'Эксперт', 'Специалист', 'Тренер'],
                    'Зарплата': [15000, 11000, 12000, 10000, 15000, 10000],
                    'Премия': [15000, 10000, 12000, 10000, 9000, 3000]})

In [56]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник,51000
2,Советник,52000
3,Эксперт,50000
4,Специалист,45000
5,Стажер,30000


In [57]:
df2

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,15000,15000
1,Начальник,11000,10000
2,Советник,12000,12000
3,Эксперт,10000,10000
4,Специалист,15000,9000
5,Тренер,10000,3000


In [58]:
pd.merge(df1, df2, on = 'Должность')

Unnamed: 0,Должность,Зарплата_x,Зарплата_y,Премия
0,Начальник,55000,15000,15000
1,Начальник,55000,11000,10000
2,Начальник,51000,15000,15000
3,Начальник,51000,11000,10000
4,Советник,52000,12000,12000
5,Эксперт,50000,10000,10000
6,Специалист,45000,15000,9000


In [59]:
# отображать вместо x и y можно любые suffixes:

pd.merge(df1, df2, on = 'Должность', suffixes = ('_один', '_джва'))

Unnamed: 0,Должность,Зарплата_один,Зарплата_джва,Премия
0,Начальник,55000,15000,15000
1,Начальник,55000,11000,10000
2,Начальник,51000,15000,15000
3,Начальник,51000,11000,10000
4,Советник,52000,12000,12000
5,Эксперт,50000,10000,10000
6,Специалист,45000,15000,9000


In [60]:
df3 = pd.merge(df1, df2, on = 'Должность', suffixes = ('_один', '_джва'))

In [61]:
df3['Зарплата_джва']

0    15000
1    11000
2    15000
3    11000
4    12000
5    10000
6    15000
Name: Зарплата_джва, dtype: int64

# Работа функции merge 
когда в одном из сливаемых датафреймов сливаемая колонка == индексу

In [63]:
df2 = df2.set_index('Должность')

In [64]:
df2

Unnamed: 0_level_0,Зарплата,Премия
Должность,Unnamed: 1_level_1,Unnamed: 2_level_1
Начальник,15000,15000
Начальник,11000,10000
Советник,12000,12000
Эксперт,10000,10000
Специалист,15000,9000
Тренер,10000,3000


In [65]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник,51000
2,Советник,52000
3,Эксперт,50000
4,Специалист,45000
5,Стажер,30000


In [67]:
pd.merge(df1, df2, on = 'Должность')

Unnamed: 0,Должность,Зарплата_x,Зарплата_y,Премия
0,Начальник,55000,15000,15000
1,Начальник,55000,11000,10000
2,Начальник,51000,15000,15000
3,Начальник,51000,11000,10000
4,Советник,52000,12000,12000
5,Эксперт,50000,10000,10000
6,Специалист,45000,15000,9000


In [None]:
# если индекс еще и по-другому называется, а сливать нужно именно по индексу

In [76]:
df2.index.name = 'position'

In [77]:
df2

Unnamed: 0_level_0,Зарплата,Премия
position,Unnamed: 1_level_1,Unnamed: 2_level_1
Начальник,15000,15000
Начальник,11000,10000
Советник,12000,12000
Эксперт,10000,10000
Специалист,15000,9000
Тренер,10000,3000


In [78]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник,51000
2,Советник,52000
3,Эксперт,50000
4,Специалист,45000
5,Стажер,30000


In [79]:
pd.merge(df1, df2, left_on = 'Должность', right_on = df2.index.name) # также может быть right_index = True

Unnamed: 0,Должность,Зарплата_x,Зарплата_y,Премия
0,Начальник,55000,15000,15000
1,Начальник,55000,11000,10000
2,Начальник,51000,15000,15000
3,Начальник,51000,11000,10000
4,Советник,52000,12000,12000
5,Эксперт,50000,10000,10000
6,Специалист,45000,15000,9000


In [88]:
# если названия индексов затерты:
df1 = df1.set_index('Должность')
df2 = df2.set_index('Должность')
df1.index.name = None
df2.index.name = None

In [89]:
df1

Unnamed: 0,Зарплата
Начальник,55000
Начальник,51000
Советник,52000
Эксперт,50000
Специалист,45000
Стажер,30000


In [90]:
df2

Unnamed: 0,Зарплата,Премия
Начальник,15000,15000
Начальник,11000,10000
Советник,12000,12000
Эксперт,10000,10000
Специалист,15000,9000
Тренер,10000,3000


In [91]:
pd.merge(df1, df2, left_index = True, right_index = True)

Unnamed: 0,Зарплата_x,Зарплата_y,Премия
Начальник,55000,15000,15000
Начальник,55000,11000,10000
Начальник,51000,15000,15000
Начальник,51000,11000,10000
Советник,52000,12000,12000
Специалист,45000,15000,9000
Эксперт,50000,10000,10000


In [None]:
# Объединение по нескольким индексам

In [122]:
df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер', 'Учитель'],
                    'Филиал': ['1', '2', '1', '1', '1', '1', '1'],
                    'Зарплата': [55000, 51000, 52000, 50000, 45000, 30000, 30000]})

df2 = pd.DataFrame({'Должность': ['Начальник','Советник', 'Эксперт', 'Специалист', 'Стажер','Тренер', 'Начальник'],
                    'Филиал': ['1', '1', '1', '1', '1', '1', '2'],
                    'Зарплата': [115000, 111000, 112000, 110000, 115000, 110000, 145000],
                    'Премия': [15000, 10000, 12000, 10000, 9000, 3000, 20000]})

In [93]:
df1

Unnamed: 0,Должность,Филиал,Зарплата
0,Начальник,1,55000
1,Начальник,2,51000
2,Советник,1,52000
3,Эксперт,1,50000
4,Специалист,1,45000
5,Стажер,1,30000
6,Учитель,1,30000


In [94]:
df2

Unnamed: 0,Должность,Филиал,Зарплата,Премия
0,Начальник,1,115000,15000
1,Советник,1,111000,10000
2,Эксперт,1,112000,12000
3,Специалист,1,110000,10000
4,Стажер,1,115000,9000
5,Тренер,1,110000,3000
6,Начальник,2,145000,20000


In [95]:
pd.merge(df1, df2, on = ['Должность', 'Филиал'])

Unnamed: 0,Должность,Филиал,Зарплата_x,Зарплата_y,Премия
0,Начальник,1,55000,115000,15000
1,Начальник,2,51000,145000,20000
2,Советник,1,52000,111000,10000
3,Эксперт,1,50000,112000,12000
4,Специалист,1,45000,110000,10000
5,Стажер,1,30000,115000,9000


In [104]:
# а если в одном из датафреймов название колонки сбито в индекс:

df2.set_index('Должность')

Unnamed: 0_level_0,Филиал,Зарплата,Премия
Должность,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Начальник,1,115000,15000
Советник,1,111000,10000
Эксперт,1,112000,12000
Специалист,1,110000,10000
Стажер,1,115000,9000
Тренер,1,110000,3000
Начальник,2,145000,20000


In [105]:
df2 = df2.set_index('Должность')
df2.index.name = None

In [106]:
df2

Unnamed: 0,Филиал,Зарплата,Премия
Начальник,1,115000,15000
Советник,1,111000,10000
Эксперт,1,112000,12000
Специалист,1,110000,10000
Стажер,1,115000,9000
Тренер,1,110000,3000
Начальник,2,145000,20000


In [99]:
df1

Unnamed: 0,Должность,Филиал,Зарплата
0,Начальник,1,55000
1,Начальник,2,51000
2,Советник,1,52000
3,Эксперт,1,50000
4,Специалист,1,45000
5,Стажер,1,30000
6,Учитель,1,30000


In [110]:
pd.merge(df1, df2, left_on = ['Должность', 'Филиал'], right_on = [df2.index, 'Филиал'])

Unnamed: 0,Должность,Филиал,Зарплата_x,Зарплата_y,Премия
0,Начальник,1,55000,115000,15000
1,Начальник,2,51000,145000,20000
2,Советник,1,52000,111000,10000
3,Эксперт,1,50000,112000,12000
4,Специалист,1,45000,110000,10000
5,Стажер,1,30000,115000,9000


In [114]:
# если в одном из датафреймов в индекс сбито два столбца и сделан мульти индекс:

df2.set_index(['Должность','Филиал'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Зарплата,Премия
Должность,Филиал,Unnamed: 2_level_1,Unnamed: 3_level_1
Начальник,1,115000,15000
Советник,1,111000,10000
Эксперт,1,112000,12000
Специалист,1,110000,10000
Стажер,1,115000,9000
Тренер,1,110000,3000
Начальник,2,145000,20000


In [123]:
df2 = df2.set_index(['Должность','Филиал'])

In [124]:
df2.index.names = [None, None]

In [125]:
df2

Unnamed: 0,Unnamed: 1,Зарплата,Премия
Начальник,1,115000,15000
Советник,1,111000,10000
Эксперт,1,112000,12000
Специалист,1,110000,10000
Стажер,1,115000,9000
Тренер,1,110000,3000
Начальник,2,145000,20000


In [126]:
pd.merge(df1, df2, left_on = ['Должность', 'Филиал'], right_index = True)

Unnamed: 0,Должность,Филиал,Зарплата_x,Зарплата_y,Премия
0,Начальник,1,55000,115000,15000
1,Начальник,2,51000,145000,20000
2,Советник,1,52000,111000,10000
3,Эксперт,1,50000,112000,12000
4,Специалист,1,45000,110000,10000
5,Стажер,1,30000,115000,9000


# ДОМАШНЕЕ ЗАДАНИЕ

In [None]:
Файлы скачены под соответствующими именами:

main.csv - основная информация о предприятиях общественного питания


net_property.csv - является ли предприятие сетевым


seats_property.csv - количество посадочных мест


type_property.csv - информация о специализации: столовая, закусочная, кафе, иное

# Задание№1

In [None]:
# Определите процент объектов у которых запись о специализации отсутствует или не 
# является актуальной. Получившийся процент округлите до целых.

# В ответе не указывайте знак процента.

In [127]:
df = pd.read_csv('type_property.csv')

In [146]:
df1 = pd.read_csv('main.csv')

In [151]:
# тут определяем что nan нет в df
df[df['is_actual'].isna()]

Unnamed: 0,ID,TypeObject,is_actual


In [152]:
df1

Unnamed: 0,ID,Name,Address
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15"
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ..."
2,358126,Scarface,"Российская Федерация, город Москва, внутригоро..."
3,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро..."
4,303239,One price coffee,"Российская Федерация, город Москва, внутригоро..."
...,...,...,...
9995,192373,Рамен Клаб,"город Москва, Мясницкая улица, дом 16"
9996,204304,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59"
9997,301366,Up Sushi,"город Москва, город Московский, улица Москвити..."
9998,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро..."


In [153]:
df

Unnamed: 0,ID,TypeObject,is_actual
0,302619,закусочная,True
1,28573,столовая,True
2,373269,кафе,False
3,29517,столовая,True
4,368413,кафе,False
...,...,...,...
12995,302916,кафе,False
12996,23238,кафе,True
12997,286294,кафе,False
12998,318855,столовая,False


In [165]:
# Это самая сложная часть задания - т.к. надо поянть, что main.csv содержит информацю об объектах,
# а type_property.csv содержит информаию об актуальности и количестово записей в них не равно

# количество записей в type_property.csv больше, это значит что все лишние записи относительно main.csv - это неактуальные

pd.merge(df, df1, how = 'right')

Unnamed: 0,ID,TypeObject,is_actual,Name,Address
0,20988,столовая,True,ГУЗ,"город Москва, улица Казакова, дом 15"
1,24828,,,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ..."
2,358126,кафе,True,Scarface,"Российская Федерация, город Москва, внутригоро..."
3,373052,кафетерий,False,Кулинариум,"Российская Федерация, город Москва, внутригоро..."
4,303239,,,One price coffee,"Российская Федерация, город Москва, внутригоро..."
...,...,...,...,...,...
9995,192373,,,Рамен Клаб,"город Москва, Мясницкая улица, дом 16"
9996,204304,кафе,False,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59"
9997,301366,кафе,False,Up Sushi,"город Москва, город Московский, улица Москвити..."
9998,339278,предприятие быстрого обслуживания,True,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро..."


In [166]:
df3 = pd.merge(df, df1, how = 'right')

In [167]:
df3['ID'][(df3['is_actual'] == False) | (df3['is_actual'].isna())].count()

6710

In [168]:
df3['ID'].count()

10000

In [169]:
100*(df3['ID'][(df3['is_actual']== False) | (df3['is_actual'].isna())].count() / df3['ID'].count())

67.10000000000001

# Задание 2

In [3]:
# Подтяните к исходному списку (main.csv) последние данные о числе посадочных мест для каждого объекта. 
# Сколько всего посадочных мест получилось?

In [15]:
df1 = pd.read_csv('main.csv')

In [5]:
df2 = pd.read_csv('seats_property.csv')

In [16]:
df1

Unnamed: 0,ID,Name,Address
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15"
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ..."
2,358126,Scarface,"Российская Федерация, город Москва, внутригоро..."
3,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро..."
4,303239,One price coffee,"Российская Федерация, город Москва, внутригоро..."
...,...,...,...
9995,192373,Рамен Клаб,"город Москва, Мясницкая улица, дом 16"
9996,204304,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59"
9997,301366,Up Sushi,"город Москва, город Московский, улица Москвити..."
9998,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро..."


In [7]:
df2

Unnamed: 0,ID,SeatsCount,ver_ID
0,345181,0,1
1,326754,35,2
2,151037,0,1
3,277311,11,2
4,252377,2,1
...,...,...,...
12995,58472,90,1
12996,372280,35,2
12997,26058,310,1
12998,190988,40,1


In [280]:
# Сортируем данные сначала по ID потом по ver_ID (получается если есть дубликаты, то сначала будет 2, потом 1)


df2.sort_values(by = ['ID', 'ver_ID'], ascending = False)

Unnamed: 0,ID,SeatsCount,ver_ID
6693,375956,0,1
8853,375956,0,1
2158,375942,0,1
6456,375942,0,1
8637,375940,10,2
...,...,...,...
6813,19678,46,1
10104,19657,85,2
3965,19627,20,2
11411,19627,20,2


In [8]:
df2.sort_values(by = ['ID', 'ver_ID'], ascending = False).head(10)

Unnamed: 0,ID,SeatsCount,ver_ID
6693,375956,0,1
8853,375956,0,1
2158,375942,0,1
6456,375942,0,1
8637,375940,10,2
8218,375933,5,2
2212,375905,34,1
4598,375903,45,2
3576,375903,40,1
12339,375884,17,2


In [9]:
# дропаем дубликаты, оставляем только первый - а это с ver_ID == 2.

# таким образом остаются либо чистые ver_ID == 2 либо ver_ID == 1 (у которых и не было обновлений до 2)

df2.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')

Unnamed: 0,ID,SeatsCount,ver_ID
6693,375956,0,1
2158,375942,0,1
8637,375940,10,2
8218,375933,5,2
2212,375905,34,1
...,...,...,...
1449,19681,24,1
5032,19678,46,1
10104,19657,85,2
3965,19627,20,2


In [17]:
# получаем новый df3:

df3 = df2.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')

In [18]:
pd.merge(df1, df3, how = 'left')

Unnamed: 0,ID,Name,Address,SeatsCount,ver_ID
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15",,
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ...",,
2,358126,Scarface,"Российская Федерация, город Москва, внутригоро...",,
3,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро...",4.0,1.0
4,303239,One price coffee,"Российская Федерация, город Москва, внутригоро...",5.0,2.0
...,...,...,...,...,...
9995,192373,Рамен Клаб,"город Москва, Мясницкая улица, дом 16",,
9996,204304,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59",,
9997,301366,Up Sushi,"город Москва, город Московский, улица Москвити...",,
9998,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро...",0.0,1.0


In [19]:
pd.merge(df1, df3, how = 'left')['SeatsCount'].sum()

188241.0

In [20]:
pd.merge(df1, df3, how = 'inner')

Unnamed: 0,ID,Name,Address,SeatsCount,ver_ID
0,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро...",4,1
1,303239,One price coffee,"Российская Федерация, город Москва, внутригоро...",5,2
2,342854,МЯСОЕД STEAK&BRISKET,"город Москва, проспект Вернадского, дом 86В",5,2
3,363640,Шаурма-выпечка,"Российская Федерация, город Москва, внутригоро...",5,2
4,254675,Timeless,"Российская Федерация, город Москва, внутригоро...",31,2
...,...,...,...,...,...
4076,217689,Cinnabon,"город Москва, Ярцевская улица, дом 19",17,2
4077,349213,Выпечка шаурма,"город Москва, проспект Защитников Москвы, дом 10",0,1
4078,272248,Шаурма,"Российская Федерация, город Москва, внутригоро...",0,1
4079,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро...",0,1


In [21]:
pd.merge(df1, df3, how = 'inner')['SeatsCount'].sum()

188241

# Задание 3

In [None]:
# Сформируйте итоговую выгрузку в формате csv (разделитель запятая), которая 

# будет содержать все объекты общепита из файла main.csv. 

# Подтяните признак сетевой/не сетевой и актуальную специализацию. 

# Отсортируйте по специализации  в алфавитном порядке.

# Внутри каждой специализации сортировка должна идти по убыванию ID. 

# Объекты у которых отсутствует специализация должны идти в начале выгрузки (и тоже по убыванию ID).

# Колонки, которые должны быть в csv файле:

# ID,Name,Address,IsNetObject,TypeObject,is_actual

# Подсказка:

# Подтягивать нужно только актуальную специализацию! Если is_actual == True

In [23]:
df1 = pd.read_csv('main.csv')

In [24]:
df1

Unnamed: 0,ID,Name,Address
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15"
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ..."
2,358126,Scarface,"Российская Федерация, город Москва, внутригоро..."
3,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро..."
4,303239,One price coffee,"Российская Федерация, город Москва, внутригоро..."
...,...,...,...
9995,192373,Рамен Клаб,"город Москва, Мясницкая улица, дом 16"
9996,204304,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59"
9997,301366,Up Sushi,"город Москва, город Московский, улица Москвити..."
9998,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро..."


In [25]:
df2 = pd.read_csv('net_property.csv')

In [26]:
df2

Unnamed: 0,ID,IsNetObject
0,369614,нет
1,201691,нет
2,362705,нет
3,286817,нет
4,25950,да
...,...,...
12995,28474,нет
12996,295224,нет
12997,168540,нет
12998,366823,да


In [27]:
df3 = pd.read_csv('type_property.csv')

In [28]:
df3

Unnamed: 0,ID,TypeObject,is_actual
0,302619,закусочная,True
1,28573,столовая,True
2,373269,кафе,False
3,29517,столовая,True
4,368413,кафе,False
...,...,...,...
12995,302916,кафе,False
12996,23238,кафе,True
12997,286294,кафе,False
12998,318855,столовая,False


In [34]:
df3 = df3[df3['is_actual'] == True]

In [29]:
df4 = pd.merge(df1, df2, how = 'left')

In [30]:
df4

Unnamed: 0,ID,Name,Address,IsNetObject
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15",нет
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ...",
2,358126,Scarface,"Российская Федерация, город Москва, внутригоро...",
3,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро...",
4,303239,One price coffee,"Российская Федерация, город Москва, внутригоро...",нет
...,...,...,...,...
9995,192373,Рамен Клаб,"город Москва, Мясницкая улица, дом 16",
9996,204304,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59",да
9997,301366,Up Sushi,"город Москва, город Московский, улица Москвити...",
9998,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро...",нет


In [35]:
df5 = pd.merge(df4, df3, how = 'left')

In [36]:
df5

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15",нет,столовая,True
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ...",,,
2,358126,Scarface,"Российская Федерация, город Москва, внутригоро...",,кафе,True
3,373052,Кулинариум,"Российская Федерация, город Москва, внутригоро...",,,
4,303239,One price coffee,"Российская Федерация, город Москва, внутригоро...",нет,,
...,...,...,...,...,...,...
9995,192373,Рамен Клаб,"город Москва, Мясницкая улица, дом 16",,,
9996,204304,Папа Джонс,"город Москва, проспект Маршала Жукова, дом 59",да,,
9997,301366,Up Sushi,"город Москва, город Московский, улица Москвити...",,,
9998,339278,Шаурма,"город Москва, улица Орджоникидзе, дом 12, стро...",нет,предприятие быстрого обслуживания,True


In [None]:
# Отсортируйте по специализации  в алфавитном порядке.

# Внутри каждой специализации сортировка должна идти по убыванию ID. 

# Объекты у которых отсутствует специализация должны идти в начале выгрузки (и тоже по убыванию ID). na_position='last'

In [51]:
# здесь новое что параметр ascending, оказывается можно задавать каждому by:

df5.sort_values(by = ['TypeObject', 'ID'], ascending = [True, False], na_position='first')

  output = repr(obj)
  return method()


Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
4912,375956,Крошка Картошка,"город Москва, Люблинская улица, дом 169, корпус 2",да,,
5063,375954,Кофе,"Российская Федерация, город Москва, внутригоро...",,,
7804,375834,Донеретто,"город Москва, улица Лестева, дом 6",нет,,
493,375830,Шаурма,"город Москва, улица Вертолётчиков, дом 2А, кор...",,,
5521,375822,Кафе,"Российская Федерация, город Москва, внутригоро...",,,
...,...,...,...,...,...,...
1317,21282,Мед. колледж № 1,"город Москва, Чуксин тупик, дом 6",,столовая,True
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15",нет,столовая,True
8837,20918,ГБОУ Школа № 1251 Учебный корпус 4,"город Москва, улица Алабяна, дом 15",нет,столовая,True
1382,20854,Орандж,"город Москва, Подъёмная улица, дом 12, строение 1",нет,столовая,True


In [None]:

# Колонки, которые должны быть в csv файле:

# ID,Name,Address,IsNetObject,TypeObject,is_actual


In [65]:
df6 = df5.sort_values(by = ['TypeObject', 'ID'], ascending = [True, False], na_position='first')

In [66]:
df6

  output = repr(obj)
  return method()


Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
4912,375956,Крошка Картошка,"город Москва, Люблинская улица, дом 169, корпус 2",да,,
5063,375954,Кофе,"Российская Федерация, город Москва, внутригоро...",,,
7804,375834,Донеретто,"город Москва, улица Лестева, дом 6",нет,,
493,375830,Шаурма,"город Москва, улица Вертолётчиков, дом 2А, кор...",,,
5521,375822,Кафе,"Российская Федерация, город Москва, внутригоро...",,,
...,...,...,...,...,...,...
1317,21282,Мед. колледж № 1,"город Москва, Чуксин тупик, дом 6",,столовая,True
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15",нет,столовая,True
8837,20918,ГБОУ Школа № 1251 Учебный корпус 4,"город Москва, улица Алабяна, дом 15",нет,столовая,True
1382,20854,Орандж,"город Москва, Подъёмная улица, дом 12, строение 1",нет,столовая,True


In [69]:
df6.reset_index(drop=True)

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
0,375956,Крошка Картошка,"город Москва, Люблинская улица, дом 169, корпус 2",да,,
1,375954,Кофе,"Российская Федерация, город Москва, внутригоро...",,,
2,375834,Донеретто,"город Москва, улица Лестева, дом 6",нет,,
3,375830,Шаурма,"город Москва, улица Вертолётчиков, дом 2А, кор...",,,
4,375822,Кафе,"Российская Федерация, город Москва, внутригоро...",,,
...,...,...,...,...,...,...
9995,21282,Мед. колледж № 1,"город Москва, Чуксин тупик, дом 6",,столовая,True
9996,20988,ГУЗ,"город Москва, улица Казакова, дом 15",нет,столовая,True
9997,20918,ГБОУ Школа № 1251 Учебный корпус 4,"город Москва, улица Алабяна, дом 15",нет,столовая,True
9998,20854,Орандж,"город Москва, Подъёмная улица, дом 12, строение 1",нет,столовая,True


In [64]:
df6.columns

Index(['ID', 'Name', 'Address', 'IsNetObject', 'TypeObject', 'is_actual'], dtype='object')

In [72]:
result_task_3_from_HW_2 = df6.to_csv('result_task_3_from_HW_2.csv', index = False)

# Аналог merge; конкатенация датафреймов через concat

## Сначала Join

In [107]:
df1 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер', 'Учитель'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000, 20000]})

df2 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Премия': [15000, 12000, 10000, 9000, 3000]})

df3 = pd.DataFrame({'Должность': ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Мат.помощь': [15000, 12000, 10000, 9000, 3000]})

In [108]:
df1.index = df1['Должность']
df1 = df1.drop('Должность', axis = 1)

# df3 понадобится немного позже:
df3.index = df3['Должность']
df3 = df3.drop('Должность', axis = 1)

In [104]:
df1

Unnamed: 0_level_0,Зарплата
Должность,Unnamed: 1_level_1
Начальник,55000
Советник,52000
Эксперт,50000
Специалист,45000
Стажер,30000
Учитель,20000


In [111]:
df2.index = df2['Должность']
df2 = df2.drop('Должность', axis = 1)

In [106]:
df2

Unnamed: 0_level_0,Премия
Должность,Unnamed: 1_level_1
Начальник,15000
Советник,12000
Эксперт,10000
Специалист,9000
Стажер,3000


In [87]:
# join объединяет датафреймы автоматически по индексам, без доп.настроек

df3 = df1.join(df2)

In [88]:
# по умолчанию merge обдединяет how = 'inner', а у join - how = 'left'

# how{‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, default ‘left’

df3

Unnamed: 0_level_0,Зарплата,Премия
Должность,Unnamed: 1_level_1,Unnamed: 2_level_1
Начальник,55000,15000.0
Советник,52000,12000.0
Эксперт,50000,10000.0
Специалист,45000,9000.0
Стажер,30000,3000.0
Учитель,20000,


In [None]:
# Если есть и в первом и во втором датафрейме колонки с одинаковыми названиями:

# в функции merge - добавляется суффикс _X и _Y и выводятся обе колонки в итоговом датафрейме

# join в этом случае дает ошибку: columns overlap but no suffix specified: Index(['Должность'], dtype='object')


### в join можно передать lsuffix и rsuffix:

In [99]:
df1.join(df2, lsuffix = '_LEFT', rsuffix = '_RIGHT')

Unnamed: 0,Должность_LEFT,Зарплата,Должность_RIGHT,Премия
0,Начальник,55000,Начальник,15000.0
1,Советник,52000,Советник,12000.0
2,Эксперт,50000,Эксперт,10000.0
3,Специалист,45000,Специалист,9000.0
4,Стажер,30000,Стажер,3000.0
5,Учитель,20000,,


### Отличия merge и join -------------------------- df1.join([df2, df3])

In [112]:
df1

Unnamed: 0_level_0,Зарплата
Должность,Unnamed: 1_level_1
Начальник,55000
Советник,52000
Эксперт,50000
Специалист,45000
Стажер,30000
Учитель,20000


In [113]:
df2

Unnamed: 0_level_0,Премия
Должность,Unnamed: 1_level_1
Начальник,15000
Советник,12000
Эксперт,10000
Специалист,9000
Стажер,3000


In [114]:
df3

Unnamed: 0_level_0,Мат.помощь
Должность,Unnamed: 1_level_1
Начальник,15000
Советник,12000
Эксперт,10000
Специалист,9000
Стажер,3000


In [118]:
# добавляем строчку в конец:

df3.loc[ len(df3.index )] = [15000]

In [123]:
df3.index = ['Начальник', 'Советник', 'Эксперт', 'Специалист', 'Стажер', 'Пиждон']

In [124]:
df3

Unnamed: 0,Мат.помощь
Начальник,15000
Советник,12000
Эксперт,10000
Специалист,9000
Стажер,3000
Пиждон,15000


In [125]:
# для того, чтобы объединить сразу все df - надо передавать в join сразу лист датафреймов:

df1.join([df2, df3])

Unnamed: 0_level_0,Зарплата,Премия,Мат.помощь
Должность,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Начальник,55000.0,15000.0,15000.0
Советник,52000.0,12000.0,12000.0
Эксперт,50000.0,10000.0,10000.0
Специалист,45000.0,9000.0,9000.0
Стажер,30000.0,3000.0,3000.0
Учитель,20000.0,,


In [126]:
df1.join([df2, df3], how = 'outer')

Unnamed: 0,Зарплата,Премия,Мат.помощь
Начальник,55000.0,15000.0,15000.0
Советник,52000.0,12000.0,12000.0
Эксперт,50000.0,10000.0,10000.0
Специалист,45000.0,9000.0,9000.0
Стажер,30000.0,3000.0,3000.0
Учитель,20000.0,,
Пиждон,,,15000.0


# Конкатенация  *** concat

In [None]:
# concat применяется когда надо к одному df пристегнуть другой df снизу

In [133]:
df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник2', 'Начальник3', 'Начальник4', 'Начальник5', 'Начальник6'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000, 20000]})

df2 = pd.DataFrame({'Должность': ['Зам', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [15000, 12000, 10000, 9000, 3000]})

In [134]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник5,30000
5,Начальник6,20000


In [135]:
df2

Unnamed: 0,Должность,Зарплата
0,Зам,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000
4,Стажер,3000


In [139]:
# на языке SQL выполняется операция UNION ALL

df3 = pd.concat([df1,df2])

In [140]:
# индекс идет не по порядку:
df3

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник5,30000
5,Начальник6,20000
0,Зам,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000


In [142]:
# индекс идет по порядку:
df3.reset_index(drop = True)

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник5,30000
5,Начальник6,20000
6,Зам,15000
7,Советник,12000
8,Эксперт,10000
9,Специалист,9000


In [143]:
# Также можно еще на этапе конкатенации задать ignore_index = True:

df3 = pd.concat([df1,df2], ignore_index = True)

In [144]:
df3

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник5,30000
5,Начальник6,20000
6,Зам,15000
7,Советник,12000
8,Эксперт,10000
9,Специалист,9000


In [145]:
# Также есть возможность передавать метки keys для каждого из соединяемых датафреймов:

df3 = pd.concat([df1,df2], keys = ['Начальники', 'Кончальники'])

In [146]:
df3

Unnamed: 0,Unnamed: 1,Должность,Зарплата
Начальники,0,Начальник,55000
Начальники,1,Начальник2,52000
Начальники,2,Начальник3,50000
Начальники,3,Начальник4,45000
Начальники,4,Начальник5,30000
Начальники,5,Начальник6,20000
Кончальники,0,Зам,15000
Кончальники,1,Советник,12000
Кончальники,2,Эксперт,10000
Кончальники,3,Специалист,9000


### Случай когда количество колонок в двух датафреймах не совпадает:

In [147]:

df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник2', 'Начальник3', 'Начальник4', 'Начальник5', 'Начальник6'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000, 20000],
                    'Премия': [5500, 5200, 5000, 4500, 3000, 2000]})

df2 = pd.DataFrame({'Должность': ['Зам', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [15000, 12000, 10000, 9000, 3000]})
    

In [148]:
df1

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,5500
1,Начальник2,52000,5200
2,Начальник3,50000,5000
3,Начальник4,45000,4500
4,Начальник5,30000,3000
5,Начальник6,20000,2000


In [149]:
df2

Unnamed: 0,Должность,Зарплата
0,Зам,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000
4,Стажер,3000


In [150]:
df3 = pd.concat([df1, df2])

In [151]:
# по умолчанию добавляется все существующие в датафреймах колонки:
df3

Unnamed: 0,Должность,Зарплата,Премия
0,Начальник,55000,5500.0
1,Начальник2,52000,5200.0
2,Начальник3,50000,5000.0
3,Начальник4,45000,4500.0
4,Начальник5,30000,3000.0
5,Начальник6,20000,2000.0
0,Зам,15000,
1,Советник,12000,
2,Эксперт,10000,
3,Специалист,9000,


In [152]:
df3 = pd.concat([df2, df1])

In [153]:
df3

Unnamed: 0,Должность,Зарплата,Премия
0,Зам,15000,
1,Советник,12000,
2,Эксперт,10000,
3,Специалист,9000,
4,Стажер,3000,
0,Начальник,55000,5500.0
1,Начальник2,52000,5200.0
2,Начальник3,50000,5000.0
3,Начальник4,45000,4500.0
4,Начальник5,30000,3000.0


In [156]:
# чтобы не добавлять колонку надо прописать join = 'inner' (по умолчанию join = 'outer')

df3 = pd.concat([df2, df1], join = 'inner')

In [157]:
df3

Unnamed: 0,Должность,Зарплата
0,Зам,15000
1,Советник,12000
2,Эксперт,10000
3,Специалист,9000
4,Стажер,3000
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник5,30000


In [158]:
# Еще случай:

df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник2', 'Начальник3', 'Начальник4', 'Начальник5', 'Начальник6'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000, 20000],
                    'Премия': [5500, 5200, 5000, 4500, 3000, 2000]})

df2 = pd.DataFrame({'Должность': ['Зам', 'Советник', 'Эксперт', 'Специалист', 'Стажер'],
                    'Зарплата': [15000, 12000, 10000, 9000, 3000],
                   'Мат.помощь': [1500, 1200, 1000, 900, 300]})  


In [160]:
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,Должность,Зарплата,Премия,Мат.помощь
0,Начальник,55000,5500.0,
1,Начальник2,52000,5200.0,
2,Начальник3,50000,5000.0,
3,Начальник4,45000,4500.0,
4,Начальник5,30000,3000.0,
5,Начальник6,20000,2000.0,
6,Зам,15000,,1500.0
7,Советник,12000,,1200.0
8,Эксперт,10000,,1000.0
9,Специалист,9000,,900.0


# Concat может выполнять ту же функцию что и join

In [5]:
df1 = pd.DataFrame({'Должность': ['Начальник', 'Начальник2', 'Начальник3', 'Начальник4', 'Начальник555', 'Начальник6'],
                    'Зарплата': [55000, 52000, 50000, 45000, 30000, 20000]
                    })

df2 = pd.DataFrame({'Должность': ['Начальник', 'Начальник2', 'Начальник3', 'Начальник4', 'Начальник5', 'Начальник6'],
                    'Премия': [55000, 52000, 50000, 45000, 30000, 20000]
                    })

In [6]:
df1

Unnamed: 0,Должность,Зарплата
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник555,30000
5,Начальник6,20000


In [7]:
df2

Unnamed: 0,Должность,Премия
0,Начальник,55000
1,Начальник2,52000
2,Начальник3,50000
3,Начальник4,45000
4,Начальник5,30000
5,Начальник6,20000


In [8]:
# начальник555 объединился с начальником5: !!!

# дело в том, что concat производит объединение по индексам

pd.concat([df1, df2], axis = 1)

Unnamed: 0,Должность,Зарплата,Должность.1,Премия
0,Начальник,55000,Начальник,55000
1,Начальник2,52000,Начальник2,52000
2,Начальник3,50000,Начальник3,50000
3,Начальник4,45000,Начальник4,45000
4,Начальник555,30000,Начальник5,30000
5,Начальник6,20000,Начальник6,20000


In [9]:
# чтобы изменить эту механику (механику объединения по индексам) необходимо у конкатенируемых датафреймов задать индексы:

df1 = df1.set_index('Должность')
df2 = df2.set_index('Должность')

In [10]:
df1

Unnamed: 0_level_0,Зарплата
Должность,Unnamed: 1_level_1
Начальник,55000
Начальник2,52000
Начальник3,50000
Начальник4,45000
Начальник555,30000
Начальник6,20000


In [11]:
df2

Unnamed: 0_level_0,Премия
Должность,Unnamed: 1_level_1
Начальник,55000
Начальник2,52000
Начальник3,50000
Начальник4,45000
Начальник5,30000
Начальник6,20000


In [12]:
# теперь начальник555 без премии, а начальник5 без зарплаты:

pd.concat([df1, df2], axis = 1)

Unnamed: 0_level_0,Зарплата,Премия
Должность,Unnamed: 1_level_1,Unnamed: 2_level_1
Начальник,55000.0,55000.0
Начальник2,52000.0,52000.0
Начальник3,50000.0,50000.0
Начальник4,45000.0,45000.0
Начальник555,30000.0,
Начальник6,20000.0,20000.0
Начальник5,,30000.0


In [13]:
# по умолчанию join = 'outer' - по-этому привязывается всё
# если мы хотим видеть только то, что есть и в df1 и в df2 - задаем - join = 'inner'

pd.concat([df1, df2], axis = 1, join = 'inner')

Unnamed: 0_level_0,Зарплата,Премия
Должность,Unnamed: 1_level_1,Unnamed: 2_level_1
Начальник,55000,55000
Начальник2,52000,52000
Начальник3,50000,50000
Начальник4,45000,45000
Начальник6,20000,20000


In [14]:
# при заданной оси - axis = 1 мульти индекс появится в столбцах по заданию в keys:

pd.concat([df1, df2], axis = 1, join = 'inner', keys = ['Зарплаты: ', 'Премии: '])


Unnamed: 0_level_0,Зарплаты:,Премии:
Unnamed: 0_level_1,Зарплата,Премия
Должность,Unnamed: 1_level_2,Unnamed: 2_level_2
Начальник,55000,55000
Начальник2,52000,52000
Начальник3,50000,50000
Начальник4,45000,45000
Начальник6,20000,20000


# Функция concat при работе с Сериями

In [182]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

In [183]:
s1

a    0
b    1
dtype: int64

In [184]:
s2

c    2
d    3
e    4
dtype: int64

In [185]:
s3

f    5
g    6
dtype: int64

In [187]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [188]:
pd.concat([s1, s2, s3], axis = 1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [189]:
# Чтобы точно значть откуда взялась какя информация - передаем параметр keys:

# axis = 1

pd.concat([s1, s2, s3], axis = 1, keys = ['Серия1', 'Серия2', 'Серия3'])

Unnamed: 0,Серия1,Серия2,Серия3
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [190]:
# Чтобы точно значть откуда взялась какя информация - передаем параметр keys:

# axis = 0

pd.concat([s1, s2, s3], keys = ['Серия1', 'Серия2', 'Серия3'])

Серия1  a    0
        b    1
Серия2  c    2
        d    3
        e    4
Серия3  f    5
        g    6
dtype: int64

In [193]:
# Та же самая запись через словарь:

pd.concat({'Серия1':s1, 'Серия2':s2, 'Серия3':s3})

Серия1  a    0
        b    1
Серия2  c    2
        d    3
        e    4
Серия3  f    5
        g    6
dtype: int64

In [None]:
Продолжаем решать домашнее задание с прошлого урока.


# Задание 4

In [None]:
# Разбейте все сетевые объекты общепита со специализацией кафе на 4 группы (по количеству посадочных мест):

# 1) 0 - 5

# 2) 6 - 15 

# 3) 16 - 25

# 4) 26+

# В какой группе больше всего объектов? В ответе укажите номер группы и количество объектов в этой группе через пробел. 
# Пример ответа:

# 2 26

In [None]:
# Файлы скачены под соответствующими именами:

# main.csv - основная информация о предприятиях общественного питания


# net_property.csv - является ли предприятие сетевым


# seats_property.csv - количество посадочных мест


# type_property.csv - информация о специализации: столовая, закусочная, кафе, иное

In [15]:
df_seats = pd.read_csv('seats_property.csv')

In [16]:
df_type = pd.read_csv('type_property.csv')

In [17]:
df_net = pd.read_csv('net_property.csv')

In [18]:
df_main = pd.read_csv('main.csv')

In [31]:
# для df_net оставляем только те строки, где df_net['IsNetObject'] == 'да'

df_net = df_net[df_net['IsNetObject'] == 'да']

In [33]:
# мерджим df_main и новый df_net получаем df1

df1 = pd.merge(df_main, df_net, how = 'inner', on = 'ID')

pd.merge(df_main, df_net, how = 'inner', on = 'ID')

Unnamed: 0,ID,Name,Address,IsNetObject
0,211210,Милти,"город Москва, Колодезный переулок, дом 3",да
1,353273,Милти,"Российская Федерация, город Москва, внутригоро...",да
2,366460,Cofix,"Российская Федерация, город Москва, внутригоро...",да
3,139516,АКАДЕМИЯ,"город Москва, площадь Киевского Вокзала, дом 2",да
4,97526,Бургер Кинг,"Российская Федерация, город Москва, внутригоро...",да
...,...,...,...,...
1151,210046,МУ-МУ,"город Москва, Новослободская улица, дом 4",да
1152,70049,KFC,"город Москва, Новоясеневский проспект, дом 1",да
1153,172655,KFC,"город Москва, Измайловское шоссе, дом 69Г",да
1154,297729,Додо Пицца,"Российская Федерация, город Москва, внутригоро...",да


In [37]:
# для df_type оставляем только те строки в которых: (df_type['TypeObject'] == 'кафе') & (df_type['is_actual'] == True)

df_type = df_type[(df_type['TypeObject'] == 'кафе') & (df_type['is_actual'] == True)]

In [42]:
# мержим df1 (получен на предыдущем шаге с новым df_type)

df2 = pd.merge(df1, df_type)
pd.merge(df1, df_type)

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
0,323242,МСК Московская сеть кальянных,"Российская Федерация, город Москва, внутригоро...",да,кафе,True
1,305044,СушиВок,"город Москва, Хорошёвское шоссе, дом 90",да,кафе,True
2,298813,Пиццетория,"город Москва, Дубнинская улица, дом 53, корпус 1",да,кафе,True
3,286093,FARШ,"Российская Федерация, город Москва, внутригоро...",да,кафе,True
4,340243,Дабл Би,"Российская Федерация, город Москва, внутригоро...",да,кафе,True
...,...,...,...,...,...,...
136,127607,Upside Down Cake,"город Москва, Ярцевская улица, дом 19",да,кафе,True
137,24698,Хинкальная №1,"город Москва, Старая Басманная улица, дом 7, с...",да,кафе,True
138,252171,Teika BOOM,"город Москва, поселение Московский, Киевское ш...",да,кафе,True
139,139871,Николай,"город Москва, Пятницкая улица, дом 53/18, стро...",да,кафе,True


In [46]:
# вот это самое непонятное: (взято из предыдущей задачи вообще как было):

# сортируем значения по ID и ver_ID ascending = False

# дропаем дубликаты, оставляем только первый - а это с ver_ID == 2.

# таким образом остаются либо чистые ver_ID == 2 либо ver_ID == 1 (у которых и не было обновлений до 2)

df3 = df_seats.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')
df_seats.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')

Unnamed: 0,ID,SeatsCount,ver_ID
6693,375956,0,1
2158,375942,0,1
8637,375940,10,2
8218,375933,5,2
2212,375905,34,1
...,...,...,...
1449,19681,24,1
5032,19678,46,1
10104,19657,85,2
3965,19627,20,2


In [48]:
df4 = pd.merge(df2, df3)
pd.merge(df2, df3)

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual,SeatsCount,ver_ID
0,323242,МСК Московская сеть кальянных,"Российская Федерация, город Москва, внутригоро...",да,кафе,True,37,1
1,298813,Пиццетория,"город Москва, Дубнинская улица, дом 53, корпус 1",да,кафе,True,30,2
2,340243,Дабл Би,"Российская Федерация, город Москва, внутригоро...",да,кафе,True,10,1
3,23734,ШОКОЛАДНИЦА,"город Москва, Ореховый бульвар, дом 14, корпус 3",да,кафе,True,89,2
4,259950,KFC,"Российская Федерация, город Москва, внутригоро...",да,кафе,True,33,2
...,...,...,...,...,...,...,...,...
65,25744,Алло Пицца,"город Москва, Ткацкая улица, дом 32А",да,кафе,True,35,2
66,283290,Мята Lounge,"город Москва, улица Академика Ильюшина, дом 12",да,кафе,True,20,1
67,311827,Джаганнат,"Российская Федерация, город Москва, внутригоро...",да,кафе,True,25,1
68,359251,Шоколадница,"город Москва, Лазоревый проезд, дом 1А, корпус 3",да,кафе,True,51,2


In [50]:
# 1) 0 - 5

# 2) 6 - 15 

# 3) 16 - 25

# 4) 26+

bins = [-1, 5, 15, 25, np.inf]

pd.cut(df4['SeatsCount'], bins)

0      (25.0, inf]
1      (25.0, inf]
2      (5.0, 15.0]
3      (25.0, inf]
4      (25.0, inf]
          ...     
65     (25.0, inf]
66    (15.0, 25.0]
67    (15.0, 25.0]
68     (25.0, inf]
69    (15.0, 25.0]
Name: SeatsCount, Length: 70, dtype: category
Categories (4, interval[float64, right]): [(-1.0, 5.0] < (5.0, 15.0] < (15.0, 25.0] < (25.0, inf]]

In [52]:
rez = pd.cut(df4['SeatsCount'], bins)

In [53]:
rez.value_counts()

(25.0, inf]     46
(5.0, 15.0]     12
(15.0, 25.0]    10
(-1.0, 5.0]      2
Name: SeatsCount, dtype: int64

# Задание 5

In [None]:
Найдите id сетевых кафе у которых отсутствует запись в (main.csv). Отсортируйте id по убыванию и загрузите их.

В вашем файле должен быть только один столбец - ID. Выгрузка в формате csv (без индекса).

В задании имеется ввиду АКТУАЛЬНЫЕ кафе =)

In [95]:
df_seats = pd.read_csv('seats_property.csv')

In [96]:
df_type = pd.read_csv('type_property.csv')

In [97]:
df_net = pd.read_csv('net_property.csv')

In [98]:
df_main = pd.read_csv('main.csv')

In [99]:
# фильтр только сетевые

df_net = df_net[df_net['IsNetObject'] == 'да']

In [100]:
# фильтр только кафе и только актуальные

# для df_type оставляем только те строки в которых: (df_type['TypeObject'] == 'кафе') & (df_type['is_actual'] == True)

df_type = df_type[(df_type['TypeObject'] == 'кафе') & (df_type['is_actual'] == True)]

In [101]:
df1 = pd.merge(df_main, df_type,  how = 'right')
pd.merge(df_main, df_type,  how = 'right')

Unnamed: 0,ID,Name,Address,TypeObject,is_actual
0,282390,Salumeria,"Российская Федерация, город Москва, внутригоро...",кафе,True
1,269847,,,кафе,True
2,297802,Алло Пицца,"Российская Федерация, город Москва, внутригоро...",кафе,True
3,197475,,,кафе,True
4,325328,,,кафе,True
...,...,...,...,...,...
2396,250955,White Star Кузьминки,"Российская Федерация, город Москва, внутригоро...",кафе,True
2397,21864,,,кафе,True
2398,361696,Мистер Бургер,"Российская Федерация, город Москва, внутригоро...",кафе,True
2399,23238,,,кафе,True


In [105]:
df2 = pd.merge(df1, df_net,  how = 'inner')
pd.merge(df1, df_net,  how = 'inner')

Unnamed: 0,ID,Name,Address,TypeObject,is_actual,IsNetObject
0,297802,Алло Пицца,"Российская Федерация, город Москва, внутригоро...",кафе,True,да
1,302226,КОФЕПОРТ,"Российская Федерация, город Москва, внутригоро...",кафе,True,да
2,305044,СушиВок,"город Москва, Хорошёвское шоссе, дом 90",кафе,True,да
3,340243,Дабл Би,"Российская Федерация, город Москва, внутригоро...",кафе,True,да
4,288642,Кофемания на Садовническая,"город Москва, Садовническая улица, дом 82, стр...",кафе,True,да
...,...,...,...,...,...,...
271,192911,Прайм стар,"город Москва, Нижний Сусальный переулок, дом 5...",кафе,True,да
272,22375,Кружка,"город Москва, Мясницкая улица, дом 32, строение 1",кафе,True,да
273,24342,,,кафе,True,да
274,359251,Шоколадница,"город Москва, Лазоревый проезд, дом 1А, корпус 3",кафе,True,да


In [106]:
df2['ID'][df2['Name'].isna()]

6      291129
8      130996
9      166982
10      24317
11     286892
        ...  
264    214292
266    326862
267     84922
268    223188
273     24342
Name: ID, Length: 135, dtype: int64

In [107]:
df3 = df2['ID'][df2['Name'].isna()].drop_duplicates(keep = 'first')
df2['ID'][df2['Name'].isna()].drop_duplicates(keep = 'first')

6      291129
8      130996
9      166982
10      24317
11     286892
        ...  
264    214292
266    326862
267     84922
268    223188
273     24342
Name: ID, Length: 135, dtype: int64

In [109]:
df4 = df3.sort_values(ascending = False)
df3.sort_values(ascending = False)

221    374676
111    374275
95     374114
170    371701
263    367930
        ...  
127     22089
103     22005
169     21732
255     20497
17      19882
Name: ID, Length: 135, dtype: int64

In [111]:
df4.to_csv('result_task_6_without_index.csv', index = False)

# Задание 6

In [None]:
Есть два списка - адреса и id объектов. 

'Список_ID.xlsx'

'Список_адресов.xlsx'


Подтяните для них информацию:
    
1) признак сетевой/не сетевой. Если признака нет, то оставьте поле пустым.

2) актуальную специализацию. Если ее нет, то напишите 'отсутствует'

3) последнюю информацию о числе посадочных мест. Если мест нет, то укажите 0.

Отсортируйте объекты в порядке убывания ID. Колонки переведите на русский язык т.к. коллеги не понимают англ. язык:

Ид,Наименование,Адрес,Сетевой?,Специализация,КоличМест

Загрузите файл в формате csv (разделитель запятая, без индекса).

In [167]:
df1 = pd.read_excel('Список_ID.xlsx')

In [197]:
df2 = pd.read_excel('Список_адресов.xlsx', sheet_name='Sheet1')

In [168]:
df1

Unnamed: 0,Список предприятий попадающих под проверку
0,ID
1,20821
2,172247
3,137290
4,29194
5,141704
6,347136
7,260793
8,302646
9,163518


In [170]:
df1.columns = ['ID']

In [171]:
df1 = df1[df1.index >0]

In [172]:
df1

Unnamed: 0,ID
1,20821
2,172247
3,137290
4,29194
5,141704
6,347136
7,260793
8,302646
9,163518
10,361230


In [233]:
# проверяем есть ли такой индекс в df_main как 29194, а это №12 только без буквы И - надо заменить вестимо?
(df_main['ID']. eq(29194)).any ()

True

In [194]:
df1 = df1.replace('И29194', 29194)

In [195]:
df1

Unnamed: 0,ID
1,20821
2,172247
3,137290
4,29194
5,141704
6,347136
7,260793
8,302646
9,163518
10,361230


In [198]:
df2

Unnamed: 0,Список адресов по которым будет выполнена проверка юридическим отделом
0,
1,"город Москва, улица Арбат, дом 55/32"
2,"город Москва, Салтыковская улица, дом 15Г"
3,"город Москва, Пресненская набережная, дом 2, п..."
4,"Российская Федерация, город Москва, внутригоро..."
5,"город Москва, Ленинградский проспект, дом 31А,..."
6,"город Москва, Ярцевская улица, дом 34, корпус 2"
7,"Российская Федерация, город Москва, внутригоро..."
8,"Российская Федерация, город Москва, внутригоро..."
9,"Российская Федерация, город Москва, внутригоро..."


In [199]:
df2 = df2[df2.index >0]

In [205]:
df2

Unnamed: 0,Список адресов по которым будет выполнена проверка юридическим отделом
1,"город Москва, улица Арбат, дом 55/32"
2,"город Москва, Салтыковская улица, дом 15Г"
3,"город Москва, Пресненская набережная, дом 2, п..."
4,"Российская Федерация, город Москва, внутригоро..."
5,"город Москва, Ленинградский проспект, дом 31А,..."
6,"город Москва, Ярцевская улица, дом 34, корпус 2"
7,"Российская Федерация, город Москва, внутригоро..."
8,"Российская Федерация, город Москва, внутригоро..."
9,"Российская Федерация, город Москва, внутригоро..."
10,"город Москва, улица Алабяна, дом 13, корпус 2"


In [128]:
df_seats = pd.read_csv('seats_property.csv')

In [129]:
df_type = pd.read_csv('type_property.csv')

In [130]:
df_net = pd.read_csv('net_property.csv')

In [131]:
df_main = pd.read_csv('main.csv')

In [133]:
df_main.head(2)

Unnamed: 0,ID,Name,Address
0,20988,ГУЗ,"город Москва, улица Казакова, дом 15"
1,24828,Кафе Халяль,"город Москва, 8-я улица Текстильщиков, дом 5, ..."


In [226]:
df_id_merge_main = pd.merge(df1, df_main, how = 'inner')
pd.merge(df1, df_main, how = 'inner')

Unnamed: 0,ID,Name,Address
0,20821,Теремок,"город Москва, Ладожская улица, дом 5"
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко..."
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро..."
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
5,141704,Столичный паб,"город Москва, Большая Черкизовская улица, дом 30Б"
6,347136,Правда кофе,"город Москва, Дмитровское шоссе, дом 73, строе..."
7,260793,Место Варенья,"город Москва, внутригородская территория муниц..."
8,302646,Просвет,"Российская Федерация, город Москва, внутригоро..."
9,163518,Додо Пицца,"город Москва, Пятницкое шоссе, дом 21"


In [210]:
df_adress_merge_main = pd.merge(df2, df_main, how = 'inner', left_on = 'Список адресов по которым будет выполнена проверка юридическим отделом', right_on = 'Address')
pd.merge(df2, df_main, how = 'inner', left_on = 'Список адресов по которым будет выполнена проверка юридическим отделом', right_on = 'Address')

Unnamed: 0,Список адресов по которым будет выполнена проверка юридическим отделом,ID,Name,Address
0,"город Москва, улица Арбат, дом 55/32",127987,Белый,"город Москва, улица Арбат, дом 55/32"
1,"город Москва, Салтыковская улица, дом 15Г",73438,Ганс и Марта,"город Москва, Салтыковская улица, дом 15Г"
2,"город Москва, Пресненская набережная, дом 2, п...",367328,Чебурешная,"город Москва, Пресненская набережная, дом 2, п..."
3,"город Москва, Пресненская набережная, дом 2, п...",322377,Star hit Cafe,"город Москва, Пресненская набережная, дом 2, п..."
4,"город Москва, Пресненская набережная, дом 2, п...",190928,EZO Хинкальная,"город Москва, Пресненская набережная, дом 2, п..."
...,...,...,...,...
72,"Российская Федерация, город Москва, внутригоро...",332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро..."
73,"Российская Федерация, город Москва, внутригоро...",372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро..."
74,"город Москва, Коровинское шоссе, дом 24А",29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
75,"город Москва, Большая Черкизовская улица, дом 30Б",174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б"


In [215]:
df_adress_merge_main[df_adress_merge_main.duplicated(subset = 'ID')]

Unnamed: 0,Список адресов по которым будет выполнена проверка юридическим отделом,ID,Name,Address


In [234]:
df_adress_merge_main = df_adress_merge_main.drop('Список адресов по которым будет выполнена проверка юридическим отделом', axis = 1)

In [231]:
df_adress_merge_main

Unnamed: 0,ID,Name,Address
0,127987,Белый,"город Москва, улица Арбат, дом 55/32"
1,73438,Ганс и Марта,"город Москва, Салтыковская улица, дом 15Г"
2,367328,Чебурешная,"город Москва, Пресненская набережная, дом 2, п..."
3,322377,Star hit Cafe,"город Москва, Пресненская набережная, дом 2, п..."
4,190928,EZO Хинкальная,"город Москва, Пресненская набережная, дом 2, п..."
...,...,...,...
72,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро..."
73,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро..."
74,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
75,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б"


In [236]:
df_rez = pd.concat([df_id_merge_main, df_adress_merge_main], ignore_index=True)
pd.concat([df_id_merge_main, df_adress_merge_main], ignore_index=True)

Unnamed: 0,ID,Name,Address
0,20821,Теремок,"город Москва, Ладожская улица, дом 5"
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко..."
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро..."
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
...,...,...,...
84,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро..."
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро..."
86,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А"
87,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б"


In [166]:
# фильтр только актуальные

# для df_type оставляем только те строки в которых: (df_type['is_actual'] == True)

df_type = df_type[(df_type['is_actual'] == True)]
df_type[(df_type['is_actual'] == True)]

Unnamed: 0,ID,TypeObject,is_actual
0,302619,закусочная,True
1,28573,столовая,True
3,29517,столовая,True
5,331204,предприятие быстрого обслуживания,True
6,140502,столовая,True
...,...,...,...
12991,361696,кафе,True
12992,151866,бар,True
12993,27288,ресторан,True
12996,23238,кафе,True


In [162]:
# вот это самое непонятное: (взято из предыдущей задачи вообще как было):

# сортируем значения по ID и ver_ID ascending = False

# дропаем дубликаты, оставляем только первый - а это с ver_ID == 2.

# таким образом остаются либо чистые ver_ID == 2 либо ver_ID == 1 (у которых и не было обновлений до 2)

df_seats_ver_ID = df_seats.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')
df_seats.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')

Unnamed: 0,ID,SeatsCount,ver_ID
6693,375956,0,1
2158,375942,0,1
8637,375940,10,2
8218,375933,5,2
2212,375905,34,1
...,...,...,...
1449,19681,24,1
5032,19678,46,1
10104,19657,85,2
3965,19627,20,2


In [238]:
df_net

Unnamed: 0,ID,IsNetObject
0,369614,нет
1,201691,нет
2,362705,нет
3,286817,нет
4,25950,да
...,...,...
12995,28474,нет
12996,295224,нет
12997,168540,нет
12998,366823,да


In [243]:
# 1) признак сетевой/не сетевой. Если признака нет, то оставьте поле пустым.

df_rez_merge_net = pd.merge(df_rez, df_net, how = 'left')
pd.merge(df_rez, df_net, how = 'left')

Unnamed: 0,ID,Name,Address,IsNetObject
0,20821,Теремок,"город Москва, Ладожская улица, дом 5",да
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко...",
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро...",да
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет
...,...,...,...,...
84,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро...",
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет
86,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет
87,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б",да


In [245]:
# 2) актуальную специализацию. Если ее нет, то напишите 'отсутствует'

df_rez_2 = pd.merge(df_rez_merge_net, df_type, how = 'left')

pd.merge(df_rez_merge_net, df_type, how = 'left')

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
0,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,,
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко...",,,
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро...",да,предприятие быстрого обслуживания,True
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,,
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,,
...,...,...,...,...,...,...
84,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро...",,,
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,,
86,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,,
87,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б",да,кафе,True


In [248]:
df_rez_2['TypeObject'] = df_rez_2['TypeObject'].fillna('отсутствует')

In [249]:
df_rez_2

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual
0,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко...",,отсутствует,
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро...",да,предприятие быстрого обслуживания,True
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,
...,...,...,...,...,...,...
84,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро...",,отсутствует,
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,
86,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,
87,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б",да,кафе,True


In [251]:
# 3) последнюю информацию о числе посадочных мест. Если мест нет, то укажите 0.


df_rez_3 = pd.merge(df_rez_2, df_seats_ver_ID, how = 'left')
pd.merge(df_rez_2, df_seats_ver_ID, how = 'left')

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual,SeatsCount,ver_ID
0,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,,,
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко...",,отсутствует,,,
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро...",да,предприятие быстрого обслуживания,True,,
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,,,
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,,,
...,...,...,...,...,...,...,...,...
84,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро...",,отсутствует,,13.0,2.0
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,,,
86,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,,,
87,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б",да,кафе,True,6.0,1.0


In [255]:
df_rez_3['SeatsCount'] = df_rez_3['SeatsCount'].fillna(0)

In [256]:
df_rez_3

Unnamed: 0,ID,Name,Address,IsNetObject,TypeObject,is_actual,SeatsCount,ver_ID
0,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,,0.0,
1,172247,Кафетерий AB Daily,"город Москва, Большая Садовая улица, дом 5, ко...",,отсутствует,,0.0,
2,137290,Домино'с Пицца,"Российская Федерация, город Москва, внутригоро...",да,предприятие быстрого обслуживания,True,0.0,
3,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,,0.0,
4,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,,0.0,
...,...,...,...,...,...,...,...,...
84,332332,DO BRO coffee,"Российская Федерация, город Москва, внутригоро...",,отсутствует,,13.0,2.0
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,,0.0,
86,29194,ГБОУ школа №236,"город Москва, Коровинское шоссе, дом 24А",нет,отсутствует,,0.0,
87,174038,Додо Пицца,"город Москва, Большая Черкизовская улица, дом 30Б",да,кафе,True,6.0,1.0


In [258]:
df_rez_4 = df_rez_3.reindex(['ID', 'Name', 'Address', 'IsNetObject', 'TypeObject', 'SeatsCount'], axis = 1)

In [259]:
df_rez_4.columns

Index(['ID', 'Name', 'Address', 'IsNetObject', 'TypeObject', 'SeatsCount'], dtype='object')

In [260]:
df_rez_4.columns = ['Ид', 'Наименование', 'Адрес', 'Сетевой?', 'Специализация', 'КоличМест']

In [264]:
df_rez_4.sort_values(by = 'Ид', ascending = False)

Unnamed: 0,Ид,Наименование,Адрес,Сетевой?,Специализация,КоличМест
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,0.0
65,369518,Чайхана УМИД,"город Москва, Ярцевская улица, дом 34, корпус 2",нет,отсутствует,0.0
32,367457,Stars Coffee,"город Москва, Пресненская набережная, дом 2, п...",,отсутствует,0.0
14,367328,Чебурешная,"город Москва, Пресненская набережная, дом 2, п...",,кафе,0.0
72,365834,Кофестанция,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,9.0
...,...,...,...,...,...,...
53,25007,Шоколадница,"Российская Федерация, город Москва, внутригоро...",да,отсутствует,0.0
66,24219,Кафе «Чашки»,"Российская Федерация, город Москва, внутригоро...",,отсутствует,0.0
78,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,0.0
0,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,0.0


In [265]:
df_rez_5 = df_rez_4.sort_values(by = 'Ид', ascending = False)

In [269]:
df_rez_5

Unnamed: 0,Ид,Наименование,Адрес,Сетевой?,Специализация,КоличМест
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,0.0
65,369518,Чайхана УМИД,"город Москва, Ярцевская улица, дом 34, корпус 2",нет,отсутствует,0.0
32,367457,Stars Coffee,"город Москва, Пресненская набережная, дом 2, п...",,отсутствует,0.0
14,367328,Чебурешная,"город Москва, Пресненская набережная, дом 2, п...",,кафе,0.0
72,365834,Кофестанция,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,9.0
...,...,...,...,...,...,...
56,27010,Премьер,"город Москва, Ленинградский проспект, дом 31А,...",нет,ресторан,83.0
53,25007,Шоколадница,"Российская Федерация, город Москва, внутригоро...",да,отсутствует,0.0
66,24219,Кафе «Чашки»,"Российская Федерация, город Москва, внутригоро...",,отсутствует,0.0
78,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,0.0


In [268]:
df_rez_5 = df_rez_5.drop_duplicates(subset = 'Ид')

In [270]:
df_rez_5

Unnamed: 0,Ид,Наименование,Адрес,Сетевой?,Специализация,КоличМест
85,372752,ШАУРМА,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,0.0
65,369518,Чайхана УМИД,"город Москва, Ярцевская улица, дом 34, корпус 2",нет,отсутствует,0.0
32,367457,Stars Coffee,"город Москва, Пресненская набережная, дом 2, п...",,отсутствует,0.0
14,367328,Чебурешная,"город Москва, Пресненская набережная, дом 2, п...",,кафе,0.0
72,365834,Кофестанция,"Российская Федерация, город Москва, внутригоро...",нет,отсутствует,9.0
...,...,...,...,...,...,...
56,27010,Премьер,"город Москва, Ленинградский проспект, дом 31А,...",нет,ресторан,83.0
53,25007,Шоколадница,"Российская Федерация, город Москва, внутригоро...",да,отсутствует,0.0
66,24219,Кафе «Чашки»,"Российская Федерация, город Москва, внутригоро...",,отсутствует,0.0
78,20821,Теремок,"город Москва, Ладожская улица, дом 5",да,отсутствует,0.0


In [271]:
df_rez_5.to_csv('task6.csv', index = False)

# Задание 7

In [None]:
# сколько всего мест у общепита по адресу просп. Вернадского 86А

In [357]:
df_seats = pd.read_csv('seats_property.csv')

df_type = pd.read_csv('type_property.csv')

df_net = pd.read_csv('net_property.csv')

df_main = pd.read_csv('main.csv')

In [364]:
df_main

Unnamed: 0,ID,Name,Address
327,151596,KVARTAL,"город Москва, проспект Вернадского, дом 86А"
2889,365140,СИНЕМАСТАР,"город Москва, проспект Вернадского, дом 86А"
3781,262639,Star Hit cafe,"город Москва, проспект Вернадского, дом 86А"
4869,368180,One Price COFFEE,"город Москва, проспект Вернадского, дом 86А"
5913,361504,Чистая линия,"город Москва, проспект Вернадского, дом 86А"
6295,198194,Чайхона №1,"город Москва, проспект Вернадского, дом 86А"
6321,353516,О ХОТДОГ Даниель кафе,"город Москва, проспект Вернадского, дом 86А"
6374,134638,ПБО «Теремок»,"город Москва, проспект Вернадского, дом 86А"
6574,354593,Bubbleology,"Российская Федерация, город Москва, внутригоро..."
7660,352541,ХАВЧИК ТУТ,"город Москва, проспект Вернадского, дом 86А"


In [365]:
df_main = df_main[df_main['Address'].str.contains('Вернадского')]

In [366]:
df_main

Unnamed: 0,ID,Name,Address
327,151596,KVARTAL,"город Москва, проспект Вернадского, дом 86А"
2889,365140,СИНЕМАСТАР,"город Москва, проспект Вернадского, дом 86А"
3781,262639,Star Hit cafe,"город Москва, проспект Вернадского, дом 86А"
4869,368180,One Price COFFEE,"город Москва, проспект Вернадского, дом 86А"
5913,361504,Чистая линия,"город Москва, проспект Вернадского, дом 86А"
6295,198194,Чайхона №1,"город Москва, проспект Вернадского, дом 86А"
6321,353516,О ХОТДОГ Даниель кафе,"город Москва, проспект Вернадского, дом 86А"
6374,134638,ПБО «Теремок»,"город Москва, проспект Вернадского, дом 86А"
6574,354593,Bubbleology,"Российская Федерация, город Москва, внутригоро..."
7660,352541,ХАВЧИК ТУТ,"город Москва, проспект Вернадского, дом 86А"


In [367]:
df_main = df_main[df_main['Address'].str.contains('86А')]
df_main[df_main['Address'].str.contains('86А')]

Unnamed: 0,ID,Name,Address
327,151596,KVARTAL,"город Москва, проспект Вернадского, дом 86А"
2889,365140,СИНЕМАСТАР,"город Москва, проспект Вернадского, дом 86А"
3781,262639,Star Hit cafe,"город Москва, проспект Вернадского, дом 86А"
4869,368180,One Price COFFEE,"город Москва, проспект Вернадского, дом 86А"
5913,361504,Чистая линия,"город Москва, проспект Вернадского, дом 86А"
6295,198194,Чайхона №1,"город Москва, проспект Вернадского, дом 86А"
6321,353516,О ХОТДОГ Даниель кафе,"город Москва, проспект Вернадского, дом 86А"
6374,134638,ПБО «Теремок»,"город Москва, проспект Вернадского, дом 86А"
6574,354593,Bubbleology,"Российская Федерация, город Москва, внутригоро..."
7660,352541,ХАВЧИК ТУТ,"город Москва, проспект Вернадского, дом 86А"


In [368]:
df_seats

Unnamed: 0,ID,SeatsCount,ver_ID
0,345181,0,1
1,326754,35,2
2,151037,0,1
3,277311,11,2
4,252377,2,1
...,...,...,...
12995,58472,90,1
12996,372280,35,2
12997,26058,310,1
12998,190988,40,1


In [369]:
# вот это самое непонятное: (взято из предыдущей задачи вообще как было):

# сортируем значения по ID и ver_ID ascending = False

# дропаем дубликаты, оставляем только первый - а это с ver_ID == 2.

# таким образом остаются либо чистые ver_ID == 2 либо ver_ID == 1 (у которых и не было обновлений до 2)

df_seats_ver_ID = df_seats.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')
df_seats.sort_values(by = ['ID', 'ver_ID'], ascending = False).drop_duplicates(subset = 'ID', keep = 'first')

Unnamed: 0,ID,SeatsCount,ver_ID
6693,375956,0,1
2158,375942,0,1
8637,375940,10,2
8218,375933,5,2
2212,375905,34,1
...,...,...,...
1449,19681,24,1
5032,19678,46,1
10104,19657,85,2
3965,19627,20,2


In [370]:
pd.merge(df_main, df_seats_ver_ID, how = 'left')

Unnamed: 0,ID,Name,Address,SeatsCount,ver_ID
0,151596,KVARTAL,"город Москва, проспект Вернадского, дом 86А",105.0,2.0
1,365140,СИНЕМАСТАР,"город Москва, проспект Вернадского, дом 86А",,
2,262639,Star Hit cafe,"город Москва, проспект Вернадского, дом 86А",,
3,368180,One Price COFFEE,"город Москва, проспект Вернадского, дом 86А",15.0,2.0
4,361504,Чистая линия,"город Москва, проспект Вернадского, дом 86А",,
5,198194,Чайхона №1,"город Москва, проспект Вернадского, дом 86А",,
6,353516,О ХОТДОГ Даниель кафе,"город Москва, проспект Вернадского, дом 86А",10.0,1.0
7,134638,ПБО «Теремок»,"город Москва, проспект Вернадского, дом 86А",,
8,354593,Bubbleology,"Российская Федерация, город Москва, внутригоро...",5.0,2.0
9,352541,ХАВЧИК ТУТ,"город Москва, проспект Вернадского, дом 86А",,


In [372]:
pd.merge(df_main, df_seats_ver_ID, how = 'left')['SeatsCount'].sum()

238.0