# Объединение данных с помощью pandas

## Основы объединения данных

In [45]:
# Предполагая, что ваш блокнот Jupyter находится в папке exercises
# Вы хотите получить доступ к файлу taxi_owners.p в папке datasets

import os
import pickle
import pandas as pd

# Получить текущую директорию
current_directory = os.getcwd()

# Перейти в папку datasets
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в папке datasets
file_path = os.path.join(datasets_directory, 'taxi_owners.p')

if os.path.exists(file_path):
    # Файл существует, поэтому откройте его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работайте с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
taxi_owners = data

Файл успешно открыт!


In [46]:
# Получить текущую директорию
current_directory = os.getcwd()

# Перейти в папку datasets
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в папке datasets
file_path = os.path.join(datasets_directory, 'taxi_vehicles.p')

try:
    if os.path.exists(file_path):
        # Файл существует, поэтому откройте его
        with open(file_path, 'rb') as file:
            data = pickle.load(file)
        # Работайте с объектом 'data' по необходимости
        print("Файл успешно открыт!")
        taxi_vehicles = data
    else:
        print("Файл не найден.")
except Exception as e:
    print(f"Произошла ошибка: {e}")
    taxi_vehicles = None  # Присваивание None 'taxi_vehicles', если произошла ошибка

taxi_veh = data

Файл успешно открыт!


## Ваше первое внутреннее соединение

Вам предстоит выяснить, какие виды топлива наиболее популярны в такси Чикаго. Чтобы завершить анализ, вам необходимо объединить таблицы `«taxi_owners»` и `«taxi_veh»` в столбце `«vid»`. Затем вы можете использовать объединенную таблицу вместе с методом `.value_counts()`, чтобы найти наиболее распространенный тип `Fuel_type`.

Поскольку на протяжении всего курса вы будете работать с pandas, пакет будет предварительно загружен для вас как pd в каждом упражнении этого курса. Также для вас загружаются DataFrames `taxi_owners` и `taxi_veh`.

### Инструкции 1/3

1. Объедините `«taxi_owners»` с `«taxi_veh»` в столбце `«vid»` и сохраните результат в `«taxi_own_veh»`.

In [47]:
# Объединить таблицы taxi_owners и taxi_veh
taxi_own_veh = taxi_owners.merge(taxi_veh, on='vid')

# Вывести названия столбцов в taxi_own_veh
print(taxi_own_veh.columns)

Index(['rid', 'vid', 'owner_x', 'address', 'zip', 'make', 'model', 'year',
       'fuel_type', 'owner_y'],
      dtype='object')


### Инструкции 2/3

Установите суффиксы левой и правой таблицы для перекрывающихся столбцов слияния на `_own` и `_veh` соответственно.

In [48]:
# Объединить таблицы taxi_owners и taxi_veh, установив суффиксы
taxi_own_veh = taxi_owners.merge(taxi_veh, on='vid', suffixes=('_own', '_veh'))

# Вывести названия столбцов в taxi_own_veh
print(taxi_own_veh.columns)

Index(['rid', 'vid', 'owner_own', 'address', 'zip', 'make', 'model', 'year',
       'fuel_type', 'owner_veh'],
      dtype='object')


### Инструкции 3/3

Выберите столбец `«fuel_type»` из `«taxi_own_veh»` и распечатайте `«value_counts()»`, чтобы найти наиболее популярные используемые `«fuel_types»`.

In [49]:
# Объединить таблицы taxi_owners и taxi_veh, установив суффиксы
taxi_own_veh = taxi_owners.merge(taxi_veh, on='vid', suffixes=('_own', '_veh'))

# Вывести value_counts, чтобы найти наиболее популярный тип топлива
print(taxi_own_veh['fuel_type'].value_counts())

HYBRID                    2792
GASOLINE                   611
FLEX FUEL                   89
COMPRESSED NATURAL GAS      27
Name: fuel_type, dtype: int64


In [50]:
# Путь к файлу wards.p
ward_file_path = os.path.join(datasets_directory, 'ward.p')

# Загрузить wards.p, если он существует, как DataFrame с именем 'wards'
if os.path.exists(ward_file_path):
    with open(ward_file_path, 'rb') as file:
        wards = pd.DataFrame(pickle.load(file))
        print("Файл 'ward.p' открыт и сохранен в DataFrame 'wards'.")
else:
    print("Файл 'ward.p' не найден.")

print(wards)

Файл 'ward.p' открыт и сохранен в DataFrame 'wards'.
   ward                   alderman                            address    zip
0     1         Proco "Joe" Moreno          2058 NORTH WESTERN AVENUE  60647
1     2              Brian Hopkins         1400 NORTH  ASHLAND AVENUE  60622
2     3                 Pat Dowell            5046 SOUTH STATE STREET  60609
3     4           William D. Burns    435 EAST 35TH STREET, 1ST FLOOR  60616
4     5         Leslie A. Hairston              2325 EAST 71ST STREET  60649
5     6         Roderick T. Sawyer   8001 S. MARTIN LUTHER KING DRIVE  60619
6     7        Gregory I. Mitchell              2249 EAST 95TH STREET  60617
7     8         Michelle A. Harris    8539 SOUTH COTTAGE GROVE AVENUE  60619
8     9           Anthony A. Beale                34 EAST 112TH PLACE  60628
9    10      Susan Sadlowski Garza           10500 SOUTH EWING AVENUE  60617
10   11     Patrick Daley Thompson          3659 SOUTH HALSTED STREET  60609
11   12            Geor

In [51]:
# Путь к файлу census.p
census_file_path = os.path.join(datasets_directory, 'census.p')

# Загрузить census.p, если он существует, как DataFrame с именем 'census'
if os.path.exists(census_file_path):
    with open(census_file_path, 'rb') as file:
        census = pd.DataFrame(pickle.load(file))
        print("Файл 'census.p' открыт и сохранен в DataFrame 'census'.")
else:
    print("Файл 'census.p' не найден.")

print(census.head())

Файл 'census.p' открыт и сохранен в DataFrame 'census'.
  ward  pop_2000  pop_2010 change                                  address  \
0    1     52951     56149     6%              2765 WEST SAINT MARY STREET   
1    2     54361     55805     3%                 WM WASTE MANAGEMENT 1500   
2    3     40385     53039    31%                      17 EAST 38TH STREET   
3    4     51953     54589     5%  31ST ST HARBOR BUILDING LAKEFRONT TRAIL   
4    5     55302     51455    -7%  JACKSON PARK LAGOON SOUTH CORNELL DRIVE   

     zip  
0  60647  
1  60622  
2  60653  
3  60653  
4  60637  


## Внутренние соединения и количество возвращаемых строк

Все слияния, которые вы изучили до этого момента, называются внутренними соединениями. Необходимо понимать, что внутренние соединения возвращают только строки с совпадающими значениями в обеих таблицах. Вы исследуете это дальше, рассмотрев слияние таблиц «wards» и «census», а затем сравнив его со слиянием слегка измененных копий этих таблиц, названных `«wards_altered»` и `«census_altered»`. В измененных таблицах изменена первая строка столбца подопечных. Вы увидите, как это влияет на слияние между ними. Таблицы для вас загружены.

Для этого упражнения важно знать, что таблицы `«wards»` и `census` начинаются с 50 строк.

### Инструкции 1/3

Объедините значения `«wards»` и `«census»` в столбце `«ward»` и сохраните результат в столбце `«wards_census»`.

In [52]:
# Объединить таблицы wards и census по столбцу 'ward'
wards_census = wards.merge(census, on='ward')

# Вывести форму таблицы wards_census
print('Форма таблицы wards_census:', wards_census.shape)

print(wards_census)

Форма таблицы wards_census: (50, 9)
   ward                   alderman                          address_x  zip_x  \
0     1         Proco "Joe" Moreno          2058 NORTH WESTERN AVENUE  60647   
1     2              Brian Hopkins         1400 NORTH  ASHLAND AVENUE  60622   
2     3                 Pat Dowell            5046 SOUTH STATE STREET  60609   
3     4           William D. Burns    435 EAST 35TH STREET, 1ST FLOOR  60616   
4     5         Leslie A. Hairston              2325 EAST 71ST STREET  60649   
5     6         Roderick T. Sawyer   8001 S. MARTIN LUTHER KING DRIVE  60619   
6     7        Gregory I. Mitchell              2249 EAST 95TH STREET  60617   
7     8         Michelle A. Harris    8539 SOUTH COTTAGE GROVE AVENUE  60619   
8     9           Anthony A. Beale                34 EAST 112TH PLACE  60628   
9    10      Susan Sadlowski Garza           10500 SOUTH EWING AVENUE  60617   
10   11     Patrick Daley Thompson          3659 SOUTH HALSTED STREET  60609   
11  

### Инструкции 2/3

Объедините таблицы `wards_altered` и `census` в столбце `ward` и обратите внимание на разницу в возвращаемых строках.

In [53]:
# Предполагая, что 'wards' и 'census' - это ваши DataFrames

# Создать копию DataFrame 'wards' для внесения изменений
wards_altered = wards.copy()

# Преобразовать столбец 'ward' в целочисленный тип в 'wards_altered'
wards_altered['ward'] = wards_altered['ward'].astype(int)

# Добавить 60 к первому элементу в столбце 'ward' в 'wards_altered'
wards_altered.loc[0, 'ward'] += 60

# Вывести несколько первых строк таблицы wards_altered, чтобы увидеть изменение
print(wards_altered[['ward']].head())

# Проверить, можно ли преобразовать столбец 'ward' в 'census' в целочисленный тип
if census['ward'].astype(str).str.isdigit().all():
    # Преобразовать столбец 'ward' в 'census' в целочисленный тип
    census['ward'] = census['ward'].astype(int)

    # Объединить таблицы 'wards_altered' и 'census' по столбцу 'ward'
    wards_altered_census = wards_altered.merge(census, on='ward')
    print('Форма таблицы wards_altered_census:', wards_altered_census.shape)
else:
    print("Невозможно преобразовать столбец 'ward' в DataFrame 'census' в целочисленный тип для объединения.")

   ward
0    61
1     2
2     3
3     4
4     5
Форма таблицы wards_altered_census: (49, 9)


### Инструкции 3/3

Объедините таблицы `«ward»` и `«census_altered»` в столбце `«ward»` и обратите внимание на разницу в возвращаемых строках.

In [54]:
# Предполагая, что 'wards' и 'census' - это ваши DataFrames

# Создать копию первого столбца DataFrame 'census' и присвоить ему имя 'census_altered'
census_altered = census.iloc[:, [0]].copy()

# Установить тип столбца 'ward' как строковый для возможности использования значений 'None'
census_altered['ward'] = census_altered['ward'].astype(str)

# Установить первый элемент в столбце 'ward' в 'None'
census_altered.loc[0, 'ward'] = 'None'

# Преобразовать столбец 'ward' в 'wards' в строковый тип
wards['ward'] = wards['ward'].astype(str)

# Объединить таблицы 'wards' и 'census_altered' по столбцу 'ward'
wards_census_altered = wards.merge(census_altered, on='ward')

# Вывести несколько первых строк таблицы census_altered, чтобы увидеть изменение
print(census_altered[['ward']].head())

# Вывести форму таблицы wards_census_altered
print('Форма таблицы wards_census_altered:', wards_census_altered.shape)

   ward
0  None
1     2
2     3
3     4
4     5
Форма таблицы wards_census_altered: (49, 4)


## Слияние один-ко-многим
У бизнеса может быть один или несколько владельцев. В этом упражнении вы продолжите приобретать опыт слияний «один ко многим», объединяя таблицу владельцев бизнеса, называемую `«biz_owners»`, с таблицей `«licenses»`. Вспомните урок: при отношении «один ко многим» строка в левой таблице может повторяться, если она связана с несколькими строками в правой таблице. В этом уроке вы изучите это подробнее, выяснив, какое звание владельца бизнеса является наиболее распространенным. (т. е. секретарь, генеральный директор или вице-президент)

DataFrame `licenses` и `biz_owners` загружаются автоматически.

In [55]:
# Получить текущую директорию
current_directory = os.getcwd()

# Перейти в папку datasets
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в папке datasets
file_path = os.path.join(datasets_directory, 'licenses.p')

if os.path.exists(file_path):
    # Файл существует, поэтому откройте его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работайте с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
licenses = data
print(licenses.head())

Файл успешно открыт!
  account ward  aid                   business               address    zip
0  307071    3  743       REGGIE'S BAR & GRILL       2105 S STATE ST  60616
1      10   10  829                 HONEYBEERS   13200 S HOUSTON AVE  60633
2   10002   14  775                CELINA DELI     5089 S ARCHER AVE  60632
3   10005   12  NaN  KRAFT FOODS NORTH AMERICA        2005 W 43RD ST  60609
4   10044   44  638  NEYBOUR'S TAVERN & GRILLE  3651 N SOUTHPORT AVE  60613


In [56]:
# Получить текущую директорию
current_directory = os.getcwd()

# Перейти в папку datasets
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в папке datasets
file_path = os.path.join(datasets_directory, 'business_owners.p')

if os.path.exists(file_path):
    # Файл существует, поэтому откройте его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работайте с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
biz_owners = data

print(biz_owners.head())

Файл успешно открыт!
  account first_name  last_name      title
0      10      PEARL    SHERMAN  PRESIDENT
1      10      PEARL    SHERMAN  SECRETARY
2   10002     WALTER     MROZEK    PARTNER
3   10002     CELINA     BYRDAK    PARTNER
4   10005      IRENE  ROSENFELD  PRESIDENT


### Инструкции

– Начиная с таблицы `«licenses»` слева, объедините ее с таблицей `«biz_owners»` в столбце `«account»` и сохраните результаты в переменной с именем `«licenses_owners»`.
- Сгруппируйте `licenses_owners` по `title` и подсчитайте количество аккаунтов для каждого титула. Сохраните результат как counted_df.
- Отсортируйте `counted_df` по количеству ***аккаунтов*** в ***по убыванию*** и сохраните это значение как переменную с именем `sorted_df`.
- Используйте метод `.head()` для печати первых нескольких строк `sorted_df`.

In [57]:
# Объединить таблицы licenses и biz_owners по столбцу 'account'
licenses_owners = licenses.merge(biz_owners, on='account')

# Сгруппировать результаты по столбцу 'title' и подсчитать количество учетных записей
counted_df = licenses_owners.groupby('title').agg({'account':'count'})

# Отсортировать counted_df в порядке убывания
sorted_df = counted_df.sort_values(by='account', ascending=False)

# Использовать метод .head() для вывода нескольких первых строк sorted_df
print(sorted_df.head())

                 account
title                   
PRESIDENT           6259
SECRETARY           5205
SOLE PROPRIETOR     1658
OTHER               1200
VICE PRESIDENT       970


## Всего пассажиров за месяц
Ваша цель — найти общее количество поездок, выполненных пассажирами, проезжающими через станцию Уилсон (`station_name == 'Wilson'`) при поездке в системе общественного транспорта Чикаго в будние дни (`day_type == 'Weekday'`) в июле (месяц). == 7). К счастью, Чикаго предоставляет эти подробные данные, но они представлены в трех разных таблицах. Чтобы ответить на вопрос, вам предстоит объединить эти таблицы. Эти данные отличаются от данных, связанных с бизнесом, которые вы видели до сих пор, но предоставляется вся информация, необходимая для ответа на вопрос.

Для вас загружены кадры данных `«cal»`, `«ridership» и «stations»`. Взаимосвязь между таблицами можно увидеть на диаграмме ниже.

![The relationship between the tables](datasets/cta_L_diagram.png)

In [58]:
# Получить текущую директорию
current_directory = os.getcwd()

# Перейти в папку datasets
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в папке datasets
file_path = os.path.join(datasets_directory, 'cta_calendar.p')

if os.path.exists(file_path):
    # Файл существует, поэтому откройте его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работайте с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
cal = data

print(cal.head())

Файл успешно открыт!
   year  month  day        day_type
0  2019      1    1  Sunday/Holiday
1  2019      1    2         Weekday
2  2019      1    3         Weekday
3  2019      1    4         Weekday
4  2019      1    5        Saturday


In [59]:
# Получить текущую директорию
current_directory = os.getcwd()

# Перейти в папку datasets
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в папке datasets
file_path = os.path.join(datasets_directory, 'cta_ridership.p')

if os.path.exists(file_path):
    # Файл существует, поэтому откройте его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работайте с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
ridership = data

print(ridership.head())

Файл успешно открыт!
  station_id  year  month  day  rides
0      40010  2019      1    1    576
1      40010  2019      1    2   1457
2      40010  2019      1    3   1543
3      40010  2019      1    4   1621
4      40010  2019      1    5    719


In [60]:
# Get the current directory
current_directory = os.getcwd()

# Navigate to the datasets folder
datasets_directory = os.path.join(current_directory, '..', 'datasets')

# Check if the file exists in the datasets folder
file_path = os.path.join(datasets_directory, 'stations.p')

if os.path.exists(file_path):
    # File exists, so open it
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Work with the 'data' object as needed
    print("File opened successfully!")
else:
    print("File not found.")
stations = data

print(stations.head())

File not found.
  station_id  year  month  day  rides
0      40010  2019      1    1    576
1      40010  2019      1    2   1457
2      40010  2019      1    3   1543
3      40010  2019      1    4   1621
4      40010  2019      1    5    719


### Инструкции 1/3

Объедините таблицы `«ridership»` и `«cal»`, начиная с таблицы `«ridership»` слева, и сохраните результат в переменной `«ridership_cal»`. Если ваш код выполняется слишком долго, ваши условия слияния могут быть неправильными.

In [61]:
# Объединить таблицы ridership и cal
ridership_cal = ridership.merge(cal)

### Инструкции 2/3

Расширьте предыдущее объединение до трех таблиц, объединив также таблицу `stations`.

In [62]:
# Merge the ridership, cal, and stations tables
ridership_cal_stations = ridership.merge(cal, on=['year','month','day']) \
    .merge(stations, on=['station_id'])

print(ridership_cal_stations)

        station_id  year_x  month_x  day_x  rides_x        day_type  year_y  \
0            40010    2019        1      1      576  Sunday/Holiday    2019   
1            40010    2019        1      1      576  Sunday/Holiday    2019   
2            40010    2019        1      1      576  Sunday/Holiday    2019   
3            40010    2019        1      1      576  Sunday/Holiday    2019   
4            40010    2019        1      1      576  Sunday/Holiday    2019   
...            ...     ...      ...    ...      ...             ...     ...   
1199020      41660    2019       12     31    13430         Weekday    2019   
1199021      41660    2019       12     31    13430         Weekday    2019   
1199022      41660    2019       12     31    13430         Weekday    2019   
1199023      41660    2019       12     31    13430         Weekday    2019   
1199024      41660    2019       12     31    13430         Weekday    2019   

         month_y  day_y  rides_y  
0              1

### Инструкции 3/3

Создайте переменную с именем `filter_criteria`, чтобы выбрать соответствующие строки из объединенной таблицы и суммировать столбец `rides`.

In [65]:
# Объединить таблицы ridership, cal и stations
ridership_cal_stations = ridership.merge(cal, on=['year', 'month', 'day']) \
    .merge(stations, on='station_id')

# Создать фильтр для фильтрации ridership_cal_stations
filter_criteria = ((ridership_cal_stations['month'] == 7)
                   & (ridership_cal_stations['day_type'] == 'Weekday')
                   & (ridership_cal_stations['station_name'] == 'Wilson'))

# Использовать .loc и фильтр для выбора поездок
print(ridership_cal_stations.loc[filter_criteria, 'rides'].sum())

KeyError: 'month'

## Объединение трех таблиц
Чтобы закрепить концепцию слияния трех DataFrame, выполните еще одно упражнение. Разумное расширение нашего обзора бизнес-данных Чикаго могло бы включать рассмотрение демографической информации о районах, где расположены предприятия. Вам предоставлена таблица медианного дохода по почтовому индексу. Вы объедините таблицы лицензий и подопечных с новой таблицей дохода по почтовому индексу под названием `zip_demo`.

Фреймы данных `licenses`, `ward` и `zip_demo` уже загружены.

In [69]:
# Получить текущий каталог
current_directory = os.getcwd()

# Перейти в каталог с данными
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в каталоге с данными
file_path = os.path.join(datasets_directory, 'zip_demo.p')

if os.path.exists(file_path):
    # Файл существует, поэтому открываем его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работаем с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
zip_demo = data

print(zip_demo.head())

Файл успешно открыт!
     zip  income
0  60630   70122
1  60640   50488
2  60622   87143
3  60614  100116
4  60608   41226


In [70]:
# Объединить лицензии и zip_demo по zip; и объединить районы по ward
licenses_zip_ward = licenses.merge(zip_demo, on=['zip']) \
    .merge(wards, on=['ward'])

# Вывести результаты по альдерменам и показать медианный доход
print(licenses_zip_ward.groupby('alderman').agg({'income': 'median'}))

                             income
alderman                           
Ameya Pawar                 66246.0
Anthony A. Beale            38206.0
Anthony V. Napolitano       82226.0
Ariel E. Reyboras           41307.0
Brendan Reilly             110215.0
Brian Hopkins               87143.0
Carlos Ramirez-Rosa         66246.0
Carrie M. Austin            38206.0
Chris Taliaferro            55566.0
Daniel "Danny" Solis        41226.0
David H. Moore              33304.0
Deborah Mell                66246.0
Debra L. Silverstein        50554.0
Derrick G. Curtis           65770.0
Edward M. Burke             42335.0
Emma M. Mitts               36283.0
George Cardenas             33959.0
Gilbert Villegas            41307.0
Gregory I. Mitchell         24941.0
Harry Osterman              45442.0
Howard B. Brookins, Jr.     33304.0
James Cappleman             79565.0
Jason C. Ervin              41226.0
Joe Moore                   39163.0
John S. Arena               70122.0
Leslie A. Hairston          

## Слияние «один ко многим» с несколькими таблицами

Предположим, что в этом упражнении вы хотите начать бизнес в Чикаго. Ваша идеальная идея — основать компанию, которая будет использовать коз для стрижки газонов для других предприятий. Однако вам нужно выбрать место в городе, чтобы разместить свою козью ферму. Вам нужно место с большим пространством и относительно небольшим количеством предприятий и людей вокруг, чтобы избежать жалоб на запах. Вам нужно будет объединить три таблицы, чтобы выбрать свое местоположение. Таблица `Land_use` содержит информацию о проценте свободной земли по городским округам. В таблице переписи населения указано население по округам, а в таблице лицензий перечислены предприятия по округам.

Таблицы `«land_use»`, `«census»` и `«licenses»` уже загружены.

In [74]:
# Получить текущий каталог
current_directory = os.getcwd()

# Перейти в каталог с данными
datasets_directory = os.path.join(current_directory, 'datasets')

# Проверить, существует ли файл в каталоге с данными
file_path = os.path.join(datasets_directory, 'land_use.p')

if os.path.exists(file_path):
    # Файл существует, поэтому открываем его
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    # Работаем с объектом 'data' по необходимости
    print("Файл успешно открыт!")
else:
    print("Файл не найден.")
land_use = data

print(land_use.head())

Файл успешно открыт!
  ward  residential  commercial  industrial  vacant  other
0    1           41           9           2       2     46
1    2           31          11           6       2     50
2    3           20           5           3      13     59
3    4           22          13           0       7     58
4    5           25           3           1       3     68


### Инструкции 1/3

Объедините данные `«land_use»` и `«census»` в столбце `«ward»`. Объедините результат с «лицензиями» в столбце `«ward»`, используя суффикс `«_cen»` для левой таблицы и `«_lic»` для правой таблицы. Сохраните это в переменной `«land_cen_lic».`

In [75]:
# Convert the 'ward' column in the land_use DataFrame to the same data type as other DataFrames
land_use['ward'] = land_use['ward'].astype(int)

# Merge land_use and census on the ward column
merged_data = pd.merge(land_use, census, on='ward')

# Convert the 'ward' column in the licenses DataFrame to the same data type
licenses['ward'] = licenses['ward'].astype(int)

# Merge merged_data and licenses on the ward column, providing suffixes for clarity
land_cen_lic = pd.merge(merged_data, licenses, on='ward', suffixes=('_cen', '_lic'))

### Инструкции 2/3

Сгруппируйте `land_cen_lic` по `ward`, `pop_2010` (население в 2010 году) и `vacant`, затем подсчитайте количество `accounts`. Сохраните результаты в `pop_vac_lic`.

In [76]:
# Group by ward, pop_2010, and vacant, then count the # of accounts
pop_vac_lic = land_cen_lic.groupby(['ward','pop_2010', 'vacant'],
                                   as_index=False).agg({'account':'count'})

### Инструкции 3/3

Отсортируйте `pop_vac_lic` по `vacant`, `account` и `pop_2010` в порядке убывания, возрастания и возрастания соответственно. Сохраните его как `sorted_pop_vac_lic`.

In [77]:
# Sort pop_vac_lic and print the results
sorted_pop_vac_lic = pop_vac_lic.sort_values(by=['vacant', 'account', 'pop_2010'],
                                             ascending=[False, True, True])

# Print the top few rows of sorted_pop_vac_lic
print(sorted_pop_vac_lic.head())

    ward  pop_2010  vacant  account
6      7     51581      19       80
19    20     52372      15      123
9     10     51535      14      130
23    24     54909      13       98
15    16     51954      13      156
