# Задание 3 (Контрольные вопросы)
## Тема: Объединение, связывание и изменение формы данных

### Настройка окружения

In [31]:
import pandas as pd

### 1. Конкатенация данных, расположенных в нескольких объектах библиотеки pandas. Приведите примеры.

**Конкатенация (concatenation)** в библиотеке pandas представляет собой
процесс объединения данных, расположенных в двух или более объектах, в
новый объект.

#### 1.1 Понимание семантики конкатенации, принятой по умолчанию

Конкатенацию можно выполнить с помощью функции библиотеки
pandas `pd.concat()`. Общий синтаксис, выполняющий конкатенацию данных,
состоит в том, чтобы передать список объектов, которые будут
конкатенированы

In [32]:
sales_east = pd.DataFrame(
    {
        "Дата": ["2023-01-01", "2023-01-02", "2023-01-03"],
        "Регион": ["East", "East", "East"],
        "Продажи": [100, 150, 200],
    }
)

sales_west = pd.DataFrame(
    {
        "Дата": ["2023-01-01", "2023-01-02", "2023-01-03"],
        "Регион": ["West", "West", "West"],
        "Продажи": [80, 120, 180],
    }
)

pd.concat([sales_east, sales_west])

Unnamed: 0,Дата,Регион,Продажи
0,2023-01-01,East,100
1,2023-01-02,East,150
2,2023-01-03,East,200
0,2023-01-01,West,80
1,2023-01-02,West,120
2,2023-01-03,West,180


По умолчанию строки добавляются по порядку и в результате мы можем
получить дублирующиеся индексные метки вдоль индекса строк. Итоговый
набор меток столбцов получается в результате объединения индексных меток
в указанных нами объектах DataFrame. По сути это выравнивание, которое
применяется ко всем исходным объектам (их может быть больше двух).

#### 1.2 Переключение осей выравнивания

Функция `pd.concat()` позволяет задать ось, к которой нужно применить
выравнивание во время конкатенации. 

In [33]:
sales = pd.DataFrame(
    {"Дата": ["2023-01-01", "2023-01-02", "2023-01-03"], "Продажи": [100, 150, 200]}
)

expenses = pd.DataFrame(
    {"Дата": ["2023-01-01", "2023-01-02", "2023-01-03"], "Расходы": [60, 80, 90]}
)

pd.concat([sales, expenses["Расходы"]], axis=1)

Unnamed: 0,Дата,Продажи,Расходы
0,2023-01-01,100,60
1,2023-01-02,150,80
2,2023-01-03,200,90


#### 1.3 Определение типа соединения

По умолчанию конкатенация выполняет операцию внешнего
соединения (outer join) индексных меток по оси, противоположной оси
конкатенации (индексу строк). Итоговый набор меток представляет собой
результат объединения этих меток.

Тип соединения можно изменить на внутреннее соединение (inner join),
указав *join='inner'* в качестве параметра. 

In [34]:
df1 = pd.DataFrame({"ID": [1, 2], "Продажи": [200, 150]})

df2 = pd.DataFrame({"ID": [3, 4], "Регион": ["North", "South"]})

pd.concat([df1, df2], join="inner")

Unnamed: 0,ID
0,1
1,2
0,3
1,4


#### 1.4 Присоединение вместо конкатенации

Можно воспользоваться методом `.append()` объекта
DataFrame (и Series), который объединяет два указанных объекта DataFrame по
меткам индекса строк. Однако метод устарел, вместо него используют `.concat()`.

#### 1.5 Игнорирование меток индекса

Для того, чтобы избавиться от дублирования меток в итоговом индексе и
при этом сохранить все строки, можно воспользоваться параметром
*ignore_index=True*.

In [35]:
pd.concat([sales_east, sales_west], ignore_index=True)

Unnamed: 0,Дата,Регион,Продажи
0,2023-01-01,East,100
1,2023-01-02,East,150
2,2023-01-03,East,200
3,2023-01-01,West,80
4,2023-01-02,West,120
5,2023-01-03,West,180


### 2. Слияние данных, расположенных в нескольких объектах

Библиотека pandas позволяет выполнить слияние объектов с помощью
операций, аналогичных операциям соединения для баз данных, используя
функцию `pd.merge()` и метод `.merge()` объекта DataFrame.

In [36]:
employees = pd.DataFrame(
    {
        "EmployeeID": [1, 2, 3, 4],
        "Имя": ["Иванов", "Петров", "Сидоров", "Смирнов"],
        "DeptID": [10, 20, 10, 30],
    }
)

departments = pd.DataFrame({"DeptID": [10, 20, 30], "Отдел": ["Продажи", "HR", "ИТ"]})

employees.merge(departments, on="DeptID", how="left")

Unnamed: 0,EmployeeID,Имя,DeptID,Отдел
0,1,Иванов,10,Продажи
1,2,Петров,20,HR
2,3,Сидоров,10,Продажи
3,4,Смирнов,30,ИТ


### 3. Настройка семантики соединения при выполнении слияния

Тип соединения, выполняемый функцией `pd.merge()` по умолчанию –
внутреннее соединение (inner join). Чтобы использовать другой тип
соединения, укажите его с помощью параметр how функции `pd.merge()` (или
метода `.merge()`). Допустимыми параметрами являются:
- **inner**: выполняет пересечение ключей из обоих объектов DataFrame
- **outer**: выполняет объединение ключей из обоих объектов DataFrame
- **left**: использует только ключи из левого объекта DataFrame
- **right**: использует только ключи из правого объекта DataFrame

In [37]:
inner_merge = employees.merge(departments, on="DeptID", how="inner")
print("Inner join:\n", inner_merge)

left_merge = employees.merge(departments, on="DeptID", how="left")
print("Left join:\n", left_merge)

Inner join:
    EmployeeID      Имя  DeptID    Отдел
0           1   Иванов      10  Продажи
1           2   Петров      20       HR
2           3  Сидоров      10  Продажи
3           4  Смирнов      30       ИТ
Left join:
    EmployeeID      Имя  DeptID    Отдел
0           1   Иванов      10  Продажи
1           2   Петров      20       HR
2           3  Сидоров      10  Продажи
3           4  Смирнов      30       ИТ


### 4. Поворот данных для преобразования значений в индексы и наоборот

In [38]:
sales = pd.concat([sales_east, sales_west], ignore_index=True)

sales_pivot = sales.pivot(index="Дата", columns="Регион", values="Продажи")
sales_pivot

Регион,East,West
Дата,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-01,100,80
2023-01-02,150,120
2023-01-03,200,180


### 5. Состыковка и расстыковка данных

#### 5.1 Состыковка с помощью неиерархических индексов

In [39]:
stacked = sales_pivot.stack()
stacked

Дата        Регион
2023-01-01  East      100
            West       80
2023-01-02  East      150
            West      120
2023-01-03  East      200
            West      180
dtype: int64

#### 5.2 Расстыковка с помощью иерархических индексов

In [40]:
stacked.unstack()

Регион,East,West
Дата,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-01,100,80
2023-01-02,150,120
2023-01-03,200,180


### 6. Расплавление данных для преобразования «широкого» формата в «длинный» и наоборот

**Расплавление** – это тип реорганизации данных, который часто называют
преобразованием объекта DataFrame из «широкого» формата (wide format) в
«длинный» формат (long format). Этот формат является общепринятым при
проведении различных видов статистического анализа, и данные, которые вы
считываете, могут быть представлены уже в расплавленном виде.

In [41]:
df_wide = pd.DataFrame(
    {
        "Год": [2020, 2021, 2022],
        "Россия": [1400, 1410, 1420],
        "США": [21000, 21500, 22000],
        "Китай": [15000, 15500, 16000],
    }
)

pd.melt(df_wide, id_vars=["Год"], var_name="Страна", value_name="ВВП")

Unnamed: 0,Год,Страна,ВВП
0,2020,Россия,1400
1,2021,Россия,1410
2,2022,Россия,1420
3,2020,США,21000
4,2021,США,21500
5,2022,США,22000
6,2020,Китай,15000
7,2021,Китай,15500
8,2022,Китай,16000


#### Экспорт в html

In [42]:
from os import system

system("jupyter nbconvert --to html task_3.ipynb")

[NbConvertApp] Converting notebook task_3.ipynb to html
[NbConvertApp] Writing 322168 bytes to task_3.html


0