**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант № 3 (18)

Набор данных: salary.csv

Атрибуты:
1. Год выплаты заработной платы (целое число)
2. Тип работы (PT - Part-time, FT - Full-time, FL-Freelance)
3. Должность
4. Зарплата за год (целое число)
5. Зарплата в долларах (целое число)
6. Страна проживания
7. Страна главного офиса
8. Среднее кол-во людей в компании (S - менее 50
сотрудников (малая), M от 50 до 250 сотрудников (средняя), L - более 250
сотрудников (крупная)) 

### 1.Чтение файла (набора данных)

In [1]:
import pandas as pd
data_df = pd.read_csv('salary.csv', sep = ';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [2]:
data_df.head(20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


2.2 Оценка данных с помощью метода info.

In [3]:
data_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


2.3 Оценка данных с помощью метода describe.

In [4]:
data_df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.528678,288833.6,105895.017456
std,0.678086,1677081.0,58183.664171
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0



---

**Выводы:**
  
По стобцу `work_year` и строкам `min` и `max` можно определить - перед нами выборка с 2020 по 2022 год. 
По строке `50%` того же столбца можно сделать вывод, что больше половины записей за 2022 год.

По столбцу `salary` сделать вывод нельзя, так как значения там в неизвестной валюте.

По строке `mean` и столбцу `salary_in_usd` можно сказать что средняя зарплата по всем направлениям и странам 105895 usd
По строке `min` минимальная зарплата 2859 usd
По строке `max` максимальная зарплата 412000 usd
По строке `50%` больше половины записей в датасете получают от 100000 usd

---


 2.4 Оценка названий столбцов

In [5]:
data_df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

Все названия уже приведены к одному формату и нижнему регистру

### 3. Проверка пропусков

In [6]:
data_df.isnull().sum()

work_year             0
employment_type       0
job_title             0
salary                3
salary_in_usd         0
employee_residence    0
company_location      0
company_size          0
dtype: int64


---

В результате 3 пропуска в `salary`, но так как этих пропусков нет в `salary_in_usd`, а со столбцом `salary` в ЛР нет заданий - данные пропуски не критичны. 

 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [7]:
# Проверить наличие явных дубликатов
print("Количество явных дубликатов до удаления:", data_df.duplicated().sum())

Количество явных дубликатов до удаления: 55


In [8]:
data_df.drop_duplicates(inplace=True)
print("Количество явных дубликатов после удаления:", data_df.duplicated().sum())

Количество явных дубликатов после удаления: 0


#### Проверка неявных дубликатов

In [9]:

print("В столбце work_year:", data_df['work_year'].unique()) # Поиск уникальных значений в указаном столбце
print ()
print("В столбце company_size:",data_df['company_size'].unique()) # Поиск уникальных значений в указаном столбце
print ()
print("В столбце employment_type:",data_df['employment_type'].unique()) # Поиск уникальных значений в указаном столбце
print ()
print("В столбце job_title:",data_df['job_title'].unique()) # Поиск уникальных значений в указаном столбце
print ()
print("В столбце employee_residence:",data_df['employee_residence'].unique()) # Поиск уникальных значений в указаном столбце
print ()
print("В столбце company_location:",data_df['company_location'].unique()) # Поиск уникальных значений в указаном столбце


В столбце work_year: [2020. 2021. 2022.]

В столбце company_size: ['L' 'S' 'M' 'Large']

В столбце employment_type: ['FT' 'PT' 'FL']

В столбце job_title: ['Data SCIENTIST' 'Product Data Analyst' 'Data Analyst' 'Data Scientist'
 'Data Engineer' 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead'
 'DataScientist' 'Data AnalyticsManager']

В столбце employee_residence: ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'PH'
 'GB' 'ES' 'IT' 'PL' 'BG' 'NL' 'IQ' 'UA' 'SG' 'RU' 'MT' 'CL' 'RO' 'IR'
 'VN' 'BR' 'HK' 'TR' 'RS' 'AR' 'DZ' 'AU' 'CH']

В столбце company_location: ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'GB'
 'ES' 'IT' 'LU' 'PL' 'NL' 'IQ' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'BR' 'VN'
 'TR' 'DZ' 'MY' 'AU' 'CH']


Можем заметить дубликаты, например, `Data SCIENTIST`, `Data Scientist`, и `DataScientist`, а так же `Large` вместо `L`

In [10]:
# удаление дубликатов
data_df['company_size'] = data_df['company_size'].replace('Large', 'L')

duplicates_job_title = ['Data SCIENTIST', 'DataScientist'] # список неправильных названий
name_job_title = 'Data Scientist'# правильное название
data_df['job_title'] = data_df['job_title'].replace(duplicates_job_title, name_job_title) 
data_df['job_title'] = data_df['job_title'].replace('Data AnalyticsManager', 'Data Analytics Manager')

---
Сделаем перепроверку дубликатов 
 ---

In [11]:
print("Повторная проверка дубликатов: ", data_df.duplicated().sum())
data_df = data_df.drop_duplicates()

Повторная проверка дубликатов:  2


### 5. Провека типов данных

In [12]:
# Проверьте типов данных
data_df.dtypes

work_year             float64
employment_type        object
job_title              object
salary                float64
salary_in_usd         float64
employee_residence     object
company_location       object
company_size           object
dtype: object

Приведём тип данных `work_year` к целочисленному типу. 

In [13]:
data_df['work_year'] = data_df['work_year'].astype(int)

data_df.dtypes

work_year               int64
employment_type        object
job_title              object
salary                float64
salary_in_usd         float64
employee_residence     object
company_location       object
company_size           object
dtype: object

### 6. Группировка данных

#### Задание 1

*`Формулировка задания`*
Группировка - “employment_type” и количество каждой локации
“company_location”. Результат должен быть выведен в следующем формате.
**Описание**
Группировка – "employment_type" и количество каждой локации "company_location". Задание означает что нужно «сгрупировать» данные по столбцу "employment_type" и подсчитать количество каждой локации. Группировка в pandas осуществляется с помощью groupby(): метод принимает в качестве аргумента название столбца, по которому нужно группировать (например, год, пол, категория). В данном случае employment_type. метод возвращает объект типа DataFrameGroupBy , то есть сгруппированные данные, к которым можно применять различные методы (count, sum, min, max, mean, last). В методических указаниях есть пример подходящий для данного задания: df.groupby('column1')\['n'\].count() # группировка по column1 и подсчет количества элементов в конкретном столбце n. Однако формат вывода данного метода не соотвествует примеру, поэтому применяем `value_counts()`, который анализирует столбец, показывает каждое уникальное значение, прим этом подсчитывая частоту его встречаемости в списке, результат это пары: значение и частота, отсортированные по убыванию.


In [14]:
print(data_df.groupby('employment_type')['company_location'].value_counts())

employment_type  company_location
FL               US                    2
FT               US                  205
                 GB                   32
                 CA                   15
                 IN                   13
                 DE                   11
                 FR                   11
                 ES                    9
                 GR                    9
                 AT                    3
                 MX                    3
                 TR                    3
                 NG                    2
                 PK                    2
                 PL                    2
                 AU                    1
                 BR                    1
                 CH                    1
                 CL                    1
                 HN                    1
                 HU                    1
                 IL                    1
                 IQ                    1
                 IR    

**Выводы**
В результате группировки по типу занятости и локации компании видно, что подавляющее большинство работников представлено в категории Full-time (FT). Наибольшее количество записей относится к США (205 случая), что указывает на доминирование американского рынка в наборе данных. Freelance (FL) встречается крайне редко (2 случая в США), а Part-time (PT) также имеет минимальное количество записей, распределённых по разным странам. Это позволяет сделать вывод, что набор данных в основном описывает сотрудников, работающих на полной занятости в крупных компаниях, преимущественно с головными офисами в США.

#### Задание 2

*`Формулировка задания`*
Группировка - “work_year” и количество компаний каждого размера.
Создать датафрейм. Переименовать столбец с количеством в “сount”.
Отсортировать по убыванию столбца “count”. 

Попробуем аналогичную логику первого задания, но переименовать столбец и добавить стортировку Использован метод groupby для группировки данных по году работы (`work_year`) и размеру компании (`company_size`).

С помощью `value_counts()` подсчитано количество записей для каждой комбинации.

Результат преобразован в датафрейм с помощью `.reset_index()`.

Выполнена сортировка по столбцу count в порядке убывания (`ascending = False`).

Итоговый датафрейм `d_q2` выведен на экран (`print(d_q2)`), что позволяет определить наиболее часто встречающиеся комбинации года работы и размера компании.

In [15]:
d_q2 = data_df.groupby('work_year')['company_size'].value_counts().reset_index()
d_q2 = d_q2.sort_values(by='count',ascending = False)
print(d_q2)

   work_year company_size  count
6       2022            M    172
3       2021            L     55
4       2021            M     30
7       2022            L     23
0       2020            L     22
5       2021            S     18
1       2020            S     15
2       2020            M      5
8       2022            S      4


**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной группировки?`**

--- 

По результатам группировки можно сделать вывод, что в датасете преобладают компании среднего размера (M), особенно в 2022 году (172 записи). Компании большого размера (L) стабильно занимают значимую долю, а малые компании (S) встречаются значительно реже, причём их количество снижается от 2020 к 2022 году. Таким образом, выборка данных в основном отражает сотрудников средних компаний 2022 и крупных компаний 2021, при этом малые компании представлены минимально.

---

#### Задание 3

*`Формулировка задания`* Сводная таблица (pivot_table) - средняя зарплата в usd по должностям
(”job_title”). Отсортировать по убыванию. Округлить до двух знаков после запятой.
Переименовать столбец “salary_in_usd” в “зарплата”.

Сводная таблица по запрплатам и должностям С помощью метода `pivot_table()` была построена сводная таблица, где в строках указаны должности, а в значениях — средняя зарплата. С помощью `reset_index()` индекс был преобразован в обычный столбец, чтобы таблица имела привычный вид. Методом `round(2)` значения были округлены до двух знаков после запятой. Столбец с зарплатами был переименован с `salary_in_usd` на более понятное название `зарплата` с помощью функции `rename()`. Для отображения должностей от самой высокой к самой низкой средней зарплате применена сортировка `sort_values(by="зарплата", ascending=False)`.

In [16]:
# Сводная таблица: средняя зарплата по должностям
pivot = data_df.pivot_table(index=['job_title'], values='salary_in_usd',aggfunc='mean')
pivot = pivot.reset_index()
pivot["salary_in_usd"] = pivot["salary_in_usd"].round(2)
pivot = pivot.rename(columns={"salary_in_usd": "зарплата"})
pivot = pivot.sort_values(by="зарплата", ascending=False)
display(pivot)

Unnamed: 0,job_title,зарплата
2,Data Analytics Lead,405000.0
7,Head of Data Science,146718.75
3,Data Analytics Manager,127134.29
10,Machine Learning Manager,117104.0
4,Data Engineer,109295.46
6,Data Scientist,102113.59
9,Machine Learning Developer,89395.5
0,Data Analyst,88597.23
8,Head of Machine Learning,79039.0
5,Data Science Engineer,75803.33


**Выводы**
По результатам анализа видно, что наибольшие средние зарплаты характерны для руководящих должностей. Средний уровень зарплат наблюдается у специальностей, которые входят в число наиболее востребованных специалистов. Наименьшие значения характерны для узкопрофильных позиций, что может быть связано как с меньшим количеством данных по ним, так и с особенностями рынка. В целом, таблица отражает закономерность: чем выше управленческая роль, тем выше средняя зарплата.

#### Задание 4

*`Формулировка задания`*
Сводная таблица (pivot_table) - медианная зарплата по годам - строки,
и по “employment_type” - столбцы. Отсортировать по убыванию годов.

Используя уже использованные ранее методы строим таблицу `pivot_table()` – построение сводной таблицы: строки = `work_year`, столбцы = `employment_type`, значения = медианная зарплата `(salary_in_usd)` `.aggfunc="median"` – расчёт медианного значения вместо среднего.

In [17]:
pivot2 = data_df.pivot_table(values='salary_in_usd', index='work_year', columns='employment_type', aggfunc='median')
pivot2 = pivot2.sort_values(by='work_year',ascending = False)
display(pivot2)

employment_type,FL,FT,PT
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022,100000.0,115717.0,77478.5
2021,20000.0,79598.5,40047.5
2020,,68428.0,21669.0


**Выводы**
Медианные зарплаты растут по всем типам занятости с 2020 по 2022 гг. Наибольшие значения наблюдаются у FT, достигнув 116 тыс. в 2022 году. FL представлен только с 2021 года, при этом медиана резко выросла до 100 тыс. в 2022 году. PT имеет значительно более низкие зарплаты, но также демонстрирует рост.

### Вывод

Анализировался набор данных `salary.csv`, содержащий сведения о зарплатах специалистов в области данных за 2020–2022 годы: тип занятости, должность, страна проживания, страна офиса, размер компании и доход в долларах США.

**Предобработка данных**

Чтение файла через `pd.read_csv()`.
Первичный обзор с помощью `head()`, `info()`, `describe()`.
Удаление 55 явных дубликатов методом `drop_duplicates()`. Далее поиск и удаление ещё 2х неявных дубликатов.
Обнаружено 3 пропуска в `salary` при отсутствии их в `salary_in_usd`; решение — оставить без заполнения, так как для анализа использовался именно `salary_in_usd`.
Приведение типа `work_year` к `int`.

**Основные результаты анализа**

Группировка по типу занятости и локации (задание 1): подавляющее большинство сотрудников работают Full-time, основная часть данных относится к США; Part-time и Freelance встречаются редко.
Группировка по году и размеру компании: наибольшая часть данных приходится на 2022 год; преобладают компании среднего размера (M), доля малых компаний (S) снижается.
Сводная таблица по должности и зарплате в долларах: руководящие должности имеют наибольшие средние зарплаты, тогда как узкопрофильные роли получают заметно меньше.
Сводная таблица по году и типу занятости: медианные зарплаты стабильно растут с 2020 по 2022 гг.; FT выше, чем PT, а в 2022 г. FL приблизился по медиане к FT.
Средняя зарплата по выборке составила ≈ 105 895 USD, медианная — более 100 000 USD; диапазон колеблется от 2 859 до 412 000 USD.

**Итог**

Данные отражают рынок труда специалистов в области данных за 2020–2022 гг.:
-доминируют контракты полной занятости;
-основная часть компаний находится в США;
-преобладают средние и крупные работодатели;
-уровень зарплат демонстрирует рост по всем категориям занятости.


### Дополнительное задание

**`Подробная формулировка задания`**
18. Отфильтровать набор данных. 
- Выбрать только топ 7 должностей по средней зп
- \+ топ 1 год выплаты по количеству записей в году
- \+ топ 2 размера компании по количеству записей в этом столбце.
- \+ Для отфильтрованного набора данных создать сводную таблицу: должность и медианная зарплата в долларах по
размеру компании.


Выбор топ 7 должностеей по средней зп, выполняем поэтапно. Для начала группируем и высчитываем среднюю зп.

In [18]:
# 1. Топ-7 должностей по средней з/п
jobs = (data_df.groupby("job_title")["salary_in_usd"].mean())

Далее сортируем наши данные по убыванию

In [19]:
# сортировка по убыванию
jobs = jobs.sort_values(ascending=False)

Далее выбираем только первые 7 записей и формируем датафрейм

In [20]:
# выбор первых 7
top_jobs = jobs.head(7)
print("Топ 7 должностей:")
display(top_jobs)

Топ 7 должностей:


job_title
Data Analytics Lead           405000.000000
Head of Data Science          146718.750000
Data Analytics Manager        127134.285714
Machine Learning Manager      117104.000000
Data Engineer                 109295.464912
Data Scientist                102113.590551
Machine Learning Developer     89395.500000
Name: salary_in_usd, dtype: float64

Далее найдём топ 1 год выплаты по количеству записей в году

In [21]:
top_year = data_df["work_year"].value_counts().head(1)
display(top_year)

work_year
2022    199
Name: count, dtype: int64

Далее найдем топ 2 размера компании по числу записей в столбце

In [22]:
top_sizes = data_df["company_size"].value_counts().head(2)
print("Топ-2 размера компаний:\n", top_sizes)

Топ-2 размера компаний:
 company_size
M    207
L    100
Name: count, dtype: int64


После данных действий можно выполнить фильтрацию

In [23]:
filtered = data_df[
    (data_df["job_title"].isin(top_jobs.index)) & (data_df["work_year"].isin(top_year.index)) &
    (data_df["company_size"].isin(top_sizes.index))
]

Далее создадим сводную таблицу

In [24]:
pivot18 = pd.pivot_table(
    filtered,
    values="salary_in_usd",
    index="job_title",
    columns="company_size",
    aggfunc="median"
)

In [25]:
display(pivot18)

company_size,L,M
job_title,Unnamed: 1_level_1,Unnamed: 2_level_1
Data Analytics Lead,405000.0,
Data Analytics Manager,,127140.0
Data Engineer,154600.0,116394.5
Data Scientist,128673.0,136620.0
Head of Data Science,,195937.5
Machine Learning Developer,,78791.0


В ходе выполнения задания был сформирован отфильтрованный набор данных: оставлены топ-7 должностей по средней зарплате, выбран год с максимальным количеством записей в датасете, оставлены топ-2 размера компаний по числу встречаемости.

На основе этих условий построена сводная таблица, где:

строки – это должности,

столбцы – размеры компании (M — средние, L — крупные),

значения – медианные зарплаты в долларах США.

В сводной таблице некоторые ячейки содержат `NaN`. Это связано с тем, что в отфильтрованном наборе данных отсутствуют записи по соответствующей комбинации должности и размера компании. Например, должность Data Analytics Lead встречается только в крупных компаниях, поэтому для средних компаний значения отсутствуют.

Высокие значения зарплат в крупных компаниях (L):

Лидером является должность Data Analytics Lead с медианной зарплатой 405 000\$ в крупных компаниях.

Также заметны высокие зарплаты у Data Engineer (154 600 \$) и Data Scientist (128 673\$) в больших компаниях.

Средние компании (M):

Head of Data Science имеет медианную зарплату 195 937\$, что является максимальным значением среди средних компаний.

У Data Scientist (136 620) и Data Analytics Manager (127 140 \$) зарплаты в среднем сегменте также достаточно высокие.

Самая низкая медианная зарплата отмечена у Machine Learning Developer (78 791\$).

Сравнение компаний разных размеров:

Для некоторых должностей зарплата выше в больших компаниях (L) (Data Analytics Lead, Data Engineer).

Для других должностей медианные зарплаты выше в средних компаниях (M) (Head of Data Science, Data Scientist).

Это показывает, что уровень зарплаты зависит не только от размера компании, но и от конкретной должности.

**Вывод**

В результате анализа можно сделать следующие выводы:

Наиболее высоко оплачиваемая должность в крупных компаниях — Data Analytics Lead.

В средних компаниях лидером по зарплате является Head of Data Science.

Уровень зарплаты существенно варьируется в зависимости от должности и размера компании: например, Data Scientist получает больше в средних компаниях, а Data Engineer — в крупных.

В целом можно отметить, что крупные компании предлагают более высокие зарплаты по управленческим позициям, однако для исследовательских и руководящих должностей в области науки о данных (Head of Data Science) средние компании иногда оказываются конкурентоспособнее.

## Задание 6
Создать столбец “Категория зарплаты в долларах” (с помощью
категоризации). Выделить минимум 3 категории (низкая, высокая, средняя),
фильтрацию для уровня зарплаты выбрать самостоятельно, аргументировать
выбор. Создать сводную таблицу: минимальная и максимальная зп в долларах
по категории зарплаты в долларах и должности. 

метод qcut() позволяет разделить данные на равные квантили. Соответственно мы создаём новый столбец "Категория зарпоаты в долларах"и с помощью метода qcut: столбец `"salary_in_usd"` разбиваем на 3 равные квантили (`q3`) и называем каждую квантиль соответвественно "низкая", "средняя", "высокая"). Чтобы продемонстрировать что столбец добавлен выводиться первые 10 записей с помощью `head(10)` 

In [26]:
data_df["Категория зарплаты в долларах"] = pd.qcut(
    data_df["salary_in_usd"],
    q=3,
    labels=["низкая", "средняя", "высокая"]
)

data_df.head(10)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size,Категория зарплаты в долларах
0,2020,FT,Data Scientist,70000.0,79833.0,DE,DE,L,средняя
1,2020,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S,низкая
2,2020,FT,Data Analyst,72000.0,72000.0,US,US,L,низкая
3,2020,FT,Data Scientist,11000000.0,35735.0,HU,HU,L,низкая
4,2020,FT,Data Scientist,45000.0,51321.0,FR,FR,S,низкая
5,2020,FT,Data Scientist,3000000.0,40481.0,IN,IN,L,низкая
6,2020,FT,Data Scientist,35000.0,39916.0,FR,FR,M,низкая
7,2020,FT,Data Analyst,85000.0,85000.0,US,US,L,средняя
8,2020,FT,Data Analyst,8000.0,8000.0,PK,PK,L,низкая
9,2020,FT,Data Engineer,4450000.0,41689.0,JP,JP,S,низкая


## Создание водной таблицы 


Далее создаём сводную таблицу: 

Указываем, по какому столбцу считать значения. (`values="salary_in_usd"`)

Строками в нашей таблице будет `"Категория зарплаты в долларах"` и `"job_title"`
т.е. сначала групируются данные по категории зарплаты (низкая/средняя/высокая),а внутри каждой категории ещё и по должности (job_title)

Для каждой категории + должности найдём минимальную зарплату и максимальную зарплату `.aggfunc=["min", "max"]`

.observed=False этот параметр нужен только когда в index есть категориальные столбцы.

Если observed=False → сводная таблица показывает все возможные комбинации категорий и должностей (даже если каких-то в данных нет).

Если observed=True → таблица показывает только реально встречающиеся комбинации.

In [27]:
pivot6 = pd.pivot_table(data_df,values="salary_in_usd",
    index=["Категория зарплаты в долларах", "job_title"],
    aggfunc=["min", "max"],
    observed=False
)

display(pivot6)

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
Unnamed: 0_level_1,Unnamed: 1_level_1,salary_in_usd,salary_in_usd
Категория зарплаты в долларах,job_title,Unnamed: 2_level_2,Unnamed: 3_level_2
низкая,Data Analyst,6072.0,72000.0
низкая,Data Analytics Engineer,20000.0,50000.0
низкая,Data Engineer,4000.0,70500.0
низкая,Data Science Engineer,40189.0,60000.0
низкая,Data Scientist,2859.0,71982.0
низкая,NLP Engineer,37236.0,37236.0
низкая,Product Data Analyst,6072.0,20000.0
средняя,Data Analyst,75000.0,116150.0
средняя,Data Analytics Engineer,79197.0,110000.0
средняя,Data Analytics Manager,105400.0,109280.0


### Выводы 

Категория «низкая»:

Диапазон зарплат: от ≈2 859 (минимум у Data Scientist) до ≈72 000.

Сюда попали начинающие специалисты и младшие должности (например, Data Analyst, Product Data Analyst).

В целом, это уровень джуниор/entry-level позиций.

Категория «средняя»

Диапазон: от ≈72 000 до ≈117 789.

Тут уже появляются менеджеры (Data Analytics Manager, Head of Data Science), что отражает рост зарплаты с ростом ответственности.

Большинство инженеров и аналитиков со стажем попали именно сюда.

Категория «высокая»

Диапазон: от ≈120 000 до 412 000.

Максимальные зарплаты у Data Scientist (412 000) и Data Analytics Lead (405 000).

Это уровень senior/lead и управленческих ролей (Head of Data Science, Data Analytics Manager).

Общий вывод ывод

Разделение по категориям показало чёткую карьерную лестницу:

Низкая категория соответствует младшим и начинающим позициям (Analyst, Junior Engineer).

Средняя категория отражает специалистов уровня middle/senior и первых менеджеров.

Высокая категория включает руководителей и лидов, где разброс зарплат очень велик.

Менеджерские должности (Head, Manager, Lead) почти всегда попадают в «среднюю» и «высокую» категории.