**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

**Задание**
1. Загрузить датасет с помощью библиотеки ```pandas```.
2. Вывести первые 20 строк с помощью метода ```head```.
3. Выполнить обзор данных - описать столбцы и вашу предметную область.
4. С помощью метода ```info``` оценить данные (есть ли пропуски, сколько всего строк, какие типы данных у столбцов).
5. Применить ```describe```. С помощью ```describe``` оценить числовые столбцы (если они есть).
6. Вывести на экран названия столбцов с помощью ```df.columns```. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
7. Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением). Не забудьте пояснения!
8. Проверьте данные на наличие явных и неявных дубликатов. Удалите дубликаты, если они есть.
10. Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
11. Осуществите группировки и создайте сводные таблицы в соответствии с вариантом.
12. Сделайте выводе по работе.

# Загрузка набора данных

### Описание предметной области


**Предметная область**
Данные отражают информацию о зарплатах сотрудников: годы выплаты заработной платы, тип работы, должность, зарплата за год, зарплата в долларах, страна проживания, страна главного офиса и среднее кол-во людей в компании. Анализ этих данных позволяет выявить рыночные тенденции в оплате труда, уровень влияния таких факторов как расположение, тип работы и размер компании на доходы, а также обнаружить потенциальное неравенство для оптимизации бизнес-решений и карьерного планирования.

Вариант № 3

Набор данных: ```salary.csv```

Атрибуты:\
```work_year``` - Год выплаты заработной платы \
```employment_type``` - Тип работы\
```job_title``` - Должность\
```salary``` - Зарплата за год\
```salary_in_usd``` - Зарплата в долларах\
```employee_residence``` - Страна проживания\
```company_location``` - Страна главного офиса\
```company_size``` - Среднее кол-во людей в компании

### 1.Чтение файла (набора данных)

Импорт библиотек, чтение файла с помощью ```pandas```

In [56]:
import pandas as pd
df = pd.read_csv("salary.csv", sep=';')


---
**Пояснение:**\
В моём датасете данные отделены друг от друга точкой с запятой;\
Стандартный разделиль в pandas - запятая;\
Для корректного чтения таблицы была применена команда ```df = pd.read_csv("salary.csv", sep=';')```;\
Которая позволила читать таблицу с разделителем - ```;```.


---

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [57]:
df.head(20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


2.2 Оценка данных с помощью метода info.

In [58]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


---
**Пояснение:**\
В наборе данных 401 строка и 8 столбцов;\
Есть числовые и категориальные признаки;\
Пропуски обнаружены в столбце 3 - salary в количестве 3х штук;\
Эти пропуски нужно будет убрать, например заполнить медианой.

---

2.3 Оценка данных с помощью метода describe.

In [59]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.53,288833.6,105895.02
std,0.68,1677081.02,58183.66
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0



---

**Пояснение:**\
Первым делом мы видим, что из-за больших значений атрибута salary форма отображения значений приняла экспоненциальный вид;\
Для более удобного анализа результатов работы команды describe предлагаю изменить вид отображения результатов командой set_option.

 ---


In [60]:
pd.set_option('display.float_format', '{:.4f}'.format)
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.5287,288833.603,105895.0175
std,0.6781,1677081.0155,58183.6642
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0



---

**Пояснение:**\
После применения команды отображение приняло обычный вид, с точностью - 4 знака после запятой;\
Была произведена оценка числовых столбцов с помощью ```describe```;\
В датасете 401 запись;\
Медиана года выплат - 2021.5287, аномалии в столбце не выявлены;\
Зарплата за год варьируется в диапазоне от 4000, до 30400000;\
Зарплата в доллара: в диапазоне от 2859 до 412000, медиана - 105895.0175.


 ---


 2.4 Оценка названий столбцов

In [61]:
df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

---
**Пояснения:**\
Названия столбцов корректны и не требуют изменений.

---

### 3. Проверка пропусков

In [62]:
df.isna().sum()
df['salary'] = df['salary'].fillna(df['salary'].median())
df.isna().sum()

work_year             0
employment_type       0
job_title             0
salary                0
salary_in_usd         0
employee_residence    0
company_location      0
company_size          0
dtype: int64


---

**Пояснения:**\
В моём случае в датасете только 3 пропуска в поле salary, которое имеет числовое значение, для их устранения можно либо удалить эти строки, либо заменить медианой.\
Мной было принято решение заменить пропуски медианой, так как удаление строк может негативно сказаться на статистике других атрибутов, например поля зарплат в долларах.\
Команда для удаления строк с пропусками ```df = df.dropna()```.\
Пропуски в колонне salary (3) были заменены медианой, что позволило сохранить все строки датасета без потери и искажения данных.

---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [63]:
df[df.duplicated()]

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
104,2021.0,FT,Data Scientist,76760.0,90734.0,DE,DE,L
130,2021.0,FT,Data Engineer,200000.0,200000.0,US,US,L
172,2022.0,FT,Data Engineer,40000.0,52351.0,GB,GB,M
189,2022.0,FT,Data Analyst,90320.0,90320.0,US,US,M
190,2022.0,FT,Data Analyst,112900.0,112900.0,US,US,M
191,2022.0,FT,Data Analyst,90320.0,90320.0,US,US,M
193,2022.0,FT,Data Engineer,132320.0,132320.0,US,US,M
208,2022.0,FT,Data Scientist,123000.0,123000.0,US,US,M
209,2022.0,FT,Data Engineer,60000.0,78526.0,GB,GB,M
215,2022.0,FT,Data Analyst,130000.0,130000.0,CA,CA,M


In [64]:
print(df.duplicated().sum())

55


In [65]:
df = df.drop_duplicates().reset_index(drop = True)
print(df.duplicated().sum())

0


---

**Пояснение:**\
```df.duplicated()```\
Эта команда проверяет, есть ли дубликаты строк в таблице.
Возвращает колонку из True и False:
- True - строка является дубликатом (повторяется),
- False - уникальная строка.

```print(df.duplicated().sum())```\
Команда выводит на экран количество строк-дубликатов

```df = df.drop_duplicates().reset_index(drop = True)```\
Команда удаляет дубликаты и обновляет индексы строк (чтобы потом при обращении к строкам не было пропусков в номерах).

---

#### Проверка неявных дубликатов

In [66]:
unique_c = ['work_year', 'employment_type', 'job_title', 'employee_residence', 'company_location', 'company_size']
for i in unique_c:
  print(i,'\n', df[i].unique())

work_year 
 [2020. 2021. 2022.]
employment_type 
 ['FT' 'PT' 'FL']
job_title 
 ['Data SCIENTIST' 'Product Data Analyst' 'Data Analyst' 'Data Scientist'
 'Data Engineer' 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead'
 'DataScientist' 'Data AnalyticsManager']
employee_residence 
 ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'PH'
 'GB' 'ES' 'IT' 'PL' 'BG' 'NL' 'IQ' 'UA' 'SG' 'RU' 'MT' 'CL' 'RO' 'IR'
 'VN' 'BR' 'HK' 'TR' 'RS' 'AR' 'DZ' 'AU' 'CH']
company_location 
 ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'GB'
 'ES' 'IT' 'LU' 'PL' 'NL' 'IQ' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'BR' 'VN'
 'TR' 'DZ' 'MY' 'AU' 'CH']
company_size 
 ['L' 'S' 'M' 'Large']


In [67]:
for i in unique_c:
  print(df[i].value_counts())

work_year
2022.0000    201
2021.0000    103
2020.0000     42
Name: count, dtype: int64
employment_type
FT    339
PT      5
FL      2
Name: count, dtype: int64
job_title
Data Scientist                126
Data Engineer                 114
Data Analyst                   77
Data Analytics Manager          6
Head of Data Science            4
Data Analytics Engineer         4
Data Science Engineer           3
Product Data Analyst            2
Machine Learning Developer      2
DataScientist                   2
Machine Learning Manager        1
Data SCIENTIST                  1
Head of Machine Learning        1
NLP Engineer                    1
Data Analytics Lead             1
Data AnalyticsManager           1
Name: count, dtype: int64
employee_residence
US    199
GB     29
CA     16
IN     14
FR     12
ES     11
GR     10
DE     10
PK      4
TR      3
RO      2
BR      2
JP      2
NG      2
AT      2
IT      2
PL      2
NL      2
VN      2
RU      2
MX      2
HU      1
HN      1
PH      1
BG

In [68]:
# Мы видим, что в нашем дата сете есть неявные дубликаты, а именно строки, в которых профессия Data Scientist написана не верно
# Соберём список неверных названий этой профессии
listt = 'Data SCIENTIST', 'DataScientist'
# Для замены пропишем следующее: 
for correct in listt:
    df['job_title'] = df['job_title'].replace(correct, 'Data Scientist')

listtt = 'Data SCIENTIST', 'DataScientist'
# Для замены пропишем следующее: 
df['job_title'] = df['job_title'].replace('Data AnalyticsManager', 'Data Analytics Manager')

# Так же дублируется размер компании L по аналогии произведём замену
df['company_size'] = df['company_size'].replace('Large', 'L')

# Данный код выполнил замену всех некорректных значений полей на корректные
# Выведем количество уникальных значений

print(df['company_size'].value_counts())
print(df['job_title'].value_counts())

company_size
M    209
L    100
S     37
Name: count, dtype: int64
job_title
Data Scientist                129
Data Engineer                 114
Data Analyst                   77
Data Analytics Manager          7
Data Analytics Engineer         4
Head of Data Science            4
Data Science Engineer           3
Machine Learning Developer      2
Product Data Analyst            2
Machine Learning Manager        1
Head of Machine Learning        1
NLP Engineer                    1
Data Analytics Lead             1
Name: count, dtype: int64


---

**Пояснение:**\
В данных обнаружены ошибки и неявные дубликаты:\
```job_title``` - опечатки "Data SCIENTIST" и "DataScientist";

Эти проблемы нужно исправить на этапе предобработки, чтобы анализ был корректным.

Все опечатки исправлены.\
Данные приведены к корректному виду, теперь с ними можно уверенно работать дальше: строить группировки, сводные таблицы и анализировать.


 ---

### 5. Провека типов данных

In [69]:
df.dtypes

work_year             float64
employment_type        object
job_title              object
salary                float64
salary_in_usd         float64
employee_residence     object
company_location       object
company_size           object
dtype: object

---

**Пояснение:**

```work_year```- ```float64``` 
Год выплат хранится вещественным числом, а должен как целое - ```int64```.

```employment_type``` - ```object```
Тип работы хранится как строка - верно.

```job_title``` - ```object```
Тип работы хранится как строка - верно.

```salary``` - ```float64```
Зарплата за год хранится вещественным числом, а должен как целое - ```int64```.

```salary_in_usd``` - ```float64```
Зарплата в долларах хранится вещественным числом, а должен как целое - ```int64```.

```employee_residence``` - ```object```
Тип работы хранится как строка - верно.

```company_location``` - ```object```
Тип работы хранится как строка - верно.

```company_size``` - ```object```
Тип работы хранится как строка - верно.

Изменим неверные типы данных.

---

In [70]:
df['work_year'] = df['work_year'].astype(int)
df['salary'] = df['salary'].astype(int)
df['salary_in_usd'] = df['salary_in_usd'].astype(int)
df.dtypes

work_year              int64
employment_type       object
job_title             object
salary                 int64
salary_in_usd          int64
employee_residence    object
company_location      object
company_size          object
dtype: object

---

**Пояснение:**\
Изменения внесены верно.

 ---

### 6. Группировка данных

#### Задание 1

`Группировка - “employment_type” и количество каждой локации “company_location”.`

In [71]:
print(df.groupby(['employment_type', 'company_location'], observed=True)['company_location'].count())

employment_type  company_location
FL               US                    2
FT               AT                    3
                 AU                    1
                 BR                    1
                 CA                   15
                 CH                    1
                 CL                    1
                 DE                   11
                 ES                    9
                 FR                   11
                 GB                   32
                 GR                    9
                 HN                    1
                 HU                    1
                 IL                    1
                 IN                   13
                 IQ                    1
                 IR                    1
                 JP                    1
                 LU                    1
                 MT                    1
                 MX                    3
                 MY                    1
                 NG    

---

**Пояснение:**\
Была проведена группировка клиентов по типу работы и стране главного офиса.\
Большая часть сотрудников устроены на полную ставку;\
Полная занятость ```FT``` наиболее распространена в США (207 записей);\
Частичная занятость ```PT``` встречается реже и в меньшем количестве стран;\
Фриланс ```FL``` представлен только в США.

---

#### Задание 2

`Группировка - “work_year” и количество компаний каждого размера.
Создать датафрейм. Переименовать столбец с количеством в “сount”.
Отсортировать по убыванию столбца “count”`

In [72]:
# Посчитать количество строк в каждой группе (группа = комбинация work_year + company_size)
counts = df.groupby(['work_year', 'company_size'], observed=True).size()
# Превратить результат в DataFrame
df_group = counts.reset_index()
# Переименовать колонку с количеством в "count"
df_group.columns = ['work_year', 'company_size', 'count']
# Отсортировать по убыванию столбца count
df_group = df_group.sort_values(by='count', ascending=False)
# Посмотреть результат
print(df_group)

   work_year company_size  count
7       2022            M    174
3       2021            L     55
4       2021            M     30
6       2022            L     23
0       2020            L     22
5       2021            S     18
2       2020            S     15
1       2020            M      5
8       2022            S      4


---

**Пояснение:**\
В 2022 году было больше всего записей, что может указывать на рост рынка труда в Data-сфере.

Средние компании (M) в 2022 году были наиболее активны в найме (174 записей).

Крупные компании (L) показывают рост с 2020 по 2021 год и падение с 2021 по 2022, что может являться последствием после карантинного кризиса кризиса.

В 2020 году количество записей значительно меньше, что может быть связано с карантином.

Таким образом, наблюдается положительная динамика количества вакансий/работников в Data-сфере с 2020 по 2022 год,\
причем средние компании проявляют наибольшую активность в найме.

 ---

#### Задание 3

`Сводная таблица (pivot_table) - средняя зарплата в usd по должностям
(”job_title”). Отсортировать по убыванию. Округлить до двух знаков после запятой.
Переименовать столбец “salary_in_usd” в “зарплата”`

In [73]:
data_pivot = df.pivot_table(
    # строки - должность
    index = 'job_title',
    # значения - зарплата в долларах
    values = 'salary_in_usd',
    # функция - среднее значение
    aggfunc='mean',
    # показывать только существующее
    observed=True
)
# сортировка по убыванию
data_pivot = data_pivot.sort_values(by='salary_in_usd', ascending=False)
# округление до 2х знаков после запятой
data_pivot['salary_in_usd'] = data_pivot['salary_in_usd'].round(2)
# переименование столбца в "зарплата"
data_pivot.columns = ['зарплата']
# изменение ранее изменённого отображения до 2х знаков после запятой
pd.set_option('display.float_format', '{:.2f}'.format)

print(data_pivot)

                            зарплата
job_title                           
Data Analytics Lead        405000.00
Head of Data Science       146718.75
Data Analytics Manager     127134.29
Machine Learning Manager   117104.00
Data Engineer              109295.46
Data Scientist             102623.46
Machine Learning Developer  89395.50
Data Analyst                88597.23
Head of Machine Learning    79039.00
Data Science Engineer       75803.33
Data Analytics Engineer     64799.25
NLP Engineer                37236.00
Product Data Analyst        13036.00


---

**Пояснение:**\
Данная сводная таблица позволяет отметить самые высокооплачиваемые работы в сфере аналитики данных.\
Исходя из нашего дата сета, это должность "Ведущий специалист по анализу данных" со средней зарплатой 405000 $.

---

#### Задание 4

`Сводная таблица (pivot_table) - медианная зарплата по годам - строки,
и по “employment_type” - столбцы. Отсортировать по убыванию годов.`

In [74]:
data_pivot1 = df.pivot_table(
    # строки - год
    index = 'work_year',
    # столбцы - тип работы
    columns = 'employment_type',
    # значения - зарплата за год
    values = 'salary',
    # функция - среднее значение
    aggfunc='mean',
    # показывать только существующее
    observed=True
)

# сортировка по убыванию года
data_pivot1 = data_pivot1.sort_values(by='work_year', ascending=False)

print(data_pivot1)

employment_type        FL        FT       PT
work_year                                   
2022            100000.00 168449.66 75000.00
2021             20000.00 516093.61 33880.00
2020                  NaN 561258.78 19000.00


---

**Пояснения:**\
Данная таблица позволяет понять, на сколько средняя зарплата менялась за каждый год при разном типе работы.\
Например больше всего получали специалисты с сфере анализа данных в 2020м году при полном трудоустройстве.\
Можно сделать вывод что специалисты, устроенные при полном устройстве, получают с каждым годом всё меньше,\
в то время, как специалисты с неполным - с каждым годом всё больше.\
Так же из этой таблицы можно понять, что в 2020 годы не было зафиксированного ни одного трудоустройства на фрилансе.


 ---

### Вывод


В ходе работы рассматривался набор данных ```salary.csv```, содержащий информацию о специалистах с сфере аналитики данных и их заработных платах. Всего было рассмотрена  401 строка данных. Данные включают себя годы выплаты ЗП, тип трудоустройства сотрудников, должность, зарплату, страну приживания и нахождения главного офиса, а также кол-во сотрудников в компании.
На этапе предобработки были выявлены и устранены ошибки: некорректный тип данных ```float64``` столбцов годы выплаты, зарплата за год и зарплата в долларах были заменены на ```int64```; опечатки в полях должность и размере компаний были исправлены («DataScientist» и «Data SCIENTIST» на «Data Scientist», Large на «L»). Пропуски в числовых данных были заполнены медианными значениями.

Анализ показал, что наибольшую зарплату получали сотрудники, устроенные при полном трудоустройстве в 2020м году - 561 258$. Большая часть сотрудников устроены на полную ставку. А страной с самым большим числом сотрудников стала Северная Америка - 209 шт.

Построенные сводные таблицы показали динамику изменения зарплат сотрудников в каждом году, специалисты с полным трудоустроенные получают с каждым готом всё меньше, а с неполным - всё больше. А самой высокооплачиваемой должностью стала должность «Ведущий специалист по анализу данных» - 405 000$.

Приведённое исследование показало наглядно темпы развития сферы анализа данных, с каждым годом количество сотрудников в этой сфере растёт.

В лабораторной работе осуществлялась работа с библиотекой ```pandas```. Были изучены типы данных в библиотеке, индексация и др. На практике были произведены подготовка данных, устранение ошибок и дубликатов, обработка различных типов данных. Были изучены такие понятия как группировка и категоризация.

### Дополнительное задание

**`Доп задание: заменить NaN на 0 в выводе 4го задания`**

In [75]:
data_pivot1 = df.pivot_table(
    # строки - год
    index = 'work_year',
    # столбцы - тип работы
    columns = 'employment_type',
    # значения - зарплата за год
    values = 'salary',
    # функция - среднее значение
    aggfunc='mean',
    # показывать только существующее
    observed=True
)

# сортировка по убыванию года
data_pivot1 = data_pivot1.sort_values(by='work_year', ascending=False).fillna(0)

print(data_pivot1)

employment_type        FL        FT       PT
work_year                                   
2022            100000.00 168449.66 75000.00
2021             20000.00 516093.61 33880.00
2020                 0.00 561258.78 19000.00


---

**Пояснение:**\
Метод ```.fillna(0)``` заменил NaN на 0.00

---

**`6. Создать столбец “Категория зарплаты в долларах” (с помощью
категоризации). Выделить минимум 3 категории (низкая, высокая, средняя),
фильтрацию для уровня зарплаты выбрать самостоятельно, аргументировать
выбор. Создать сводную таблицу: минимальная и максимальная зп в долларах
по категории зарплаты в долларах и должности. 
`**

In [76]:

def categorize_salary(salary):
    if salary < 50000:
        return "низкая"
    elif 50000 <= salary <= 150000:
        return "средняя"
    else:
        return "высокая"

df['Категория зарплаты в долларах'] = df['salary_in_usd'].apply(categorize_salary)

# Строим сводную таблицу: минимальная и максимальная зп в долларах
pivot_salary = df.pivot_table(
    index=['Категория зарплаты в долларах', 'job_title'],
    values='salary_in_usd',
    aggfunc=['min', 'max'],
    observed=True
)

# Красивее сделаем колонки
pivot_salary.columns = ['Минимальная ЗП', 'Максимальная ЗП']
pivot_salary = pivot_salary.reset_index()

print(pivot_salary.to_string(index=False)) # to_string(index=False) для того, чтобы поле максимальной ЗП не отделялось на следющую строку

Категория зарплаты в долларах                  job_title  Минимальная ЗП  Максимальная ЗП
                      высокая               Data Analyst          150075           200000
                      высокая        Data Analytics Lead          405000           405000
                      высокая     Data Analytics Manager          150260           150260
                      высокая              Data Engineer          154000           324000
                      высокая             Data Scientist          158200           412000
                      высокая       Head of Data Science          167875           224000
                       низкая               Data Analyst            6072            46759
                       низкая    Data Analytics Engineer           20000            20000
                       низкая              Data Engineer            4000            49461
                       низкая      Data Science Engineer           40189            40189
          

---

**Пояснение:**\
Медиана заплат составила 100 000$, значит эту сумму следует поместить в категорию среднего уровня дохода.
исходя из общего размера зарплат, категории были выбраны следующие:
- низкая — меньше 50 000$;
- средняя — от 50 000 до 150 000$;
- высокая — больше 150 000$.

Низкая категория – сюда вошли должности с минимальными значениями заработной платы. Для таких должностей диапазон зарплат относительно узкий, что говорит об ограниченных возможностях роста дохода внутри категории.

Средняя категория – в этой группе наблюдается наибольшее количество должностей. Диапазон между минимальными и максимальными зарплатами заметно шире, что отражает вариативность оплаты в зависимости от опыта, квалификации и специфики компании.

Высокая категория – включает должности управленческого уровня или высококвалифицированных специалистов. Здесь максимальные зарплаты значительно превышают значения из других категорий, а разброс внутри категории также выше, что указывает на гибкую систему оплаты и большие перспективы карьерного роста.

В целом, сводная таблица позволяет оценить уровень распределения зарплат по должностям. Можно заметить, что даже внутри одной должности диапазон (от min до max) может существенно различаться, что подтверждает зависимость оплаты труда от факторов стажа, уровня ответственности и региона.

---

**`12. Отфильтровать набор данных. Выбрать только топ 5 должностей по средней зп + год выплаты = 2022 + размер компании S и M. Для отфильтрованного набора данных выполнить группировку: должность и средняя+медианная+минимальная+максимальная зарплата в долларах.
`**

In [90]:
# Фильтрация по году и размеру компании
df_filtered = df[(df['work_year'] == 2022) & (df['company_size'].isin(['S', 'M']))]

# Находим топ-5 должностей по средней зарплате
top_jobs = (
    df_filtered.groupby('job_title')['salary_in_usd']
    .mean()
    .nlargest(5)
    .index
)

# Оставляем только топ-5 должностей
df_top = df_filtered[df_filtered['job_title'].isin(top_jobs)]

# Группировка с нужными метриками
result = df_top.groupby('job_title')['salary_in_usd'].agg(
    Средняя_ЗП='mean',
    Медианная_ЗП='median',
    Минимальная_ЗП='min',
    Максимальная_ЗП='max'
).reset_index()

# Сортировка вывода по средней ЗП
result = result.sort_values(by='Средняя_ЗП', ascending=False)

print(result.to_string(index=False))


             job_title  Средняя_ЗП  Медианная_ЗП  Минимальная_ЗП  Максимальная_ЗП
  Head of Data Science   195937.50     195937.50          167875           224000
        Data Scientist   132834.69     133310.00           18442           260000
Data Analytics Manager   127485.00     127140.00          105400           150260
         Data Engineer   123867.12     115000.00           25000           324000
          Data Analyst    97199.32     102100.00           20000           170000


---
**Пояснение:**\
Рейтинг должностей:
- Head of Data Science - 195,937.50$
- Data Scientist - 132,834.69$
- Data Analytics Manager - 127,485.00$
- Data Engineer - 123,867.12$
- Data Analyst - 97,199.32$

Ключевые наблюдения:
Руководящие позиции лидируют по оплате труда, что отражает более высокий уровень ответственности.

Технические специалисты показывают значительный разброс зарплат:
- Data Engineer демонстрирует наибольший диапазон - от 25,000$ до 324,000$
- Data Scientist имеет широкий разброс от 18,442$ до 260,000$

Стабильность оплаты:

Руководители Data Science имеют наиболее стабильно высокие зарплаты

У Data Engineer медиана значительно ниже среднего, что указывает на влияние высокооплачиваемых выбросов

Анализ подтверждает четкую иерархию в data-сфере и значительную вариативность оплаты внутри технических специальностей.

---

**`19. Отфильтровать набор данных. Выбрать только топ 7 должностей по количеству
записей в должности + топ 1 год выплаты по количеству записей в году + топ 1
размер компании по средней зп в таком размере. Для отфильтрованного
набора данных создать группировку: должность и
средняя+максимальная+медианная+минимальная зарплата в долларах
`**

In [101]:
# Находим топ-7 должностей по количеству записей
top_jobs = df['job_title'].value_counts().head(7).index

# Находим топ-1 год по количеству записей
top_year = df['work_year'].value_counts().head(1).index[0]

# Находим топ-1 размер компании по средней зарплате
top_company_size = df.groupby('company_size')['salary_in_usd'].mean().nlargest(1).index[0]

print(f"Топ-7 должностей: {list(top_jobs)}")
print(f"Топ-1 год: {top_year}")
print(f"Топ-1 размер компании по средней ЗП: {top_company_size}")

# Фильтруем данные по всем условиям
df_filtered = df[
    (df['job_title'].isin(top_jobs)) & 
    (df['work_year'] == top_year) & 
    (df['company_size'] == top_company_size)
]

print(f"Количество записей после фильтрации: {len(df_filtered)}")

# Группировка по должности с расчетом статистик
result = df_filtered.groupby('job_title')['salary_in_usd'].agg([
    ('Средняя_ЗП', 'mean'),
    ('Медианная_ЗП', 'median'),
    ('Максимальная_ЗП', 'max'),
    ('Минимальная_ЗП', 'min')
]).round(2).sort_values('Средняя_ЗП', ascending=False)


print("\nРезультат группировки:")
print(result)

Топ-7 должностей: ['Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Analytics Manager', 'Data Analytics Engineer', 'Head of Data Science', 'Data Science Engineer']
Топ-1 год: 2022
Топ-1 размер компании по средней ЗП: M
Количество записей после фильтрации: 173

Результат группировки:
                         Средняя_ЗП  Медианная_ЗП  Максимальная_ЗП  \
job_title                                                            
Head of Data Science      195937.50     195937.50           224000   
Data Scientist            134498.12     136620.00           260000   
Data Analytics Manager    127485.00     127140.00           150260   
Data Engineer             124786.92     116394.50           324000   
Data Analyst               99481.65     105000.00           170000   
Data Analytics Engineer    20000.00      20000.00            20000   

                         Минимальная_ЗП  
job_title                                
Head of Data Science             167875  
Data Scientist       

---
**Пояснение:**\
Анализ данных показал, что из топ-7 наиболее распространенных должностей в сфере Data только 6 должностей представлены в компаниях размера M в 2022 году.\
Это означает, что одна из популярных должностей - Data Science Engineer отсутствует в выборке компаний за указанный период.

После применения всех фильтров в данных осталось 173 записи, относящихся к крупным компаниям в 2022 году.

Рейтинг должностей по средней зарплате в крупных компаниях:
- Head of Data Science - 195,937.50$ (лидер по оплате)
- Data Scientist - 134,498.18$
- Data Analytics Manager - 127,458.00$
- Data Engineer - 124,786.92$
- Data Analyst - 99,481.65$
- Data Analytics Engineer - 20,000.00$

Ключевые наблюдения:
Руководящие позиции значительно опережают по оплате - разница между Head of Data Science и следующей позицией составляет более 57,000$.

- Data Analytics Engineer и Data Analyst демонстрируют близкие уровни оплаты с кратным преимуществом Data Analyst'ов.
- Data Analyst в крупных компаниях получает существенно выше (324,000$), чем общая средняя по рынку.

Разброс зарплат наиболее значителен у Data Scientist (от 18,442$ до 260,000$) и Data Engineer (от 25,000$ до 324,000$).

Анализ подтверждает, что в крупных компаниях в 2022 году сложилась четкая иерархия оплаты труда, где руководящие должности получают существенное преимущество, а технические специалисты имеют широкий диапазон зарплат в зависимости от опыта и квалификации.

---