# Загрузка набора данных

**Цель работы:**
Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

## Описание предметной области

- Вариант №4
- Набор данных: <u>salary.csv</u>
- Атрибуты:
1. Год выплаты заработной платы (целое число)
2. Тип работы (PT - Part-time, FT - Full-time, FL-Freelance)
3. Должность
4. Зарплата за год (целое число)
5. Зарплата в долларах (целое число)
6. Страна проживания
7. Страна главного офиса
8. Среднее кол-во людей в компании (S - менее 50 сотрудников (малая), M от 50 до 250 сотрудников (средняя), L - более 250 сотрудников (крупная)) 

## 1. Чтение файла (набора данных)

Перед началом работы следует импортировать Python-библиотеку `pandas`, которая позволит обрабатывать файлы. После этого, используем метод `read_csv()`, чтобы прочитать файл 'salary.csv' и выведем первые 5 элементов с помощью метода `head()` (дефолтное значение вывода – 5).

In [1]:
import pandas as pd

df = pd.read_csv('salary.csv', sep=';')
df.head()

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S


## 2. Обзор данных

### 2.1 Вывод первых 20 строк с помощью метода `head()`

Теперь, необходимо вывести первые 20 элементов файла, для чего следует вызвать метод `head()` со значением 20.

In [2]:
df.head(20)

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,2020.0,FT,Data SCIENTIST,70000.0,79833.0,DE,DE,L
1,2020.0,FT,Product Data Analyst,20000.0,20000.0,HN,HN,S
2,2020.0,FT,Data Analyst,72000.0,72000.0,US,US,L
3,2020.0,FT,Data Scientist,11000000.0,35735.0,HU,HU,L
4,2020.0,FT,Data Scientist,45000.0,51321.0,FR,FR,S
5,2020.0,FT,Data Scientist,3000000.0,40481.0,IN,IN,L
6,2020.0,FT,Data Scientist,35000.0,39916.0,FR,FR,M
7,2020.0,FT,Data Analyst,85000.0,85000.0,US,US,L
8,2020.0,FT,Data Analyst,8000.0,8000.0,PK,PK,Large
9,2020.0,FT,Data Engineer,4450000.0,41689.0,JP,JP,S


### 2.2 Оценка данных с помощью метода `info()`

Для оценки типов данных и общей информации о таблице, необходимо использовать метод `info()` (есть ли пропуски, сколько всего строк, какие типы данных у столбцов).

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              398 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


Как видно из результата, для каждого столбца представлено 401 ненулевой объект, кроме столбца salary, в котором есть 3 нулевых объекта. Все типы данных представлены корректно.

### 2.3 Оценка данных с помощью метода ```describe()```

С помощью метода `describe()` можно оценить числовые столбцы.

In [4]:
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,401.0,398.0,401.0
mean,2021.528678,288833.6,105895.017456
std,0.678086,1677081.0,58183.664171
min,2020.0,4000.0,2859.0
25%,2021.0,67000.0,65013.0
50%,2022.0,109140.0,100000.0
75%,2022.0,150000.0,140000.0
max,2022.0,30400000.0,412000.0


Выводы: каждый столбец является числовым и отображает отношение всех числовых значений из таблицы своего столбца к функции строки (например в строке 'count' указана функция `count()`, которая производит счет непустых значений).

### 2.4 Оценка названий столбцов

Чтобы оценить названия столбцов и принять или отклонить решение о переименовании некоторых столбцов, следует использовать метод `columns`.

In [5]:
df.columns

Index(['work_year', 'employment_type', 'job_title', 'salary', 'salary_in_usd',
       'employee_residence', 'company_location', 'company_size'],
      dtype='object')

## 3. Проверка пропусков

В соответствие с выполнением метода `info()` ранее, выявлено 3 строки, в которых поле 'salary' является пустым. Их можно удалить с помощью метода `dropna()` или заполнить нулями методом `fillna(0)`.

In [6]:
df['salary'] = df['salary'].fillna(0)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401 entries, 0 to 400
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   work_year           401 non-null    float64
 1   employment_type     401 non-null    object 
 2   job_title           401 non-null    object 
 3   salary              401 non-null    float64
 4   salary_in_usd       401 non-null    float64
 5   employee_residence  401 non-null    object 
 6   company_location    401 non-null    object 
 7   company_size        401 non-null    object 
dtypes: float64(3), object(5)
memory usage: 25.2+ KB


Как и следовало ожидать, заполнилось 3 строки, в которых атрибут 'salary' был пустым.

## 4. Проверка дубликатов

### Проверка явных дубликатов

Для проверки явных дубликатов следует использовать стандартный метод `duplicated()` и просуммировать результирующую таблицу.

In [7]:
display(df[df.duplicated()])
print(f"duplicates quantity: {df.duplicated().sum()}") 

Unnamed: 0,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
104,2021.0,FT,Data Scientist,76760.0,90734.0,DE,DE,L
130,2021.0,FT,Data Engineer,200000.0,200000.0,US,US,L
172,2022.0,FT,Data Engineer,40000.0,52351.0,GB,GB,M
189,2022.0,FT,Data Analyst,90320.0,90320.0,US,US,M
190,2022.0,FT,Data Analyst,112900.0,112900.0,US,US,M
191,2022.0,FT,Data Analyst,90320.0,90320.0,US,US,M
193,2022.0,FT,Data Engineer,132320.0,132320.0,US,US,M
208,2022.0,FT,Data Scientist,123000.0,123000.0,US,US,M
209,2022.0,FT,Data Engineer,60000.0,78526.0,GB,GB,M
215,2022.0,FT,Data Analyst,130000.0,130000.0,CA,CA,M


duplicates quantity: 55


Так как выявлено 54 дубликата, их следует удалить, но при этом также необходимо обновить индексацию, поэтому применим метод `reset_index()`

In [8]:
df = df.drop_duplicates().reset_index()
print(f"duplicates quantity: {df.duplicated().sum()}") 
df.info()  # Двойная Проверка удаления дубликатов

duplicates quantity: 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   index               346 non-null    int64  
 1   work_year           346 non-null    float64
 2   employment_type     346 non-null    object 
 3   job_title           346 non-null    object 
 4   salary              346 non-null    float64
 5   salary_in_usd       346 non-null    float64
 6   employee_residence  346 non-null    object 
 7   company_location    346 non-null    object 
 8   company_size        346 non-null    object 
dtypes: float64(3), int64(1), object(5)
memory usage: 24.5+ KB


### Проверка неявных дубликатов

Выводим все уникальные значения столбцов для выявления похожих значений и соответствующего их удаления. С учетом информативного содержания, интересующими столбцами являются все строковые (не числовые).

In [9]:
def is_col_numeric(col) -> bool:  # Метод для определения числового столбца
    return df[col].dtype == 'int64' or df[col].dtype == 'float64'

def display_implicit_duplicates():  # Инкапсулировано в функцию, чтобы применять несколько раз
    for col in df.columns:
        if not is_col_numeric(col):  # Выводим только информативные столбцы
            print(col, df[col].unique())

display_implicit_duplicates()

employment_type ['FT' 'PT' 'FL']
job_title ['Data SCIENTIST' 'Product Data Analyst' 'Data Analyst' 'Data Scientist'
 'Data Engineer' 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead'
 'DataScientist' 'Data AnalyticsManager']
employee_residence ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'PH'
 'GB' 'ES' 'IT' 'PL' 'BG' 'NL' 'IQ' 'UA' 'SG' 'RU' 'MT' 'CL' 'RO' 'IR'
 'VN' 'BR' 'HK' 'TR' 'RS' 'AR' 'DZ' 'AU' 'CH']
company_location ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'GB'
 'ES' 'IT' 'LU' 'PL' 'NL' 'IQ' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'BR' 'VN'
 'TR' 'DZ' 'MY' 'AU' 'CH']
company_size ['L' 'S' 'M' 'Large']


Теперь, произведём замену **неявных дубликатов** на соответствующие варианты. Также отобразим уникальные значения, чтобы проверить, что замена прошла корректно.

In [10]:
df['company_size'] = df['company_size'].replace('Large', 'L')
df['job_title'] = df['job_title'].replace(
    'Data SCIENTIST', 'Data Scientist'
).replace(
    'DataScientist', 'Data Scientist'
).replace(
    'Data AnalyticsManager', 'Data Analytics Manager'
)

display_implicit_duplicates()

employment_type ['FT' 'PT' 'FL']
job_title ['Data Scientist' 'Product Data Analyst' 'Data Analyst' 'Data Engineer'
 'Machine Learning Manager' 'Data Analytics Engineer'
 'Data Science Engineer' 'Machine Learning Developer'
 'Data Analytics Manager' 'Head of Data Science'
 'Head of Machine Learning' 'NLP Engineer' 'Data Analytics Lead']
employee_residence ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'PH'
 'GB' 'ES' 'IT' 'PL' 'BG' 'NL' 'IQ' 'UA' 'SG' 'RU' 'MT' 'CL' 'RO' 'IR'
 'VN' 'BR' 'HK' 'TR' 'RS' 'AR' 'DZ' 'AU' 'CH']
company_location ['DE' 'HN' 'US' 'HU' 'FR' 'IN' 'PK' 'JP' 'GR' 'MX' 'CA' 'AT' 'NG' 'GB'
 'ES' 'IT' 'LU' 'PL' 'NL' 'IQ' 'UA' 'IL' 'RU' 'MT' 'CL' 'IR' 'BR' 'VN'
 'TR' 'DZ' 'MY' 'AU' 'CH']
company_size ['L' 'S' 'M']


## 5. Проверка типов данных

Для проверки корректности типов данных таблицы следует вывести всю таблицу и применить метод `info()` для оценки.

In [11]:
df['work_year'] = df['work_year'].astype('int')
df['salary'] = df['salary'].astype('int')
df['salary_in_usd'] = df['salary_in_usd'].astype('int')
display(df)
print('\n')
df.info()

Unnamed: 0,index,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size
0,0,2020,FT,Data Scientist,70000,79833,DE,DE,L
1,1,2020,FT,Product Data Analyst,20000,20000,HN,HN,S
2,2,2020,FT,Data Analyst,72000,72000,US,US,L
3,3,2020,FT,Data Scientist,11000000,35735,HU,HU,L
4,4,2020,FT,Data Scientist,45000,51321,FR,FR,S
...,...,...,...,...,...,...,...,...,...
341,394,2022,FT,Data Analyst,52000,52000,CA,CA,M
342,395,2022,FT,Data Engineer,154000,154000,US,US,M
343,396,2022,FT,Data Engineer,126000,126000,US,US,M
344,397,2022,FT,Data Analyst,129000,129000,US,US,M




<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   index               346 non-null    int64 
 1   work_year           346 non-null    int64 
 2   employment_type     346 non-null    object
 3   job_title           346 non-null    object
 4   salary              346 non-null    int64 
 5   salary_in_usd       346 non-null    int64 
 6   employee_residence  346 non-null    object
 7   company_location    346 non-null    object
 8   company_size        346 non-null    object
dtypes: int64(4), object(5)
memory usage: 24.5+ KB


Данные столбцов ‘work_year’, ‘salary’, ‘salary_in_usd’ имеют некорректную типизацию в соответствие с описанием атрибутов в индивидуальном варианте, поэтому они будут изменены с числового типа с плавающей точкой ‘float’ на целочисленный тип ‘int’.

## 6. Группировка данных

### Задание 1

Группировка - “work_year” и количество компаний каждого размера.

In [12]:
df.groupby(['work_year', 'company_size'])['index'].count()

work_year  company_size
2020       L                22
           M                 5
           S                15
2021       L                55
           M                30
           S                18
2022       L                23
           M               174
           S                 4
Name: index, dtype: int64

Выводы: Результирующая таблица указывает на количество компаний каждого размера по рабочим годам; подсчет компаний реализован с помощью метода `count()`.

### Задание 2

Группировка - “employment_type” и количество компаний по каждой локации “company_location”. Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по возрастанию столбца “count”. 

In [13]:
new_df = df.groupby(['employment_type', 'company_location']).size()
new_df = new_df.reset_index(name='count')
new_df = new_df.sort_values('count', ascending=True)

new_df

Unnamed: 0,employment_type,company_location,count
3,FT,BR,1
2,FT,AU,1
6,FT,CL,1
5,FT,CH,1
14,FT,IL,1
12,FT,HN,1
13,FT,HU,1
31,FT,VN,1
24,FT,NL,1
27,FT,RU,1


Выводы: В индексированной сводной таблице указано количество компаний каждой локации в соответствие каждому типу работы; для счета используется метод `size()`; сортировка производится методом `sort_values()` (параметр `ascending` указывает на возрастание при 'True', и убиывание при 'False'); чтобы добавить столбец с количеством 'count' используется метод `reset_index()`.

### Задание 3

Сводная таблица (pivot_table) - средняя зарплата по годам (”work_year”). Отсортировать по убыванию зп. Округлить до трёх знаков после запятой. Переименовать столбец “salary” в “зарплата”.

In [14]:
pivot1 = df.pivot_table(
    index='work_year', values='salary'
).sort_values(
    'salary', ascending=False
).round(3).rename(
    columns={'salary': 'зарплата'}
)

pivot1

Unnamed: 0_level_0,зарплата
work_year,Unnamed: 1_level_1
2020,548347.857
2021,501913.796
2022,166093.299


Выводы: В данной сводной таблице отображена средняя заработная плата рабочего за год для каждого года выплаты; колонка индексирования задается через параметр `index`, а значения - `values` (функция подсчета среднего задана по умолчанию в `aggfunc='mean'`); сортировка задана методом `sort_values()` с указанием колонки для сортировки и убыванием через `ascending=False`; округление задано `round(3)`; переименование столбцов производится методом `rename()`.

### Задание 4

Сводная таблица (pivot_table) - средняя зарплата в usd по должностям (”job_title”) - строки, и по годам - столбцы. Отсортировать по возрастанию названия должности (”job_title”).

In [15]:
pivot2 = df.pivot_table(
    index='job_title', values='salary_in_usd', columns='work_year', fill_value=0
).sort_values(
    by='job_title', ascending=True
).round(3)

pivot2

work_year,2020,2021,2022
job_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Data Analyst,45547.286,79505.412,97199.321
Data Analytics Engineer,0.0,79732.333,20000.0
Data Analytics Lead,0.0,0.0,405000.0
Data Analytics Manager,0.0,126666.667,127485.0
Data Engineer,88162.0,79434.871,125380.833
Data Science Engineer,0.0,83705.0,60000.0
Data Scientist,85970.524,70215.773,130367.984
Head of Data Science,0.0,97500.0,195937.5
Head of Machine Learning,0.0,0.0,79039.0
Machine Learning Developer,0.0,100000.0,78791.0


Выводы: Данная сводная таблица указывает соответствие между годами выплаты и должностями так, что значение каждой ячейки отображает среднюю заработную плату за год в отношении столбца и строки; пустые значения заполняются параметром `fill_value=0`.

## Вывод: 

В ходе выполнения лабораторной работы были успешно освоены и применены на практике основные инструменты и методы, используемые на начальном этапе анализа данных. Были получены навыки работы в интерактивной среде разработки Jupyter Notebook и оформления отчетов с использованием разметки Markdown, что обеспечивает наглядность и воспроизводимость результатов.
В рамках работы были закреплены ключевые функции библиотеки Pandas для обработки табличных данных:
- Отработана процедура загрузки данных из внешнего источника (формат .csv).
- Проведена первичная оценка и очистка данных для приведения их к пригодному для анализа виду.
- Приобретены навыки группировки данных методом `groupby()` для последующей агрегации.
- Освоена методика построения сводных таблиц с помощью `pivot_table()` для многомерного анализа и суммирования информации.
Работа позволила на практике ознакомиться с полным циклом первичного анализа данных: от импорта и оценки их качества до преобразования и получения структурированных выводов. Полученный опыт формирует основу для решения более сложных задач в области анализа данных.


## Дополнительное задание

### Задание №3
Создать столбец “Категория зарплаты в долларах” (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня зарплаты выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средняя и медианная зп в долларах по категории зарплаты в долларах и должности.

In [29]:
# Ззначения категорий выбраны на основе квартилей (25%, 50%, 75%), выявленных благодаря методу describe

df['Категория зарплаты в долларах'] = pd.cut(  # Категоризация
    df['salary_in_usd'],  # Столбец для категоризации
    bins=[0, 65013, 140000, 412000],  # Значения категорий (их границы)
    labels=['Низкая', 'Средняя', 'Высокая']  # Сами категории
)
display(df)  # Выводим таблицу с категоризованным столбцом

funcs = ['mean', 'median']  # Среднее и медиана
for func in funcs:
    print(func, '\n')
    pivot_3 = df.pivot_table(
        values='salary_in_usd',       # Данные для агрегации
        index='Категория зарплаты в долларах',  # Категории по строкам
        columns='job_title',          # Должности по столбцам
        aggfunc=func,                 # Отдельно применяем медиану и среднее
        fill_value=0,                 # Пропуски заполняются нулями
        margins=True,                 # Строка с итогами по всем категориям
        margins_name='Все категории',  # Название для строки/столбца итогов
        observed=False                # Отображение категориальных значений (все значения)
    ).round(3)
    display(pivot_3)  # Отображение сводной таблицы
    print('\n\n')

Unnamed: 0,index,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size,Категория зарплаты в долларах
0,0,2020,FT,Data Scientist,70000,79833,DE,DE,L,Средняя
1,1,2020,FT,Product Data Analyst,20000,20000,HN,HN,S,Низкая
2,2,2020,FT,Data Analyst,72000,72000,US,US,L,Средняя
3,3,2020,FT,Data Scientist,11000000,35735,HU,HU,L,Низкая
4,4,2020,FT,Data Scientist,45000,51321,FR,FR,S,Низкая
...,...,...,...,...,...,...,...,...,...,...
341,394,2022,FT,Data Analyst,52000,52000,CA,CA,M,Низкая
342,395,2022,FT,Data Engineer,154000,154000,US,US,M,Высокая
343,396,2022,FT,Data Engineer,126000,126000,US,US,M,Средняя
344,397,2022,FT,Data Analyst,129000,129000,US,US,M,Средняя


mean 



job_title,Data Analyst,Data Analytics Engineer,Data Analytics Lead,Data Analytics Manager,Data Engineer,Data Science Engineer,Data Scientist,Head of Data Science,Head of Machine Learning,Machine Learning Developer,Machine Learning Manager,NLP Engineer,Product Data Analyst,Все категории
Категория зарплаты в долларах,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Низкая,42509.917,35000.0,0.0,0.0,40928.654,50094.5,36449.61,0.0,0.0,0.0,0.0,37236.0,13036.0,38901.163
Средняя,100992.913,94598.5,0.0,118936.0,98286.768,127221.0,103406.143,97500.0,79039.0,89395.5,117104.0,0.0,0.0,101287.843
Высокая,165153.571,0.0,405000.0,147630.0,184108.719,0.0,186039.0,195937.5,0.0,0.0,0.0,0.0,0.0,185433.382
Все категории,88597.234,64799.25,405000.0,127134.286,109295.465,75803.333,102623.457,146718.75,79039.0,89395.5,117104.0,37236.0,13036.0,102100.462





median 



job_title,Data Analyst,Data Analytics Engineer,Data Analytics Lead,Data Analytics Manager,Data Engineer,Data Science Engineer,Data Scientist,Head of Data Science,Head of Machine Learning,Machine Learning Developer,Machine Learning Manager,NLP Engineer,Product Data Analyst,Все категории
Категория зарплаты в долларах,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Низкая,48379.5,35000.0,0.0,0.0,45599.0,50094.5,39263.0,0.0,0.0,0.0,0.0,37236.0,13036.0,41085.0
Средняя,99525.0,94598.5,0.0,120000.0,99550.0,127221.0,101050.0,97500.0,79039.0,89395.5,117104.0,0.0,0.0,100000.0
Высокая,164000.0,0.0,405000.0,147630.0,175050.0,0.0,173000.0,195937.5,0.0,0.0,0.0,0.0,0.0,170000.0
Все категории,85000.0,64598.5,405000.0,120000.0,101185.0,60000.0,100000.0,138937.5,79039.0,89395.5,117104.0,37236.0,13036.0,99025.0







Выводы: Категоризация показывает номенальное значение зарплаты относительно заданных абстрагированных величин; для самой катеризации используется `pd.cut()`; в праматерах указаны столбец для категоризации ('salary_in_usd'), массив границ `bins` (включая меньшую границу 0 и очень большую верхнюю), а также названия категорий `labels`. При создании сводной таблицы по категориям, указаны такие новые параметры, как `margins` и `margins_name` (отображение итогов), а также `observed` (отображение всех категорий).

### Задание №8
Отфильтровать набор данных. Выбрать только те должности, средняя зарплата в долларах на которых выше определенного числа (число выбрать самостоятельно). Для отфильтрованного набора данных выполнить группировку: должность и средняя зарплата в долларах.

In [36]:
threshold = 100000  # Порог для фильтрации данных (медиана)
mean_salaries = df.groupby('job_title')['salary_in_usd'].mean()  # Вычисляется среднюю зарплату для каждой должности

high_paying_jobs = mean_salaries[mean_salaries > threshold].index  # Выбираются должности, где средняя зарплата выше порога

filtered_df = df[df['job_title'].isin(high_paying_jobs)]  # Фильтрация основного набора данных
print(f"Найдено {len(high_paying_jobs)} высокооплачиваемых должностей:")
print(high_paying_jobs.tolist())  # Список высокооплачиваемых должностей

filtered_df.groupby('job_title')['salary_in_usd'].mean().round(3)  # Группировка отфильтрованного набора

Найдено 6 высокооплачиваемых должностей:
['Data Analytics Lead', 'Data Analytics Manager', 'Data Engineer', 'Data Scientist', 'Head of Data Science', 'Machine Learning Manager']


job_title
Data Analytics Lead         405000.000
Data Analytics Manager      127134.286
Data Engineer               109295.465
Data Scientist              102623.457
Head of Data Science        146718.750
Machine Learning Manager    117104.000
Name: salary_in_usd, dtype: float64

Выводы: Представлена отфильтрованная группировка должностей согласно средней зп в долларах. Для группировки зарплат использовался стандартный метод `groupby()` с функцией `mean()` для вычисления Среднего; для составления списка должностей проверяется условие строгого большего к значениям группировки; чтобы отфильтровать значения применяется метод `isin()` для проверки вхождения в список; далее, отфильтрованная таблица группируется с округлением зарплат до 3-х знаков после запятой.

### Задание №19
Отфильтровать набор данных. Выбрать только топ 7 должностей по количеству записей в должности + топ 1 год выплаты по количеству записей в году + топ 1
размер компании по средней зп в таком размере. Для отфильтрованного набора данных создать группировку: должность и 'средняя + максимальная + медианная + минимальная зарплата в долларах'.

In [38]:
top_job_count = 7  # Количество должностей для топа
count_job_rows = df['job_title'].value_counts().head(top_job_count).index  # Выборка топ 7 должностей по кол-ву записей
print(f"top {top_job_count} jobs: {list(count_job_rows)}\n")

top_year = df['work_year'].value_counts().head(1).index[0]  # Выборка топ 1 год выплаты по кол-ву записей
print(f"top 1 work year: {top_year}\n")

top_company_size = df.groupby('company_size')['salary_in_usd'].mean().sort_values()[-1:].round(3).index[0]  # Группировка топ 1 размер компании по средней з/п
print(f"top 1 company size by mean salary: {top_company_size}\n")

filtered_df = df[
    (df['job_title'].isin(count_job_rows)) &  # Условие на фильтрацию по должностям
    (df['work_year'] == top_year) &           # Условие на фильтрацию по кол-во записей в году
    (df['company_size'] == top_company_size)  # Условие на фильтрацию по размеру компании по средней зп 
]
display(filtered_df)  # Отображение отфильтрованного набора данных

top 7 jobs: ['Data Scientist', 'Data Engineer', 'Data Analyst', 'Data Analytics Manager', 'Data Analytics Engineer', 'Head of Data Science', 'Data Science Engineer']

top 1 work year: 2022

top 1 company size by mean salary: M



Unnamed: 0,index,work_year,employment_type,job_title,salary,salary_in_usd,employee_residence,company_location,company_size,Категория зарплаты в долларах
145,147,2022,FT,Data Engineer,135000,135000,US,US,M,Средняя
146,148,2022,FT,Data Analyst,155000,155000,US,US,M,Высокая
147,149,2022,FT,Data Analyst,120600,120600,US,US,M,Средняя
148,150,2022,FT,Data Scientist,130000,130000,US,US,M,Средняя
149,151,2022,FT,Data Scientist,90000,90000,US,US,M,Средняя
...,...,...,...,...,...,...,...,...,...,...
341,394,2022,FT,Data Analyst,52000,52000,CA,CA,M,Низкая
342,395,2022,FT,Data Engineer,154000,154000,US,US,M,Высокая
343,396,2022,FT,Data Engineer,126000,126000,US,US,M,Средняя
344,397,2022,FT,Data Analyst,129000,129000,US,US,M,Средняя


Выводы: в результирующей таблице видны только отфильтрованные значения, т.е. которые удовлетворяют заданным условиям; для подсчета топов значений столбцов используется метод `values_counts()`, а также применяется метод `index`, чтобы извлекать названия, а не счетчики и метод `head()` для получения только топов; в дальнейшем фильтрация происходит стандартно.