# ПРОЕКТ 3. ИССЛЕДОВАНИЕ ДАННЫХ HR-АГЕНТСТВА

Основная цель проекта: практика по статистическим тестам в контексте EDA

## Легенда

HR-агентство изучает тренды на рынке труда в IT. Компания хочет провести исследование на основе данных о зарплатах в сфере Data Science за 2020–2022 годы и получить некоторые выводы.

Оригинальный датасет: [**“Data Science Job Salaries” (kaggle.com)**](https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries)

Исследуем данные и сделаем выводы по полученным результатам. Подкрепим свои рассуждения и выводы визуализациями и с проверим помощью статистического тестирования, являются ли выводы статистически значимыми.

**В процессе своего анализа необходимо:**  
1. Выяснить, какие факторы влияют на зарплату специалиста Data Scientist.
2. Ответить на ключевые вопросы HR-агентства:
    - Наблюдается ли ежегодный рост зарплат у специалистов Data Scientist?
    - Как соотносятся зарплаты Data Scientist и Data Engineer в 2022 году?
    - Как соотносятся зарплаты специалистов Data Scientist в компаниях различных размеров?
    - Есть ли связь между наличием должностей Data Scientist и Data Engineer и размером компании?
3. Если в данных мы найдём интересные закономерности, также отметим их в своём анализе.

**Продемонстрируем использование разных тестов** для проверки статистической значимости сделанных выводов:  
- тесты для количественного признака:
  - для одной выборки;
  - для двух выборок;
  - для нескольких выборок;
- тест для категориальных признаков.

**ОПИСАНИЕ ПРИЗНАКОВ**
| НАИМЕНОВАНИЕ СТОЛБЦА  | ОПИСАНИЕ |
| :---          |     :---     |
| `work_year`  | Год, в котором была выплачена зарплата. |
| `experience_level`  | Опыт работы на этой должности в течение года со следующими возможными значениями:  
|    | - *`EN` — Entry-level/Junior*;
|    | - *`MI` — Mid-level/Intermediate*;
|    | - *`SE` — Senior-level/Expert*;
|    | - *`EX` — Executive-level/Director*.|
| `employment_type`  | Тип трудоустройства для этой роли:  |
|   | - *`PT` — неполный рабочий день*;  |
|   | - *`FT` — полный рабочий день;*  |
|   | - *`CT` — контракт;*  |
|   | - *`FL` — фриланс.*  |
| `job_title`  | Роль, в которой соискатель работал в течение года.  |
| `salary`  | Общая выплаченная валовая сумма заработной платы.  |
| `salary_currency`  | Валюта выплачиваемой заработной платы в виде кода валюты ISO 4217.  |
| `salary_in_usd`  | Зарплата в долларах США (валютный курс, делённый на среднее значение курса доллара США за соответствующий год через fxdata.foorilla.com).  |
| `employee_residence`  | Основная страна проживания сотрудника в течение рабочего года в виде кода страны ISO 3166.  |
| `remote_ratio`  | Общий объём работы, выполняемой удалённо. Возможные значения:  |
|   | - *`0` — удалённой работы нет (менее 20 %);*  |
|   | - *`50` — частично удалённая работа;*  |
|   | - *`100` — полностью удалённая работа (более 80 %).*  |
| `company_location`  | Страна главного офиса работодателя или филиала по контракту в виде кода страны ISO 3166.  |
| `company_size`  | Среднее количество людей, работавших в компании в течение года:  |
|   | - *`S` — менее 50 сотрудников (небольшая компания);*  |
|   | - *`M` — от 50 до 250 сотрудников (средняя компания);*  |
|   | - *`L` — более 250 сотрудников (крупная компания).*  |



## Загрузка данных

In [1]:
# загружаем необходимые библиотеки
import pandas as pd
import numpy as np

from scipy import stats
import statsmodels.api as sm
from statsmodels import stats as sms

import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# делаем визуальную настройку графиков
sns.set_theme("notebook") 
sns.set_palette("Set2") 