**Загрузка библиотек**

In [1]:
import pandas as pd
pd.set_option('display.float_format',  '{:.2f}'.format)

**Загрузка и изучение датасета**

Для работы был выбран датасет с Kaggle

In [2]:
data = pd.read_csv('ds_salaries.csv', index_col='Unnamed: 0')

In [3]:
data.head(10)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L
5,2020,EN,FT,Data Analyst,72000,USD,72000,US,100,US,L
6,2020,SE,FT,Lead Data Scientist,190000,USD,190000,US,100,US,S
7,2020,MI,FT,Data Scientist,11000000,HUF,35735,HU,50,HU,L
8,2020,MI,FT,Business Data Analyst,135000,USD,135000,US,100,US,L
9,2020,SE,FT,Lead Data Engineer,125000,USD,125000,NZ,50,NZ,S


**Группировка вакансий по направлениям**

В качестве группы вакансий выберем сами названия вакансий, так как они довольно часто повторяются

In [4]:
data_by_group = data.groupby(by='job_title')

In [5]:
data_by_group['work_year'].count()

job_title
3D Computer Vision Researcher                 1
AI Scientist                                  7
Analytics Engineer                            4
Applied Data Scientist                        5
Applied Machine Learning Scientist            4
BI Data Analyst                               6
Big Data Architect                            1
Big Data Engineer                             8
Business Data Analyst                         5
Cloud Data Engineer                           2
Computer Vision Engineer                      6
Computer Vision Software Engineer             3
Data Analyst                                 97
Data Analytics Engineer                       4
Data Analytics Lead                           1
Data Analytics Manager                        7
Data Architect                               11
Data Engineer                               132
Data Engineering Manager                      5
Data Science Consultant                       7
Data Science Engineer         

**Средняя и медианнная зарплата по группам вакансий**

In [6]:
data_by_group['salary_in_usd'].agg(['mean', 'median']).reset_index().rename(columns={'job_title':'group_name', 'mean':'mean_salary', 'median':'median_salary'})

Unnamed: 0,group_name,mean_salary,median_salary
0,3D Computer Vision Researcher,5409.0,5409.0
1,AI Scientist,66135.57,45896.0
2,Analytics Engineer,175000.0,179850.0
3,Applied Data Scientist,175655.0,157000.0
4,Applied Machine Learning Scientist,142068.75,56700.0
5,BI Data Analyst,74755.17,76500.0
6,Big Data Architect,99703.0,99703.0
7,Big Data Engineer,51974.0,41305.5
8,Business Data Analyst,76691.2,70912.0
9,Cloud Data Engineer,124647.0,124647.0


**Средная и медианная зарплата по регионам**

In [7]:
data_by_region = data.groupby(by='employee_residence')

In [8]:
data_by_region['salary_in_usd'].agg(['mean', 'median']).reset_index().rename(columns={'employee_residence':'region_name', 'mean':'mean_salary', 'median':'median_salary'})

Unnamed: 0,region_name,mean_salary,median_salary
0,AE,100000.0,115000.0
1,AR,60000.0,60000.0
2,AT,76738.67,74130.0
3,AU,108042.67,87425.0
4,BE,85699.0,85699.0
5,BG,80000.0,80000.0
6,BO,75000.0,75000.0
7,BR,54634.67,21453.5
8,CA,97085.31,85000.0
9,CH,122346.0,122346.0


**Самая высокооплачиваемая из групп вакансий, исходя из их средних зарплат**

In [9]:
print('Самая оплачиваемая группа вакансий исходя из средних зарплат это ' + 
     (data_by_group['salary_in_usd'].agg(['mean', 'median'])
                             .reset_index()
                             .rename(columns={'job_title':'group_name', 'mean':'mean_salary', 'median':'median_salary'})
                             .sort_values(by='mean_salary', ascending=False).head(1)['group_name'].tolist()[0]))

Самая оплачиваемая группа вакансий исходя из средних зарплат это Data Analytics Lead


**Процентное соотношение каждого региона по вакансиям от всех вакансий**

In [10]:
data_by_region['work_year'].agg([('perc', lambda work_year: (work_year.count() / data.shape[0]) * 100 )]).reset_index().rename(columns={'employee_residence':'region_name', 'perc':'percentage'})


Unnamed: 0,region_name,percentage
0,AE,0.49
1,AR,0.16
2,AT,0.49
3,AU,0.49
4,BE,0.33
5,BG,0.16
6,BO,0.16
7,BR,0.99
8,CA,4.78
9,CH,0.16


**Корелляция уровня опыта от зарплаты**

In [11]:
exp_dict = {'MI': 2, 'SE': 3, 'EN': 1, 'EX': 4}
print('Коэффицент корреляции опыта и зарплаты: ' + str(data['experience_level'].apply(lambda x: exp_dict[x]).corr(data['salary_in_usd'])))

Коэффицент корреляции опыта и зарплаты: 0.48423288617306187


**Число должностей в наборе данных**

In [12]:
print('Число должностей в датасете: ' + str(data['job_title'].nunique()))

Число должностей в датасете: 50


**10 наиболее встречающихся должностей**

In [13]:
data_by_group['work_year'].count().reset_index().rename(columns={'job_title':'group_name','work_year':'count'}).sort_values(by='count', ascending=False).head(10)

Unnamed: 0,group_name,count
22,Data Scientist,143
17,Data Engineer,132
12,Data Analyst,97
38,Machine Learning Engineer,41
48,Research Scientist,16
21,Data Science Manager,12
16,Data Architect,11
7,Big Data Engineer,8
41,Machine Learning Scientist,8
25,Director of Data Science,7
