**Обработка данных в Python. Библиотека Pandas**

# Импорт библиотек


In [220]:
import numpy as np
import pandas as pd

# Исходные данные

Источник данных: [Заработная плата в области науки о данных](https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries)

Используемые поля:

- *experience_level	- Уровень опыта работы*
- *job_title -	Должность*
- *salary_in_usd - Заработная плата в долларах США*
- *employee_residence - Основная страна проживания работника*

# Считывание данных с файла

In [221]:
df = pd.read_csv('ds_salaries.csv', delimiter=',')
df = df.drop(df.columns[[0, 1, 3, 5, 6, 9, 10, 11]], axis=1)
#df

# Средняя и медианная зарплата по группам вакансий

In [222]:
print(round(df.groupby('job_title').agg({'salary_in_usd' : ['mean', 'median']}), 2)['salary_in_usd'].sort_values(by='median', ascending=False))

                                               mean    median
job_title                                                    
Data Analytics Lead                       405000.00  405000.0
Financial Data Analyst                    275000.00  275000.0
Head of Data                              160162.60  200000.0
Principal Data Engineer                   328333.33  200000.0
Data Architect                            177873.91  180000.0
Analytics Engineer                        175000.00  179850.0
Principal Data Scientist                  215242.43  173762.0
Director of Data Science                  195074.00  168000.0
Data Specialist                           165000.00  165000.0
Applied Data Scientist                    175655.00  157000.0
Director of Data Engineering              156738.00  156738.0
Machine Learning Scientist                158412.50  156500.0
Data Science Manager                      158328.50  155750.0
Data Engineering Manager                  123227.20  150000.0
Head of 

# Средняя и медианная зарплата по региону

In [223]:
print(round(df.groupby('employee_residence').agg({'salary_in_usd' : ['mean', 'median']}), 2)['salary_in_usd'].sort_values(by='median', ascending=False))

                         mean    median
employee_residence                     
MY                  200000.00  200000.0
PR                  160000.00  160000.0
US                  149194.12  138475.0
NZ                  125000.00  125000.0
CH                  122346.00  122346.0
AE                  100000.00  115000.0
SG                  104176.50  104176.5
JE                  100000.00  100000.0
DZ                  100000.00  100000.0
IQ                  100000.00  100000.0
AU                  108042.67   87425.0
BE                   85699.00   85699.0
CA                   97085.31   85000.0
BG                   80000.00   80000.0
DE                   85552.56   79197.0
GB                   81403.16   78526.0
BO                   75000.00   75000.0
AT                   76738.67   74130.0
JP                  103537.71   74000.0
RU                  105750.00   72500.0
IE                   71444.00   71444.0
CZ                   69999.00   69999.0
HK                   66022.00   66022.0


# Самая высокооплачиваемая из групп вакансий, исходя из их средних зарплат

In [224]:
print(round(df.groupby('job_title').agg({'salary_in_usd' : ['mean']}), 2)['salary_in_usd'].sort_values(by='mean', ascending=False).head(1))

                         mean
job_title                    
Data Analytics Lead  405000.0


# Процентное соотношение каждого региона по вакансиям от всех вакансий

In [225]:
print(df.groupby('employee_residence').count()['job_title'] / df['job_title'].count() * 100)


employee_residence
AE     0.494234
AR     0.164745
AT     0.494234
AU     0.494234
BE     0.329489
BG     0.164745
BO     0.164745
BR     0.988468
CA     4.777595
CH     0.164745
CL     0.164745
CN     0.164745
CO     0.164745
CZ     0.164745
DE     4.118616
DK     0.329489
DZ     0.164745
EE     0.164745
ES     2.471170
FR     2.965404
GB     7.248764
GR     2.141680
HK     0.164745
HN     0.164745
HR     0.164745
HU     0.329489
IE     0.164745
IN     4.942339
IQ     0.164745
IR     0.164745
IT     0.658979
JE     0.164745
JP     1.153213
KE     0.164745
LU     0.164745
MD     0.164745
MT     0.164745
MX     0.329489
MY     0.164745
NG     0.329489
NL     0.823723
NZ     0.164745
PH     0.164745
PK     0.988468
PL     0.658979
PR     0.164745
PT     0.988468
RO     0.329489
RS     0.164745
RU     0.658979
SG     0.329489
SI     0.329489
TN     0.164745
TR     0.494234
UA     0.164745
US    54.695222
VN     0.494234
Name: job_title, dtype: float64


# Корреляция уровня опыта от зарплаты

In [226]:
df.loc[(df.experience_level == 'MI'), 'experience_level'] = 0
df.loc[(df.experience_level == 'SE'), 'experience_level'] = 1
df.loc[(df.experience_level == 'EN'), 'experience_level'] = 2
df.loc[(df.experience_level == 'EX'), 'experience_level'] = 3
df['experience_level'] = df['experience_level'].astype({'experience_level': int})

In [227]:
print(df['experience_level'].corr(df['salary_in_usd'], min_periods=3))

0.15092372562532436


# Должностей в наборе данных

In [228]:
print(len(list(df.job_title.value_counts())))

50


# 10 наиболее часто встречающихся должностей

In [229]:
print(df.job_title.value_counts()[:10])

Data Scientist                143
Data Engineer                 132
Data Analyst                   97
Machine Learning Engineer      41
Research Scientist             16
Data Science Manager           12
Data Architect                 11
Big Data Engineer               8
Machine Learning Scientist      8
Principal Data Scientist        7
Name: job_title, dtype: int64
