In [None]:
import warnings
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import phik

pd.options.display.max_columns = None #полностью отображаем столбцы
warnings.filterwarnings("ignore")
sns.set_style("whitegrid")

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("arnabchaki/data-science-salaries-2023")

print("Path to dataset files:", path)

In [None]:
df = pd.read_csv('C:/Users/Public/Documents/ds_salaries.csv')
df.info()

In [None]:
# первые строки датасета
df.head()

In [None]:
# Общая информация по признакам

df.info()

In [None]:
# Уникальные значения категориальных признаков

df.select_dtypes(include='object').nunique()

In [None]:
#заменим верхний регистр на нижний
df.columns = df.columns.str.lower()
df.columns

In [None]:
#  Проверка пропущенных значений

df.isna().sum()


In [None]:
# заполнение пустых городов

df['employee_residence'].fillna('Unknown', inplace=True)

In [None]:
# Проверка и удаление дубликатов

df.duplicated().sum()  # Количество дубликатов

# Удаление дубликатов
df = df.drop_duplicates()

In [None]:
# Ещё раз проверим

df.isna().sum()
df.duplicated().sum()

In [None]:
# Распределение ключевых категорий

# уровень опыта работы в течение года

df['experience_level'].value_counts()

In [None]:
# тип занятости для данной должности

df['employment_type'].value_counts()

In [None]:
# среднее количество сотрудников, работавших в компании в течение года

df['company_size'].value_counts()

In [None]:
# общий объем работы, выполненной удаленно

df['remote_ratio'].value_counts()

In [None]:
#основная страна проживания сотрудника в течение рабочего года в формате кода страны ISO 3166.

df['employee_residence'].value_counts().head(10)

In [None]:
# Визуальный анализ распределения зарплат

plt.figure(figsize=(10, 5))
sns.boxplot(data=df, x='experience_level', y='salary_in_usd')
plt.title("Распределение зарплат по опыту")
plt.show()

# EN — Junior (Entry-Level)
# MI — Middle (Mid-Level)
# SE — Senior
# EX — Executive (C-level) - Опыт влияет на уровень зарплаты

In [None]:
plt.figure(figsize=(10, 5))
sns.histplot(df['salary_in_usd'], kde=True)
plt.title("Гистограмма зарплат")
plt.show()

# чем выше зарплата - тем меньше вакансий

In [None]:
# Корреляция числовых признаков

df.corr(numeric_only=True)

In [None]:
# тепловая карта:

sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm")

# почти нет связ года выплаты с зарплатой, а также почти нет связи зарплаты с объмом выполненой работы

In [None]:
#  1. Самые высокооплачиваемые должности

df.groupby('job_title')['salary_in_usd'].median().sort_values(ascending=False).head(10)

In [None]:
# 2. Есть ли выбросы в зарплатах? В каких должностях?

plt.figure(figsize=(15, 6))
sns.boxplot(data=df, x='job_title', y='salary_in_usd')
plt.xticks(rotation=90)
plt.title("Выбросы зарплаты по должностям")
plt.show()

In [None]:
# Влияет ли удалёнка на зарплату?

df.groupby('remote_ratio')['salary_in_usd'].median()

# (0 = нет удалёнки, 50 = гибрид, 100 = полностью удалённо)

In [None]:
# 4. Зависит ли зарплата от размера компании?

df.groupby('company_size')['salary_in_usd'].median().sort_values(ascending=False)

In [None]:
# 5. Популярные страны и уровень зарплат

# Популярные

df['employee_residence'].value_counts().head(10)



In [None]:
# Средняя зарплата по странам

df.groupby('employee_residence')['salary_in_usd'].median().sort_values(ascending=False).head(10)

In [None]:
#6. Медианная зарплата по должностям

df.groupby('job_title')['salary_in_usd'].median().sort_values(ascending=False)

In [None]:
# 7. Как изменились зарплаты в 2023 по сравнению с 2020

# Медианная зарплата по должностям в 2020 и 2023
# Оставим только 2020 и 2023
salary_filtered = df[df['work_year'].isin([2020, 2023])]

# Группируем по году и должности → медианная зарплата
salary_by_year = salary_filtered.groupby(['job_title', 'work_year'])['salary_in_usd'].median().unstack()

# Убедимся, что обе колонки (2020 и 2023) есть
salary_by_year = salary_by_year.dropna(subset=[2020, 2023])

# Добавим процент изменения
salary_by_year['change_%'] = ((salary_by_year[2023] - salary_by_year[2020]) / salary_by_year[2020]) * 100

# Сортировка по убыванию прироста
salary_by_year.sort_values('change_%', ascending=False)



In [None]:
 #8. Портрет самого успешного работника

df[df['salary_in_usd'] == df['salary_in_usd'].max()]

In [None]:
#9. Живут и работают в разных странах

# Люди, у кого место работы и проживания не совпадает
df_diff_country = df[df['employee_residence'] != df['company_location']]


In [None]:
# Количество таких людей
df_diff_country.shape[0]


In [None]:
# Сколько процентов работают на другую страну
percent_remote_country = df_diff_country.shape[0] / df.shape[0] * 100
percent_remote_country