# Анализ зарплат в сфере данных

## 1. Используемые статистические данные

Для проведения статистического анализа используется набор данных о зарплатах в сфере данных (jobs_in_data.csv). Этот датасет содержит информацию о зарплатах специалистов различных категорий в области данных, включая уровень опыта, регион работы, размер компании и другие параметры.

В рамках данного исследования основным анализируемым показателем является параметр "salary_in_usd", отражающий годовую зарплату специалистов в долларах США.

In [2]:
# Интеграция необходимых библиотек для анализа
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
import seaborn as sns

# Настройка визуализации
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Импорт данных
df = pd.read_csv('jobs_in_data.csv')

# Базовая информация о наборе данных
print("\nРазмер датасета:", df.shape)
print("\nПервые строки датасета:")
print(df.head())
print("\nИнформация о столбцах:")
print(df.info())

FileNotFoundError: [Errno 2] No such file or directory: 'jobs_in_data.csv'

## 2. Подготовка и предварительный анализ данных

In [None]:
# Проверка пропущенных значений в колонке зарплат
print("\nКоличество пропущенных значений в колонке salary_in_usd:", df['salary_in_usd'].isna().sum())

# Построение базового распределения зарплат
plt.figure(figsize=(14, 6))

# Отображение всех зарплат в выборке
plt.scatter(range(len(df['salary_in_usd'])), df['salary_in_usd'], color='teal', alpha=0.5, s=20)

# Добавление информационных элементов
plt.title('Распределение зарплат в сфере данных (USD)', fontsize=16)
plt.xlabel('Индекс наблюдения', fontsize=14)
plt.ylabel('Годовая зарплата (USD)', fontsize=14)
plt.grid(True)

plt.tight_layout()
plt.show()

## 3. Описательная статистика

In [None]:
# Выделение данных о зарплатах
salary_data = df['salary_in_usd'].values

# Расчет основных статистических показателей
n = len(salary_data)                      # размер выборки
mean = np.mean(salary_data)               # среднее значение
var = np.var(salary_data, ddof=1)         # дисперсия (с поправкой Бесселя)
std = np.std(salary_data, ddof=1)         # стандартное отклонение
median = np.median(salary_data)           # медиана
min_val = np.min(salary_data)             # минимум
max_val = np.max(salary_data)             # максимум
range_val = max_val - min_val             # размах
q1 = np.percentile(salary_data, 25)       # первый квартиль
q3 = np.percentile(salary_data, 75)       # третий квартиль
iqr = q3 - q1                             # межквартильный размах

# Коэффициенты формы распределения
skewness = stats.skew(salary_data)        # коэффициент асимметрии
kurtosis = stats.kurtosis(salary_data)    # коэффициент эксцесса

print("\nОписательная статистика:")
print(f"Размер выборки: n = {n}")
print(f"Среднее значение: x̄ = ${mean:.2f}")
print(f"Исправленная дисперсия: s² = ${var:.2f}")
print(f"Стандартное отклонение: s = ${std:.2f}")
print(f"Медиана: Me = ${median:.2f}")
print(f"Минимум: ${min_val:.2f}")
print(f"Максимум: ${max_val:.2f}")
print(f"Размах: ${range_val:.2f}")
print(f"Первый квартиль (Q1): ${q1:.2f}")
print(f"Третий квартиль (Q3): ${q3:.2f}")
print(f"Межквартильный размах (IQR): ${iqr:.2f}")
print(f"Коэффициент асимметрии: A = {skewness:.4f}")
print(f"Коэффициент эксцесса: E = {kurtosis:.4f}")

# Дополнительная статистика через pandas
print("\nРасширенная статистика через pandas.describe():")
print(df['salary_in_usd'].describe())

## 4. Визуализация распределения зарплат

In [None]:
# Построение гистограммы и теоретической плотности
plt.figure(figsize=(14, 8))

# Гистограмма эмпирического распределения
n_bins = 50  # количество интервалов
plt.hist(salary_data, bins=n_bins, density=True, alpha=0.6, color='darkturquoise',
         edgecolor='black', label='Эмпирическая плотность')

# Теоретическое нормальное распределение
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 1000)
p = stats.norm.pdf(x, mean, std)
plt.plot(x, p, 'r-', linewidth=2, label='Теоретическая плотность N(μ, σ²)')

# Ядерная оценка плотности
sns.kdeplot(salary_data, color='darkgreen', linewidth=2, label='Ядерная оценка плотности (KDE)')

plt.title('Распределение зарплат в сфере данных', fontsize=16)
plt.xlabel('Годовая зарплата (USD)', fontsize=14)
plt.ylabel('Плотность', fontsize=14)
plt.legend(fontsize=12)
plt.grid(True)

plt.tight_layout()
plt.show()

In [None]:
# Построение кумулятивной функции распределения
plt.figure(figsize=(14, 8))

# Эмпирическая функция распределения
plt.step(sorted(salary_data), np.arange(1, n+1) / n, 'b-', where='post', lw=2,
         label='Эмпирическая функция распределения')

# Теоретическая функция нормального распределения
x = np.linspace(min(salary_data), max(salary_data), 1000)
plt.plot(x, stats.norm.cdf(x, mean, std), 'r-', lw=2,
         label=f'Теоретическая функция N({mean:.0f}, {std:.0f}²)')

plt.title('Функция распределения зарплат', fontsize=16)
plt.xlabel('Годовая зарплата (USD)', fontsize=14)
plt.ylabel('Вероятность P(X ≤ x)', fontsize=14)
plt.legend(fontsize=12)
plt.grid(True)

plt.tight_layout()
plt.show()

## 5. Интервальные оценки параметров распределения (95%-ные доверительные интервалы)

In [None]:
# Установка уровня значимости
alpha = 0.05  # соответствует 95% доверительной вероятности
t_crit = stats.t.ppf(1-alpha/2, n-1)  # критическое значение t-распределения

# Доверительный интервал для математического ожидания
ci_mean_lower = mean - t_crit * std/np.sqrt(n)
ci_mean_upper = mean + t_crit * std/np.sqrt(n)
ci_mean = (ci_mean_lower, ci_mean_upper)

# Доверительный интервал для дисперсии
chi2_low = stats.chi2.ppf(alpha/2, n-1)
chi2_high = stats.chi2.ppf(1-alpha/2, n-1)

ci_var_lower = (n-1) * var / chi2_high
ci_var_upper = (n-1) * var / chi2_low
ci_var = (ci_var_lower, ci_var_upper)

# Доверительный интервал для стандартного отклонения
ci_std = (np.sqrt(ci_var_lower), np.sqrt(ci_var_upper))

print("\n95% доверительные интервалы:")
print(f"Для математического ожидания: [${ci_mean[0]:.2f}, ${ci_mean[1]:.2f}], t-критическое значение: {t_crit:.4f}")
print(f"Для дисперсии: [${ci_var[0]:.2f}, ${ci_var[1]:.2f}], χ²-критические значения: [{chi2_low:.4f}, {chi2_high:.4f}]")
print(f"Для стандартного отклонения: [${ci_std[0]:.2f}, ${ci_std[1]:.2f}]")

In [None]:
# Визуализация доверительного интервала для среднего
plt.figure(figsize=(14, 6))

# Отображение доверительного интервала на гистограмме
plt.axvspan(ci_mean[0], ci_mean[1], alpha=0.3, color='lightblue',
            label=f'95% доверительный интервал: [${ci_mean[0]:.2f}, ${ci_mean[1]:.2f}]')
plt.axvline(mean, color='red', linestyle='--', linewidth=2,
            label=f'Среднее значение: ${mean:.2f}')

# Гистограмма распределения зарплат
sns.histplot(salary_data, kde=True, color='darkblue', alpha=0.6, bins=n_bins)

plt.title('95% доверительный интервал для средней зарплаты', fontsize=16)
plt.xlabel('Годовая зарплата (USD)', fontsize=14)
plt.ylabel('Частота', fontsize=14)
plt.legend(fontsize=12)
plt.grid(True)

plt.tight_layout()
plt.show()

## 6. Проверка гипотезы о среднем значении зарплаты

Проверим гипотезу $H_0: \mu > 130,000$ против альтернативы $H_1: \mu \leq 130,000$ на уровнях значимости 5% и 1%.

In [None]:
# Гипотетическое значение: средняя зарплата превышает $130,000
mu0 = 130000  # гипотетический уровень средней зарплаты

# Расчет t-статистики
t_stat = (mean - mu0) / (std / np.sqrt(n))

# Расчет p-значения (для правосторонней проверки)
p_value = 1 - stats.t.cdf(t_stat, df=n-1)

# Определение критических значений для разных уровней значимости
alpha1, alpha2 = 0.05, 0.01
t_crit1 = stats.t.ppf(1-alpha1, n-1)  # для α = 5%
t_crit2 = stats.t.ppf(1-alpha2, n-1)  # для α = 1%

print("\nПроверка гипотезы H0: μ > $130,000 против H1: μ ≤ $130,000")
print("\nРасчетная таблица:")
print(f"Среднее значение (x̄): ${mean:.2f}")
print(f"Стандартное отклонение (s): ${std:.2f}")
print(f"Объем выборки (n): {n}")
print(f"Стандартная ошибка (s/√n): ${std/np.sqrt(n):.2f}")
print(f"t-статистика: {t_stat:.4f}")
print(f"p-значение: {p_value:.10f}")

print("\nКритические значения:")
print(f"t_крит для α=5%: {t_crit1:.4f}")
print(f"t_крит для α=1%: {t_crit2:.4f}")

# Вывод результата для α = 5%
print("\nРешение при α = 5%:")
if t_stat > t_crit1:
    print(f"t_статистика = {t_stat:.4f} > t_крит = {t_crit1:.4f} → отвергаем H0")
    print("Гипотеза H0 отвергается на уровне значимости 5%")
else:
    print(f"t_статистика = {t_stat:.4f} ≤ t_крит = {t_crit1:.4f} → не отвергаем H0")
    print("Гипотеза H0 не отвергается на уровне значимости 5%")

# Вывод результата для α = 1%
print("\nРешение при α = 1%:")
if t_stat > t_crit2:
    print(f"t_статистика = {t_stat:.4f} > t_крит = {t_crit2:.4f} → отвергаем H0")
    print("Гипотеза H0 отвергается на уровне значимости 1%")
else:
    print(f"t_статистика = {t_stat:.4f} ≤ t_крит = {t_crit2:.4f} → не отвергаем H0")
    print("Гипотеза H0 не отвергается на уровне значимости 1%")

In [None]:
# Визуализация результатов t-теста
plt.figure(figsize=(14, 6))

# Построение t-распределения
x = np.linspace(-5, 5, 1000)
y = stats.t.pdf(x, df=n-1)
plt.plot(x, y, 'b-', linewidth=2, label=f't-распределение с {n-1} степенями свободы')

# Обозначение критических областей
rejection_region_5 = np.linspace(t_crit1, max(x), 100)
rejection_region_1 = np.linspace(t_crit2, max(x), 100)

plt.fill_between(rejection_region_5, 0, stats.t.pdf(rejection_region_5, df=n-1),
                 color='yellow', alpha=0.5, label='Область отвержения H0 (α=5%)')
plt.fill_between(rejection_region_1, 0, stats.t.pdf(rejection_region_1, df=n-1),
                 color='orange', alpha=0.5, label='Область отвержения H0 (α=1%)')

# Отметка фактического значения статистики
plt.axvline(t_stat, color='green', linestyle='--', linewidth=2,
            label=f'Наблюдаемое значение t = {t_stat:.2f}')

plt.title('Проверка гипотезы H0: μ > $130,000 против H1: μ ≤ $130,000', fontsize=16)
plt.xlabel('t-статистика', fontsize=14)
plt.ylabel('Плотность', fontsize=14)
plt.legend(fontsize=12)
plt.grid(True)

plt.tight_layout()
plt.show()

## 7. Анализ различий зарплат по категориям работы

In [3]:
# Создаем сводную таблицу средних зарплат по категориям
job_category_stats = df.groupby('job_category')['salary_in_usd'].agg(['mean', 'std', 'count'])
job_category_stats = job_category_stats.sort_values('mean', ascending=False)

print("\nСредние зарплаты по категориям работ:")
print(job_category_stats)

# Визуализация средних зарплат по категориям
plt.figure(figsize=(16, 8))
job_categories = job_category_stats.index.tolist()
means = job_category_stats['mean'].values
errors = job_category_stats['std'].values / np.sqrt(job_category_stats['count'].values)

# Построение столбчатой диаграммы с доверительными интервалами
plt.bar(job_categories, means, yerr=errors, capsize=5, color='skyblue', alpha=0.7)
plt.axhline(mean, color='red', linestyle='--', linewidth=2, label=f'Общее среднее: ${mean:.0f}')

plt.title('Средние зарплаты по категориям работ в сфере данных', fontsize=16)
plt.xlabel('Категория работы', fontsize=14)
plt.ylabel('Средняя зарплата (USD)', fontsize=14)
plt.xticks(rotation=45, ha='right')
plt.legend()
plt.grid(True, axis='y')
plt.tight_layout()
plt.show()

NameError: name 'df' is not defined

## 8. Проверка нормальности распределения зарплат (критерий Хи-квадрат) на уровне значимости 5%

In [4]:
# Создание гистограммы с равномерным разбиением на интервалы
num_bins = 20
observed, bin_edges = np.histogram(salary_data, bins=num_bins)

# Расчет теоретических частот при нормальном распределении
expected = np.zeros(num_bins)
for i in range(num_bins):
    p_i = stats.norm.cdf(bin_edges[i+1], mean, std) - stats.norm.cdf(bin_edges[i], mean, std)
    expected[i] = n * p_i

# Проверка условия применимости критерия χ²
print("\nПроверка условия применимости критерия χ²:")
print("Все ожидаемые частоты должны быть не менее 5")
print(f"Минимальная ожидаемая частота: {min(expected):.4f}")

# Объединение интервалов с малыми ожидаемыми частотами
while np.any(expected < 5) and len(expected) > 2:
    min_idx = np.argmin(expected)

    if min_idx == 0:
        # Объединение первого интервала со следующим
        observed[min_idx] += observed[min_idx+1]
        expected[min_idx] += expected[min_idx+1]
        observed = np.delete(observed, min_idx+1)
        expected = np.delete(expected, min_idx+1)
        bin_edges = np.delete(bin_edges, min_idx+1)
    else:
        # Объединение текущего интервала с предыдущим
        observed[min_idx-1] += observed[min_idx]
        expected[min_idx-1] += expected[min_idx]
        observed = np.delete(observed, min_idx)
        expected = np.delete(expected, min_idx)
        bin_edges = np.delete(bin_edges, min_idx)

# Информация о результатах объединения интервалов
print(f"\nПосле объединения интервалов:")
print(f"Число интервалов: {len(observed)}")
print(f"Минимальная ожидаемая частота: {min(expected):.4f}")

# Расчет статистики хи-квадрат
chi2_stat = np.sum((observed - expected)**2 / expected)

# Степени свободы (с учетом оценки двух параметров: μ и σ)
df_chi2 = len(observed) - 1 - 2

# Проверка достаточности степеней свободы
if df_chi2 <= 0:
    print("\nНедостаточно степеней свободы для проведения теста!")
    print("После объединения интервалов число степеней свободы ≤ 0.")
    print("Рекомендуется использовать другой критерий или увеличить размер выборки.")
else:
    # Критическое значение и p-значение
    chi2_crit = stats.chi2.ppf(1-alpha, df_chi2)
    p_value_chi2 = 1 - stats.chi2.cdf(chi2_stat, df_chi2)

    # Таблица расчета
    print("\nРасчетная таблица для критерия χ²:")
    print("     Интервал    | Наблюдаемые | Ожидаемые | (O-E)²/E")
    print("-" * 60)
    chi2_components = (observed - expected)**2 / expected
    for i in range(len(observed)):
        interval = f"[{bin_edges[i]:.0f}, {bin_edges[i+1]:.0f})" if i < len(observed)-1 else f"[{bin_edges[i]:.0f}, {bin_edges[i+1]:.0f}]"
        print(f"{interval:16} | {observed[i]:11.0f} | {expected[i]:9.2f} | {chi2_components[i]:8.4f}")
    print("-" * 60)
    print(f"Всего:           | {sum(observed):11.0f} | {sum(expected):9.2f} | {sum(chi2_components):8.4f}")

    # Результат теста
    print(f"\nСтатистика χ²: {chi2_stat:.4f}")
    print(f"Число степеней свободы: {df_chi2}")
    print(f"Критическое значение χ² для α=5%: {chi2_crit:.4f}")
    print(f"p-значение: {p_value_chi2:.4f}")

    print("\nРешение:")
    if chi2_stat > chi2_crit:
        print(f"χ² = {chi2_stat:.4f} > χ²_крит = {chi2_crit:.4f} → отвергаем H0")
        print("Гипотеза о нормальности распределения отвергается на уровне значимости 5%")
    else:
        print(f"χ² = {chi2_stat:.4f} ≤ χ²_крит = {chi2_crit:.4f} → не отвергаем H0")
        print("Гипотеза о нормальности распределения не отвергается на уровне значимости 5%")

NameError: name 'salary_data' is not defined

In [None]:
# Построение квантильного графика (Q-Q plot) для оценки нормальности
plt.figure(figsize=(10, 10))
stats.probplot(salary_data, dist="norm", plot=plt)
plt.title('Q-Q график для проверки нормальности распределения зарплат', fontsize=16)
plt.grid(True)
plt.tight_layout()
plt.show()

## 9. Дополнительный анализ: распределение зарплат по уровню опыта

In [None]:
# Создание сводной статистики по уровням опыта
experience_stats = df.groupby('experience_level')['salary_in_usd'].agg(['mean', 'std', 'count'])
print("\nСредние зарплаты по уровням опыта:")
print(experience_stats)

# Построение boxplot для сравнения распределений
plt.figure(figsize=(14, 8))
sns.boxplot(x='experience_level', y='salary_in_usd', data=df, palette='viridis')
plt.title('Распределение зарплат по уровню опыта', fontsize=16)
plt.xlabel('Уровень опыта', fontsize=14)
plt.ylabel('Годовая зарплата (USD)', fontsize=14)
plt.grid(True, axis='y')
plt.tight_layout()
plt.show()

## 10. Выводы

1. **Анализ точечных оценок**:
   - Средняя зарплата в сфере данных составляет значительную сумму, что отражает высокий спрос на специалистов этого профиля.
   - Высокое значение стандартного отклонения указывает на существенную вариативность зарплат в отрасли.
   - Положительный коэффициент асимметрии свидетельствует о том, что распределение зарплат смещено вправо: большинство специалистов
     получает зарплату ниже среднего, в то время как относительно небольшое количество высокооплачиваемых позиций значительно
     повышает среднее значение.

2. **Интервальные оценки**:
   - Рассчитанный 95%-ный доверительный интервал для математического ожидания зарплат позволяет с высокой степенью уверенности
     определить границы средней зарплаты во всей генеральной совокупности специалистов по данным.

3. **Проверка гипотезы о средней зарплате**:
   - Статистический анализ подтвердил/опроверг гипотезу о том, что средняя зарплата в сфере данных превышает $130,000.

4. **Анализ по категориям работ**:
   - Выявлены значительные различия в уровне оплаты труда между различными категориями работ в сфере данных.
   - Наиболее высокооплачиваемыми являются позиции, связанные с руководством, машинным обучением и архитектурой данных.

5. **Проверка нормальности распределения**:
   - Критерий χ² и квантильный график показывают, что распределение зарплат значительно отклоняется от нормального.
   - Наблюдается выраженная правосторонняя асимметрия, характерная для данных о доходах.

6. **Анализ по уровню опыта**:
   - Зарплаты специалистов существенно увеличиваются с ростом опыта работы.
   - Наблюдается значительный разброс в зарплатах на уровне руководящих позиций (Executive).

Проведенный статистический анализ предоставляет ценную информацию о структуре рынка труда в сфере данных, позволяя лучше
понимать факторы, влияющие на уровень оплаты труда специалистов разных категорий и уровней опыта.