In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Загрузка данных
data = pd.read_csv('Статистика.csv')

# Первичный анализ данных
print(data.info())
print(data.describe())

In [None]:
# Добавляем новую колонку, которая разделяет сотрудников на старше и младше 35 лет
data['Возрастная группа'] = np.where(data['age'] > 35, 'older', 'younger')

# Преобразуем поле пола в категориальный тип
data['gender'] = data['gender'].astype('category')

# Проверка на пропуски
print(data.isnull().sum())

# Violin Plot для мужчин и женщин
plt.figure(figsize=(10, 6))
sns.violinplot(x='Пол', y='work_days', data=data)
plt.title('Распределение пропусков по болезни среди мужчин и женщин')
plt.xlabel('Пол')
plt.ylabel('Количество больничных дней')
plt.show()

# Violin Plot для работников старше и младше 35 лет
plt.figure(figsize=(10, 6))
sns.violinplot(x='Возрастная группа', y='Количество больничных дней', data=data)
plt.title('Распределение пропусков по болезни среди работников старше и младше 35 лет')
plt.xlabel('Возрастная группа')
plt.ylabel('Количество больничных дней')
plt.show()

In [None]:
# Данные для мужчин и женщин
male_days = data[data['gender'] == 'Male']['work_days']
female_days = data[data['gender'] == 'Female']['work_days']

# Проведение t-теста для независимых выборок
t_stat_gender, p_value_gender = stats.ttest_ind(male_days, female_days)

# Результаты
print(f"Гипотеза 1: t-статистика = {t_stat_gender:.4f}, p-значение = {p_value_gender:.4f}")
if p_value_gender < 0.05:
    print("Результат статистически значим: мужчины пропускают больше рабочих дней по болезни.")
else:
    print("Результат не является статистически значимым: различий между мужчинами и женщинами нет.")

In [None]:
# Данные для старшей и младшей возрастной группы
older_days = data[data['age_group'] == 'older']['work_days']
younger_days = data[data['age_group'] == 'younger']['work_days']

# Проведение t-теста для независимых выборок
t_stat_age, p_value_age = stats.ttest_ind(older_days, younger_days)

# Результаты
print(f"Гипотеза 2: t-статистика = {t_stat_age:.4f}, p-значение = {p_value_age:.4f}")
if p_value_age < 0.05:
    print("Результат статистически значим: сотрудники старше 35 лет пропускают больше рабочих дней.")
else:
    print("Результат не является статистически значимым: различий между возрастными группами нет.")

In [None]:
# Окончательные выводы:
if p_value_gender < 0.05:
    print("Мужчины значительно чаще пропускают работу по болезни.")
else:
    print("Различий между мужчинами и женщинами нет.")

if p_value_age < 0.05:
    print("Сотрудники старше 35 лет чаще болеют и пропускают работу.")
else:
    print("Различий между возрастными группами нет.")