### Что я делаю:
1. Загружаю файл hr.csv.

2. Рассчитываю основные статистики для переменных (среднее,медиана,мода,мин/макс,сред.отклонение).

3. Рассчитываю и визуализирую корреляционную матрицу для переменных.

4. Визуализирую несколько взаимосвязей между переменными.

5. С использованием t-test статистики проверяю взаимосвязи между несколькими переменными.

6. Рассчитываю, сколько работников работает в каждом департаменте.

7. Показываю распределение сотрудников по зарплатам.

8. Показываю распределение сотрудников по зарплатам совместно с департаментами.

9. Сколько сотрудников покинули компанию.

10. Проверяю несколько гипотез для данных, чтобы понять почему сотрудники покидают компанию.

11. Делаю выводы. 

In [None]:
import numpy as np
from scipy.stats import t
from scipy.stats import norm
import matplotlib.pyplot as plt
from scipy import stats
import pandas as pd
import io
import requests
import seaborn as sns
import statistics
from PIL import Image

In [None]:
img = Image.open("index.png")
img

In [None]:
# 1. Загружаю файл HR.csv
df = pd.read_csv('HR.csv')
df.head()

In [None]:
#2. Рассчитываю основные статистики для переменных (среднее,медиана,мода,мин/макс,сред.отклонение)
df.describe()

In [None]:
df.mode(numeric_only=True)
# df.mode()

In [None]:
#3. Рассчитываю и визуализирую корреляционную матрицу для переменных.
corr_matrix = df.corr()
sns.set(rc=({'figure.figsize':(10, 10)}))
sns.heatmap(corr_matrix, annot=True, xticklabels=corr_matrix.columns.values, yticklabels=corr_matrix.columns.values)

По корреляционной матрице можно понять зависимость данных друг от друга. На данном примере матрица 4х4, начиная от last_evaluation и до time_spend_company явно "теплее" остальных пересечений. Однако, также можно заметить слабую корреляцию time_spend_company - left, last_evaluation - satisfaction_level.

In [None]:
#4 Визуализирую несколько взаимосвязей между переменными.
sns.pairplot(df, vars=['last_evaluation', 'number_project', 'average_montly_hours', 'time_spend_company'], kind="scatter")

Изучим детальнее ту самую матрицу 4х4 'time_spend_company - average_montly_hours - number_project - last_evalueation'. 

В принципе, здесь прослеживается некая ковариативность на пересечении 'last_evaluation - average_montly_hours'.

Остальные пересечения выглядят равномерными: чем больше стаж, тем больше проектов. А вот в случае с оценками (last_evaluation), то видно, что они не зависят от стажа и распределены равномерно. 

In [None]:
# 5. С использованием t-test статистики проверяю взаимосвязи между несколькими переменными.
#Гипотеза: среднее значение уровня удовлетворённости (satisfaction_level) сотрудников с разными зарплатами
#не отличается от среднего значения генеральной совокупности
df.satisfaction_level.mean()

In [None]:
#заменяю параметрические low, medium и high на числовые 0, 1, 2
df.salary.replace(to_replace=dict(low=0, medium=1, high=2), inplace=True)

In [None]:
# Применяю одновыборочный t-критерий (потому что переменных 3, а значит, двухвыборочный не подходит)

low_salary = df[df['salary']==0]['satisfaction_level']
middle_salary = df[df['salary']==1]['satisfaction_level']
high_salary = df[df['salary']==2]['satisfaction_level']
print(stats.ttest_1samp(low_salary, df.satisfaction_level.mean()))
print(stats.ttest_1samp(middle_salary, df.satisfaction_level.mean()))
print(stats.ttest_1samp(high_salary, df.satisfaction_level.mean()))
# print(df.salary.value_counts())

In [None]:
# Или использую тест ANOVA
restecg_0 = df[df['salary']==0]['satisfaction_level']

restecg_1 = df[df['salary']==1]['satisfaction_level']

restecg_2 = df[df['salary']==2]['satisfaction_level']

stats.f_oneway(restecg_0, restecg_1, restecg_2)

In [None]:
sns.distplot(low_salary, 50)
sns.distplot(middle_salary, 50)
sns.distplot(high_salary, 50)
plt.title('Плотность вероятности распределения удовлетворённости')
plt.legend(['Низкая зарплата', 'Средняя зарплата', 'Высокая зарплата'])
plt.show()

Я решил изучить, насколько уровень заработной платы 'salary' влияет на удовлетворенность работой 'satisfaction_leve'. 

Как посчитано выше, средний показатель удовлетворенности = 0,613. Поскольку параметрические критерии необходимо заменить на числовые (ранговые), мы это делаем, присвоив низкой зарплате 0, средней - 1, высокой, соответственно, 2. Итого получилось 3 критерия. 

Поскольку критерия 3, я сперва применяю одновыборочный t-критерий для каждого из ранга заработной платы. Получившийся уровень p-value меньше 0,05, а значит, мы отвергаем нулевую гипотезу о том, что эти две выборки полностью независимы. Некая слабая зависимость имеется. 

Для сравнения выборок с количеством критерив больше 3, есть тест ANOVA. Его и применяем. p-value также оказался меньше критического значения 0,05, а значит, здесь мы также отвергаем нулевую гипотезу о независимости выборок. 


In [None]:
#6. Рассчитываю, сколько работников работает в каждом департаменте.
df.sales.value_counts() 

В продажах, как и положено, работает больше всего сотрудников, а в руководстве, соответственно, меньше всего. 

In [None]:
#7. Отображаю распределение сотрудников по зарплатам
n, bins, patches = plt.hist(df['salary'], 5, facecolor='g')

plt.xlabel('Зарплата')
plt.ylabel('Частота')
plt.title('Частотный график зарплаты (разбиение интервала по 5 элементов)')
plt.grid(True)
plt.show()

В глаза сразу бросается слишком большой разрыв между средней зарплатой и высокой и настолько же маленький разрыв между маленькой и средней зарплатой. В компании, определённо, огромное количество менеджеров среднего звена со средним же уровнем заработка!

In [None]:
# 8. Показываю распределение сотрудников по зарплатам совместно с департаментами.
sns.relplot(x='sales', 
            y='salary', 
            kind='line', 
            data=df,
            height = 12)

Подтверждается выдвинутая ранее гипотеза: фонд оплаты менеджмента сильно больше среднего уровня по сотрудникам. Однако, заработная плата маркетинга, на удивление, выше IT. 

In [None]:
# 9. Сколько сотрудников покинули компанию.
df.left.value_counts() 

In [None]:
# 10. Проверяю несколько гипотез для данных, чтобы понять почему сотрудники покидают компанию.
df.head()

In [None]:
#Н0 = уровень зарплаты не влияет на увольнение
#Н1 = уровень зарплаты влияет на увольнение

left_0 = df[df['salary']==0]['left']

left_1 = df[df['salary']==1]['left']

left_2 = df[df['salary'] == 2]['left']


stats.f_oneway(left_0, left_1, left_2)

In [None]:
#Поскольку pvalue меньше 0.05, мы отвергаем нулевую гипотезу. 

df[df['salary']==0]['left'].mean()

In [None]:
df[df['salary']==1]['left'].mean()

In [None]:
df[df['salary']==2]['left'].mean()

Как видно, работники с высокой зарплатой увольняются реже.
Если зарплата сотрудника низкая или средняя, он с большей вероятностью покинет компанию.

In [None]:
#Н0 = удовлетворённость не влияет на увольнение
#Н1 = удовлетворённость влияет на увольнение

work = df[df['left']==0]['satisfaction_level']

fired = df[df['left']==1]['satisfaction_level']

stats.ttest_ind(work, fired)

Так как pvalue 0, а показатель t равен 51.6, мы отвергаем нулевую гипотезу об отсутствии различий в этих двух группах. 

In [None]:
df[df['left']==1]['satisfaction_level'].mean()

In [None]:
df[df['left']==0]['satisfaction_level'].mean()

Сравнение средних говорит о том, что средний уровень удовлетворенности уволившихся был ниже уровня удовлетворенности оставшихся. 