In [1]:
import pandas as pd
import urllib.request as req
import json
import sqlalchemy
import psycopg2
import pymongo
import matplotlib.pyplot as plt
%matplotlib inline

import numpy as np


import warnings
warnings.filterwarnings('ignore')

#### Часть первая

Перед вами стоит задача – подготовить аналитический отчет для HR-отдела. На основании проведенной аналитики предполагается составить рекомендации для отдела кадров по стратегии набора персонала, а также по взаимодействию с уже имеющимися сотрудниками.

В базе данных лежит набор таблиц, которые содержат данные о сотрудниках вымышленной компании. Сделайте обзор штата сотрудников компании. Составьте набор предметов исследования, а затем проверьте их на данных. Вся аналитика должна быть выполена с помощью SQL. Впоследствии данные можно визуализировать, однако финальные датафреймы для графиков также должны быть подготовлены с помощью SQL.

Примеры гипотез:

    Есть зависимость между perfomance score и тем, под чьим руководством работает сотрудник.
    Есть зависимость между продолжительностью работы в компании и семейным положением сотрудника.
    Есть зависимость между продолжительностью работы в компании и возрастом сотрудника.



Параметры для подключения следующие: хост – dsstudents.skillbox.ru, порт – 5432, имя базы данных – human_resources, пользователь – readonly, пароль – 6hajV34RTQfmxhS. Таблицы, доступные для анализа, – hr_dataset, production_staff, recruiting_costs, salary_grid.

In [2]:
conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/human_resources'

engine = sqlalchemy.create_engine(conn)
connect = engine.connect()

In [3]:
inspector = sqlalchemy.inspect(engine)
inspector.get_table_names()

['hr_dataset', 'production_staff', 'recruiting_costs', 'salary_grid']

In [4]:
df_hr = pd.read_sql("select * from hr_dataset", connect) #таблица отдела кадров
df_prod = pd.read_sql("select * from production_staff", connect) #производственный персонал
df_costs = pd.read_sql("select * from recruiting_costs", connect) #затраты на поиск сотрудников на разных ресурсах
df_salary = pd.read_sql("select * from salary_grid", connect) #зарплата по должностям

### Гипотезы:
   #### 1) Есть зависимость между семейным положением и показателем perfomance scorе равным Fully meets
   #### 2) Есть зависимость между продолжительностью работы в компании и возрастом сотрудника
   #### 3) Есть зависимость между полом сотрудника и качеством работы

In [5]:
df_hr.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 310 entries, 0 to 309
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   310 non-null    int64  
 1   Employee Name        310 non-null    object 
 2   Employee Number      310 non-null    int64  
 3   marriedid            310 non-null    int64  
 4   maritalstatusid      310 non-null    int64  
 5   genderid             310 non-null    int64  
 6   empstatus_id         310 non-null    int64  
 7   deptid               310 non-null    int64  
 8   perf_scoreid         310 non-null    int64  
 9   age                  310 non-null    int64  
 10  Pay Rate             310 non-null    float64
 11  state                310 non-null    object 
 12  zip                  310 non-null    int64  
 13  dob                  310 non-null    object 
 14  sex                  310 non-null    object 
 15  maritaldesc          310 non-null    obj

In [6]:
df_prod.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 256 entries, 0 to 255
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   256 non-null    int64  
 1   Employee Name        209 non-null    object 
 2   Race Desc            209 non-null    object 
 3   Date of Hire         209 non-null    object 
 4   TermDate             83 non-null     object 
 5   Reason for Term      209 non-null    object 
 6   Employment Status    209 non-null    object 
 7   Department           209 non-null    object 
 8   Position             209 non-null    object 
 9   Pay                  209 non-null    object 
 10  Manager Name         209 non-null    object 
 11  Performance Score    209 non-null    object 
 12  Abutments/Hour Wk 1  208 non-null    float64
 13  Abutments/Hour Wk 2  208 non-null    float64
 14  Daily Error Rate     208 non-null    float64
 15  90-day Complaints    208 non-null    flo

In [112]:
df_costs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   id                 22 non-null     int64 
 1   Employment Source  22 non-null     object
 2   January            22 non-null     int64 
 3   February           22 non-null     int64 
 4   March              22 non-null     int64 
 5   April              22 non-null     int64 
 6   May                22 non-null     int64 
 7   June               22 non-null     int64 
 8   July               22 non-null     int64 
 9   August             22 non-null     int64 
 10  September          22 non-null     int64 
 11  October            22 non-null     int64 
 12  November           22 non-null     int64 
 13  December           22 non-null     int64 
 14  Total              22 non-null     int64 
dtypes: int64(14), object(1)
memory usage: 2.7+ KB


### 1) Есть зависимость между семейным положением и показателем perfomance scorе равным Fully meets

In [66]:
sql_query = '''
    select hr.marriedid, pr."Performance Score" as perf_score, count(*)
    from hr_dataset hr 
    left join production_staff pr on 
        (hr."Employee Name" = pr."Employee Name") and (hr."Date of Hire" = pr."Date of Hire") and 
        (hr.position = pr."Position") 
        group by pr."Performance Score", hr.marriedid'''
pd.read_sql_query(sql_query, conn)

Unnamed: 0,marriedid,perf_score,count
0,0,Exceeds,12
1,0,Needs Improvement,7
2,0,Exceptional,4
3,1,Needs Improvement,4
4,0,Fully Meets,75
5,1,90-day meets,11
6,1,PIP,3
7,0,PIP,4
8,0,N/A- too early to review,18
9,1,Fully Meets,44


### 2) Есть зависимость между возрастом сотрудника и частоте смены работы

In [105]:
sql_query = '''select percentile_cont(0.5) WITHIN GROUP (ORDER BY "Days Employed")
            as median_days_employed from hr_dataset where age <= 30'''
pd.read_sql_query(sql_query, conn)

Unnamed: 0,median_days_employed
0,1112.0


In [106]:
sql_query = '''select percentile_cont(0.5) WITHIN GROUP (ORDER BY "Days Employed")
            as median_days_employed from hr_dataset where age >30 and age <=50'''
pd.read_sql_query(sql_query, conn)

Unnamed: 0,median_days_employed
0,1291.0


In [107]:
sql_query = '''select percentile_cont(0.5) WITHIN GROUP (ORDER BY "Days Employed")
            as median_days_employed from hr_dataset where age > 50'''
pd.read_sql_query(sql_query, conn)

Unnamed: 0,median_days_employed
0,1238.0


### 3) Есть зависимость между полом сотрудника и качеством работы

In [127]:
sql_query = '''
    select hr.sex, pr."Daily Error Rate" as der
    from hr_dataset hr 
    left join production_staff pr on 
        (hr."Employee Name" = pr."Employee Name") and (hr."Date of Hire" = pr."Date of Hire") and 
        (hr.position = pr."Position")'''
df_4 = pd.read_sql_query(sql_query, conn).fillna(0)
df_4.pivot_table(values='der', index=df_4['sex'], aggfunc=np.mean)

Unnamed: 0_level_0,der
sex,Unnamed: 1_level_1
Female,0.745763
Male,0.413534


In [119]:
sql_query = '''
    select hr.sex, avg(pr."Daily Error Rate") as der
    from hr_dataset hr 
    right join production_staff pr on 
        (hr."Employee Name" = pr."Employee Name")
    group by hr.sex'''
pd.read_sql_query(sql_query, conn)

Unnamed: 0,sex,der
0,,0.0
1,Male,0.6875
2,Female,1.047244


### Вывод:
    Согласно гипозет HR отделу следует более присматриваться к мужчинам (гипотеза 3 о зависимоти 
    количества ежедневных ошибок и полом сотрудника), с семейным положением "marriedid = 0" (согласно гипотезе 1 - "75 к 44"),
    в возрасте младше 30 лет (гипотеза 2 о длительности работы в компании)