## Часть первая


Перед вами стоит задача – подготовить аналитический отчет для HR-отдела. На основании проведенной аналитики предполагается составить рекомендации для отдела кадров по стратегии набора персонала, а также по взаимодействию с уже имеющимися сотрудниками.
<br><br> В базе данных лежит набор таблиц, которые содержат данные о сотрудниках вымышленной компании.
Сделайте обзор штата сотрудников компании. Составьте набор предметов исследования, а затем проверьте их на данных. Вся аналитика должна быть выполена с помощью SQL. Впоследствии данные можно визуализировать, однако финальные датафреймы для графиков также должны быть подготовлены с помощью SQL. <br><br>

Примеры гипотез:
1. Есть зависимость между `perfomance score` и тем, под чьим руководством работает сотрудник.
2. Есть зависимость между продолжительностью работы в компании и семейным положением сотрудника.
2. Есть зависимость между продолжительностью работы в компании и возрастом сотрудника.

<br><br>
Параметры для подключения следующие: хост – `dsstudents.skillbox.ru`, порт – `5432`, имя базы данных – `human_resources`, пользователь – `readonly`, пароль – `6hajV34RTQfmxhS`. Таблицы, доступные для анализа, – `hr_dataset`, `production_staff`, `recruiting_costs`, `salary_grid`.

In [2]:
import sqlalchemy
import psycopg2
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/human_resources'

engine = sqlalchemy.create_engine(conn)
connect = engine.connect()

### Есть ли зависимость perfomance score и тем, под чьим руководством работает сотрудник, в процентном отношении от размера команды, для команд больше 20 человек

In [18]:
data = pd.read_sql(""" select *, cast( (cast((cnt_empl) as numeric(9,2)) / cast((cnt_total) as numeric(9,2))*100) as numeric(9,2) ) as "percentage" from 
(
select "Manager Name" as "mn", "Performance Score" as "ps", count("Employee Name") as "cnt_empl",
(select count(*) from hr_dataset as hr1 where hr1."Manager Name" = hr."Manager Name" ) as "cnt_total"
from hr_dataset as hr
group by "Manager Name", "Performance Score"  
order by "Manager Name"
) as "qq"
where qq.cnt_total>20
order by "ps"
 """, connect)
data

Unnamed: 0,mn,ps,cnt_empl,cnt_total,percentage
0,David Stanley,90-day meets,1,21,4.76
1,Webster Butler,90-day meets,3,21,14.29
2,Michael Albert,90-day meets,1,22,4.55
3,Kissy Sullivan,90-day meets,3,22,13.64
4,Amy Dunn,90-day meets,1,21,4.76
5,Ketsia Liebig,90-day meets,2,21,9.52
6,Kelley Spirea,90-day meets,3,22,13.64
7,Elijiah Gray,90-day meets,3,22,13.64
8,Brannon Miller,90-day meets,1,21,4.76
9,Michael Albert,Exceeds,2,22,9.09


Есть менеджереры, у которых сотрудники работают очень хорошо. А есть наоборот. Волучется, что зависимоть естью

### Есть ли зависимость между продолжительностью работы в компании и семейным положением сотрудника.

In [3]:
data = pd.read_sql("""select maritaldesc, max("Days Employed"),
                        min("Days Employed"), cast(avg("Days Employed") as int), count("Employee Name") from hr_dataset
                        group by maritaldesc 
                        order by avg""", connect)
data

Unnamed: 0,maritaldesc,max,min,avg,count
0,Widowed,1602,2,863,8
1,Divorced,2686,8,1103,30
2,Married,3611,2,1246,123
3,Single,3674,8,1373,137
4,Separated,4339,905,1703,12


Скорее всего овдовевших и разведённых слишком млао, чтобы делать выводы. Но кажется, что одинокие работают в среднем на 4 месяца больше.

### Есть ли зависимость между продолжительностью работы в компании и возрастом сотрудника.

In [19]:
data = pd.read_sql("""select "age", avg("Days Employed") / 365 as year from hr_dataset
                        group by "age"
                        order by "year" desc""",connect)
data.head()

Unnamed: 0,age,year
0,50,5.631963
1,49,5.465753
2,25,5.050685
3,40,4.682534
4,58,4.479452


Возможно более старые люди работают больше в компании, потому что при увольнении им будет сложнее найти работу. И расставаться с фиксированным источником заработка они не хотят

### Есть ли зависимомть между возрастом сотрудника и его заработной платой

In [4]:
data = pd.read_sql(""" select "age group", count("Employee Name"), cast((cast(avg("Days Employed") as numeric(9,2)) / 365) as numeric(9,2)) as "year" from
(select cast("age" as numeric(9,2)), "Days Employed", "Employee Name",
case
    when "age" >= 25 and  "age" <= 30 then '25-30'
    when "age" >= 31 and  "age" <= 35 then '31-35'
    when "age" >= 36 and  "age" <= 40 then '36-40'
    when "age" >= 41 and  "age" <= 45 then '41-45'
    when "age" >= 46 and  "age" <= 50 then '46-50'
    else '51+'
end as "age group"
from hr_dataset) as "qq" 
group by "age group" """, connect)
data.head()

Unnamed: 0,age group,count,year
0,41-45,50,3.46
1,25-30,51,3.52
2,36-40,59,3.89
3,31-35,86,3.33
4,46-50,29,3.97


Все 5 возрастных групп работабт в компании примерно одинаковое количество времени. Это 3,5 года

### Количество работников по расам 

In [8]:
data = pd.read_sql("""select racedesc, count("Employee Name") from hr_dataset group by racedesc order by count desc""", connect)
data

Unnamed: 0,racedesc,count
0,White,193
1,Black or African American,57
2,Asian,34
3,Two or more races,18
4,American Indian or Alaska Native,4
5,Hispanic,4


Эту компанию можно назвать мультикультурной

### Влияет ли раса на размер оплаты труда

In [11]:
data = pd.read_sql(""" select "Race Desc", min("Pay"), max("Pay"),
                            cast(avg(cast("Pay" as decimal)) as int), count("Employee Name")
                            from production_staff 
                            where "Race Desc" is not null
                            group by "Race Desc" 
                            order by "avg" desc """, connect)
data

Unnamed: 0,Race Desc,min,max,avg,count
0,Hispanic,$17.00,$53.00,32,3
1,Asian,$14.00,$50.50,23,22
2,White,$14.00,$55.00,23,140
3,Black or African American,$14.00,$55.00,23,31
4,American Indian or Alaska Native,$16.00,$27.00,22,3
5,Two or more races,$14.00,$25.00,19,10


Количество испанцев, индейцев и людей с двумя или более расами слишком мало, чтобы делать какие-либо выводы. А все остальные получают одинаковую среднюю зарплату.

### Есть ли различие в зарлпатах между мужчинами и женщинами

In [14]:
data = pd.read_sql(""" select "sex", avg("Pay Rate") from
(
select * from hr_dataset left join production_staff on hr_dataset."Employee Name" = production_staff."Employee Name" 
) as "qq"
group by "sex" 
order by "avg" desc """, connect)
data

Unnamed: 0,sex,avg
0,Male,33.697143
1,Female,29.472147


Мужчины в этой компании зарабатывают больше чем женщины

### Зависит ли от менеджера время работы сотрудников?

In [33]:
data = pd.read_sql(""" select * from
(select "Manager Name", cast( ( avg("Days Employed") / 365) as numeric(9,2) ) as "year", count("Employee Name") from hr_dataset as "hd"
group by "Manager Name"
order by "year" desc
) as "qq"
where qq."count" > 10 """, connect)
data

Unnamed: 0,Manager Name,year,count
0,Lynn Daneault,4.87,13
1,Janet King,4.44,19
2,John Smith,4.38,14
3,Brannon Miller,4.36,21
4,Ketsia Liebig,4.08,21
5,Kelley Spirea,3.8,22
6,Elijiah Gray,3.76,22
7,David Stanley,3.75,21
8,Webster Butler,3.08,21
9,Michael Albert,3.01,22


В компании есть менеджеры, подчинённые которых работают в компании долго, а есть менеджеры, у которых мало

### Причины увольнения сотрудников у каждого менеджера

In [12]:
data = pd.read_sql(""" select "Manager Name", "Reason For Term" from hr_dataset group by "Manager Name", "Reason For Term" order by "Manager Name" """, connect)
data

Unnamed: 0,Manager Name,Reason For Term
0,Alex Sweetwater,Another position
1,Alex Sweetwater,N/A - still employed
2,Alex Sweetwater,attendance
3,Alex Sweetwater,medical issues
4,Amy Dunn,more money
...,...,...
99,Webster Butler,retiring
100,Webster Butler,N/A - still employed
101,Webster Butler,career change
102,Webster Butler,return to school


Нет никакой зависимости

### Есть ли расовое раздление на должностях?

In [13]:
data = pd.read_sql(""" select racedesc, department, count("Employee Name") from hr_dataset group by racedesc, department order by "count" """, connect)
data

Unnamed: 0,racedesc,department,count
0,White,Executive Office,1
1,Asian,Sales,1
2,American Indian or Alaska Native,Sales,1
3,Hispanic,IT/IS,1
4,Asian,Admin Offices,2
5,Asian,Software Engineering,2
6,Two or more races,IT/IS,2
7,American Indian or Alaska Native,Production,3
8,Hispanic,Production,3
9,Black or African American,Software Engineering,3


На всех специальностях сохраняется мультикультурность, но сущесвует большой перевес в сторону белых в Production

### Есть ли зависимоть между способом нахождения работы, средней зарплатой и сроком роботы?

In [4]:
data = pd.read_sql(""" select "Employee Source", count("Name"), cast(avg(cast("Pay" as decimal)) as numeric(9,2)) as "Pay",
cast(cast(avg(cast("Days Employed" as decimal))as numeric(9,2)) / cast(365 as numeric(9,2)) as numeric(9,2)) as "Year" from 
(
select * from 
(
select "Employee Name" as "Name", "Employee Source", "Days Employed" from hr_dataset
) as "qq"
join production_staff on qq."Name" = production_staff."Employee Name" 
) as "data"
group by data."Employee Source"
order by "Pay" desc """, connect)
data

Unnamed: 0,Employee Source,count,Pay,Year
0,Internet Search,4,31.44,3.66
1,Website Banner Ads,4,28.25,3.79
2,Vendor Referral,6,27.54,2.91
3,Other,5,27.4,3.21
4,Employee Referral,16,27.05,3.75
5,Careerbuilder,1,26.0,6.65
6,Pay Per Click - Google,11,25.73,3.61
7,Billboard,13,24.83,4.34
8,Monster.com,16,23.16,4.2
9,Search Engine - Google Bing Yahoo,23,22.87,3.72


Люди прришедшие через интернет получают самую высокую зарплату, но при этом дольше всего работают люди, которые нашли нас через рекламу

### Сколько максмально людей пришли на должность одним способом?

In [9]:
data = pd.read_sql(""" select distinct on ("position")
"position", "Employee Source", max("count") from 
(select "position", "Employee Source", count("Employee Name") from hr_dataset
group by "position", "Employee Source" 
order by "count" desc) as "qq"
group by "position", "Employee Source" """, connect)
data

Unnamed: 0,position,Employee Source,max
0,Accountant I,Diversity Job Fair,1
1,Administrative Assistant,Diversity Job Fair,1
2,Area Sales Manager,Billboard,2
3,BI Developer,Indeed,4
4,BI Director,Professional Society,1
5,CIO,Employee Referral,1
6,Data Architect,Indeed,1
7,Database Administrator,Diversity Job Fair,1
8,Director of Operations,Other,1
9,Director of Sales,MBTA ads,1


Никакой зависимости нет, а всё распрелено равномерно