# Курсовая работа № 2
## Аналитика. Начальный уровень


Перед вами стоит задача – подготовить аналитический отчет для HR-отдела. На основании проведенной аналитики предполагается составить рекомендации для отдела кадров по стратегии набора персонала, а также по взаимодействию с уже имеющимися сотрудниками.
<br><br> В базе данных лежит набор таблиц, которые содержат данные о сотрудниках вымышленной компании.
Сделайте обзор штата сотрудников компании. Составьте набор предметов исследования, а затем проверьте их на данных. Вся аналитика должна быть выполена с помощью SQL. Впоследствии данные можно визуализировать, однако финальные датафреймы для графиков также должны быть подготовлены с помощью SQL. <br><br>

Примеры гипотез:
1. Есть зависимость между `perfomance score` и тем, под чьим руководством работает сотрудник.
2. Есть зависимость между продолжительностью работы в компании и семейным положением сотрудника.
2. Есть зависимость между продолжительностью работы в компании и возрастом сотрудника.

<br><br>
Параметры для подключения следующие: хост – `dsstudents.skillbox.ru`, порт – `5432`, имя базы данных – `human_resources`, пользователь – `readonly`, пароль – `6hajV34RTQfmxhS`. Таблицы, доступные для анализа, – `hr_dataset`, `production_staff`, `recruiting_costs`, `salary_grid`.

In [1]:
# Импортируем необходимые библиотеки, создаем подключение к базе данных.
import pandas as pd
import matplotlib.pyplot as plt
import sqlalchemy
import psycopg2

conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/human_resources'

engine = sqlalchemy.create_engine(conn)
connect = engine.connect()
inspector = sqlalchemy.inspect(engine)
tables = inspector.get_table_names()
df = pd.read_sql(f"select * from {tables[3]}", connect)
df

Unnamed: 0,id,Position,Salary Min,Salary Mid,Salary Max,Hourly Min,Hourly Mid,Hourly Max
0,1,Administrative Assistant,30000,40000,50000,14.42,19.23,24.04
1,2,Sr. Administrative Assistant,35000,45000,55000,16.83,21.63,26.44
2,3,Accountant I,42274,51425,62299,20.32,24.72,29.95
3,4,Accountant II,50490,62158,74658,24.27,29.88,35.89
4,5,Sr. Accountant,63264,76988,92454,30.42,37.01,44.45
5,6,Network Engineer,50845,66850,88279,24.44,32.14,42.44
6,7,Sr. Network Engineer,79428,99458,120451,38.19,47.82,57.91
7,8,Database Administrator,50569,68306,93312,24.31,32.84,44.86
8,9,Sr. DBA,92863,116007,139170,44.65,55.77,66.91
9,10,Production Technician I,30000,40000,50000,14.42,19.23,24.04


Перед тем, как формировать гипотезы, опишем имеющиеся данные:
* *hr_dataset* и *production_staff* содержат данные о работниках компании: возраст, различные категориальные данные, время работы, источник трудоустройства, отдел, статус занятости, оценка работы и т.д.
* *recruiting_costs* содержит информацию о тратах на различные рекламные площадки.
* *salary_grid* содержит информацию о заработных платах сотрудников на различных должностях.

Изначально проверим гипотезы, указанные в примерах

### Гипотеза: 
  Есть ли зависимость между perfomance score и тем, под чьим руководством работает сотрудник?

In [2]:
df_all_scores = pd.read_sql("""SELECT "Performance Score", COUNT("Performance Score"), "Manager Name" FROM \
production_staff GROUP BY("Manager Name", "Performance Score") ORDER BY "Manager Name" """, connect)
df_all_scores

Unnamed: 0,Performance Score,count,Manager Name
0,PIP,1,Amy Dunn
1,Exceeds,2,Amy Dunn
2,Exceptional,1,Amy Dunn
3,N/A- too early to review,5,Amy Dunn
4,90-day meets,1,Amy Dunn
5,Fully Meets,11,Amy Dunn
6,Exceeds,5,Brannon Miller
7,90-day meets,1,Brannon Miller
8,Fully Meets,8,Brannon Miller
9,Exceptional,2,Brannon Miller


Видно, что основные показатели успешности или не успешности сотрудника - статусы "Fully Meets" вместе с "Exceeds" и "Needs Improvment" вместе с 'PIP'.
Проверим количество сотрудников по каждому из менеджеров по этим показателям.

In [3]:
df_imp = pd.read_sql("""SELECT \
COUNT("Performance Score"),\
COUNT(case "Performance Score" when 'Needs Improvement' then 1 when 'PIP' then 1  else null end) \
as count_of_needs_improvment_or_pip, \
"Manager Name", \
((COUNT(case "Performance Score" when 'Needs Improvement' then 1 \
when 'PIP' then 1 else null end))::float / (COUNT("Performance Score")) * 100) \
as percentage_of_needs_improvment_or_pip FROM production_staff GROUP BY("Manager Name") \
HAVING(COUNT(case "Performance Score" when 'Needs Improvement' then 1 when 'PIP' then 1 else null end) > 0)\
ORDER BY ((COUNT(case "Performance Score" when 'Needs Improvement' then 1 \
when 'PIP' then 1 else null end))::float / (COUNT("Performance Score")) * 100) DESC""", connect)
df_imp

Unnamed: 0,count,count_of_needs_improvment_or_pip,Manager Name,percentage_of_needs_improvment_or_pip
0,21,5,Brannon Miller,23.809524
1,23,4,Michael Albert,17.391304
2,14,2,Elisa Bramante,14.285714
3,21,2,Webster Butler,9.52381
4,22,2,Kissy Sullivan,9.090909
5,21,1,Amy Dunn,4.761905
6,21,1,Ketsia Liebig,4.761905
7,23,1,Elijiah Gray,4.347826


In [4]:
df_meets = pd.read_sql("""SELECT \
COUNT("Performance Score"),\
COUNT(case "Performance Score" when 'Fully Meets' then 1 when 'Exceeds' then 1  else null end) \
as count_of_fully_meets_or_exceeds, \
"Manager Name", \
((COUNT(case "Performance Score" when 'Fully Meets' then 1 \
when 'Exceeds' then 1 else null end))::float / (COUNT("Performance Score")) * 100) \
as percentage_of_fully_meets_or_exceeds FROM production_staff GROUP BY("Manager Name") \
HAVING(COUNT(case "Performance Score" when 'Fully Meets' then 1 when 'Exceeds' then 1 else null end) > 0)\
ORDER BY ((COUNT(case "Performance Score" when 'Fully Meets' then 1 \
when 'Exceeds' then 1 else null end))::float / (COUNT("Performance Score")) * 100) DESC""", connect)
df_imp
df_meets

Unnamed: 0,count,count_of_fully_meets_or_exceeds,Manager Name,percentage_of_fully_meets_or_exceeds
0,14,12,Elisa Bramante,85.714286
1,22,18,Kelley Spirea,81.818182
2,21,16,Ketsia Liebig,76.190476
3,21,16,David Stanley,76.190476
4,23,16,Elijiah Gray,69.565217
5,22,15,Kissy Sullivan,68.181818
6,21,13,Webster Butler,61.904762
7,21,13,Brannon Miller,61.904762
8,21,13,Amy Dunn,61.904762
9,23,12,Michael Albert,52.173913


Как видно из полученных таблиц, менеджеры Michael Albert, Webster Butler, Elisa Bramante имеют 2-3 сотрудника с плохой квалификацией. Однако, у менеждера Elisa Bramante остальные работники полностью удовлетворяют требованиям.
У таких менеджеров как David Stanley и Kelley Spirea даже при большом количестве сотрудников, работающих под их руководством, таких сотрудников нет. Поэтому, можно сказать, что небольшая зависимость между менеджером и Perfomance Score имеется.


### Гипотеза: 
  Есть ли зависимость между продолжительностью работы в компании и семейным положением сотрудника?

In [5]:
df =  pd.read_sql("""SELECT avg("Days Employed"), "marriedid" FROM \
hr_dataset GROUP BY("marriedid") ORDER BY "marriedid" """, connect)
df

Unnamed: 0,avg,marriedid
0,1328.86631,0
1,1246.235772,1


In [6]:
df =  pd.read_sql("""SELECT avg("Days Employed"), "maritalstatusid" FROM \
hr_dataset GROUP BY("maritalstatusid") ORDER BY "maritalstatusid" """, connect)
df

Unnamed: 0,avg,maritalstatusid
0,1372.751825,0
1,1246.235772,1
2,1102.866667,2
3,1703.416667,3
4,863.0,4


Следует, что, если работник имеет статус "разведен", то его продолжительность работы в среднем выше, чем у работников с другим статусом. Также, если работник потерял своего супруга, то он его продолжительность работы в среднем существенно ниже, чем у остальных работников. Если оценивать статус работника как "в браке" или "не в браке", то у работников не в браке продолжительность работы в компании немного больше.

### Гипотеза: 
  Есть ли зависимость между продолжительностью работы в компании и возрастом сотрудника?

In [7]:
df =  pd.read_sql("""(SELECT avg("Days Employed") AS avg_days_employed, \
PERCENTILE_CONT (0.5) WITHIN GROUP (ORDER BY "age") AS MEDIAN_AGE,\
COUNT("age") FROM hr_dataset WHERE "age"<=25)  UNION\
(SELECT avg("Days Employed") AS avg_days_employed, \
PERCENTILE_CONT (0.5) WITHIN GROUP (ORDER BY "age") AS MEDIAN_AGE, \
COUNT("age") FROM hr_dataset WHERE "age">25 and "age"<=35) UNION \
(SELECT avg("Days Employed") AS avg_days_employed, \
PERCENTILE_CONT (0.5) WITHIN GROUP (ORDER BY "age") AS MEDIAN_AGE, \
COUNT("age") FROM hr_dataset WHERE "age">35 and "age"<=45) UNION \
(SELECT avg("Days Employed") AS avg_days_employed, \
PERCENTILE_CONT (0.5) WITHIN GROUP (ORDER BY "age") AS MEDIAN_AGE, \
COUNT("age") FROM hr_dataset WHERE "age">45 and "age"<=55) UNION \
(SELECT avg("Days Employed") AS avg_days_employed, \
PERCENTILE_CONT (0.5) WITHIN GROUP (ORDER BY "age") AS MEDIAN_AGE, \
COUNT("age") FROM hr_dataset WHERE "age">55)""", connect)
df

Unnamed: 0,avg_days_employed,median_age,count
0,1370.62,49.0,50
1,1843.5,25.0,2
2,1347.440367,40.0,109
3,1164.285714,63.0,14
4,1232.562963,31.0,135


Как видно из полученной таблицы, возраст работников в компании начинается с 25 лет, больше всего в среднем работают люди, чей возраст находится в пределах от 45 до 55 лет. Меньше всего те, кому более 55 лет. Также, следует отметить, что медианные значения возрастов групп почти совпадают с их средними значениями для интервалов, следовательно, в компании нет небольших выраженных возрастных групп.

Стоит также проверить следующие утверждения и гипотезы:
* Какой из видов реклам привел в компанию наиболее эффективных сотрудников? Правда ли, что чем больше затраты на рекламу, тем эффективнее сотрудники, трудоустроенные при помощи нее?
* Правда ли, что чем больше затрат на рекламу, тем больше сотрудников пришло в компанию с ее помощью?
* У какого менеджера работники зарабатывают больше? 

### Гипотеза: 
 Какой из видов реклам привел в компанию наиболее эффективных сотрудников? Правда ли, что чем больше затраты на рекламу, тем эффективнее сотрудники, трудоустроенные при помощи нее?

In [8]:
df = pd.read_sql("""SELECT hr_dataset."Employee Source", hr_dataset."Performance Score", recruiting_costs."Total" AS Cost,\
COUNT(hr_dataset."Performance Score") AS Number_of_employees FROM \
hr_dataset JOIN recruiting_costs ON recruiting_costs."Employment Source" = hr_dataset."Employee Source" \
WHERE "Performance Score" = 'Needs Improvement' OR "Performance Score" = 'Fully Meets'\
GROUP BY(hr_dataset."Employee Source", recruiting_costs."Employment Source", hr_dataset."Performance Score", \
recruiting_costs."Total") ORDER BY hr_dataset."Employee Source" """, connect)
df

Unnamed: 0,Employee Source,Performance Score,cost,number_of_employees
0,Billboard,Fully Meets,6192,10
1,Billboard,Needs Improvement,6192,1
2,Careerbuilder,Fully Meets,7790,1
3,Company Intranet - Partner,Fully Meets,0,1
4,Diversity Job Fair,Fully Meets,10021,14
5,Diversity Job Fair,Needs Improvement,10021,3
6,Employee Referral,Fully Meets,0,16
7,Glassdoor,Fully Meets,0,9
8,Glassdoor,Needs Improvement,0,1
9,Information Session,Fully Meets,0,2


Из полученной таблицы можно заметить, что при самых больших затратах на площадку *MBTA ads*, она не привлекла большого количества работников с высокой квалификацией по сравнению с остальными и даже привлекла работников с низкой квалификацией.  
То же самое можно сказать про площадку *Diversity Job Fair*.  

Почти бесполезной при больших затратах оказалась площадка *Careerbuilder*.

Наилучшими площадками по размеру затрат и количеству работников, обладающих высокой квалификацией стали:
* Pay Per Click - Google;  
* Monster.com; 
* Billboard.

Гипотеза о том, что чем больше затрат на рекламную площадку, тем эффективнее приходящие с ее помощью сотрудники не подтвердилась.

### Гипотеза: 
Правда ли, что чем больше затрат на рекламу, тем больше сотрудников пришло в компанию с ее помощью?

In [9]:
df = pd.read_sql("""SELECT hr_dataset."Employee Source", recruiting_costs."Total" AS Cost,\
COUNT(hr_dataset."Performance Score") AS Number_of_employees FROM \
hr_dataset JOIN recruiting_costs ON recruiting_costs."Employment Source" = hr_dataset."Employee Source" \
GROUP BY(hr_dataset."Employee Source", recruiting_costs."Employment Source", \
recruiting_costs."Total") ORDER BY recruiting_costs."Total" """, connect)
df

Unnamed: 0,Employee Source,cost,number_of_employees
0,Company Intranet - Partner,0,1
1,Employee Referral,0,31
2,Glassdoor,0,14
3,Information Session,0,4
4,Internet Search,0,6
5,On-line Web application,0,1
6,Vendor Referral,0,15
7,Word of Mouth,0,13
8,Professional Society,1200,20
9,Pay Per Click,1323,1


Гипотеза о том, что чем больше затрат на рекламную площадку, тем больше сотрудников с ее помощью приходит не подтвердилась.
Стоит проверить по полученным данным, насколько ценные сотрудники приходили в компанию, чтобы понять роль платформы в поиске определенных должностей.

In [10]:
df = pd.read_sql("""SELECT hr_dataset."Employee Source", recruiting_costs."Total" AS Cost,\
COUNT(hr_dataset."Performance Score") AS Number_of_employees, AVG(salary_grid."Salary Mid") as avg_salary FROM \
hr_dataset JOIN recruiting_costs ON recruiting_costs."Employment Source" = hr_dataset."Employee Source" \
JOIN salary_grid ON salary_grid."Position" = hr_dataset."position" \
GROUP BY(hr_dataset."Employee Source", recruiting_costs."Employment Source", \
recruiting_costs."Total") ORDER BY recruiting_costs."Total" """, connect)
df

Unnamed: 0,Employee Source,cost,number_of_employees,avg_salary
0,Company Intranet - Partner,0,1,116007.0
1,Employee Referral,0,25,58110.4
2,Glassdoor,0,13,51674.461538
3,Information Session,0,3,51616.666667
4,Internet Search,0,3,43808.333333
5,On-line Web application,0,1,40000.0
6,Vendor Referral,0,12,73457.083333
7,Word of Mouth,0,13,43076.923077
8,Professional Society,1200,15,42666.666667
9,Pay Per Click,1323,1,40000.0


Из полученной таблицы видно, что искомые должности сотрудников равномерно диверсифицированы по всем рекламным площадкам.

### Гипотеза: 
  Существуют ли менеджеры, у которых работники зарабатывают больше?

In [11]:
df = pd.read_sql("""SELECT AVG("Pay"::numeric), "Manager Name" FROM \
production_staff GROUP BY("Manager Name") ORDER BY AVG("Pay"::numeric) """, connect)
df

Unnamed: 0,avg,Manager Name
0,19.904762,David Stanley
1,20.761818,Kelley Spirea
2,20.783333,Webster Butler
3,21.0,Ketsia Liebig
4,21.125,Kissy Sullivan
5,21.162609,Elijiah Gray
6,21.285714,Amy Dunn
7,21.304348,Michael Albert
8,21.702381,Brannon Miller
9,49.607143,Elisa Bramante


Из полученных данных видно, что работники под руководством Elisa Bramante получают больше остальных более чем в два раза.
Проверим, какие должности занимают ее работники.

In [12]:
df = pd.read_sql("""SELECT "Manager Name", "Position", COUNT("Position") FROM \
production_staff WHERE("Manager Name" = 'Elisa Bramante') GROUP BY("Manager Name","Position")""", connect)
df

Unnamed: 0,Manager Name,Position,count
0,Elisa Bramante,Production Manager,14


Похоже, что она возглавляет команду с высокооплачиваемыми менеджерами.
Однако, это является исключением из общего результата, в целом, средняя зарплата работников не зависит от менеждера.