# Аналитический отчет

Перед нами стоит задача – подготовить аналитический отчет для HR-отдела. На основании проведенной аналитики предполагается составить рекомендации для отдела кадров по стратегии набора персонала, а также по взаимодействию с уже имеющимися сотрудниками.

В базе данных лежит набор таблиц, которые содержат данные о сотрудниках вымышленной компании. Сделайте обзор штата сотрудников компании. Составьте набор предметов исследования, а затем проверьте их на данных. Вся аналитика должна быть выполена с помощью SQL. Впоследствии данные можно визуализировать, однако финальные датафреймы для графиков также должны быть подготовлены с помощью SQL.

## Содержание


[1. Введение](##1.-Введение)<br>
    [Краткое описание задачи и цели аналитического отчета](###-Краткое-описание-задачи-и-цели-аналитического-отчета.)<br>
    [Обзор доступных данных и используемых таблиц](###-Обзор-доступных-данных-и-используемых-таблиц.)<br>
[2. Исследование зависимостей метрик эффективности от возраста сотрудника](##2.-Исследование-зависимостей-метрик-эффективности-от-возраста-сотрудника)<br>
    [Выбранные метрики](###-Выбранные-метрики.)<br>
    [Выводы и рекомендации для HR-отдела](###-Выводы-и-рекомендации-для-HR-отдела.)<br>
<!-- - [3. Исследование зависимостей метрик эффективности от пола сотрудника](##3.-Исследование-зависимостей-метрик-эффективности-от-пола-сотрудника)
- [4. Определение зависимостей ключевых метрик эффективности с семейным положением сотрудников](##4.-Определение-зависимостей-ключевых-метрик-эффективности-с-семейным-положением-сотрудников)
- [5. Определение зависимостей ключевых метрик с расовым типом, происхождением сотрудников, виду гражданства](##5.-Определение-зависимостей-ключевых-метрик-с-расовым-типом,-происхождением-сотрудников,-виду-гражданства)
- [6. Рекомендации по выбору сотрудников](##6.-Рекомендации-по-выбору-сотрудников)
- [7. Аналитика отделов компании](##7.-Аналитика-отделов-компании)
- [8. Заключение](##8.-Заключение) -->

## 1. Введение

### Краткое описание задачи и цели аналитического отчета.

Задача данного аналитического отчета состоит в проведении исследования штата сотрудников вымышленной компании с целью предоставления рекомендаций для HR-отдела. Цель отчета заключается в выявлении зависимостей между различными факторами (возрастом, полом, семейным положением, расовым типом, происхождением, видом гражданства) и метриками эффективности сотрудников.

Анализируя имеющиеся данные в базе данных компании и используя SQL-запросы, мы проведем исследования, чтобы:

- Определить, как возраст сотрудников влияет на их эффективность и производительность.
- Исследовать, существуют ли различия в метриках эффективности между мужчинами и женщинами.
- Выявить связи между семейным положением сотрудников и их эффективностью.
- Определить, существуют ли различия в метриках эффективности в зависимости от расового типа, происхождения и вида гражданства.

На основе результатов анализа каждого исследования мы предоставим рекомендации HR-отделу компании относительно стратегии набора персонала и улучшения взаимодействия с уже имеющимися сотрудниками. Все аналитические выводы и рекомендации будут подтверждены с помощью данных, а финальные датафреймы для графиков и визуализации также будут подготовлены с использованием SQL-запросов.

### Обзор доступных данных и используемых таблиц.

In [1]:
# импорт необходимых библиотек
import psycopg2
from sqlalchemy import create_engine
import pandas as pd

import plotly.express as px
import plotly.graph_objs as go
import plotly.offline as py_offline
py_offline.init_notebook_mode(connected=True)

In [2]:
# параметры подключения
params = {
    'host': 'dsstudents.skillbox.ru',
    'port': 5432,
    'dbname': 'human_resources',
    'user': 'readonly',
    'password': '6hajV34RTQfmxhS'
}

# создание строки подключения
conn_string = (
    f'postgresql://{params["user"]}:{params["password"]}@'
    f'{params["host"]}:{params["port"]}/{params["dbname"]}'
)

# создание движка SQLAlchemy
engine = create_engine(conn_string)

# подключение к базе данных с помощью движка
conn = engine.connect()

# доступные таблицы для чтения
table_schema = '''
    SELECT table_name 
    FROM information_schema.tables 
    WHERE table_schema='public';
'''

result = conn.execute(table_schema)
reading_tables = [row[0] for row in result.fetchall()]
reading_tables

['hr_dataset', 'production_staff', 'recruiting_costs', 'salary_grid']

In [3]:
pd.set_option('display.max_columns', None)

In [4]:
# просмотр таблицы hr_dataset
pd.read_sql_query('''SELECT * FROM hr_dataset''', conn)

Unnamed: 0,id,Employee Name,Employee Number,marriedid,maritalstatusid,genderid,empstatus_id,deptid,perf_scoreid,age,Pay Rate,state,zip,dob,sex,maritaldesc,citizendesc,Hispanic/Latino,racedesc,Date of Hire,Days Employed,Date of Termination,Reason For Term,Employment Status,department,position,Manager Name,Employee Source,Performance Score
0,1,"Brown, Mia",1103024456,1,1,0,1,1,3,30,28.50,MA,1450,1987-11-24,Female,Married,US Citizen,No,Black or African American,2008-10-27,3317,,N/A - still employed,Active,Admin Offices,Accountant I,Brandon R. LeBlanc,Diversity Job Fair,Fully Meets
1,2,"LaRotonda, William",1106026572,0,2,1,1,1,3,34,23.00,MA,1460,1984-04-26,Male,Divorced,US Citizen,No,Black or African American,2014-01-06,1420,,N/A - still employed,Active,Admin Offices,Accountant I,Brandon R. LeBlanc,Website Banner Ads,Fully Meets
2,3,"Steans, Tyrone",1302053333,0,0,1,1,1,3,31,29.00,MA,2703,1986-09-01,Male,Single,US Citizen,No,White,2014-09-29,1154,,N/A - still employed,Active,Admin Offices,Accountant I,Brandon R. LeBlanc,Internet Search,Fully Meets
3,4,"Howard, Estelle",1211050782,1,1,0,1,1,9,32,21.50,MA,2170,1985-09-16,Female,Married,US Citizen,No,White,2015-02-16,58,2015-04-15,N/A - still employed,Active,Admin Offices,Administrative Assistant,Brandon R. LeBlanc,Pay Per Click - Google,N/A- too early to review
4,5,"Singh, Nan",1307059817,0,0,0,1,1,9,30,16.56,MA,2330,1988-05-19,Female,Single,US Citizen,No,White,2015-05-01,940,,N/A - still employed,Active,Admin Offices,Administrative Assistant,Brandon R. LeBlanc,Website Banner Ads,N/A- too early to review
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
305,306,"Navathe, Kurt",1009919960,0,0,1,1,3,3,48,52.25,MA,2056,1970-04-25,Male,Single,US Citizen,No,Asian,2017-02-10,289,,N/A - still employed,Active,IT/IS,Senior BI Developer,Brian Champaigne,Indeed,Fully Meets
306,307,"Wang, Charlie",1009919970,0,0,1,1,3,3,36,51.00,MA,1887,1981-07-08,Male,Single,US Citizen,No,Asian,2017-02-15,284,,N/A - still employed,Active,IT/IS,Senior BI Developer,Brian Champaigne,Indeed,Fully Meets
307,308,"Smith, Jason",1009919980,0,0,1,1,3,3,34,46.00,MA,2045,1983-09-04,Male,Single,US Citizen,No,White,2017-02-15,284,,N/A - still employed,Active,IT/IS,BI Developer,Brian Champaigne,Indeed,Fully Meets
308,309,"Westinghouse, Matthew",1009919990,1,1,1,1,3,3,30,45.00,MA,2134,1987-10-24,Male,Married,US Citizen,No,White,2017-04-20,220,,N/A - still employed,Active,IT/IS,BI Developer,Brian Champaigne,Indeed,Fully Meets


In [5]:
# просмотр таблицы production_staff
pd.read_sql_query('''SELECT * FROM production_staff''', conn)

Unnamed: 0,id,Employee Name,Race Desc,Date of Hire,TermDate,Reason for Term,Employment Status,Department,Position,Pay,Manager Name,Performance Score,Abutments/Hour Wk 1,Abutments/Hour Wk 2,Daily Error Rate,90-day Complaints
0,1,"Albert, Michael",White,2011-08-01,,N/A - still employed,Active,Production,Production Manager,$54.50,Elisa Bramante,Fully Meets,0.0,0.0,0.0,0.0
1,2,"Bozzi, Charles",Asian,2013-09-30,2014-08-07,retiring,Voluntarily Terminated,Production,Production Manager,$50.50,Elisa Bramante,Fully Meets,0.0,0.0,0.0,0.0
2,3,"Butler, Webster L",White,2016-01-28,,N/A - still employed,Active,Production,Production Manager,$55.00,Elisa Bramante,Exceeds,0.0,0.0,0.0,0.0
3,4,"Dunn, Amy",White,2014-09-18,,N/A - still employed,Active,Production,Production Manager,$51.00,Elisa Bramante,Fully Meets,0.0,0.0,0.0,0.0
4,5,"Gray, Elijiah",White,2015-06-02,,N/A - still employed,Active,Production,Production Manager,$54.00,Elisa Bramante,Fully Meets,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
251,252,,,,,,,,,,,,,,,
252,253,,,,,,,,,,,,,,,
253,254,,,,,,,,,,,,,,,
254,255,,,,,,,,,,,,,,,


In [6]:
# просмотр таблицы recruiting_costs
pd.read_sql_query('''SELECT * FROM recruiting_costs''', conn)

Unnamed: 0,id,Employment Source,January,February,March,April,May,June,July,August,September,October,November,December,Total
0,1,Billboard,520,520,520,520,0,0,612,612,729,749,910,500,6192
1,2,Careerbuilder,410,410,410,820,820,410,410,820,820,1230,820,410,7790
2,3,Company Intranet - Partner,0,0,0,0,0,0,0,0,0,0,0,0,0
3,4,Diversity Job Fair,0,5129,0,0,0,0,0,4892,0,0,0,0,10021
4,5,Employee Referral,0,0,0,0,0,0,0,0,0,0,0,0,0
5,6,Glassdoor,0,0,0,0,0,0,0,0,0,0,0,0,0
6,7,Information Session,0,0,0,0,0,0,0,0,0,0,0,0,0
7,8,Internet Search,0,0,0,0,0,0,0,0,0,0,0,0,0
8,9,MBTA ads,640,640,640,640,640,640,640,1300,1300,1300,1300,1300,10980
9,10,Monster.com,500,500,500,440,500,500,440,500,440,440,500,500,5760


In [7]:
# просмотр таблицы salary_grid
pd.read_sql_query('''SELECT * FROM salary_grid''', conn)

Unnamed: 0,id,Position,Salary Min,Salary Mid,Salary Max,Hourly Min,Hourly Mid,Hourly Max
0,1,Administrative Assistant,30000,40000,50000,14.42,19.23,24.04
1,2,Sr. Administrative Assistant,35000,45000,55000,16.83,21.63,26.44
2,3,Accountant I,42274,51425,62299,20.32,24.72,29.95
3,4,Accountant II,50490,62158,74658,24.27,29.88,35.89
4,5,Sr. Accountant,63264,76988,92454,30.42,37.01,44.45
5,6,Network Engineer,50845,66850,88279,24.44,32.14,42.44
6,7,Sr. Network Engineer,79428,99458,120451,38.19,47.82,57.91
7,8,Database Administrator,50569,68306,93312,24.31,32.84,44.86
8,9,Sr. DBA,92863,116007,139170,44.65,55.77,66.91
9,10,Production Technician I,30000,40000,50000,14.42,19.23,24.04


## 2. Исследование зависимостей метрик эффективности от возраста сотрудника

### Выбранные метрики.

В рамках исследования зависимостей метрик эффективности от возраста сотрудника мы можем рассмотреть следующие метрики:

- Зависимость средней продолжительности работы от возраста.
- Зависимость количества увольнений от возраста в процентах.
- Зависимость количества увольнений по группам возрастов.
- Зависимость причины увольнения от возраста.
- Зависимость среднего рейтинга от возраста.

#### Зависимость средней продолжительности работы от возраста.

In [36]:
age_avg_days = pd.read_sql_query('''
    SELECT age, AVG("Days Employed"), AVG(perf_scoreid) AS perf 
    FROM hr_dataset 
    WHERE perf_scoreid != 0 AND perf_scoreid != 9
    GROUP BY age
    ORDER BY age
''', conn)

age_avg_days.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38
age,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0,35.0,36.0,37.0,38.0,39.0,40.0,41.0,42.0,43.0,44.0,45.0,46.0,47.0,48.0,49.0,50.0,51.0,52.0,53.0,54.0,55.0,56.0,58.0,59.0,62.0,63.0,65.0,66.0,67.0
avg,1843.5,794.0,1690.75,1215.142857,1907.166667,1194.181818,1554.266667,1419.444444,1186.071429,1121.214286,1728.777778,1582.111111,1308.285714,1439.3,1475.75,1721.666667,1585.125,1535.857143,1251.222222,1579.666667,1352.2,299.333333,1384.5,1454.0,2165.5,2828.5,1743.75,1221.75,940.25,1465.0,1196.0,1420.0,1635.0,1350.0,98.0,1396.333333,927.5,1112.0,1414.5
perf,3.0,3.0,2.75,2.857143,3.333333,2.909091,2.933333,2.888889,3.142857,3.071429,3.333333,3.0,3.0,3.1,3.0,3.0,3.25,2.714286,2.888889,2.833333,3.3,3.0,3.166667,3.625,2.666667,3.5,2.75,3.25,2.5,3.2,3.0,3.0,4.0,3.5,3.0,3.0,3.0,3.0,3.0


In [59]:
fig = px.scatter(
    age_avg_days,
    x="age",
    y="avg",
    color="perf",
    trendline="rolling",
    trendline_options=dict(function="median", window=2),
    title="Зависимость средней продолжительности работы от возраста",
    labels={"age": "Возраст, лет",
            "avg": "Среднее кол-во дней",
            "perf": "Производительность"}
)
fig.show()

- Возраст сотрудников оказывает влияние на их среднюю продолжительность работы. Наблюдается общая тенденция: с увеличением возраста средняя продолжительность работы также увеличивается. Например, сотрудники в возрасте 25 лет имеют среднюю продолжительность работы около 1843.5 дней, в то время как сотрудники в возрасте 50 лет имеют среднюю продолжительность работы около 2828.5 дней. Это может быть связано с тем, что сотрудники, находящиеся в старшем возрасте, обладают большим опытом и стабильностью, что способствует более длительному трудоустройству.<br><br>

- Средняя оценка производительности также имеет зависимость от возраста. Наблюдается некоторое изменение средней оценки производительности с увеличением возраста. Например, сотрудники в возрасте 25 лет имеют среднюю оценку производительности около 3.0, в то время как сотрудники в возрасте 50 лет имеют среднюю оценку производительности около 3.5. Это может указывать на то, что сотрудники старшего возраста могут обладать более высоким уровнем опыта и квалификации, что отражается в их производительности.

#### Зависимость количества увольнений от возраста в процентах.

In [14]:
age_term = pd.read_sql_query('''
    SELECT age, COUNT("Date of Termination") / (COUNT("Employee Number") * 1.0) * 100 AS percents, 
    COUNT("Employee Number")
    FROM hr_dataset 
    GROUP BY age
    ORDER BY age
''', conn)

age_term.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38
age,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0,35.0,36.0,37.0,38.0,39.0,40.0,41.0,42.0,43.0,44.0,45.0,46.0,47.0,48.0,49.0,50.0,51.0,52.0,53.0,54.0,55.0,56.0,58.0,59.0,62.0,63.0,65.0,66.0,67.0
percents,0.0,50.0,20.0,25.0,20.0,40.0,32.0,41.666667,35.294118,36.842105,23.076923,38.461538,37.5,16.666667,22.222222,25.0,33.333333,12.5,44.444444,44.444444,58.333333,66.666667,33.333333,30.0,14.285714,33.333333,20.0,20.0,60.0,40.0,0.0,0.0,100.0,50.0,100.0,33.333333,100.0,50.0,50.0
count,2.0,2.0,5.0,12.0,15.0,15.0,25.0,12.0,17.0,19.0,13.0,13.0,8.0,12.0,18.0,8.0,12.0,8.0,9.0,9.0,12.0,3.0,6.0,10.0,7.0,3.0,5.0,5.0,5.0,5.0,1.0,1.0,1.0,2.0,1.0,3.0,2.0,2.0,2.0


In [60]:
fig = px.scatter(
    age_term,
    x="age",
    y="percents",
    size="count",
    trendline="rolling",
    trendline_options=dict(function="median", window=2),
    title="Зависимость кол-ва увольнений от возраста в процентах",
    labels={"age": "Возраст, лет",
            "percents": "Процент",
            "count": "Кол-во"}
)
fig.show()

- Процент увольнений варьируется в зависимости от возраста сотрудников. Общая тенденция показывает, что сотрудники молодого и пожилого возраста имеют более низкий процент увольнений, в то время как процент увольнений достигает пиковой точки для некоторых возрастных групп.<br><br>

- Сотрудники в возрасте 25, 55 и 56 лет не имеют увольнений (процент увольнений равен 0%). Это может указывать на то, что эти возрастные группы имеют высокую стабильность в работе и склонность к долгосрочному трудоустройству.<br><br>

- Существуют некоторые возрастные группы с высоким процентом увольнений. Например, сотрудники в возрасте 26 лет - 50% увольнений, сотрудники в возрасте 45-46 лет имеют 58.33-66.67%, и сотрудники в возрасте 53 лет - 60%. Это может указывать на наличие факторов, таких как изменение карьерных планов, поиск новых возможностей или несоответствие между ожиданиями сотрудников и условиями работы.<br><br>

- У сотрудников в возрасте 58, 62 и 65 лет наблюдается 100% увольнений, это может указывать на определенные особенности или причины, связанные с этими возрастными группами. Пенсионирование, социальные факторы или здоровье и способности.

#### Количество увольнений по группам возрастов.

Создадим условные группы возрастов для мужчин и женщин и посчитаем количество увольнений в каждой из них.

In [38]:
data_group_age_male = pd.read_sql_query('''
    SELECT 
        CASE 
            WHEN age < 35 THEN '25-34'
            WHEN age >= 35 AND age < 45 THEN '35-44'
            WHEN age >= 45 AND age < 55 THEN '45-54'
            WHEN age >= 55 AND age < 65 THEN '55-64'
            ELSE '65 и выше' 
        END AS group_age, 
        COUNT("Date of Termination") / (COUNT("Employee Number") * 1.0) * 100 AS percents
    FROM hr_dataset
    WHERE genderid = 1
    GROUP BY group_age
    ORDER BY group_age
''', conn)

data_group_age_male

Unnamed: 0,group_age,percents
0,25-34,32.0
1,35-44,30.188679
2,45-54,34.615385
3,55-64,50.0


In [37]:
data_group_age_female = pd.read_sql_query('''
    SELECT 
        CASE 
            WHEN age < 35 THEN '25-34'
            WHEN age >= 35 AND age < 45 THEN '35-44'
            WHEN age >= 45 AND age < 55 THEN '45-54'
            WHEN age >= 55 AND age < 65 THEN '55-64'
            ELSE '65 и выше' 
        END AS group_age, 
        COUNT("Date of Termination") / (COUNT("Employee Number") * 1.0) * 100 AS percents
    FROM hr_dataset
    WHERE genderid = 0
    GROUP BY group_age
    ORDER BY group_age
''', conn)

data_group_age_female

Unnamed: 0,group_age,percents
0,25-34,32.432432
1,35-44,28.070175
2,45-54,40.0
3,55-64,40.0
4,65 и выше,66.666667


In [61]:
trace_male = go.Bar(
    x=data_group_age_male.group_age,
    y=data_group_age_male.percents,
    name="male"
)

trace_female = go.Bar(
    x=data_group_age_female.group_age,
    y=data_group_age_female.percents,
    name="female"
)

data = [trace_male, trace_female]

layout = go.Layout(
    title="Количество увольнений по группам возрастов и полу",
    xaxis=dict(title="Группы возрастов"),
    yaxis=dict(title="Количество увольнений в процента")
)

fig = go.Figure(data=data, layout=layout)
fig.show()

- Распределение увольнений по группам возрастов у мужчин и женщин схоже: Обе группы имеют наибольшее количество увольнений в возрастных группах 45-54 и 55-64 лет. Это может указывать на некоторую схожесть факторов, влияющих на прекращение трудовых отношений в этих возрастных диапазонах независимо от пола.<br><br>

- Молодые возрастные группы имеют сравнимое количество увольнений: Группы возрастов 25-34 лет у мужчин и женщин имеют примерно одинаковый процент увольнений (около 32%). Это может указывать на общие вызовы или факторы, связанные с ранней карьерой и стабильностью занятости в этой возрастной группе.<br><br>

- Возрастная группа 65 и выше имеет высокий процент увольнений у женщин: Возрастная группа 65 и выше у женщин имеет наивысший процент увольнений (66.7%) по сравнению с другими возрастными группами. Это может быть связано с факторами, такими как пенсионирование или ограничения, связанные с возрастом, которые влияют на продолжительность работы женщин в этой возрастной группе.<br><br>

- Группы возрастов 35-44 и 45-54 имеют средний процент увольнений: Обе группы возрастов показывают средний процент увольнений (около 30-40%). Это может отражать ситуации, связанные с изменениями в карьерных планах, потребностями семьи, профессиональным развитием или другими факторами, влияющими на увольнение в этом возрастном диапазоне.

#### Зависимость причины увольнения от возраста.

Отсеем причины увольнений независящие от сотрудников:
- retiring - уход на пенсию
- medical issues - состояние здоровья
- military - военный призыв

In [39]:
age_term_reason = pd.read_sql_query('''
    SELECT 
        "Reason For Term",
        AVG("age") AS avg,
        COUNT("Employee Number") * 100.0 / (SELECT COUNT("Employee Number") FROM hr_dataset) AS count 
    FROM hr_dataset
    WHERE "Reason For Term" NOT IN ('N/A - still employed',
                                    'N/A - Has not started yet',
                                    'retiring',
                                    'medical issues',
                                    'military')
    GROUP BY "Reason For Term" 
    ORDER BY count DESC 
''', conn)

age_term_reason

Unnamed: 0,Reason For Term,avg,count
0,Another position,42.1,6.451613
1,unhappy,41.0,4.516129
2,more money,41.363636,3.548387
3,career change,38.888889,2.903226
4,hours,41.222222,2.903226
5,attendance,38.428571,2.258065
6,return to school,37.0,1.612903
7,relocation out of area,41.6,1.612903
8,performance,35.0,1.290323
9,"no-call, no-show",35.333333,0.967742


In [57]:
fig = px.bar(
    age_term_reason,
    x="count",
    y=age_term_reason["Reason For Term"],
    color="avg",
    orientation="h",
    height=800,
    title="Процентное соотношение количества увольнений в зависимости от причины увольнения",
    labels={"count": "Процентное соотношение количества случаев увольнений",
            "avg": "Средний возраст",
            "Reason For Term": "Причины увольнения"}
)
fig.show()

- Карьерные аспекты: Возраст около 42 лет является периодом, когда сотрудники чаще принимают решение об изменении должности (Another position). Это может быть связано со стремлением к профессиональному развитию, переходу на более высокие позиции или иным изменениям в карьерном плане. Уровень увольнений по этой причине составляет около 6.45%.<br><br>

- Недовольство и некомфортные условия работы: Возраст около 41 лет связан с повышенным риском увольнений по причине недовольства (Unhappy) или неудовлетворительных рабочих условий (Hours). Это может указывать на важность удовлетворенности работой и обстановкой для сотрудников в этом возрасте. Уровень увольнений по этим причинам составляет примерно 4.52% и 2.9% соответственно.<br><br>

- Финансовые мотивы: Сотрудники в возрасте около 41 лет чаще увольняются из-за перехода на более высокооплачиваемую должность (More money). Это может свидетельствовать о стремлении к повышению дохода и улучшению финансового положения. Доля увольнений по этой причине составляет около 3.55%.<br><br>

- Изменение карьеры: Возраст около 38 лет связан с увольнениями из-за смены карьеры (Career change). Это может указывать на переосмысление профессиональных целей и стремление к более подходящей карьере или сфере деятельности. Уровень увольнений по этой причине составляет около 2.9%.<br><br>

Таким образом, данные свидетельствуют о том, что возрастные группы около 41 и 42 лет имеют повышенную активность в плане увольнений по различным причинам. Это может быть связано с различными факторами, такими как карьерные амбиции, неудовлетворенность, финансовые мотивы или потребность в изменении профессиональной траектории.

#### Зависимость среднего рейтинга от возраста.

Посмотрим на ранжирование рейтинговых оценок по соответствию "perf_scoreid" с "Performance Score".

In [40]:
pd.read_sql_query('''
    SELECT DISTINCT "perf_scoreid", "Performance Score" 
    FROM hr_dataset 
    ORDER BY perf_scoreid
''', conn)

Unnamed: 0,perf_scoreid,Performance Score
0,0,90-day meets
1,1,PIP
2,2,Needs Improvement
3,3,Fully Meets
4,4,Exceeds
5,5,Exceptional
6,9,N/A- too early to review


Видим, что "0" означает прохождение сотрудником испытательного срока, а "9" - индекс соответсвующий слишком раннему сроку для оценивания деятельности сотрудника.

Поэтому при расчетах среднего скора не будем учитывать эти значения.

In [43]:
perf_age = pd.read_sql_query('''
    SELECT AVG("perf_scoreid"), "age", AVG("Days Employed") AS days
    FROM hr_dataset
    WHERE "perf_scoreid" !=0 AND "perf_scoreid" !=9
    GROUP BY "age" 
    ORDER BY "age" 
''', conn)

perf_age.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38
avg,3.0,3.0,2.75,2.857143,3.333333,2.909091,2.933333,2.888889,3.142857,3.071429,3.333333,3.0,3.0,3.1,3.0,3.0,3.25,2.714286,2.888889,2.833333,3.3,3.0,3.166667,3.625,2.666667,3.5,2.75,3.25,2.5,3.2,3.0,3.0,4.0,3.5,3.0,3.0,3.0,3.0,3.0
age,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0,35.0,36.0,37.0,38.0,39.0,40.0,41.0,42.0,43.0,44.0,45.0,46.0,47.0,48.0,49.0,50.0,51.0,52.0,53.0,54.0,55.0,56.0,58.0,59.0,62.0,63.0,65.0,66.0,67.0
days,1843.5,794.0,1690.75,1215.142857,1907.166667,1194.181818,1554.266667,1419.444444,1186.071429,1121.214286,1728.777778,1582.111111,1308.285714,1439.3,1475.75,1721.666667,1585.125,1535.857143,1251.222222,1579.666667,1352.2,299.333333,1384.5,1454.0,2165.5,2828.5,1743.75,1221.75,940.25,1465.0,1196.0,1420.0,1635.0,1350.0,98.0,1396.333333,927.5,1112.0,1414.5


In [67]:
fig = px.scatter(
    perf_age,
    x="age",
    y="avg",
    size="days",
    color="days",
    title="Зависимость среднего рейтинга от возраста с учетом количества отработанных дней",
    labels={"age": "Возраст, лет",
            "avg": "Индекс рейтинга",
            "days": "Отработанные дни"}
)
fig.show()

- Наблюдается некоторая вариация в среднем рейтинге производительности сотрудников в зависимости от возраста. Однако, нет явной трендовой зависимости между возрастом и рейтингом.<br><br>

- Можно заметить, что у сотрудников в возрасте от 25 до 30 лет имеют разнообразные средние рейтинги, от 2.75 до 3.333333.<br><br>

- Сотрудники в возрасте от 30 до 40 лет средний рейтинг производительности колеблется вокруг значения 3.0.<br><br>

- У сотрудников старше 40 лет увеличивается разброс значений рейтинга, но большинство значений находится в диапазоне от 3.0 до 3.5.

<!-- ### Рекомендации для HR-отдела:

1. Разработать программы удержания опытных сотрудников.
- Учитывая, что с увеличением возраста сотрудников увеличивается их средняя продолжительность работы, HR-отдел может разработать и внедрить программы и политики, направленные на удержание опытных сотрудников. Это может включать возможности профессионального развития, программы поощрения и стимулирования, создание комфортных условий работы и поддержку здоровья и благополучия.
2. Изучить причины увольнений в разных возрастных группах.
- Изучение причин увольнений в возрастных группах с высоким процентом увольнений, особенно вокруг возраста 41-42 лет, может помочь HR-отделу выявить возможные проблемы и разработать соответствующие стратегии для их решения. Это может включать улучшение условий работы, предоставление развития карьеры и финансовых стимулов, а также улучшение коммуникации и удовлетворенности сотрудников.
3. Создать программу менторства и передачи опыта.
- Учитывая, что сотрудники старшего возраста обладают большим опытом и стабильностью, HR-отдел может разработать программу менторства, где опытные сотрудники будут передавать свои знания и опыт молодым сотрудникам. Это способствует сохранению ценного опыта в организации и помогает новым сотрудникам быстрее адаптироваться и расти профессионально.
4. Предложить разнообразные программы профессионального развития.
- Учитывая, что возрастные группы 25-30 и 30-40 лет имеют различные средние рейтинги производительности, HR-отдел может предложить разнообразные программы профессионального развития, включая обучение, тренинги и возможности повышения квалификации. Это может помочь сотрудникам развиваться в своей карьере и оставаться мотивированными.
5. Анализировать и улучшать рабочую среду.
- Изучение причин увольнений, связанных с недовольством или неудовлетворительными условиями работы, может помочь HR-отделу выявить проблемные области и предпринять меры для улучшения рабочей среды. Это может включать улучшение коммуникации внутри команды, обеспечение рабочего баланса, обучение руководителей управлению персоналом, а также создание возможностей для развития и повышения удовлетворенности сотрудников. -->

### Выводы и рекомендации для HR-отдела.
---
#### Выводы:
Исследование показало, что с возрастом сотрудников увеличивается средняя продолжительность работы и средняя оценка производительности.

Процент увольнений имеет различия в зависимости от возраста, с наибольшим процентом увольнений в определенных возрастных группах.

Отмечены некоторые пики увольнений в возрасте около 41-42 лет, связанные с различными факторами, такими как изменение карьеры и недовольство условиями работы.

Не наблюдается явной зависимости между возрастом и средним рейтингом производительности.

---
#### Рекомендации для HR-отдела:
1. Обеспечьте политику равных возможностей для всех сотрудников независимо от возраста.
- Установите политику равных возможностей: Обеспечьте, чтобы все сотрудники, независимо от возраста, имели равные возможности развития и продвижения по карьерной лестнице. Исключите любые формы дискриминации на основе возраста и поощряйте справедливость и равноправие в организации.
2. Стремитесь к формированию многообразной рабочей силы, включающей разные возрастные группы.
- Создайте многообразие возрастов: Стремитесь к формированию многообразной рабочей силы, которая включает сотрудников различных возрастных групп. Разнообразие в возрасте может способствовать разностороннему мышлению, улучшению коммуникации и обмену опытом между поколениями.
3. Учитывайте различные стили обучения и коммуникации при работе с разными поколениями.
- Адаптируйте стили обучения и коммуникации: Учтите, что разные поколения могут иметь различные предпочтения и стили обучения. Принимайте во внимание эти различия при разработке обучающих программ и коммуникационных стратегий. Используйте разнообразные методы, такие как визуальные материалы, онлайн-обучение или личное общение, чтобы удовлетворить потребности разных групп сотрудников.
4. Поддерживайте менторство и обмен знаниями между разными возрастными группами.
- Поддерживайте менторство и обмен знаниями: Содействуйте обмену знаниями и опытом между разными возрастными группами сотрудников. Систематически организуйте программы менторства, где более опытные сотрудники могут поделиться своими знаниями и помощью с молодыми коллегами, а также стимулируйте обратный обмен опытом, чтобы и молодые сотрудники могли принести свежие идеи и подходы.
5. Создавайте рабочую среду, учитывающую потребности разных возрастных групп.
- Обеспечьте рабочую среду, которая поддерживает разные возрастные группы: Стремитесь создать рабочую среду, которая учитывает потребности разных поколений. Это может включать гибкие графики работы, баланс между работой и личной жизнью, поддержку физического и психологического здоровья сотрудников, а также обеспечение равенства возможностей для карьерного роста.
6. Обучайте руководителей и HR-сотрудников осведомленности о возрастных различиях.
- Проводите обучение по осведомленности о возрастных различиях: Обучите руководителей и сотрудников HR-отдела осведомленности о различиях в возрастных потребностях и предпочтениях. Обучение может включать информацию о стереотипах и предубеждениях по отношению к разным возрастным группам, а также о том, как обеспечить включение и поддержку всех сотрудников вне зависимости от их возраста.
7. Анализируйте возрастной состав сотрудников и выявляйте потенциальные проблемы и возможности.
- Проводите анализ возрастного состава сотрудников: Регулярно анализируйте данные о возрасте сотрудников и составьте профиль возрастной структуры вашей организации. Это поможет вам лучше понять текущую ситуацию и выявить потенциальные проблемы или возможности, связанные с возрастом.
8. Адаптируйте бенефиты и вознаграждения к разным возрастным группам.
- Адаптируйте бенефиты и вознаграждения: Учтите различные потребности и ожидания разных возрастных групп при разработке программ вознаграждения и бенефитов. Рассмотрите варианты, такие как гибкие планы пенсионных накоплений, вознаграждения за достижения на разных этапах карьеры, программы здоровья и благополучия, которые соответствуют различным возрастам и потребностям сотрудников.
9. Поддерживайте баланс поколений в командах и проектах.
- Поддерживайте баланс поколений: Стремитесь к созданию баланса поколений в командах и проектах. Убедитесь, что различные возрастные группы имеют возможность работать вместе и обмениваться идеями. Это может способствовать инновациям, улучшению работы в команде и повышению межпоколенческого понимания.
10. Регулярно обновляйте стратегии и программы, связанные с возрастом сотрудников.
- Регулярно обновляйте стратегии и программы: Постоянно пересматривайте и обновляйте свои стратегии и программы, связанные с возрастом сотрудников. Учитывайте изменяющиеся потребности и требования различных поколений, чтобы оставаться актуальными и эффективными в привлечении, удержании и развитии талантов.

<br><br>Внедрение этих рекомендаций может помочь HR-отделу создать инклюзивную и поддерживающую рабочую среду для всех сотрудников, независимо от их возраста. Помните, что у каждой возрастной группы могут быть свои особенности, потребности и предпочтения, и важно учитывать их при разработке политик и программ.

Кроме того, важно поддерживать открытый диалог с сотрудниками всех возрастных групп. Активно слушайте их мнения, обратную связь и предложения, чтобы лучше понять их потребности и внести соответствующие изменения.

Наконец, имейте в виду, что стремление к созданию рабочей среды, подходящей для всех возрастных групп, должно быть непрерывным процессом. Постоянно анализируйте результаты и эффективность ваших стратегий, чтобы вносить необходимые корректировки и улучшения.

Запомните, что инклюзивность и поддержка всех сотрудников вне зависимости от возраста - это залог успешной и продуктивной работы организации.