# 1.Import libraries and connect to Postgresql

In [14]:
!pip install psycopg2-binary sqlalchemy




In [16]:
!pip install ipython-sql



In [11]:
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


In [12]:

%sql postgresql://postgres:171004@localhost:5432/HumanResources_Prj

In [13]:
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

In [19]:
%sql SELECT * FROM hr.human_resources LIMIT 100 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
100 rows affected.


id,first_name,last_name,birthdate,gender,race,department,jobtitle,location,hire_date,termdate,location_city,location_state
00-0037846,Kimmy,Walczynski,06-04-91,Male,Hispanic or Latino,Engineering,Programmer Analyst I,Headquarters,1/20/2002,,Cleveland,Ohio
00-0041533,Ignatius,Springett,6/29/1984,Male,White,Business Development,Business Analyst,Headquarters,04-08-19,,Cleveland,Ohio
00-0045747,Corbie,Bittlestone,7/29/1989,Male,Black or African American,Sales,Solutions Engineer Manager,Headquarters,10-12-10,,Cleveland,Ohio
00-0055274,Baxy,Matton,9/14/1982,Female,White,Services,Service Tech,Headquarters,04-10-05,,Cleveland,Ohio
00-0076100,Terrell,Suff,04-11-94,Female,Two or More Races,Product Management,Business Analyst,Remote,9/29/2010,2029-10-29 06:09:38 UTC,Flint,Michigan
00-0116166,Kacie,Offiler,1/18/1971,Male,Asian,Engineering,Developer III,Headquarters,09-01-18,,Cleveland,Ohio
00-0363185,Sandro,Admans,11/19/1979,Male,Two or More Races,Product Management,Quality Engineer,Headquarters,11-08-12,,Cleveland,Ohio
00-0380704,Eugene,Lehrahan,10/14/1988,Female,Black or African American,Engineering,Developer I,Headquarters,6/27/2007,,Cleveland,Ohio
00-0381660,Wainwright,Corfield,12/13/1996,Male,Asian,Engineering,Business Systems Development Analyst,Headquarters,2/20/2001,2008-12-05 01:21:48 UTC,Cleveland,Ohio
00-0419202,Dyann,Isoldi,3/27/1980,Male,Two or More Races,Engineering,Web Developer I,Headquarters,1/27/2005,,Cleveland,Ohio


# 2.Data cleaning 

In [20]:
%sql SET search_path TO hr;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
Done.


[]

In [21]:
%%sql 
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_schema = 'hr' AND table_name = 'human_resources';

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
13 rows affected.


column_name,data_type
id,text
first_name,text
last_name,text
birthdate,text
gender,text
race,text
department,text
jobtitle,text
location,text
hire_date,text


## Clean column 'birthdate' : 
- Ta cần chuyển hết sang định dạng 'y-m-d'
- Vấn đề : Có 2 kiểu format date cho cột này :   
    - Kiểu thứ nhất có dạng 'm/d/y' 
    - kiểu thứ hai có dạng 'm-d-y'  
    - Riêng với kiểu thứ hai , phần 'year' chỉ lấy 2 số cuối xy . Nếu xy > 25 (2025) , thì ta sẽ chuyển nó thành 19xy . Ngược lại , ta chuyển thành 20xy 

Cập nhật lần 1 : Đổi hết về format đã quy định

In [27]:
%%sql
update human_resources 
set birthdate = case 
  when birthdate like '%/%' then TO_CHAR(TO_DATE(birthdate, 'MM/DD/YYYY') , 'YYYY-MM-DD')
  when birthdate like '%-%' then TO_CHAR(TO_DATE(birthdate, 'MM-DD-YY'), 'YYYY-MM-DD')
  else birthdate 
end ;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
22214 rows affected.


[]

Ép kiểu date

In [29]:

%%sql
alter table human_resources 
alter column birthdate type date
USING birthdate::date; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
Done.


[]

Cập nhật lần 2 : Trừ 100 năm cho những date có year > 2025 (ví dụ : 2066 -> 1966)

In [30]:
%%sql 
update human_resources
set birthdate = case 
  when extract(year from birthdate) > 2025 then birthdate - interval '100 years'
  else birthdate
end;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
22214 rows affected.


[]

Xem kết quả 

In [39]:
%%sql
SELECT birthdate FROM human_resources LIMIT 10

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
10 rows affected.


birthdate
1971-10-19
1998-10-31
1991-03-06
1988-02-09
1971-02-13
1989-03-01
1998-11-09
1994-06-26
1995-01-21
1986-10-29


## Clean column 'hire_date': Xử lý tương tự như cột 'birthdate' 

Cập nhật lần 1 : Đổi hết sang format quy định 

In [35]:
%%sql 
update human_resources 
set hire_date = case 
  when hire_date like '%/%' then to_char(to_date(hire_date , 'MM/DD/YYYY') , 'YYYY-MM-DD')
  when hire_date like '%-%' then to_char(to_date(hire_date , 'MM/DD/YY') , 'YYYY-MM-DD')
end ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
22214 rows affected.


[]

Ép kiểu date 

In [36]:
%%sql 
alter table human_resources 
alter column hire_date type date 
using hire_date::date ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
Done.


[]

Cập nhật lần 2 : Trừ 100 năm cho những date có year > 2025 (ví dụ : 2066 -> 1966)

In [37]:
%%sql 
update human_resources 
set hire_date = case 
  when extract(year from hire_date) > 2025 then hire_date - interval '100 years'
  else hire_date
end; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
22214 rows affected.


[]

Kiểm tra 

In [38]:
%%sql
select hire_date from human_resources
limit 10 ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
10 rows affected.


hire_date
2013-07-28
2016-04-12
2012-03-06
2011-11-05
2003-03-12
2005-06-11
2011-09-29
2010-01-12
2008-12-02
2009-07-28


## Clean column 'termdate'

In [42]:
%sql select termdate from human_resources limit 10 ;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
10 rows affected.


termdate
""
""
""
""
""
""
""
""
""
2011-06-25 21:03:08 UTC


Chuyển từ dạng timestamp sang format quy định 

In [43]:
%%sql 
update human_resources 
set termdate = to_char(to_timestamp(termdate, 'YYYY-MM-DD HH24:MI:SS UTC') , 'YYYY-MM-DD')
where termdate is not null and termdate != ' '; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
3929 rows affected.


[]

Ép lại kiểu 

In [44]:
%%sql 
alter table human_resources 
alter column termdate type date 
using termdate::date ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
Done.


[]

Kiểm tra 

In [49]:
%sql select termdate from human_resources limit 10 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
10 rows affected.


termdate
2017-07-28
2030-05-12
2029-10-29
2008-12-05
2006-05-22
2022-07-12
2022-02-25
2030-03-21
2024-10-09
2007-10-31


# 3.QUERIES 

## 1. What is the gender breakdown of employees in the company?

In [50]:
%%sql 
select count(id) as number_of_employees , gender
from human_resources 
group by gender ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
3 rows affected.


number_of_employees,gender
11288,Male
10321,Female
605,Non-Conforming


## 2. What is the race/ethnicity breakdown of employees in the company?

In [52]:
%%sql 
select count(id) as number_of_employees , race 
from human_resources 
group by race
order by count(id) desc ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
7 rows affected.


number_of_employees,race
6328,White
3648,Two or More Races
3619,Black or African American
3562,Asian
2501,Hispanic or Latino
1327,American Indian or Alaska Native
1229,Native Hawaiian or Other Pacific Islander


## 3. What is the age distribution of employees in the company?

Đầu tiên , tạo thêm cột 'age'

In [53]:
%%sql 
alter table human_resources
add column age integer ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
Done.


[]

In [54]:
%%sql 
update human_resources 
set age = extract(year from age(now() , birthdate));

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
22214 rows affected.


[]

Kế tiếp , thực hiện query

In [55]:
%%sql 
select concat(floor(age/10)* 10 , '-' , floor(age/10)*10 + 9)as age_range , count(id) as number_of_employees
from human_resources 
group by age_range 
order by age_range asc ;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
4 rows affected.


age_range,number_of_employees
20-29,4278
30-39,6165
40-49,5886
50-59,5885


## 4. How many employees work at headquarters versus remote locations?

In [56]:
%%sql 
select location ,  count(id) as number_of_employees 
from human_resources 
group by location  ;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
2 rows affected.


location,number_of_employees
Headquarters,16715
Remote,5499


## 5. What is the average length of employment for employees who have been terminated?

In [60]:
%%sql 
select round( avg( extract (year from age(termdate, hire_date))) , 2) as average_length_of_employment_years
from human_resources 
where termdate is not null and termdate < now() ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
1 rows affected.


average_length_of_employment_years
7.68


## 6. How does the gender distribution vary across departments?

In [61]:
%%sql 
select department , gender , count(id) as number_of_employees
from human_resources 
group by  department , gender
order by department asc ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
38 rows affected.


department,gender,number_of_employees
Accounting,Male,1711
Accounting,Non-Conforming,91
Accounting,Female,1531
Auditing,Female,24
Auditing,Male,28
Business Development,Female,757
Business Development,Male,836
Business Development,Non-Conforming,49
Engineering,Female,3120
Engineering,Non-Conforming,193


## 7. What is the distribution of job titles across the company?

In [69]:
%%sql 
select jobtitle , count(id)as number_of_employees 
from human_resources 
group by jobtitle 
order by number_of_employees  desc ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
185 rows affected.


jobtitle,number_of_employees
Research Assistant II,754
Business Analyst,708
Human Resources Analyst II,613
Research Assistant I,538
Account Executive,505
Data Visualization Specialist,457
Staff Accountant I,441
Human Resources Analyst,408
Software Engineer I,397
Systems Administrator I,374


## 8. Which department has the highest turnover rate?

"Turnover rate" hay "Tỷ lệ luân chuyển" thường đề cập đến tỷ lệ nhân viên rời khỏi một công ty hoặc phòng ban và cần được thay thế. Tỷ lệ này có thể được tính bằng số lượng nhân viên nghỉ việc trong một khoảng thời gian nhất định chia cho số lượng nhân viên trung bình trong công ty hoặc phòng ban đó trong cùng khoảng thời gian đó.d.

In [63]:
%%sql 
select department , count(id) as total_employees , 
  sum(case when termdate is null then 1 else 0 end ) as total_active_employees ,
  sum(case when  termdate is not null and termdate < now() then 1 else 0 end ) as total_terminated_employees ,
  round( (sum(case when  termdate is not null and termdate < now() then 1 else 0 end )::decimal /count(id))  , 3 ) as turnover_rate
from human_resources 
group by department 
order by turnover_rate desc ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
13 rows affected.


department,total_employees,total_active_employees,total_terminated_employees,turnover_rate
Auditing,52,40,10,0.192
Legal,311,248,47,0.151
Training,1692,1401,217,0.128
Engineering,6686,5501,837,0.125
Support,954,772,119,0.125
Human Resources,1807,1498,225,0.125
Research and Development,1084,872,134,0.124
Sales,1832,1497,228,0.124
Accounting,3333,2747,403,0.121
Services,1686,1393,204,0.121


-> Auditing là phòng ban có turnover rate cao nhất 

## 9. What is the distribution of employees across locations by state?

In [65]:
%%sql 
select location_state , count(id) as number_of_employees 
from human_resources 
group by location_state 
order by count(id) desc ;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
7 rows affected.


location_state,number_of_employees
Ohio,18025
Pennsylvania,1115
Illinois,868
Indiana,700
Michigan,673
Kentucky,451
Wisconsin,382


## 10. What is the net change over years between hired_employee's and terminated_employee's counts  

In [66]:
%%sql 
select 
    years, 
    hires, 
    terminations, 
    (hires - terminations) AS net_change,
    ROUND(((hires - terminations) / hires::float * 100)::numeric, 2) AS net_change_percent
from (
    select 
         extract(year from hire_date ) AS years, 
        count(*) as hires, 
        SUM(CASE WHEN termdate is not null AND termdate <= now() THEN 1 ELSE 0 END) AS terminations
    from 
        human_resources
    group by 
        years
) subquery
order by years asc;

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
21 rows affected.


years,hires,terminations,net_change,net_change_percent
2000,220,31,189,85.91
2001,1122,203,919,81.91
2002,1067,174,893,83.69
2003,1142,203,939,82.22
2004,1135,211,924,81.41
2005,1097,201,896,81.68
2006,1118,199,919,82.2
2007,1090,161,929,85.23
2008,1108,153,955,86.19
2009,1140,164,976,85.61


## 11. What is the average tenure distribution for each department?

In [68]:
%%sql 
select department , round(  avg( (termdate - hire_date)::float /365 )::numeric  , 3) as avg_tenure 
from human_resources 
where termdate is not null 
group by department 
order by avg_tenure desc ; 

 * postgresql://postgres:***@localhost:5432/HumanResources_Prj
13 rows affected.


department,avg_tenure
Sales,11.122
Research and Development,10.903
Services,10.618
Engineering,10.578
Support,10.556
Business Development,10.501
Marketing,10.394
Accounting,10.354
Human Resources,9.983
Product Management,9.948


# 4.Summary of findings : 
1. Số lượng nhân viên nam nhiều hơn nữ , tuy nhiên chênh lệch không quá nhiều (11288 vs 10321)
2. Người da trắng chiếm đa số trong công ty . Ngược lại người Hawaii bản địa và nhóm thuộc các đảo Thái Bình Dương có số lượng ít nhất 
3. Độ tuổi chiếm đa số trong công ty là từ 30 tới 39 tuổi 
4. Số lượng làm việc trực tiếp tại trụ sở cao hơn khoảng 3 lần so với số làm việc từ xa (remote)
5. Độ dài trung bình số năm làm việc của nhân viên là khoảng 7,68 năm 
6. Sự phân bổ giới tính giữa nam và nữ ở các phòng ban khác nhau là khá đồng đều , nam giới có xu hướng nhiều hơn đôi chút 
7. Các công việc ở vị trí trợ lý (Assistant) hoặc phân tích (Analyst) có số lượng nhân viên đông nhất 
8. Phòng ban có tỉ lệ luân chuyển (turnover rate) cao nhất là Kiểm Toán (Auditing) . Ngược lại , thấp nhất là Marketing 
9. Bang Ohio là bang có nhiều nhân viên nhất với 18025 , bỏ xa bang thứ nhì là Pennsylvania (1115) . Wisconsin là bang có ít nhân viên nhất (382) 
10. Tỉ lệ chênh lệch (net change) giữa số lượng nhân viên được tuyển mới và số lượng nghỉ việc , nhìn chung là tăng đều qua các năm . Có một khoảng giảm nhẹ từ 2000 tới 2005 , nhưng sau đó đã tăng đều trở lại 
11. Nhiệm kỳ làm việc trung bình ở các phòng ban hầu hết đều trên 9 năm . Trong đó , dài nhất là phòng ban Sales với khoảng trên 11 năm 