# ĐỒ ÁN THỰC HÀNH

# A. Thu nhập dữ liệu
1. Chủ đề của dữ liệu là gì và được lấy từ nguồn nào?
- Tên chủ đề: Mức lương cho công việc Khoa học Dữ liệu (Data Science Job Salaries).
- Nguồn dữ liệu: [tại đây](https://salaries.ai-jobs.net/)
2. Tác giả có cho phép sử dụng dữ liệu này không?
- Toàn bộ bộ dữ liệu được công bố trong phạm vi công cộng theo giấy phép CC0 (Public Domain).
3. Tác giả thu thập dữ liệu như thế nào?
- Trang web cung cấp cho người dùng một biểu mẫu ngắn để trả lời khảo sát về công việc và mức lương hiện tại trong lĩnh vực Khoa học dữ liệu

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option("display.max_rows", 500)
pd.set_option("display.max_columns", 500)

# B. Khám phá dữ liệu

## 1. Đọc dữ liệu

In [2]:
df = pd.read_csv("./data/salaries.csv")
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Data Modeler,258700,USD,258700,US,0,US,M
1,2023,SE,FT,Data Modeler,146600,USD,146600,US,0,US,M
2,2023,MI,FT,Data Science Manager,190000,USD,190000,US,100,US,M
3,2023,MI,FT,Data Science Manager,160000,USD,160000,US,100,US,M
4,2023,EN,FT,Research Analyst,90000,USD,90000,US,100,US,M


## 2. Kích thước dữ liệu

In [3]:
num_rows, num_cols = df.shape
print("Số dòng:", num_rows)
print("Số cột:", num_cols)

Số dòng: 10456
Số cột: 11


## 3. Ý nghĩa từng dòng dữ liệu
- Mỗi dòng dữ liệu là thông tin về công ty và công việc của người khảo sát.

## 4. Dữ liệu có các dòng bị lặp không?

In [4]:
duplicate_rows = df.loc[df.duplicated()]

if duplicate_rows.shape[0] == 0: 
    print("Dữ liệu không có các dòng bị lặp")
else: 
    print("Dữ liệu các dòng bị lặp")
    print("Số dòng bị lặp là:", duplicate_rows.shape[0])

Dữ liệu các dòng bị lặp
Số dòng bị lặp là: 4428


## 5. Ý nghĩa từng cột dữ liệu

In [5]:
print(f"Dữ liệu có {len(df.columns)} cột")
print("Ý nghĩa các cột:\n", list(df.columns))

Dữ liệu có 11 cột
Ý nghĩa các cột:
 ['work_year', 'experience_level', 'employment_type', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'employee_residence', 'remote_ratio', 'company_location', 'company_size']


## 6. Kiểu dữ liệu của mỗi cột dữ liệu. Có cột nào có kiểu dữ liệu không phù hợp không?

In [6]:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

- Các thuộc tính của tập dữ liệu đa phần đã ở định dạng phù hợp.

## 7. Với mỗi cột mang giá trị số, các giá trị được phân bố như thế nào?

In [7]:
numerical_df = df.select_dtypes(include=["int64", "float64"])
numerical_df.head()

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
0,2023,258700,258700,0
1,2023,146600,146600,0
2,2023,190000,190000,100
3,2023,160000,160000,100
4,2023,90000,90000,100


### 7.1. Phần trăm giá trị còn thiếu là bao nhiêu?

In [8]:
numerical_df_null = (numerical_df.isnull().sum() / len(df)) * 100

print("Tỷ lệ phần trăm giá trị thiếu cho mỗi thuộc tính số:")
print(numerical_df_null)

Tỷ lệ phần trăm giá trị thiếu cho mỗi thuộc tính số:
work_year        0.0
salary           0.0
salary_in_usd    0.0
remote_ratio     0.0
dtype: float64


### 7.2. Giá trị nhỏ nhất? Giá trị lớn nhất? Các giá trị này có gì bất thường không?

In [9]:
numerical_df.describe()

Unnamed: 0,work_year,salary,salary_in_usd,remote_ratio
count,10456.0,10456.0,10456.0,10456.0
mean,2022.778883,170465.5,149263.499904,36.49101
std,0.506937,419598.9,65269.393738,47.58074
min,2020.0,14000.0,15000.0,0.0
25%,2023.0,105000.0,104640.25,0.0
50%,2023.0,143000.0,142200.0,0.0
75%,2023.0,188275.0,185900.0,100.0
max,2023.0,30400000.0,750000.0,100.0


- Các giá trị không có gì là bất thường.

## 8. Với mỗi cột mang giá trị phân loại, các giá trị được phân bố như thế nào?

In [10]:
categorical_df = df.select_dtypes(exclude=["int64", "float64"])
categorical_df.head()

Unnamed: 0,experience_level,employment_type,job_title,salary_currency,employee_residence,company_location,company_size
0,SE,FT,Data Modeler,USD,US,US,M
1,SE,FT,Data Modeler,USD,US,US,M
2,MI,FT,Data Science Manager,USD,US,US,M
3,MI,FT,Data Science Manager,USD,US,US,M
4,EN,FT,Research Analyst,USD,US,US,M


### 8.1. Phần trăm giá trị còn thiếu là bao nhiêu?

In [11]:
categorical_df_null = (categorical_df.isnull().sum() / len(df)) * 100

print("Tỷ lệ phần trăm giá trị thiếu cho mỗi thuộc tính phân loại:")
print(categorical_df_null)

Tỷ lệ phần trăm giá trị thiếu cho mỗi thuộc tính phân loại:
experience_level      0.0
employment_type       0.0
job_title             0.0
salary_currency       0.0
employee_residence    0.0
company_location      0.0
company_size          0.0
dtype: float64


### 8.2. Mỗi cột có bao nhiêu giá trị khác nhau?

In [12]:
for column in categorical_df.columns:
    unique_values = categorical_df[column].unique()
    print(f"+ Cột {column}: {unique_values}")

+ Cột experience_level: ['SE' 'MI' 'EN' 'EX']
+ Cột employment_type: ['FT' 'PT' 'CT' 'FL']
+ Cột job_title: ['Data Modeler' 'Data Science Manager' 'Research Analyst' 'Data Engineer'
 'Data Analyst' 'ETL Developer' 'Machine Learning Engineer'
 'Data Scientist' 'Data Specialist' 'Data Strategist' 'Prompt Engineer'
 'Business Intelligence Developer' 'Research Engineer'
 'Business Intelligence Analyst' 'Data Science Lead' 'ML Engineer'
 'Analytics Engineer' 'BI Developer' 'Data Quality Manager'
 'Applied Scientist' 'Head of Data' 'Research Scientist' 'Data Architect'
 'Data Science' 'Business Intelligence Engineer' 'Data Science Consultant'
 'Machine Learning Scientist' 'Data Product Manager'
 'Business Intelligence Manager' 'Data Manager' 'Data Analytics Manager'
 'Computer Vision Engineer' 'AI Product Manager' 'Data Analytics Lead'
 'Director of Data Science' 'Data Product Owner' 'Data Developer'
 'Machine Learning Infrastructure Engineer' 'Data Lead' 'AI Engineer'
 'Data Integration Eng

### 8.3. Các giá trị này có gì bất thường không?
- Các giá trị không có gì là bất thường. Tuy nhiên trong cột `nghề nghiệp (job_title)` có quá nhiều nghề, ta có thể rút gọn các nghề này vào một lĩnh vực.

# C. Đưa ra câu hỏi có ý nghĩa và trả lời câu hỏi

## Câu hỏi 5: Quốc gia nào cung cấp nguồn thu nhập tốt nhất cho các chuyên gia trong lĩnh vực Khoa học Dữ liệu khi họ lựa chọn ngành nghề?
- Tiền xử lý:
    - Do `vị trí công ty (company_location)` đang ở dạng mã ISO 3166-1 alpha-2 nên ta sẽ chuyển sang tên quốc gia dựa trên dạng mã đó.
    - Bảng mã ISO 3166-1 alpha-2 ta sẽ lấy trên Wikipedia [tại đây](https://vi.wikipedia.org/wiki/ISO_3166-1_alpha-2).
    - Sau đó ta sẽ kết hợp 2 bộ dữ liệu lại và đặt tên dữ liệu mới là `df_iso`.
- Phân tích dữ liệu:
    - Ta nhóm dữ liệu dựa trên `tên quốc gia (country_name)` và tính mức lương trung bình dựa trên `mức lương (salary_in_usd)`.
    - Sau đó ta làm tròn mức lương trung bình lên 2 chữ số thập phân và sắp xếp dữ liệu tăng dần.
    - Ta cũng sẽ xem qua mức lương ở Việt Nam.

In [13]:
iso = pd.read_html("https://vi.wikipedia.org/wiki/ISO_3166-1_alpha-2", match="Alpha-2")[0]
iso.rename(columns={"Tên quốc gia": "country_name"}, inplace=True)
iso.drop(["Ghi chú"], axis=1, inplace=True)

df_iso = pd.merge(df, iso, left_on="company_location", right_on="Alpha-2", how="left")

average_salary_by_country = df_iso.groupby("country_name")["salary_in_usd"].mean().reset_index()
average_salary_by_country.rename(columns={"salary_in_usd": "mean_salary_usd"}, inplace=True)
average_salary_by_country["mean_salary_usd"] = average_salary_by_country["mean_salary_usd"].round(2)
average_salary_by_country = average_salary_by_country.sort_values(by="mean_salary_usd", ascending=False).reset_index(drop=True)
average_salary_by_country

Unnamed: 0,country_name,mean_salary_usd
0,Qatar,300000.0
1,Israel,217332.0
2,Puerto Rico,167500.0
3,United States,157536.04
4,New Zealand,151634.33
5,Canada,144004.46
6,Ả Rập Saudi,134999.0
7,Australia,127624.77
8,Ukraina,121333.33
9,Bosnia and Herzegovina,120000.0


In [14]:
vn_salary = average_salary_by_country.loc[average_salary_by_country["country_name"] == "Viet Nam"]
salary = vn_salary["mean_salary_usd"].values[0]
index = vn_salary["mean_salary_usd"].index[0] + 1 
print(f"Mức thu nhập trung bình hàng năm của Việt Nam là {salary} và đứng thứ {index} thế giới.")

Mức thu nhập trung bình hàng năm của Việt Nam là 63000.0 và đứng thứ 38 thế giới.


- Nhận xét:
    - Tổng quan:
        - Quốc gia trả lương cao nhất đó là Qatar với mức lương trung bình là 300000 USD và Israel với mức lương trung bình là	217332 USD. Đây là các quốc gia đều nằm ở Trung Đông.
        - Quốc gia trả lương thấp nhất nhất đó là Ecuador và mức lương trung bình là 16000.
        - Trong top 10 quốc gia trả lương cao nhất, có đến 5 quốc gia có ngôn ngữ chính thức là tiếng Anh: Puerto Rico, United States, New Zealand, Canada, Australia.
    - Việt Nam:
        - Mức thu nhập trung bình hàng năm của Việt Nam là 63000 USD (~ 1.5 tỷ VND) và đứng thứ 38 thế giới. Đây là một mức lương khá cao nếu so với mức thu nhập ở Việt Nam.
        - Khi xem xét lại dữ liệu, để đạt mức lương như trên, thì đa số đều là những người ở trình độ Mid-level / Intermediate, thời gian làm việc là Full-time và làm trong công ty vừa và lớn trở lên.