Mục tiêu: Sinh viên biết cách sử dụng gói Pandas để xử lý dữ liệu
1. Tiến hành hiểu dữ liệu từ chuyên gia

In [22]:
import pandas as pd
df = pd.read_csv("patient_heart_rate.csv", on_bad_lines='skip')  # Bỏ qua các dòng bị lỗi khi đọc CSV
df.head(15) #Kiểm tra dữ liệu

Unnamed: 0,1,Mickéy Mousé,56,70kgs,72,69,71,-,-.1,-.2
0,2.0,Donald Duck,34.0,154.89lbs,-,-,-,85,84,76
1,3.0,Mini Mouse,16.0,,-,-,-,65,69,72
2,4.0,Scrooge McDuck,,78kgs,78,79,72,-,-,-
3,5.0,Pink Panther,54.0,198.658lbs,-,-,-,69,,75
4,6.0,Huey McDuck,52.0,189lbs,-,-,-,68,75,72
5,7.0,Dewey McDuck,19.0,56kgs,-,-,-,71,78,75
6,8.0,Scööpy Doo,32.0,78kgs,78,76,75,-,-,-
7,,,,,,,,,,
8,,,,,,,,,,
9,9.0,Huey McDuck,52.0,189lbs,-,-,-,68,75,72


Hiểu dữ liệu

In [23]:
df.shape

(15, 10)

In [24]:
df.columns = [
    "ID", "Name", "Age", "Weight",
    "HR_t1", "HR_t2", "HR_t3",
    "HR_t4", "HR_t5", "HR_t6"
]


In [25]:
df.dtypes


Unnamed: 0,0
ID,float64
Name,object
Age,float64
Weight,object
HR_t1,object
HR_t2,object
HR_t3,object
HR_t4,object
HR_t5,object
HR_t6,object


In [26]:
df.describe()

Unnamed: 0,ID,Age
count,13.0,10.0
mean,8.076923,35.7
std,4.030334,16.26209
min,2.0,12.0
25%,5.0,22.25
50%,8.0,34.0
75%,11.0,52.0
max,15.0,54.0


Ví dụ xử lý dữ liệu y khoa

Tạo 4 cột cần phân tích

In [27]:
# Thêm cột Sex
df["Sex"] = "Unknown"

# Danh sách các cột nhịp tim (đã cập nhật)
hr_cols = ["HR_t1", "HR_t2", "HR_t3", "HR_t4", "HR_t5", "HR_t6"]

# Chuyển các giá trị nhịp tim về dạng số
# errors="coerce" sẽ tự động chuyển các giá trị không hợp lệ thành NaN
for col in hr_cols:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# Tạo cột HeartRates
# Lấy giá trị trung bình của các lần đo nhịp tim cho mỗi bệnh nhân
df["HeartRates"] = df[hr_cols].mean(axis=1)

# Lấy đúng 4 cột yêu cầu
df_medical = df[["Age", "Weight", "Sex", "HeartRates"]]
df_medical.head()

Unnamed: 0,Age,Weight,Sex,HeartRates
0,34.0,154.89lbs,Unknown,81.666667
1,16.0,,Unknown,68.666667
2,,78kgs,Unknown,76.333333
3,54.0,198.658lbs,Unknown,72.0
4,52.0,189lbs,Unknown,71.666667


Làm sạch & kiểm tra nhanh

In [28]:
df_medical.isnull().sum() # Kiểm tra số lượng giá trị bị thiếu trong từng cột

Unnamed: 0,0
Age,5
Weight,5
Sex,0
HeartRates,2


In [29]:
df_medical.describe() # Thống kê mô tả dữ liệu y khoa
                      # Bao gồm: mean, min, max, std,...

Unnamed: 0,Age,HeartRates
count,10.0,13.0
mean,35.7,74.102564
std,16.26209,6.905962
min,12.0,62.333333
25%,22.25,71.666667
50%,34.0,72.0
75%,52.0,76.333333
max,54.0,91.333333


Câu 3

Vấn đề 1: Thiếu dòng tiêu đề ở file CSV

In [30]:
column_names = [
    "ID",        # Mã bệnh nhân
    "Name",      # Tên bệnh nhân
    "Age",       # Tuổi
    "Weight",    # Cân nặng
    "m0006",     # Nhịp tim thời điểm 00:06
    "m0612",     # Nhịp tim thời điểm 06:12
    "m1218",     # Nhịp tim thời điểm 12:18
    "f0006",     # Nhịp tim thời điểm 00:06 (lần đo khác)
    "f0612",     # Nhịp tim thời điểm 06:12 (lần đo khác)
    "f1218"      # Nhịp tim thời điểm 12:18 (lần đo khác)
]

# Đọc file CSV và gán tên cột, bỏ qua các dòng bị lỗi
df = pd.read_csv("patient_heart_rate.csv", names=column_names, on_bad_lines='skip')
print(df.head(15))

      ID            Name   Age      Weight m0006 m0612 m1218 f0006 f0612 f1218
0    1.0    Mickéy Mousé  56.0       70kgs    72    69    71     -     -     -
1    2.0     Donald Duck  34.0   154.89lbs     -     -     -    85    84    76
2    3.0      Mini Mouse  16.0         NaN     -     -     -    65    69    72
3    4.0  Scrooge McDuck   NaN       78kgs    78    79    72     -     -     -
4    5.0    Pink Panther  54.0  198.658lbs     -     -     -    69   NaN    75
5    6.0     Huey McDuck  52.0      189lbs     -     -     -    68    75    72
6    7.0    Dewey McDuck  19.0       56kgs     -     -     -    71    78    75
7    8.0      Scööpy Doo  32.0       78kgs    78    76    75     -     -     -
8    NaN             NaN   NaN         NaN   NaN   NaN   NaN   NaN   NaN   NaN
9    NaN             NaN   NaN         NaN   NaN   NaN   NaN   NaN   NaN   NaN
10   9.0     Huey McDuck  52.0      189lbs     -     -     -    68    75    72
11  10.0    Louie McDuck  12.0       45kgs     -    

Vấn đề 2 Một cột lưu hỗn hợp nhiều dữ liệu


In [31]:
# Tách cột Name thành 2 cột Firstname và Lastname
df[['Firstname', 'Lastname']] = df['Name'].str.split(expand=True)

# Xóa cột Name ban đầu
df = df.drop('Name', axis=1)

# Kiểm tra kết quả
print(df.head(15))


      ID   Age      Weight m0006 m0612 m1218 f0006 f0612 f1218 Firstname  \
0    1.0  56.0       70kgs    72    69    71     -     -     -    Mickéy   
1    2.0  34.0   154.89lbs     -     -     -    85    84    76    Donald   
2    3.0  16.0         NaN     -     -     -    65    69    72      Mini   
3    4.0   NaN       78kgs    78    79    72     -     -     -   Scrooge   
4    5.0  54.0  198.658lbs     -     -     -    69   NaN    75      Pink   
5    6.0  52.0      189lbs     -     -     -    68    75    72      Huey   
6    7.0  19.0       56kgs     -     -     -    71    78    75     Dewey   
7    8.0  32.0       78kgs    78    76    75     -     -     -    Scööpy   
8    NaN   NaN         NaN   NaN   NaN   NaN   NaN   NaN   NaN       NaN   
9    NaN   NaN         NaN   NaN   NaN   NaN   NaN   NaN   NaN       NaN   
10   9.0  52.0      189lbs     -     -     -    68    75    72      Huey   
11  10.0  12.0       45kgs     -     -     -    92    95    87     Louie   
12  11.0   N

Vấn đề 3 Dữ liệu cột Weight không thống nhất đơn vị đo

In [32]:
# Lấy cột Weight
weight = df['Weight']

for i in range(len(weight)):
    x = str(weight[i])

    # Nếu giá trị có đơn vị lbs thì chuyển sang kg
    if "lbs" in x[-3:]:
        # Bỏ chữ 'lbs'
        x = x[:-3]

        # Chuyển sang kiểu float
        float_x = float(x)

        # Đổi lbs sang kg (1 kg ≈ 2.2 lbs)
        y = int(float_x / 2.2)

        # Gắn lại đơn vị kg
        y = str(y) + "kgs"

        # Gán lại giá trị
        weight[i] = y

# Kiểm tra dữ liệu sau khi chuẩn hóa
print(df.head(15))

      ID   Age Weight m0006 m0612 m1218 f0006 f0612 f1218 Firstname Lastname
0    1.0  56.0  70kgs    72    69    71     -     -     -    Mickéy    Mousé
1    2.0  34.0  70kgs     -     -     -    85    84    76    Donald     Duck
2    3.0  16.0    NaN     -     -     -    65    69    72      Mini    Mouse
3    4.0   NaN  78kgs    78    79    72     -     -     -   Scrooge   McDuck
4    5.0  54.0  90kgs     -     -     -    69   NaN    75      Pink  Panther
5    6.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
6    7.0  19.0  56kgs     -     -     -    71    78    75     Dewey   McDuck
7    8.0  32.0  78kgs    78    76    75     -     -     -    Scööpy      Doo
8    NaN   NaN    NaN   NaN   NaN   NaN   NaN   NaN   NaN       NaN      NaN
9    NaN   NaN    NaN   NaN   NaN   NaN   NaN   NaN   NaN       NaN      NaN
10   9.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
11  10.0  12.0  45kgs     -     -     -    92    95    87     Louie   McDuck

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weight[i] = y
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weight[i] = y
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weight[i] = y
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weight[i] = y
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https:/

Vấn đề 4: Xuất hiện dòng dữ liệu rỗng (NaN)

In [33]:
# Xóa các dòng mà tất cả giá trị đều là NaN
df.dropna(how="all", inplace=True)

# Kiểm tra lại dữ liệu
print(df.head(15))


      ID   Age Weight m0006 m0612 m1218 f0006 f0612 f1218 Firstname Lastname
0    1.0  56.0  70kgs    72    69    71     -     -     -    Mickéy    Mousé
1    2.0  34.0  70kgs     -     -     -    85    84    76    Donald     Duck
2    3.0  16.0    NaN     -     -     -    65    69    72      Mini    Mouse
3    4.0   NaN  78kgs    78    79    72     -     -     -   Scrooge   McDuck
4    5.0  54.0  90kgs     -     -     -    69   NaN    75      Pink  Panther
5    6.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
6    7.0  19.0  56kgs     -     -     -    71    78    75     Dewey   McDuck
7    8.0  32.0  78kgs    78    76    75     -     -     -    Scööpy      Doo
10   9.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
11  10.0  12.0  45kgs     -     -     -    92    95    87     Louie   McDuck
12  11.0   NaN  60kgs    78    75    72     -     -     -     Henry      Nam
13  12.0  34.0    NaN    65    67    55     -     -     -    Michel     Long

Vấn đề 5: Dữ liệu bị trùng lặp

In [34]:
# Loại bỏ các dòng trùng lặp dựa trên các cột quan trọng
df = df.drop_duplicates(
    subset=['Firstname', 'Lastname', 'Age', 'Weight']
)

# Kiểm tra kết quả
print(df.head(15))


      ID   Age Weight m0006 m0612 m1218 f0006 f0612 f1218 Firstname Lastname
0    1.0  56.0  70kgs    72    69    71     -     -     -    Mickéy    Mousé
1    2.0  34.0  70kgs     -     -     -    85    84    76    Donald     Duck
2    3.0  16.0    NaN     -     -     -    65    69    72      Mini    Mouse
3    4.0   NaN  78kgs    78    79    72     -     -     -   Scrooge   McDuck
4    5.0  54.0  90kgs     -     -     -    69   NaN    75      Pink  Panther
5    6.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
6    7.0  19.0  56kgs     -     -     -    71    78    75     Dewey   McDuck
7    8.0  32.0  78kgs    78    76    75     -     -     -    Scööpy      Doo
11  10.0  12.0  45kgs     -     -     -    92    95    87     Louie   McDuck
12  11.0   NaN  60kgs    78    75    72     -     -     -     Henry      Nam
13  12.0  34.0    NaN    65    67    55     -     -     -    Michel     Long
14  13.0   NaN    NaN     -     -     -    68    72    70      Tana    Ricky

Vấn đề 6: Dữ liệu chứa ký tự non-ASCII

In [35]:
# Loại bỏ các ký tự non-ASCII trong cột Firstname
df['Firstname'] = df['Firstname'].replace(
    {r'[^\x00-\x7F]+': ''},
    regex=True
)

# Loại bỏ các ký tự non-ASCII trong cột Lastname
df['Lastname'] = df['Lastname'].replace(
    {r'[^\x00-\x7F]+': ''},
    regex=True
)

# Kiểm tra kết quả
print(df.head(15))


      ID   Age Weight m0006 m0612 m1218 f0006 f0612 f1218 Firstname Lastname
0    1.0  56.0  70kgs    72    69    71     -     -     -     Micky     Mous
1    2.0  34.0  70kgs     -     -     -    85    84    76    Donald     Duck
2    3.0  16.0    NaN     -     -     -    65    69    72      Mini    Mouse
3    4.0   NaN  78kgs    78    79    72     -     -     -   Scrooge   McDuck
4    5.0  54.0  90kgs     -     -     -    69   NaN    75      Pink  Panther
5    6.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
6    7.0  19.0  56kgs     -     -     -    71    78    75     Dewey   McDuck
7    8.0  32.0  78kgs    78    76    75     -     -     -      Scpy      Doo
11  10.0  12.0  45kgs     -     -     -    92    95    87     Louie   McDuck
12  11.0   NaN  60kgs    78    75    72     -     -     -     Henry      Nam
13  12.0  34.0    NaN    65    67    55     -     -     -    Michel     Long
14  13.0   NaN    NaN     -     -     -    68    72    70      Tana    Ricky

Vấn đề 7: Missing values (Giá trị bị thiếu)

In [36]:
index_ageweightnull = df[df['Age'].isna() & df['Weight'].isna()].index
df.drop(index_ageweightnull, inplace=True)

# Sửa lỗi: Cập nhật cột Age với giá trị thiếu được điền
df['Age'] = df['Age'].fillna(df['Age'].mean())

# Xử lý cột Weight:
# 1. Tạo một cột số tạm thời từ 'Weight' bằng cách loại bỏ 'kgs' và chuyển đổi sang float
df['Weight_num'] = pd.to_numeric(df['Weight'].astype(str).str.replace('kgs', '', regex=False), errors='coerce')

# 2. Tính giá trị trung bình của cột số này
weight_mean_val = df['Weight_num'].mean()

# 3. Điền giá trị thiếu trong cột số bằng giá trị trung bình
df['Weight_num'] = df['Weight_num'].fillna(weight_mean_val)

# 4. Chuyển đổi lại cột số thành dạng chuỗi 'Xkgs' và cập nhật lại cột 'Weight' gốc
df['Weight'] = df['Weight_num'].astype(int).astype(str) + 'kgs'

# 5. Xóa cột số tạm thời
df.drop('Weight_num', axis=1, inplace=True)

print(df.head(15))

      ID   Age Weight m0006 m0612 m1218 f0006 f0612 f1218 Firstname Lastname
0    1.0  56.0  70kgs    72    69    71     -     -     -     Micky     Mous
1    2.0  34.0  70kgs     -     -     -    85    84    76    Donald     Duck
2    3.0  16.0  71kgs     -     -     -    65    69    72      Mini    Mouse
3    4.0  36.1  78kgs    78    79    72     -     -     -   Scrooge   McDuck
4    5.0  54.0  90kgs     -     -     -    69   NaN    75      Pink  Panther
5    6.0  52.0  85kgs     -     -     -    68    75    72      Huey   McDuck
6    7.0  19.0  56kgs     -     -     -    71    78    75     Dewey   McDuck
7    8.0  32.0  78kgs    78    76    75     -     -     -      Scpy      Doo
11  10.0  12.0  45kgs     -     -     -    92    95    87     Louie   McDuck
12  11.0  36.1  60kgs    78    75    72     -     -     -     Henry      Nam
13  12.0  34.0  71kgs    65    67    55     -     -     -    Michel     Long
15  15.0  52.0  81kgs     -     -     -    68    75    72       NaN      NaN

Vấn đề 8

In [40]:
import pandas as pd

# --- Tái tạo lại DataFrame df về trạng thái trước khi melt ---
# Bước 1: Đọc lại file CSV với tên cột chính xác và bỏ qua dòng lỗi
column_names = [
    "ID", "Name", "Age", "Weight",
    "m0006", "m0612", "m1218",
    "f0006", "f0612", "f1218"
]
df = pd.read_csv("patient_heart_rate.csv", names=column_names, on_bad_lines='skip')

# Bước 2: Tách cột Name thành Firstname và Lastname, xóa cột Name
df[['Firstname', 'Lastname']] = df['Name'].str.split(expand=True)
df = df.drop('Name', axis=1)

# Bước 3: Chuẩn hóa cột Weight (lbs sang kgs, điền thiếu)
weight = df['Weight']
for i in range(len(weight)):
    x = str(weight[i])
    if "lbs" in x[-3:]:
        x = x[:-3]
        float_x = float(x)
        y = int(float_x / 2.2)
        y = str(y) + "kgs"
        weight.iloc[i] = y # Sử dụng .iloc để tránh SettingWithCopyWarning

# Bước 4: Xóa các dòng hoàn toàn trống
df.dropna(how="all", inplace=True)

# Bước 5: Loại bỏ các dòng trùng lặp
df = df.drop_duplicates(subset=['Firstname', 'Lastname', 'Age', 'Weight'])

# Bước 6: Loại bỏ ký tự non-ASCII
df['Firstname'] = df['Firstname'].replace({r'[^\x00-\x7F]+': ''}, regex=True)
df['Lastname'] = df['Lastname'].replace({r'[^\x00-\x7F]+': ''}, regex=True)

# Bước 7: Xử lý Missing Values cho Age và Weight, và tạo HeartRates, Sex
index_ageweightnull = df[df['Age'].isna() & df['Weight'].isna()].index
df.drop(index_ageweightnull, inplace=True)
df['Age'] = df['Age'].fillna(df['Age'].mean())

df['Weight_num'] = pd.to_numeric(df['Weight'].astype(str).str.replace('kgs', '', regex=False), errors='coerce')
weight_mean_val = df['Weight_num'].mean()
df['Weight_num'] = df['Weight_num'].fillna(weight_mean_val)
df['Weight'] = df['Weight_num'].astype(int).astype(str) + 'kgs'
df.drop('Weight_num', axis=1, inplace=True)

# Thêm cột Sex
if "Sex" not in df.columns:
    df["Sex"] = "Unknown"

# Tính toán HeartRates
hr_cols_measurements = ["m0006", "m0612", "m1218", "f0006", "f0612", "f1218"]
for col in hr_cols_measurements:
    df[col] = pd.to_numeric(df[col], errors="coerce")
df["HeartRates"] = df[hr_cols_measurements].mean(axis=1)

# --- Kết thúc tái tạo DataFrame df ---

# Danh sách các cột nhịp tim để melt
hr_measurement_cols = ["m0006", "m0612", "m1218", "f0006", "f0612", "f1218"]

# Xóa cột 'PulseRate' nếu nó đã tồn tại trong df (để tránh ValueError)
if 'PulseRate' in df.columns:
    df = df.drop(columns=['PulseRate'])

# 1. Chuyển các cột nhịp tim về dạng long (1 cột)
df = pd.melt(
    df,
    id_vars=['ID', 'Age', 'Weight', 'Firstname', 'Lastname', 'Sex', 'HeartRates'],
    value_vars=hr_measurement_cols,
    value_name='PulseRate',
    var_name='sex_and_time'
).sort_values(['ID', 'Age', 'Weight', 'Firstname', 'Lastname'])

# 2. Tách giới tính và thời gian từ tên cột
tmp_df = df['sex_and_time'].str.extract(r'(\D)(\d{2})(\d{2})', expand=True)

# 3. Đặt tên cho các cột vừa tách
tmp_df.columns = ['HR_Sex', 'hours_lower', 'hours_upper']

# 4. Tạo cột Time dạng "00-06"
tmp_df['Time'] = tmp_df['hours_lower'] + '-' + tmp_df['hours_upper']

# 5. Ghép lại vào dataframe chính
df = pd.concat([df, tmp_df], axis=1)

# 6. Xóa các cột không cần thiết
df = df.drop(['sex_and_time', 'hours_lower', 'hours_upper'], axis=1)

# 7. Xóa các dòng không có nhịp tim (NaN sau khi chuyển đổi)
df = df.dropna(subset=['PulseRate'])

# 8. Lưu ra file (nếu cần)
df.to_csv('output_cleanup.csv', index=False)

# 9. Hiển thị kết quả
df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#r

Unnamed: 0,ID,Age,Weight,Firstname,Lastname,Sex,HeartRates,PulseRate,HR_Sex,Time
0,1.0,56.0,70kgs,Micky,Mous,Unknown,70.666667,72.0,m,00-06
12,1.0,56.0,70kgs,Micky,Mous,Unknown,70.666667,69.0,m,06-12
24,1.0,56.0,70kgs,Micky,Mous,Unknown,70.666667,71.0,m,12-18
37,2.0,34.0,70kgs,Donald,Duck,Unknown,81.666667,85.0,f,00-06
49,2.0,34.0,70kgs,Donald,Duck,Unknown,81.666667,84.0,f,06-12


11: XỬ LÝ DỮ LIỆU THIẾU TRÊN BIẾN HUYẾT ÁP

In [42]:
# 1. Khảo sát tỉ lệ dữ liệu thiếu
missing_rate = df['PulseRate'].isna().mean() * 100
print(f"Tỉ lệ dữ liệu thiếu PulseRate: {missing_rate:.2f}%")

# 2. Sắp xếp dữ liệu theo từng người và thời gian
df = df.sort_values(by=['ID', 'Time'])

# (1) Trung bình giá trị liền trước & liền sau (nội suy theo từng người)
df['PulseRate'] = df.groupby('ID')['PulseRate'].transform(
    lambda x: x.interpolate(method='linear')
)

# (2) Trung bình 2 giá trị liền trước
df['PulseRate'] = df.groupby('ID')['PulseRate'].transform(
    lambda x: x.fillna(x.rolling(2, min_periods=1).mean())
)

# (3) Trung bình 2 giá trị liền sau
df['PulseRate'] = df.groupby('ID')['PulseRate'].transform(
    lambda x: x.fillna(x[::-1].rolling(2, min_periods=1).mean()[::-1])
)

# (4) Trung bình huyết áp của chính người đó
df['PulseRate'] = df.groupby('ID')['PulseRate'].transform(
    lambda x: x.fillna(x.mean())
)

# (5) Trung bình theo nhóm giới tính
df['PulseRate'] = df.groupby('HR_Sex')['PulseRate'].transform(
    lambda x: x.fillna(x.mean())
)

# (6) Trung bình toàn bộ dữ liệu (phương án cuối)
df['PulseRate'] = df['PulseRate'].fillna(df['PulseRate'].mean())

Tỉ lệ dữ liệu thiếu PulseRate: 0.00%


12. Hãy rút gọn dữ liệu phù hợp và reindex lại dữ liệu. Sau đó, lưu trữ dữ liệu đã xử lý thành
công với tên file patient_heart_rate_clean.csv

In [48]:
selected_columns = [
    'ID', 'Age', 'Weight', 'Firstname', 'Lastname',
    'Sex', 'PulseRate', 'HR_Sex', 'Time'
]
df = df[selected_columns]

print(df.head())

    ID   Age Weight Firstname Lastname      Sex  PulseRate HR_Sex   Time
0  1.0  56.0  70kgs     Micky     Mous  Unknown       72.0      m  00-06
1  1.0  56.0  70kgs     Micky     Mous  Unknown       69.0      m  06-12
2  1.0  56.0  70kgs     Micky     Mous  Unknown       71.0      m  12-18
3  2.0  34.0  70kgs    Donald     Duck  Unknown       85.0      f  00-06
4  2.0  34.0  70kgs    Donald     Duck  Unknown       84.0      f  06-12


In [49]:
df = df.reset_index(drop=True)
df.to_csv('patient_heart_rate_clean.csv', index=False)

print("DataFrame đã được reindex và lưu vào patient_heart_rate_clean.csv")
print(df.head())

DataFrame đã được reindex và lưu vào patient_heart_rate_clean.csv
    ID   Age Weight Firstname Lastname      Sex  PulseRate HR_Sex   Time
0  1.0  56.0  70kgs     Micky     Mous  Unknown       72.0      m  00-06
1  1.0  56.0  70kgs     Micky     Mous  Unknown       69.0      m  06-12
2  1.0  56.0  70kgs     Micky     Mous  Unknown       71.0      m  12-18
3  2.0  34.0  70kgs    Donald     Duck  Unknown       85.0      f  00-06
4  2.0  34.0  70kgs    Donald     Duck  Unknown       84.0      f  06-12
