## 1. Physicians
- The physicians.csv file contains data about the physicians that work for your hospital system
  - `physician_id`: An integer that uniquely identifies each physician.
  - `physician_name`: The physician’s name.
  - `physician_dob`: The physician’s date of birth.
  - `physician_grad_year`: The year the physician graduated medical school.
  - `medical_school`: Where the physician attended medical school.
  - `salary`: The physician’s salary.

In [2]:
FOLDER_PATH = "../../data/"

import pandas as pd

def load_data(file_name):
    file_path = FOLDER_PATH + file_name
    data = pd.read_csv(file_path)
    return data

physicians_df = load_data("physicians.csv")
physicians_df.head()


Unnamed: 0,physician_name,physician_id,physician_dob,physician_grad_year,medical_school,salary
0,Joseph Johnson,0,1970-02-22,2000-02-22,Johns Hopkins University School of Medicine,309534.155076
1,Jason Williams,1,1982-12-22,2012-12-22,Mayo Clinic Alix School of Medicine,281114.503559
2,Jesse Gordon,2,1959-06-03,1989-06-03,David Geffen School of Medicine at UCLA,305845.584636
3,Heather Smith,3,1965-06-15,1995-06-15,NYU Grossman Medical School,295239.766689
4,Kayla Hunter DDS,4,1978-10-19,2008-10-19,David Geffen School of Medicine at UCLA,298751.355201


In [3]:
physicians_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   physician_name       500 non-null    object 
 1   physician_id         500 non-null    int64  
 2   physician_dob        500 non-null    object 
 3   physician_grad_year  500 non-null    object 
 4   medical_school       500 non-null    object 
 5   salary               500 non-null    float64
dtypes: float64(1), int64(1), object(4)
memory usage: 23.6+ KB


## 2. Hospitals
- The hospitals.csv file records information on each hospital that your company manages.
  - `hospital_id`: An integer that uniquely identifies a hospital.
  - `hospital_name`: The hospital’s name.
  - `hospital_state`: The state the hospital is located in.


In [4]:
hopital_df = load_data("hospitals.csv")
hopital_df.head()

Unnamed: 0,hospital_id,hospital_name,hospital_state
0,0,Wallace-Hamilton,CO
1,1,"Burke, Griffin and Cooper",NC
2,2,Walton LLC,FL
3,3,Garcia Ltd,NC
4,4,"Jones, Brown and Murray",NC


In [5]:
hopital_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   hospital_id     30 non-null     int64 
 1   hospital_name   30 non-null     object
 2   hospital_state  30 non-null     object
dtypes: int64(1), object(2)
memory usage: 848.0+ bytes


## 3. Payers
- các công ty bảo hiểm mà bệnh viện của bạn thanh toán cho các lượt khám của bệnh nhân.
- Chỉ có năm công ty bảo hiểm trong dữ liệu là Medicaid, UnitedHealthcare, Aetna, Cigna và Blue Cross
  - `payer_id`: Một số nguyên dùng để định danh duy nhất cho mỗi công ty bảo hiểm.
  - `payer_name`: Tên công ty bảo hiểm.



In [6]:
payer_df = load_data("payers.csv")
payer_df.head()

Unnamed: 0,payer_name,payer_id
0,Medicaid,0
1,UnitedHealthcare,1
2,Aetna,2
3,Cigna,3
4,Blue Cross,4


In [7]:
payer_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   payer_name  5 non-null      object
 1   payer_id    5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


## 4. Patients
- Bảng dữ liệu chứa các thông tin về bệnh nhân: 
  - `patient_name`: tên bệnh nhân
  - `patient_sex`: giới tính
  - `patient_id`: id định danh cho từng bệnh nhân
  - `patient_dob`: ngày sinh của bệnh nhân
  - `patient_blood_type`: nhóm máu của bệnh nhân

In [8]:
patients_df = load_data("patients.csv")
patients_df.head()

Unnamed: 0,patient_name,patient_sex,patient_id,patient_dob,patient_blood_type
0,Tiffany Ramirez,Female,0,1994-10-06,O+
1,Ruben Burns,Male,1,1973-03-31,A-
2,Chad Byrd,Male,2,1932-05-10,O-
3,Antonio Frederick,Male,3,1944-10-04,AB+
4,Mrs. Brandy Flowers,Male,4,1989-01-26,AB+


## 5. Reviews
- File reviews.csv chứa các đánh giá của bệnh nhân về trải nghiệm tại bệnh viện. Nó có các trường sau:
  - `review_id`: Một số nguyên dùng để định danh duy nhất cho mỗi đánh giá.
  - `visit_id`: Một số nguyên dùng để xác định lượt khám của bệnh nhân mà đánh giá liên quan đến.
  - `review`: Văn bản đánh giá tự do do bệnh nhân để lại.
  - `physician_name`: Tên bác sĩ đã điều trị cho bệnh nhân.
  - `hospital_name`: Tên bệnh viện nơi bệnh nhân đã nằm viện.
  - `patient_name`: Tên bệnh nhân.

In [9]:
reviews_df = load_data("reviews.csv")
reviews_df.head()

Unnamed: 0,review_id,visit_id,review,physician_name,hospital_name,patient_name
0,0,6997,The medical staff at the hospital were incredi...,Laura Brown,Wallace-Hamilton,Christy Johnson
1,9,8138,The hospital's commitment to patient education...,Steven Watson,Wallace-Hamilton,Anna Frazier
2,11,680,The hospital's commitment to patient safety wa...,Chase Mcpherson Jr.,Wallace-Hamilton,Abigail Mitchell
3,892,9846,I had a positive experience overall at the hos...,Jason Martinez,Wallace-Hamilton,Kimberly Rivas
4,822,7397,The medical team at the hospital was exception...,Chelsey Davis,Wallace-Hamilton,Catherine Yang


In [10]:
reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1005 entries, 0 to 1004
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   review_id       1005 non-null   int64 
 1   visit_id        1005 non-null   int64 
 2   review          1005 non-null   object
 3   physician_name  1005 non-null   object
 4   hospital_name   1005 non-null   object
 5   patient_name    1005 non-null   object
dtypes: int64(2), object(4)
memory usage: 47.2+ KB


## 6. Visits  
- File visits.csv ghi lại chi tiết về mỗi lượt khám tại bệnh viện mà công ty bạn đã phục vụ. Tiếp tục với ví dụ về star schema, bạn có thể coi visits.csv như một bảng fact kết nối các bảng hospitals, physicians, patients và payers. Các trường dữ liệu gồm:
  - `visit_id`: Mã định danh duy nhất cho mỗi lượt khám tại bệnh viện.
  - `patient_id`: ID của bệnh nhân liên quan đến lượt khám.
  - `date_of_admission`: Ngày bệnh nhân nhập viện.
  - `room_number`: Số phòng của bệnh nhân.
  - `admission_type`: Một trong các giá trị ‘Elective’, ‘Emergency’, hoặc ‘Urgent’.
  - `chief_complaint`: Chuỗi mô tả lý do chính khiến bệnh nhân nhập viện.
  - `primary_diagnosis`: Chuỗi mô tả chẩn đoán chính được bác sĩ đưa ra.
  - `treatment_description`: Tóm tắt văn bản về phương pháp điều trị mà bác sĩ đã thực hiện.
  - `test_results`: Một trong các giá trị ‘Inconclusive’, ‘Normal’, hoặc ‘Abnormal’.
  - `discharge_date`: Ngày bệnh nhân xuất viện.
  - `physician_id`: ID của bác sĩ điều trị cho bệnh nhân.
  - `hospital_id`: ID của bệnh viện nơi bệnh nhân nằm viện.
  - `payer_id`: ID của công ty bảo hiểm mà bệnh nhân sử dụng.
  - `billing_amount`: Số tiền được thanh toán cho công ty bảo hiểm cho lượt khám đó.
  - `visit_status`: Một trong hai giá trị ‘OPEN’ hoặc ‘DISCHARGED’.

## 7. Convert data to Vietnam

### 7.1 Patients

In [11]:
import pandas as pd
import random

# Định nghĩa danh sách họ phổ biến Việt Nam
vietnamese_surnames = [
    'Nguyễn', 'Trần', 'Lê', 'Phạm', 'Hoàng', 'Huỳnh', 'Phan', 'Vũ', 'Võ', 'Đặng',
    'Bùi', 'Đỗ', 'Hồ', 'Ngô', 'Đồng', 'Đào', 'Lâm', 'Lý', 'Lưu', 'Dương'
]

# Tên đệm và tên chính phổ biến cho Nam (sử dụng "Văn" làm đệm phổ biến)
male_first_names = [
    'Văn An', 'Văn Bình', 'Văn Cường', 'Văn Dũng', 'Văn Em', 'Văn Phong', 'Văn Giang',
    'Văn Hùng', 'Văn Hải', 'Văn Khánh', 'Văn Long', 'Văn Minh', 'Văn Nam', 'Văn Oanh',
    'Văn Phúc', 'Văn Quân', 'Văn Sơn', 'Văn Tài', 'Văn Tuấn', 'Văn Vinh'
]

# Tên đệm và tên chính phổ biến cho Nữ (sử dụng "Thị" làm đệm phổ biến)
female_first_names = [
    'Thị Ánh', 'Thị Bình', 'Thị Cẩm', 'Thị Dung', 'Thị Hạnh', 'Thị Hoa', 'Thị Hương',
    'Thị Kim', 'Thị Lan', 'Thị Mai', 'Thị Ngọc', 'Thị Oanh', 'Thị Phương', 'Thị Quỳnh',
    'Thị Thu', 'Thị Thảo', 'Thị Uyên', 'Thị Vân', 'Thị Yến', 'Thị Hồng'
]

# Bằng cấp giữ nguyên (nếu có ở cuối tên)
suffixes = ['MD', 'DVM', 'DDS', 'PhD']

# Hàm tạo tên Việt Nam dựa trên giới tính
def generate_vietnamese_name(gender):
    surname = random.choice(vietnamese_surnames)
    if gender == 'Male':
        first_name = random.choice(male_first_names)
    else:
        first_name = random.choice(female_first_names)
    return f"{surname} {first_name}"

# Hàm xử lý tên (bỏ qua danh xưng, chỉ giữ bằng cấp nếu có)
def process_name(original_name, gender):
    name_parts = original_name.split()
    
    # Kiểm tra bằng cấp ở cuối
    suffix = ''
    if name_parts[-1] in suffixes:
        suffix = f" {name_parts[-1]}"
        name_parts = name_parts[:-1]  # Bỏ bằng cấp tạm thời
    
    # Tạo tên Việt Nam mới
    viet_name = generate_vietnamese_name(gender)
    
    return viet_name + suffix

# Đọc file CSV gốc
df = pd.read_csv('../../data/patients.csv')

# Chuyển đổi cột patient_sex
df['patient_sex'] = df['patient_sex'].map({'Male': 'Nam', 'Female': 'Nữ'})

# Chuyển đổi cột patient_name dựa trên giới tính gốc
original_sex = df['patient_sex'].map({'Nam': 'Male', 'Nữ': 'Female'}).fillna('Male')
df['patient_name'] = df.apply(lambda row: process_name(row['patient_name'], original_sex.iloc[row.name]), axis=1)

# Lưu file CSV mới
df.to_csv('vietnamese_patients.csv', index=False)

print("Đã tạo file 'vietnamese_patients.csv' thành công!")
print(df.head())  # In 5 dòng đầu để kiểm tra

Đã tạo file 'vietnamese_patients.csv' thành công!
       patient_name patient_sex  patient_id patient_dob patient_blood_type
0        Vũ Thị Lan          Nữ           0  1994-10-06                 O+
1     Phạm Văn Vinh         Nam           1  1973-03-31                 A-
2     Đặng Văn Minh         Nam           2  1932-05-10                 O-
3      Đặng Văn Sơn         Nam           3  1944-10-04                AB+
4  Nguyễn Văn Khánh         Nam           4  1989-01-26                AB+


### 7.2. Hospitals

In [13]:
import pandas as pd
import random

# Danh sách họ phổ biến Việt Nam cho tên bệnh viện
vietnamese_surnames = [
    'Nguyễn', 'Trần', 'Lê', 'Phạm', 'Hoàng', 'Huỳnh', 'Phan', 'Vũ', 'Võ', 'Đặng',
    'Bùi', 'Đỗ', 'Hồ', 'Ngô', 'Đồng', 'Đào', 'Lâm', 'Lý', 'Lưu', 'Dương'
]

# Các hậu tố kiểu công ty/bệnh viện (tương tự LLC, Ltd)
company_suffixes = ['LLC', 'Ltd', 'Cty TNHH', 'Công ty', 'Tập đoàn']

# Danh sách tỉnh/thành phố Việt Nam
vietnamese_provinces = [
    'Hà Nội', 'TP. Hồ Chí Minh', 'Đà Nẵng', 'Hải Phòng', 'Cần Thơ',
    'Bình Dương', 'Đồng Nai', 'Bà Rịa - Vũng Tàu', 'Khánh Hòa', 'Quảng Ninh',
    'Thanh Hóa', 'Nghệ An', 'Hà Tĩnh', 'Quảng Nam', 'Quảng Ngãi',
    'Bình Định', 'Phú Yên', 'Ninh Thuận', 'Bình Thuận', 'Lâm Đồng'
]

# Hàm tạo tên bệnh viện kiểu Việt Nam
def generate_vietnamese_hospital_name():
    # Ngẫu nhiên chọn kiểu: đơn giản, có dấu gạch, có dấu phẩy, hoặc có hậu tố
    style = random.choice(['simple', 'hyphen', 'comma', 'company'])
    
    if style == 'simple':
        surname1 = random.choice(vietnamese_surnames)
        return f"Bệnh viện {surname1}"
    
    elif style == 'hyphen':
        surname1 = random.choice(vietnamese_surnames)
        surname2 = random.choice(vietnamese_surnames)
        return f"Bệnh viện {surname1}-{surname2}"
    
    elif style == 'comma':
        surname1 = random.choice(vietnamese_surnames)
        surname2 = random.choice(vietnamese_surnames)
        surname3 = random.choice(vietnamese_surnames)
        return f"Bệnh viện {surname1}, {surname2} và {surname3}"
    
    else:  # company
        surname = random.choice(vietnamese_surnames)
        suffix = random.choice(company_suffixes)
        return f"Bệnh viện {surname} {suffix}"

# Đọc file CSV gốc
df = pd.read_csv('../../data/english/hospitals.csv')

# Chuyển đổi cột hospital_name
df['hospital_name'] = df['hospital_name'].apply(lambda x: generate_vietnamese_hospital_name())

# Chuyển đổi cột hospital_state (chọn ngẫu nhiên tỉnh Việt Nam)
df['hospital_state'] = df['hospital_state'].apply(lambda x: random.choice(vietnamese_provinces))

# Lưu file CSV mới
df.to_csv('../../data/vietnamese/vietnamese_hospitals.csv', index=False)

print("Đã tạo file 'vietnamese_hospitals.csv' thành công!")
print(df.head())  # In 5 dòng đầu để kiểm tra

Đã tạo file 'vietnamese_hospitals.csv' thành công!
   hospital_id                  hospital_name   hospital_state
0            0  Bệnh viện Ngô, Đặng và Nguyễn  TP. Hồ Chí Minh
1            1        Bệnh viện Phạm Cty TNHH       Quảng Ninh
2            2    Bệnh viện Lưu, Bùi và Huỳnh       Quảng Ninh
3            3                 Bệnh viện Phan          Nghệ An
4            4           Bệnh viện Nguyễn-Bùi       Bình Dương


### 7.3 Physicians

In [17]:
import pandas as pd
import random

# Định nghĩa danh sách họ phổ biến Việt Nam
vietnamese_surnames = [
    'Nguyễn', 'Trần', 'Lê', 'Phạm', 'Hoàng', 'Huỳnh', 'Phan', 'Vũ', 'Võ', 'Đặng',
    'Bùi', 'Đỗ', 'Hồ', 'Ngô', 'Đồng', 'Đào', 'Lâm', 'Lý', 'Lưu', 'Dương'
]

# Tên đệm và tên chính phổ biến cho Nam (sử dụng "Văn" làm đệm phổ biến)
male_first_names = [
    'Văn An', 'Văn Bình', 'Văn Cường', 'Văn Dũng', 'Văn Em', 'Văn Phong', 'Văn Giang',
    'Văn Hùng', 'Văn Hải', 'Văn Khánh', 'Văn Long', 'Văn Minh', 'Văn Nam', 'Văn Oanh',
    'Văn Phúc', 'Văn Quân', 'Văn Sơn', 'Văn Tài', 'Văn Tuấn', 'Văn Vinh'
]

# Tên đệm và tên chính phổ biến cho Nữ (sử dụng "Thị" làm đệm phổ biến)
female_first_names = [
    'Thị Ánh', 'Thị Bình', 'Thị Cẩm', 'Thị Dung', 'Thị Hạnh', 'Thị Hoa', 'Thị Hương',
    'Thị Kim', 'Thị Lan', 'Thị Mai', 'Thị Ngọc', 'Thị Oanh', 'Thị Phương', 'Thị Quỳnh',
    'Thị Thu', 'Thị Thảo', 'Thị Uyên', 'Thị Vân', 'Thị Yến', 'Thị Hồng'
]

# Bằng cấp giữ nguyên (nếu có ở cuối tên)
suffixes = ['MD', 'DVM', 'DDS', 'PhD']

# Danh sách trường y khoa Việt Nam phổ biến
vietnamese_medical_schools = [
    'Đại học Y Dược TP. Hồ Chí Minh',
    'Trường Đại học Y Hà Nội',
    'Đại học Y Dược Huế',
    'Đại học Y Dược Cần Thơ',
    'Đại học Y Dược Đà Nẵng',
    'Trường Y Dược - Đại học Quốc gia Hà Nội',
    'Đại học Y khoa Phạm Ngọc Thạch',
    'Đại học Y Dược Hải Phòng',
    'Đại học Y Dược Thái Nguyên',
    'Trường Đại học Y khoa Vinh'
]

# Hàm tạo tên Việt Nam dựa trên giới tính ngẫu nhiên (vì không có cột giới tính)
def generate_vietnamese_name():
    gender = random.choice(['Male', 'Female'])
    surname = random.choice(vietnamese_surnames)
    if gender == 'Male':
        first_name = random.choice(male_first_names)
    else:
        first_name = random.choice(female_first_names)
    return f"{surname} {first_name}"

# Hàm xử lý tên (bỏ qua danh xưng, chỉ giữ bằng cấp nếu có)
def process_name(original_name):
    name_parts = original_name.split()
    
    # Kiểm tra bằng cấp ở cuối
    suffix = ''
    if name_parts and name_parts[-1] in suffixes:
        suffix = f" {name_parts[-1]}"
        name_parts = name_parts[:-1]  # Bỏ bằng cấp tạm thời
    
    # Tạo tên Việt Nam mới
    viet_name = generate_vietnamese_name()
    
    return viet_name + suffix

# Hàm tạo tên trường y khoa Việt Nam (thêm tham số để khớp với .apply())
def generate_vietnamese_medical_school(original_school):
    return random.choice(vietnamese_medical_schools)

# Đọc file CSV gốc
df = pd.read_csv('../../data/english/physicians.csv')

# Chuyển đổi cột physician_name
df['physician_name'] = df['physician_name'].apply(process_name)

# Chuyển đổi cột medical_school
df['medical_school'] = df['medical_school'].apply(generate_vietnamese_medical_school)

# Lưu file CSV mới (các cột khác giữ nguyên)
df.to_csv('../../data/vietnamese/vietnamese_physicians.csv', index=False)

print("Đã tạo file 'vietnamese_physicians.csv' thành công!")
print(df.head())  # In 5 dòng đầu để kiểm tra

Đã tạo file 'vietnamese_physicians.csv' thành công!
   physician_name  physician_id physician_dob physician_grad_year  \
0   Phạm Thị Ngọc             0    1970-02-22          2000-02-22   
1   Đồng Văn Minh             1    1982-12-22          2012-12-22   
2      Bùi Văn An             2    1959-06-03          1989-06-03   
3     Ngô Thị Kim             3    1965-06-15          1995-06-15   
4  Hồ Thị Kim DDS             4    1978-10-19          2008-10-19   

                   medical_school         salary  
0          Đại học Y Dược Cần Thơ  309534.155076  
1      Trường Đại học Y khoa Vinh  281114.503559  
2        Đại học Y Dược Hải Phòng  305845.584636  
3  Đại học Y Dược TP. Hồ Chí Minh  295239.766689  
4  Đại học Y Dược TP. Hồ Chí Minh  298751.355201  
