## Set up

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import sys

sys.path.insert(0, '..')

In [3]:
import pandas as pd

In [4]:
import pathlib

In [5]:
# Define the path to the directory
data_path = pathlib.Path('../data/data_version1/')
# Check if data_path exists
dfs = []

if not data_path.exists():
    print(f"The path {data_path} does not exist.")
else:
    # List all CSV files starting with "reason_specialist"
    files = list(data_path.glob('reason_specialist*.csv'))
    
    if len(files) == 0:
        print(f"No 'reason_specialist' CSV files found in {data_path}")
    else:
        print(f"Found {len(files)} 'reason_specialist' CSV files:")
        for file in files:
            print(f"  - {file.name}")
            try:
                df = pd.read_csv(file, usecols=['reason_combind', 'specialist_name', 'age', 'gender'])
                # Add the filename as a column for reference
                df['source_file'] = file.name
                dfs.append(df)
            except Exception as e:
                print(f"Error reading {file.name}: {e}")
                
# Combine all dataframes
combined_df = pd.concat(dfs, ignore_index=True)

Found 18 'reason_specialist' CSV files:
  - reason_specialist - thần kinh.csv
  - reason_specialist - vô sinh hiếm muộn.csv
  - reason_specialist - nhi khoa.csv
  - reason_specialist - thận tiết niệu.csv
  - reason_specialist - ung bướu.csv
  - reason_specialist - hô hấp phổi.csv
  - reason_specialist - chuyên khoa mắt.csv
  - reason_specialist - cơ xương khớp.csv
  - reason_specialist - nha khoa.csv
  - reason_specialist - tim mạch.csv
  - reason_specialist - tiêu hóa.csv
  - reason_specialist - sức khỏe tâm thần.csv
  - reason_specialist - nội khoa.csv
  - reason_specialist - tiểu đường nội tiết.csv
  - reason_specialist - tai mũi họng.csv
  - reason_specialist - nam học.csv
  - reason_specialist - da liễu.csv
  - reason_specialist - sản phụ khoa.csv


In [6]:
combined_df

Unnamed: 0,gender,age,reason_combind,specialist_name,source_file
0,,57,mất ngủ,thần kinh,reason_specialist - thần kinh.csv
1,,35,rối loạn thần kinh thực vật,thần kinh,reason_specialist - thần kinh.csv
2,,36,đau đầu,thần kinh,reason_specialist - thần kinh.csv
3,,40,"đau đầu,đau sau ngực gần phổi",thần kinh,reason_specialist - thần kinh.csv
4,,12,co giật 3 lần,thần kinh,reason_specialist - thần kinh.csv
...,...,...,...,...,...
53619,1.0,0,kiểm tra tử cung và buồng trứng,sản phụ khoa,reason_specialist - sản phụ khoa.csv
53620,1.0,0,vài tháng có kinh 1 lần,sản phụ khoa,reason_specialist - sản phụ khoa.csv
53621,1.0,0,tôi đi khám sức khoẻ định kỳ bị viêm lộ tuyến,sản phụ khoa,reason_specialist - sản phụ khoa.csv
53622,1.0,0,"em bị ngứa rát âm đạo, châm chích khó chịu, mu...",sản phụ khoa,reason_specialist - sản phụ khoa.csv


In [7]:
# Process gender column
combined_df['gender'] = combined_df['gender'].fillna('unknown')
combined_df['gender'] = combined_df['gender'].replace({1.0: 'female', 0.0: 'male'})

In [8]:
combined_df.tail()

Unnamed: 0,gender,age,reason_combind,specialist_name,source_file
53619,female,0,kiểm tra tử cung và buồng trứng,sản phụ khoa,reason_specialist - sản phụ khoa.csv
53620,female,0,vài tháng có kinh 1 lần,sản phụ khoa,reason_specialist - sản phụ khoa.csv
53621,female,0,tôi đi khám sức khoẻ định kỳ bị viêm lộ tuyến,sản phụ khoa,reason_specialist - sản phụ khoa.csv
53622,female,0,"em bị ngứa rát âm đạo, châm chích khó chịu, mu...",sản phụ khoa,reason_specialist - sản phụ khoa.csv
53623,female,0,cấy que tranh thai,sản phụ khoa,reason_specialist - sản phụ khoa.csv


In [9]:
# Process age column
# Replace 0 with 'unknown'
# Categorize 0-15 as 'child'
# Categorize >15 as 'adult'
combined_df['age'] = combined_df['age'].fillna(0)
combined_df['age_category'] = combined_df['age'].apply(lambda x: 
                                                     'unknown' if x == 0 else 
                                                     'child' if 0 < x <= 15 else 
                                                     'adult')
# Display the results
print(combined_df['age_category'].value_counts())
combined_df.head()

age_category
adult      34894
unknown    13124
child       5606
Name: count, dtype: int64


Unnamed: 0,gender,age,reason_combind,specialist_name,source_file,age_category
0,unknown,57,mất ngủ,thần kinh,reason_specialist - thần kinh.csv,adult
1,unknown,35,rối loạn thần kinh thực vật,thần kinh,reason_specialist - thần kinh.csv,adult
2,unknown,36,đau đầu,thần kinh,reason_specialist - thần kinh.csv,adult
3,unknown,40,"đau đầu,đau sau ngực gần phổi",thần kinh,reason_specialist - thần kinh.csv,adult
4,unknown,12,co giật 3 lần,thần kinh,reason_specialist - thần kinh.csv,child


In [10]:
len(combined_df.specialist_name.unique()), combined_df.specialist_name.unique()

(18,
 array(['thần kinh', 'vô sinh - hiếm muộn', 'nhi khoa', 'thận - tiết niệu',
        'ung bướu', 'hô hấp - phổi', 'chuyên khoa mắt', 'cơ xương khớp',
        'nha khoa', 'tim mạch', 'tiêu hoá', 'sức khỏe tâm thần',
        'nội khoa', 'tiểu đường - nội tiết', 'tai mũi họng', 'nam học',
        'da liễu', 'sản phụ khoa'], dtype=object))

In [11]:
combined_df.to_csv('../data/data_version1/combined_data.csv', index=False)