# Translation and Merging

Each data file is in a different language. We need to translate them into English before concatenation.
First, we'll examine the headers

In [82]:
import pandas as pd

# Load the survey data files
file_paths = {
    'English': 'data/en.csv',
    'Bengali': 'data/bengali.csv',
    'Korean': 'data/kr.csv',
    'Vietnamese': 'data/vi.csv'
}

# Read the headers of each file
dfs = {}
headers = {}
for language, file_path in file_paths.items():
    df = pd.read_csv(file_path)  # Read only headers
    dfs[language] = df
    headers[language] = df.columns.tolist()

headers


{'English': ['Timestamp',
  'What is your age group?',
  'What is your gender?',
  'What is the highest level of education you have completed?',
  'Which category best describes your occupation?',
  'On average, how many days per week do you exercise for at least 30 (or under 30 mins but high intensity) minutes? ',
  'On average, how many hours per day do you use electronic devices such as smartphones, laptops, televisions, etc.? ',
  'On average, how much time do you usually spend on phone / computers before sleep?',
  '(Optional) What is your height in centimeters?',
  '(Optional) What is your weight in kilograms?',
  'On average, what time do you typically go to bed at night?',
  'On average, what time do you typically wake up in the morning?',
  'On average, how long does it take you to fall asleep at night?',
  'On average, how long is your typical daytime nap?',
  'On average, how many hours do you sleep per 24-hour period?',
  'How would you rate your overall sleep quality?',
  

Let's drop Username and Email columns for privacy

In [83]:
for lang, df in dfs.items():
    try:
        # Email column is the last column
        df.drop(labels=df.columns[-1], axis=1, inplace=True)

        # Drop username column if present
        df.drop(columns='Username', inplace=True)
    except Exception as err:
        pass
        # print(err)

## Bengali

### Translate Headers to English

In [84]:

dfs['Bengali'].head(3)

Unnamed: 0,Timestamp,আপনার বয়স কত?*,আপনার লিঙ্গ কি? *,আপনার শিক্ষাগত যোগ্যতা কি? *\n,আপনার পেশা কি? *,গড়ে সপ্তাহে কয়দিন আপনি কমপক্ষে ৩০ মিনিট বা তার চেয়ে বেশি সময়ের জন্য ব্যায়াম করেন? *,"গড়ে আপনি কত ঘণ্টা ইলেকট্রনিক ডিভাইস ব্যবহার করেন, যেমন স্মার্টফোন, ল্যাপটপ, টেলিভিশন, ইত্যাদি?",গড়ে আপনি ঘুমানোর আগে ফোনে / ল্যপটপে কতটুকু সময় অতিবাহিত করেন?,(ঐচ্ছিক) আপনার উচ্চতা কত? (সে.মি. এককে),(ঐচ্ছিক) আপনার ওজন কত? (কেজি তে),রাতে সাধারনত কখন ঘুমাতে যান?,সাধারনত আপনি সকালে কখন ঘুম থেকে উঠেন?,সাধারনত শোয়ার কতক্ষনের মধ্যে আপনার ঘুম চলে আসে?,"আপনি কি দিনের বেলা সামান্য ঘুমিয়ে নেন? যদি উত্তর হ্যা হয়, তাহলে তা কতক্ষন?",সব মিলিয়ে গড়ে আপনি ২৪ ঘণ্টার মধ্যে কত ঘণ্টা ঘুমান?,আপনার সামগ্রীক ঘুমের মান কেমন থাকে?,"আপনি কি পরিমান ঘুমের মধ্য বিঘ্নতা পরিলক্ষন করেন, যেমন রাতে ঘুম ভেঙ্গে যাওয়া বা খুব হালকা ঘুম?",আপনি কি ঘুমের জন্য কোন ঔষধ সেবন করেন?
0,2023/11/07 3:26:01 PM GMT+9,২৫-৩৪,মহিলা,মাস্টার্স ডিগ্রি,অন্যান্য:,১-২ দিন,১-৩ ঘণ্টা,৩০ মিনিট - ১ ঘণ্টা,152.4,47.0,23:00,06:30,৬০ মিনিটের বেশি,"হ্যাঁ, ৩০ মিনিটের কম",৪-৬ ঘণ্টা,2,প্রায় সময়ই,না
1,2023/11/07 3:45:02 PM GMT+9,২৫-৩৪,মহিলা,মাস্টার্স ডিগ্রি,অন্যান্য:,৩-৪ দিন,৪-৬ ঘণ্টা,৩০ মিনিটের কম,,,00:00,08:30,১৫-৩০ মিনিট,"হ্যাঁ, ৩০ মিনিটের কম",৬ ঘণ্টা এবং তার বেশি,4,মাঝে মধ্যেই,না
2,2023/11/07 3:51:38 PM GMT+9,২৫-৩৪,মহিলা,ব্যাচলার ডিগ্রি,অন্যান্য:,০ দিন,৭ অথবা আরও ঘণ্টা,২ ঘণ্টা অথবা তার বেশি,153.4,68.0,00:30,09:30,১৫ মিনিটের কম,"না, আমি দিনে ঘুমায় না",৪-৬ ঘণ্টা,3,প্রায় সময়ই,না


Column Headers are too lengthy and hard to read. Let's rename them to English

In [85]:
# Define the new column names
new_column_names = {
    'Timestamp': 'Timestamp',
    # 'Username': 'User ID',
    'আপনার বয়স কত?*': 'Age Group',
    'আপনার লিঙ্গ কি? *': 'Gender',
    'আপনার শিক্ষাগত যোগ্যতা কি? *\n': 'Education Level',
    'আপনার পেশা কি? *': 'Occupation',
    'গড়ে সপ্তাহে কয়দিন আপনি কমপক্ষে ৩০ মিনিট বা তার চেয়ে বেশি সময়ের জন্য ব্যায়াম করেন? *': 'Exercise Days/Week',
    'গড়ে আপনি কত ঘণ্টা ইলেকট্রনিক ডিভাইস ব্যবহার করেন, যেমন স্মার্টফোন, ল্যাপটপ, টেলিভিশন, ইত্যাদি? ': 'Device Usage (hrs/day)',
    'গড়ে আপনি ঘুমানোর আগে ফোনে / ল্যপটপে কতটুকু সময় অতিবাহিত করেন?': 'Screen Time Before Sleep',
    '(ঐচ্ছিক) আপনার উচ্চতা কত? (সে.মি. এককে)': 'Height (cm)',
    '(ঐচ্ছিক) আপনার ওজন কত? (কেজি তে)': 'Weight (kg)',
    'রাতে সাধারনত কখন ঘুমাতে যান?': 'Bedtime',
    'সাধারনত আপনি সকালে কখন ঘুম থেকে উঠেন?': 'Wake-up Time',
    'সাধারনত শোয়ার কতক্ষনের মধ্যে আপনার ঘুম চলে আসে?': 'Sleep Onset Time',
    'আপনি কি দিনের বেলা সামান্য ঘুমিয়ে নেন? যদি উত্তর হ্যা হয়, তাহলে তা কতক্ষন?': 'Nap Duration',
    'সব মিলিয়ে গড়ে আপনি ২৪ ঘণ্টার মধ্যে কত ঘণ্টা ঘুমান?': 'Sleep Duration (hrs/24hr)',
    'আপনার সামগ্রীক ঘুমের মান কেমন থাকে? ': 'Sleep Quality',
    'আপনি কি পরিমান ঘুমের মধ্য বিঘ্নতা পরিলক্ষন করেন, যেমন রাতে ঘুম ভেঙ্গে যাওয়া বা খুব হালকা ঘুম?': 'Sleep Disturbances',
    'আপনি কি ঘুমের জন্য কোন ঔষধ সেবন করেন?': 'Sleep Medication',
    'আপনার ইমেল ঠিকানা': 'Email Address'
}

# Rename the columns
dfs['Bengali'].rename(columns=new_column_names, inplace=True)

# Show the updated DataFrame
dfs['Bengali'].head()

Unnamed: 0,Timestamp,Age Group,Gender,Education Level,Occupation,Exercise Days/Week,Device Usage (hrs/day),Screen Time Before Sleep,Height (cm),Weight (kg),Bedtime,Wake-up Time,Sleep Onset Time,Nap Duration,Sleep Duration (hrs/24hr),Sleep Quality,Sleep Disturbances,Sleep Medication
0,2023/11/07 3:26:01 PM GMT+9,২৫-৩৪,মহিলা,মাস্টার্স ডিগ্রি,অন্যান্য:,১-২ দিন,১-৩ ঘণ্টা,৩০ মিনিট - ১ ঘণ্টা,152.4,47.0,23:00,06:30,৬০ মিনিটের বেশি,"হ্যাঁ, ৩০ মিনিটের কম",৪-৬ ঘণ্টা,2,প্রায় সময়ই,না
1,2023/11/07 3:45:02 PM GMT+9,২৫-৩৪,মহিলা,মাস্টার্স ডিগ্রি,অন্যান্য:,৩-৪ দিন,৪-৬ ঘণ্টা,৩০ মিনিটের কম,,,00:00,08:30,১৫-৩০ মিনিট,"হ্যাঁ, ৩০ মিনিটের কম",৬ ঘণ্টা এবং তার বেশি,4,মাঝে মধ্যেই,না
2,2023/11/07 3:51:38 PM GMT+9,২৫-৩৪,মহিলা,ব্যাচলার ডিগ্রি,অন্যান্য:,০ দিন,৭ অথবা আরও ঘণ্টা,২ ঘণ্টা অথবা তার বেশি,153.4,68.0,00:30,09:30,১৫ মিনিটের কম,"না, আমি দিনে ঘুমায় না",৪-৬ ঘণ্টা,3,প্রায় সময়ই,না
3,2023/11/07 3:53:05 PM GMT+9,২৫-৩৪,মহিলা,ডক্টরেট বা পেশাদার ডিগ্রি,পেশাদার / অফিস কর্মী,৫ বা আরও বেশি,৭ অথবা আরও ঘণ্টা,৩০ মিনিট - ১ ঘণ্টা,154.0,59.2,22:50,06:20,১৫-৩০ মিনিট,"না, আমি দিনে ঘুমায় না",৬ ঘণ্টা এবং তার বেশি,3,হঠাৎ হঠাৎ,না
4,2023/11/07 4:05:44 PM GMT+9,২৫-৩৪,পুরুষ,মাস্টার্স ডিগ্রি,ছাত্র,৫ বা আরও বেশি,১-৩ ঘণ্টা,৩০ মিনিটের কম,171.0,75.0,22:00,06:00,১৫-৩০ মিনিট,"না, আমি দিনে ঘুমায় না",৬ ঘণ্টা এবং তার বেশি,4,হঠাৎ হঠাৎ,না


### Translate Cell values to English

In [86]:
dfs['Bengali']['Education Level'].unique()

array(['মাস্টার্স ডিগ্রি', 'ব্যাচলার ডিগ্রি', 'ডক্টরেট বা পেশাদার ডিগ্রি',
       'উচ্চ মাধ্যমিক'], dtype=object)

In [87]:
gender_mapping = {
    'পুরুষ': 'Male',
    'মহিলা': 'Female',
    'অন্যান্য': 'Other',
    # Add more mappings as needed
}

education_mapping = {
    'মাস্টার্স ডিগ্রি': "Master's Degree",
    'ব্যাচলার ডিগ্রি': "Bachelor's Degree",
    'ডক্টরেট বা পেশাদার ডিগ্রি': 'Doctorate or Professional Degree',
    'উচ্চ মাধ্যমিক': 'Higher Secondary'
}

dfs['Bengali']['Gender'] = dfs['Bengali']['Gender'].map(gender_mapping)
dfs['Bengali']['Education Level'] = dfs['Bengali']['Education Level'].map(education_mapping)
dfs['Bengali'].sample(3)

Unnamed: 0,Timestamp,Age Group,Gender,Education Level,Occupation,Exercise Days/Week,Device Usage (hrs/day),Screen Time Before Sleep,Height (cm),Weight (kg),Bedtime,Wake-up Time,Sleep Onset Time,Nap Duration,Sleep Duration (hrs/24hr),Sleep Quality,Sleep Disturbances,Sleep Medication
10,2023/11/07 5:52:10 PM GMT+9,২৫-৩৪,Female,Master's Degree,অন্যান্য:,০ দিন,১-৩ ঘণ্টা,৩০ মিনিটের কম,,,11:00,08:30,১৫-৩০ মিনিট,"হ্যাঁ, ৩০ মিনিটের কম",৪-৬ ঘণ্টা,4,মাঝে মধ্যেই,না
19,2023/11/07 8:31:58 PM GMT+9,২৫-৩৪,Male,Doctorate or Professional Degree,ছাত্র,১-২ দিন,৪-৬ ঘণ্টা,১-২ ঘণ্টা,171.0,75.0,01:00,09:30,১৫-৩০ মিনিট,"হ্যাঁ, ৩০-৬০ মিনিট",৬ ঘণ্টা এবং তার বেশি,3,হঠাৎ হঠাৎ,না
21,2023/11/07 11:29:19 PM GMT+9,২৫-৩৪,Male,Master's Degree,পেশাদার / অফিস কর্মী,৫ বা আরও বেশি,৪-৬ ঘণ্টা,২ ঘণ্টা অথবা তার বেশি,14.22,56.0,01:00,07:00,৩০-৬০ মিনিট,"হ্যাঁ, ৩০-৬০ মিনিট",৪-৬ ঘণ্টা,3,মাঝে মধ্যেই,না
