# Deriving English Version of Georgian Dataset

In [19]:
import pandas as pd
import numpy as np
import re
from googletrans import Translator
translator = Translator()

In [57]:
from tqdm import tqdm
tqdm.pandas()

In [21]:
filename = 'georgia_unicode.txt'

In [4]:
def translate_to_eng(txt, src_lang='ka'):
    """
    takes in text in a non-english language, in this case Kartvelian- Georgian
    returns the english translation
    """
    
    try:
        result = translator.translate(txt,
                     src=src_lang, dest="en")
    #In case the organization's language label doesn't match the question language
    except:
        result = translator.translate(txt, dest="en")
        
    return result.text

In [5]:
translate_to_eng('რამდენი წლის ხართ?')

'how old are you?'

In [68]:
data = pd.read_csv(filename, sep="\t", encoding='utf-16', 
                   skip_blank_lines=True,
                   header=0,
                   #skiprows=[0,1],
                   nrows=261)
#I choose 263 lines since the rows after this are generated variables. They would cause trouble with regex

In [74]:
data.head()

Unnamed: 0,varname,varlabel
2,_v1,Q1.1 რამდენი წლის ხართ?
3,_v2,Q1.1 რამდენი წლის ხართ?
4,_v3,Q1.2 სქესი/გენდერი
5,_v4,Q1.3 ამჟამად რა ურთიერთობაში იმყ
6,_v5,Q1.4 გქონიათ თუ არა რაიმე რომანტ�


In [73]:
data.tail()

Unnamed: 0,varname,varlabel
256,_v255,Q10.16 დაგისვამთ თუ არა კითხვა საჯ
257,_v256,Q10.17 გიმუშავიათ ადგ. ორგანიზაცი�
258,_v257,Q10.18 გაგიკეთებიათ თუ არა რაიმე შ
259,_v258,Q10.19 მოგიწერიათ თუ არა ხელი რაიმ
260,_v259,Q10.20 გამოგიხატავთ თქვენი აზრი/ჩ�


In [72]:
data.drop(labels=[0,1], axis=0, inplace=True)

The pattern in the data above is Q<number>DOT<variable number of digits>

In [51]:
#Now we check for matching regex
#This is a regex for Q, followed by any numbers of periods ending with a space bar
test_match = "Q11.1 მე დაგისვით ზოგი ადვილი და ზ"
alphanum_re = r'^Q\d+'

print(re.findall(alphanum_re, test_match))
#The output of the split needs to be saved- the first section links to questions
      


['Q11']


In [53]:
space_re = r'\s+'
re.split(space_re, test_match, maxsplit=1)

['Q11.1', 'მე დაგისვით ზოგი ადვილი და ზ']

In [75]:
data[['q_no','question_georgian']] = data.varlabel.str.split(n=1, expand=True)

In [58]:
data['question_eng'] = data['question_georgian'].progress_apply(translate_to_eng)

  0%|▎                                                                                | 1/263 [00:00<00:00, 979.29it/s]


TypeError: 'NoneType' object is not iterable

In [55]:
# Now we get the original dataset
data


Unnamed: 0,varname,varlabel,q_no,question_georgian
0,NN,NN,NN,
1,ID,ID,ID,
2,_v1,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?
3,_v2,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?
4,_v3,Q1.2 სქესი/გენდერი,Q1.2,სქესი/გენდერი
5,_v4,Q1.3 ამჟამად რა ურთიერთობაში იმყ,Q1.3,ამჟამად რა ურთიერთობაში იმყ
6,_v5,Q1.4 გქონიათ თუ არა რაიმე რომანტ�,Q1.4,გქონიათ თუ არა რაიმე რომანტ�
7,_v6,Q1.5 ოდესმე გიცხოვრიათ პარტნიორ�,Q1.5,ოდესმე გიცხოვრიათ პარტნიორ�
8,_v7,Q1.6 დაასახელეთ თქვენი განათლებ�,Q1.6,დაასახელეთ თქვენი განათლებ�
9,_v8,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ


In [None]:
#Now we derive the unique values (the labels for each category and translate them

#Finally, we store these unique values in the original label-match dataframe. 