# Deriving English Version of Georgian Dataset

In [19]:
import pandas as pd
import numpy as np
import re
from googletrans import Translator
translator = Translator()

In [57]:
from tqdm import tqdm
tqdm.pandas()

In [21]:
filename = 'georgia_unicode.txt'

In [4]:
def translate_to_eng(txt, src_lang='ka'):
    """
    takes in text in a non-english language, in this case Kartvelian- Georgian
    returns the english translation
    """
    
    try:
        result = translator.translate(txt,
                     src=src_lang, dest="en")
    #In case the organization's language label doesn't match the question language
    except:
        result = translator.translate(txt, dest="en")
        
    return result.text

In [5]:
translate_to_eng('რამდენი წლის ხართ?')

'how old are you?'

In [68]:
data = pd.read_csv(filename, sep="\t", encoding='utf-16', 
                   skip_blank_lines=True,
                   header=0,
                   #skiprows=[0,1],
                   nrows=261)
#I choose 263 lines since the rows after this are generated variables. They would cause trouble with regex

In [74]:
data.head()

Unnamed: 0,varname,varlabel
2,_v1,Q1.1 რამდენი წლის ხართ?
3,_v2,Q1.1 რამდენი წლის ხართ?
4,_v3,Q1.2 სქესი/გენდერი
5,_v4,Q1.3 ამჟამად რა ურთიერთობაში იმყ
6,_v5,Q1.4 გქონიათ თუ არა რაიმე რომანტ�


In [73]:
data.tail()

Unnamed: 0,varname,varlabel
256,_v255,Q10.16 დაგისვამთ თუ არა კითხვა საჯ
257,_v256,Q10.17 გიმუშავიათ ადგ. ორგანიზაცი�
258,_v257,Q10.18 გაგიკეთებიათ თუ არა რაიმე შ
259,_v258,Q10.19 მოგიწერიათ თუ არა ხელი რაიმ
260,_v259,Q10.20 გამოგიხატავთ თქვენი აზრი/ჩ�


In [72]:
data.drop(labels=[0,1], axis=0, inplace=True)

The pattern in the data above is Q<number>DOT<variable number of digits>

In [51]:
#Now we check for matching regex
#This is a regex for Q, followed by any numbers of periods ending with a space bar
test_match = "Q11.1 მე დაგისვით ზოგი ადვილი და ზ"
alphanum_re = r'^Q\d+'

print(re.findall(alphanum_re, test_match))
#The output of the split needs to be saved- the first section links to questions
      


['Q11']


In [53]:
space_re = r'\s+'
re.split(space_re, test_match, maxsplit=1)

['Q11.1', 'მე დაგისვით ზოგი ადვილი და ზ']

In [75]:
data[['q_no','question_georgian']] = data.varlabel.str.split(n=1, expand=True)

In [76]:
data

Unnamed: 0,varname,varlabel,q_no,question_georgian
2,_v1,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?
3,_v2,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?
4,_v3,Q1.2 სქესი/გენდერი,Q1.2,სქესი/გენდერი
5,_v4,Q1.3 ამჟამად რა ურთიერთობაში იმყ,Q1.3,ამჟამად რა ურთიერთობაში იმყ
6,_v5,Q1.4 გქონიათ თუ არა რაიმე რომანტ�,Q1.4,გქონიათ თუ არა რაიმე რომანტ�
7,_v6,Q1.5 ოდესმე გიცხოვრიათ პარტნიორ�,Q1.5,ოდესმე გიცხოვრიათ პარტნიორ�
8,_v7,Q1.6 დაასახელეთ თქვენი განათლებ�,Q1.6,დაასახელეთ თქვენი განათლებ�
9,_v8,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ
10,_v9,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ
11,_v10,Q1.8 რომელია თქვენი რელიგია?,Q1.8,რომელია თქვენი რელიგია?


In [77]:
data['question_eng'] = data['question_georgian'].progress_apply(translate_to_eng)

100%|████████████████████████████████████████████████████████████████████████████████| 259/259 [00:53<00:00,  4.85it/s]


In [78]:
# Now we get the original dataset
data


Unnamed: 0,varname,varlabel,q_no,question_georgian,question_eng
2,_v1,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?,how old are you?
3,_v2,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?,how old are you?
4,_v3,Q1.2 სქესი/გენდერი,Q1.2,სქესი/გენდერი,Sex
5,_v4,Q1.3 ამჟამად რა ურთიერთობაში იმყ,Q1.3,ამჟამად რა ურთიერთობაში იმყ,What is your current relationship?
6,_v5,Q1.4 გქონიათ თუ არა რაიმე რომანტ�,Q1.4,გქონიათ თუ არა რაიმე რომანტ�,Did you have any romance?
7,_v6,Q1.5 ოდესმე გიცხოვრიათ პარტნიორ�,Q1.5,ოდესმე გიცხოვრიათ პარტნიორ�,Have you ever lived with a partner?
8,_v7,Q1.6 დაასახელეთ თქვენი განათლებ�,Q1.6,დაასახელეთ თქვენი განათლებ�,Name your education
9,_v8,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ,Which ethnic group do you belong to?
10,_v9,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ,Which ethnic group do you belong to?
11,_v10,Q1.8 რომელია თქვენი რელიგია?,Q1.8,რომელია თქვენი რელიგია?,What is your religion?


In [None]:
#Now we derive the unique values (the labels for each category and translate them

#Finally, we store these unique values in the original label-match dataframe. 

In [80]:
data.to_csv('georgian_translated.csv')

In [131]:
data = pd.read_csv('georgian_translated.csv')

# The Full Dataset

In [81]:
data_filename="georgia_full.txt"

In [87]:
full_data = pd.read_csv(data_filename, sep="\t", encoding='utf-16', 
                   skip_blank_lines=True)

  interactivity=interactivity, compiler=compiler, result=result)


In [110]:
full_data.tail()

Unnamed: 0,NN,ID,_v1,_v2,_v3,_v4,_v5,_v6,_v7,_v8,...,კლასტერის,Qid,sub_id,რეგიონი,რეგიონი_1,ს_ქ,მუნიციპალიტეტი,ქალაქი_დაბა_თემი,სოფელი,w_total
2398,2399,100860,65,65 და მეტი,მამრობითი,დაშორებული ან განქორწინებული,,,საშუალო ტექნიკური განათლება,სომეხი,...,47.0,10.0,860.0,შიდა ქართლი,,ქალაქი,კასპის,ქ. კასპი,0,1.07
2399,2400,100861,31,25-34 წლის,მამრობითი,დაუქორწინებელი,არა,,საშუალო განათლება (10-12 კლასები),ქართველი,...,47.0,10.0,861.0,შიდა ქართლი,,ქალაქი,კასპის,ქ. კასპი,0,0.99
2400,2401,100862,44,35-44 წლის,მამრობითი,ამჟამად დარეგისტრირებულ ქორწინებაში,,,საშუალო განათლება (10-12 კლასები),ქართველი,...,47.0,10.0,862.0,შიდა ქართლი,,ქალაქი,კასპის,ქ. კასპი,0,0.97
2401,2402,30247,29,25-34 წლის,მდედრობითი,დაშორებული ან განქორწინებული,,,არასრული უმაღლესი განათლება,ქართველი,...,33.0,3.0,247.0,ქ. თბილისი,Tbilisi,ქალაქი,საბურთალოს,ქ. თბილისი,0,0.98
2402,2403,30248,21,18-24 წლის,მდედრობითი,დაუქორწინებელი,არა,,საშუალო განათლება (10-12 კლასები),ქართველი,...,31.0,3.0,248.0,ქ. თბილისი,Tbilisi,ქალაქი,საბურთალოს,ქ. თბილისი,0,0.98


In [89]:
full_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2403 entries, 0 to 2402
Columns: 273 entries, NN to w_total
dtypes: float64(6), int64(3), object(264)
memory usage: 5.0+ MB


In [93]:
full_data['_v1'].dtype

dtype('int64')

In [96]:
#filter for only strings
str_only = full_data.select_dtypes(include=[object])

In [105]:
str_only = str_only.replace(np.nan, '', regex=True)

In [108]:
str_only['_v4'].unique()

array(['დაუქორწინებელი', 'ამჟამად დარეგისტრირებულ ქორწინებაში',
       'მყავს პარტნიორი, მაგრამ ერთად არ ვცხოვრობთ', 'ქვრივი',
       'დაშორებული ან განქორწინებული',
       'ამჟამად დაურეგისტრირებელ ქორწინებაშია, მაგ',
       'ვცხოვრობ პარტნიორთან ერთად', 'უარი პასუხზე',
       'დაურეგისტრირებელი ქორწინება'], dtype=object)

In [123]:
col_dict = {}
col_dict['varname'] = str_only.columns
col_dict['var_categories'] = [", ".join(list([str(item) for item in full_data[col].unique()])) for col in str_only.columns]       

In [124]:
print(col_dict)

{'varname': Index(['_v2', '_v3', '_v4', '_v5', '_v6', '_v7', '_v8', '_v9', '_v10', '_v11',
       ...
       '_v258', '_v259', '_v260', '_v261', 'რეგიონი', 'რეგიონი_1', 'ს_ქ',
       'მუნიციპალიტეტი', 'ქალაქი_დაბა_თემი', 'სოფელი'],
      dtype='object', length=264), 'var_categories': ['25-34 წლის, 18-24 წლის, 65 და მეტი, 55-64 წლის, 35-44 წლის, 45-54 წლის', 'მამრობითი, მდედრობითი, nan', 'დაუქორწინებელი, ამჟამად დარეგისტრირებულ ქორწინებაში, მყავს პარტნიორი, მაგრამ ერთად არ ვცხოვრობთ, ქვრივი, დაშორებული ან განქორწინებული, ამჟამად დაურეგისტრირებელ ქორწინებაშია, მაგ, ვცხოვრობ პარტნიორთან ერთად, უარი პასუხზე, დაურეგისტრირებელი ქორწინება', 'არა, nan, დიახ, უარი პასუხზე', 'nan, არა, დიახ', 'საშუალო განათლება (10-12 კლასები), უმაღლესი განათლება, საშუალო ტექნიკური განათლება, საბაზო განათლება (7-9 კლასები), არასრული უმაღლესი განათლება, არ მიმიღია ოფიციალური განათლება, მაგრამ ვიცი, დაწყებითი განათლება (1-6 კლასები), nan', 'ქართველი, აზერბაიჯანელი, სომეხი, ქურთი, უარი პასუხზე, ასურელი, იეზიდი, რუს

In [125]:
categories = pd.DataFrame(col_dict)
categories

Unnamed: 0,varname,var_categories
0,_v2,"25-34 წლის, 18-24 წლის, 65 და მეტი, 55-64 წლის..."
1,_v3,"მამრობითი, მდედრობითი, nan"
2,_v4,"დაუქორწინებელი, ამჟამად დარეგისტრირებულ ქორწინ..."
3,_v5,"არა, nan, დიახ, უარი პასუხზე"
4,_v6,"nan, არა, დიახ"
5,_v7,"საშუალო განათლება (10-12 კლასები), უმაღლესი გა..."
6,_v8,"ქართველი, აზერბაიჯანელი, სომეხი, ქურთი, უარი პ..."
7,_v9,"ქართველი, აზერბაიჯანელი, სომეხი, სხვა, nan"
8,_v10,"მართლმადიდებელი ქრისტიანი, ისლამი, nan, არ მწა..."
9,_v11,"დიახ, არა"


In [127]:
categories['varname']

0                   _v2
1                   _v3
2                   _v4
3                   _v5
4                   _v6
5                   _v7
6                   _v8
7                   _v9
8                  _v10
9                  _v11
10                 _v13
11                 _v14
12                 _v15
13                 _v16
14                 _v17
15                 _v18
16                 _v19
17                 _v20
18                 _v21
19                 _v22
20                 _v23
21                 _v24
22                 _v25
23                 _v26
24                 _v27
25                 _v28
26                 _v29
27                 _v30
28                 _v31
29                 _v32
             ...       
234               _v238
235               _v239
236               _v240
237               _v241
238               _v242
239               _v243
240               _v244
241               _v245
242               _v246
243               _v247
244             

MERGE THE LABELS AND THE CATEGORIES

In [132]:
data.columns

Index(['Unnamed: 0', 'varname', 'varlabel', 'q_no', 'question_georgian',
       'question_eng'],
      dtype='object')

In [136]:
combined = data.merge(categories, on="varname", how="inner")

In [137]:
combined

Unnamed: 0.1,Unnamed: 0,varname,varlabel,q_no,question_georgian,question_eng,var_categories
0,3,_v2,Q1.1 რამდენი წლის ხართ?,Q1.1,რამდენი წლის ხართ?,how old are you?,"25-34 წლის, 18-24 წლის, 65 და მეტი, 55-64 წლის..."
1,4,_v3,Q1.2 სქესი/გენდერი,Q1.2,სქესი/გენდერი,Sex,"მამრობითი, მდედრობითი, nan"
2,5,_v4,Q1.3 ამჟამად რა ურთიერთობაში იმყ,Q1.3,ამჟამად რა ურთიერთობაში იმყ,What is your current relationship?,"დაუქორწინებელი, ამჟამად დარეგისტრირებულ ქორწინ..."
3,6,_v5,Q1.4 გქონიათ თუ არა რაიმე რომანტ�,Q1.4,გქონიათ თუ არა რაიმე რომანტ�,Did you have any romance?,"არა, nan, დიახ, უარი პასუხზე"
4,7,_v6,Q1.5 ოდესმე გიცხოვრიათ პარტნიორ�,Q1.5,ოდესმე გიცხოვრიათ პარტნიორ�,Have you ever lived with a partner?,"nan, არა, დიახ"
5,8,_v7,Q1.6 დაასახელეთ თქვენი განათლებ�,Q1.6,დაასახელეთ თქვენი განათლებ�,Name your education,"საშუალო განათლება (10-12 კლასები), უმაღლესი გა..."
6,9,_v8,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ,Which ethnic group do you belong to?,"ქართველი, აზერბაიჯანელი, სომეხი, ქურთი, უარი პ..."
7,10,_v9,Q1.7 რომელ ეთნიკური ჯგუფს მიეკუთ,Q1.7,რომელ ეთნიკური ჯგუფს მიეკუთ,Which ethnic group do you belong to?,"ქართველი, აზერბაიჯანელი, სომეხი, სხვა, nan"
8,11,_v10,Q1.8 რომელია თქვენი რელიგია?,Q1.8,რომელია თქვენი რელიგია?,What is your religion?,"მართლმადიდებელი ქრისტიანი, ისლამი, nan, არ მწა..."
9,12,_v11,Q1.9 თქვენს გარდა ცხოვრობს თუ არ�,Q1.9,თქვენს გარდა ცხოვრობს თუ არ�,Does he live beside you or not?,"დიახ, არა"


In [138]:
combined['var_categories_georgian'] = combined['var_categories'].progress_apply(translate_to_eng) 

100%|████████████████████████████████████████████████████████████████████████████████| 256/256 [01:13<00:00,  3.50it/s]


In [143]:
combined_eng = combined[['varname', 'q_no','question_eng', 'var_categories_georgian']]

In [144]:
combined_eng

Unnamed: 0,varname,q_no,question_eng,var_categories_georgian
0,_v2,Q1.1,how old are you?,"25-34 years old, 18-24 years old, 65 and over,..."
1,_v3,Q1.2,Sex,"Male, female, nan"
2,_v4,Q1.3,What is your current relationship?,"Unmarried, currently registered in marriage, I..."
3,_v5,Q1.4,Did you have any romance?,"No, nan, yes, no answer"
4,_v6,Q1.5,Have you ever lived with a partner?,"nan, no, yes"
5,_v7,Q1.6,Name your education,"Secondary education (grades 10-12), higher edu..."
6,_v8,Q1.7,Which ethnic group do you belong to?,"Georgian, Azerbaijani, Armenian, Kurdish, no a..."
7,_v9,Q1.7,Which ethnic group do you belong to?,"Georgian, Azerbaijani, Armenian, other, nan"
8,_v10,Q1.8,What is your religion?,"Orthodox Christian, Islam, nan, Non-believer (..."
9,_v11,Q1.9,Does he live beside you or not?,"Yes, no"


In [145]:
combined_eng = combined_eng.rename({'var_categories_georgian':'var_categories_eng'})

In [146]:
combined_eng.to_csv('english_translations_for_georgia.csv')