# Cleaning Language Data

## Libraries & Utilities

In [3]:
import re
import warnings
import numpy as np
import pandas as pd
from tqdm import tqdm
from utils import *
from deep_translator import GoogleTranslator
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
warnings.filterwarnings('ignore')

translator = GoogleTranslator(source='auto', target='en')
path = '../../../datasets/garanti-bbva-data-camp/languages.csv'
output_path = '../../../datasets/garanti-bbva-data-camp/clean_language.csv'

In [4]:
df = pd.read_csv(path)
print(f'language data shape: {df.shape}')
print(f'language classes: {df["language"].nunique()}')
print(f'proficiency classes: {df["proficiency"].nunique()}')
df.head()

language data shape: (76062, 3)
language classes: 513
proficiency classes: 5


Unnamed: 0,user_id,language,proficiency
0,8,İngilizce,full_professional
1,8,Türkçe,native_or_bilingual
2,8,Fransızca,elementary
3,10,ingilizce,
4,11,Turkish,native_or_bilingual


In [5]:
check_missing(df)

Unnamed: 0,feature,n_missing,missing_rate
2,proficiency,10661,0.140162
0,user_id,0,0.0
1,language,0,0.0


In [6]:
df['user_id'].nunique()

37290

In [3]:
ger = 'German'
eng = 'English'
tr = 'Turkish'
spa = 'Spanish'
jp = 'Japanese'
rus = 'Russian'
fr = 'French'
ita = 'Italian'
chi = 'Chinese'
ara = 'Arabic'

df['language'] = df['language'].apply(lambda x: str(x).strip())

df.loc[df['language'] == 'Turkısh', 'language'] = tr
df.loc[df['language'] == 'türkçe', 'language'] = tr
df.loc[df['language'] == 'turkish', 'language'] = tr
df.loc[df['language'] == 'turkçe', 'language'] = tr
df.loc[df['language'] == 'Turksih', 'language'] = tr
df.loc[df['language'] == 'Türkisch', 'language'] = tr
df.loc[df['language'] == 'Türkçe', 'language'] = tr
df.loc[df['language'] == 'Turkce', 'language'] = tr
df.loc[df['language'] == 'Türkçe', 'language'] = tr
df.loc[df['language'] == 'Türkish', 'language'] = tr
df.loc[df['language'] == 'Turkçe', 'language'] = tr
df.loc[df['language'] == 'Türkce', 'language'] = tr
df.loc[df['language'] == 'Turkish,', 'language'] = tr
df.loc[df['language'] == '3- Turkish', 'language'] = tr
df.loc[df['language'] == 'Türkce', 'language'] = tr
df.loc[df['language'] == 'Türkçe,', 'language'] =  tr
df.loc[df["language"] == "Tükçe", "language"] = tr
df.loc[df["language"] == "TÜRKÇE", "language"] = tr
df.loc[df["language"] == "Türk", "language"] = tr
df.loc[df["language"] == "Türke", "language"] = tr
df.loc[df['language'] == 'turkce', 'language'] = tr
df.loc[df["language"] == "Türkçe (Turkish)", "language"] = tr
df.loc[df["language"] == 'Türkçe / Turkish', "language"] = tr
df.loc[df["language"] == 'Türkçe/Turkish', 'language'] = tr
df.loc[df["language"] == 'Turkish (Native)', 'language'] = tr
df.loc[df["language"] == 'Turkish(native)', 'language'] = tr
df.loc[df["language"] == 'Turkish-Mother Language', 'language'] = tr
df.loc[df["language"] == 'Turk', 'language'] = tr
df.loc[df["language"] == 'TURKISH', 'language'] = tr
df.loc[df["language"] == 'Turkish - Native', 'language'] = tr
df.loc[df["language"] == 'Turkish:', 'language'] = tr
df.loc[df["language"] == 'Turkish (mother tongue)', 'language'] = tr
df.loc[df["language"] == '■ Türkçe ■', 'language'] = tr

df.loc[df['language'] == 'İngilizce', 'language'] = eng
df.loc[df['language'] == 'english', 'language'] = eng
df.loc[df['language'] == 'Englisch', 'language'] = eng
df.loc[df['language'] == 'İnglizce', 'language'] = eng
df.loc[df['language'] == 'ENGLISH', 'language'] = eng
df.loc[df['language'] == 'ingilizce', 'language'] = eng
df.loc[df['language'] == 'inglizce', 'language'] = eng
df.loc[df['language'] == 'İng', 'language'] = eng
df.loc[df['language'] == 'İngilizce A2', 'language'] = eng
df.loc[df['language'] == 'Engish', 'language'] = eng
df.loc[df['language'] == 'İngilice', 'language'] = eng
df.loc[df['language'] == 'İngilizce - IELTS 7', 'language'] = eng
df.loc[df['language'] == 'İngilizce/English', 'language'] = eng
df.loc[df['language'] == 'İngilize', 'language'] = eng
df.loc[df['language'] == 'İngilzce', 'language'] = eng
df.loc[df['language'] == 'İngizce', 'language'] = eng
df.loc[df['language'] == 'İngizice', 'language'] = eng
df.loc[df['language'] == 'İngilizice', 'language'] = eng
df.loc[df['language'] == 'İngilizce,', 'language'] = eng
df.loc[df['language'] == 'İngilzce,', 'language'] = eng
df.loc[df['language'] == 'English, Middle (1100-1500)', 'language'] = eng
df.loc[df['language'] == 'İngilizce, Orta (1100-1500)', 'language'] = eng
df.loc[df['language'] == 'INGILIZCE', 'language'] = eng
df.loc[df['language'] == 'İNGİLİZCE', 'language'] = eng
df.loc[df['language'] == 'English US', 'language'] = eng
df.loc[df['language'] == 'English UK', 'language'] = eng
df.loc[df['language'] == '2- English', 'language'] = eng
df.loc[df['language'] == '2- English', 'language'] = eng
df.loc[df['language'] == 'İngilizce / English', 'language'] = eng
df.loc[df['language'] == 'English (US)', 'language'] =  eng
df.loc[df['language'] == 'English, Advanced', 'language'] =  eng
df.loc[df['language'] == 'English C1', 'language'] =  eng
df.loc[df['language'] == 'English, Pre-Advance', 'language'] =  eng
df.loc[df['language'] == 'English (Upper-Intermediate)', 'language'] =  eng
df.loc[df['language'] == 'English-B2 Upper Intermediate', 'language'] =  eng
df.loc[df['language'] == '■ English ■', 'language'] =  eng
df.loc[df['language'] == 'English(advanced)', 'language'] =  eng
df.loc[df['language'] == 'English - (YDS : 93,75)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (English)', 'language'] =  eng
df.loc[df['language'] == 'English (B2, Upper-Intermediate)', 'language'] =  eng
df.loc[df['language'] == 'English (B2)', 'language'] =  eng
df.loc[df['language'] == 'Advanced English', 'language'] =  eng
df.loc[df['language'] == 'English - Global Village Sydney Australia', 'language'] =  eng
df.loc[df['language'] == 'English (Advanced)', 'language'] =  eng
df.loc[df['language'] == 'English upper intermediate', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, İyi', 'language'] =  eng
df.loc[df['language'] == 'İnglilizce', 'language'] =  eng
df.loc[df['language'] == 'İngilizce-B1 Wimbledon language academy eğitim sürecindeyim.', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (C1)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (orta)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce iyi', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (Advanced)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, İyi düzeyde', 'language'] =  eng
df.loc[df['language'] == 'İngilizce-intermediate', 'language'] =  eng
df.loc[df['language'] == 'Mesleki İng.', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, B2', 'language'] =  eng
df.loc[df['language'] == 'İngilizce(C1)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce ( TOEIC - 725 )', 'language'] =  eng
df.loc[df['language'] == 'İngilizce ( orta düzeyde )', 'language'] =  eng
df.loc[df['language'] == 'İngilizce- BELS english school. as upper intermediate', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (excellent)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, iyi', 'language'] =  eng
df.loc[df['language'] == 'Mesleki İngilizce', 'language'] =  eng
df.loc[df['language'] == 'İngiliz', 'language'] =  eng
df.loc[df['language'] == 'English - Professional working proficiency', 'language'] = eng
df.loc[df['language'] == 'Ingilizce', 'language'] = eng
df.loc[df['language'] == 'English,', 'language'] = eng
df.loc[df['language'] == 'İngilizce Pre-Intermediate', 'language'] =  eng
df.loc[df['language'] == 'İngilizce(Orta)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce(Orta Seviye)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce | B1', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (Upper-Intermediate)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, ileri', 'language'] =  eng
df.loc[df['language'] == 'İngilizce(B2)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce (B1 - B2)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, Upper Intermediate', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, B1', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, İleri (2500-3000)', 'language'] =  eng
df.loc[df['language'] == 'İngilizce, Orta/İleri Düzey', 'language'] =  eng
df.loc[df['language'] == 'İngilizce %30', 'language'] =  eng
df.loc[df['language'] == 'orta düzey İngilizce', 'language'] =  eng
df.loc[df['language'] == 'Engilish,', 'language'] =  eng
df.loc[df['language'] == '-English', 'language'] = eng
df.loc[df['language'] == 'ingilizce(english)', 'language'] = eng
df.loc[df['language'] == 'Englis', 'language'] = eng
df.loc[df['language'] == 'Inglizce', 'language'] = eng
df.loc[df['language'] == 'En', 'language'] = eng
df.loc[df['language'] == 'ingilizce - başlangıç', 'language'] = eng
df.loc[df['language'] == 'ingilizce (B2)', 'language'] = eng

df.loc[df['language'] == 'Germany', 'language'] = ger
df.loc[df['language'] == 'almanca', 'language'] = ger
df.loc[df['language'] == 'GERMAN', 'language'] = ger
df.loc[df['language'] == 'Almanca', 'language'] = ger
df.loc[df['language'] == 'ALMANCA', 'language'] = ger
df.loc[df['language'] == 'german', 'language'] = ger
df.loc[df['language'] == 'Almanca(Beginner)', 'language'] = ger
df.loc[df['language'] == 'German (Intermediate)', 'language'] = ger
df.loc[df['language'] == 'German Language', 'language'] = ger
df.loc[df['language'] == 'Almanca B2', 'language'] = ger
df.loc[df['language'] == 'Almanca, Orta Yüksek (yaklaşık 1050-1500)', 'language'] = ger
df.loc[df['language'] == 'German, B2.2 Goethe Instıtut - İZMİR', 'language'] = ger
df.loc[df['language'] == 'Deutsche', 'language'] = ger
df.loc[df['language'] == 'Deutsch', 'language'] =  ger
df.loc[df['language'] == 'Almanca(A1)', 'language'] = ger
df.loc[df['language'] == 'Almanca (Düşük Seviye)', 'language'] = ger
df.loc[df['language'] == 'Almanca (başlangıç)', 'language'] = ger
df.loc[df['language'] == 'Almanca/German', 'language'] = ger
df.loc[df['language'] == 'Almanca / Deutsch', 'language'] = ger
df.loc[df['language'] == 'Germanic languages', 'language'] = ger
df.loc[df['language'] == 'German(beginner)', 'language'] = ger
df.loc[df['language'] == 'German (A2)', 'language'] = ger
df.loc[df['language'] == 'German (Beginner)', 'language'] = ger
df.loc[df['language'] == 'Gerrman', 'language'] = ger
df.loc[df['language'] == 'Almanca (IAnfänger A2) (Elementary)', 'language'] = ger
df.loc[df['language'] == 'Almanca (basic)', 'language'] = ger
df.loc[df['language'] == 'German (Deutsches Sprachdiplom - 2.Stufe)', 'language'] = ger
df.loc[df['language'] == 'Deutsch - B1', 'language'] = ger
df.loc[df['language'] == 'Deutch', 'language'] = ger
df.loc[df['language'] == 'germany', 'language'] = ger
df.loc[df['language'] == 'German,', 'language'] = ger

df.loc[df['language'] == 'arapça', 'language'] = ara
df.loc[df['language'] == 'arapca', 'language'] = ara
df.loc[df['language'] == 'arabic', 'language'] = ara
df.loc[df['language'] == 'Arabic', 'language'] = ara
df.loc[df['language'] == 'Arapca', 'language'] = ara
df.loc[df['language'] == 'Arabic (only very basic speaking skills)', 'language'] = ara
df.loc[df['language'] == 'Arabe', 'language'] = ara
df.loc[df['language'] == 'Arapça-A1-A2', 'language'] = ara
df.loc[df['language'] == 'Arabish', 'language'] = ara
df.loc[df['language'] == 'South Sudanese Arabic', 'language'] = ara
df.loc[df['language'] == 'Arapça', 'language'] = ara
df.loc[df['language'] =='Arapça(Temel Düzeyde)', 'language'] = ara

df.loc[df['language'] == 'ISPANYOLCA', 'language'] = spa
df.loc[df['language'] == 'Español', 'language'] = spa
df.loc[df['language'] == 'ispanyolca', 'language'] = spa
df.loc[df['language'] == 'SPANISH', 'language'] = spa
df.loc[df['language'] == 'Espanol', 'language'] = spa
df.loc[df['language'] == 'İspanyolca', 'language'] = spa
df.loc[df['language'] == 'Başlangıç seviyesinde İspanyolca', 'language'] = spa
df.loc[df['language'] == 'İspanyolca, Başlangıç', 'language'] = spa
df.loc[df['language'] == 'Spani', 'language'] = spa
df.loc[df['language'] == 'Espańol', 'language'] = spa

df.loc[df['language'] == 'İtalian', 'language'] = ita
df.loc[df['language'] == 'italian', 'language'] = ita
df.loc[df['language'] == 'Italyanca', 'language'] = ita
df.loc[df['language'] == 'İtalyanca', 'language'] = ita
df.loc[df['language'] == 'italyanca', 'language'] = ita
df.loc[df['language'] == 'Italien', 'language'] = ita
df.loc[df['language'] == 'Italiano', 'language'] =  ita
df.loc[df['language'] == 'italiano', 'language'] = ita

df.loc[df['language'] == 'Fransizca', 'language'] = fr
df.loc[df['language'] == 'Fransızca', 'language'] = fr
df.loc[df['language'] == 'Fransızca(Université Galatasaray)', 'language'] = fr
df.loc[df['language'] == 'Französisch', 'language'] =  fr
df.loc[df['language'] == 'France', 'language'] =  fr
df.loc[df['language'] == 'Francais', 'language'] =  fr
df.loc[df['language'] == 'Fransa', 'language'] =  fr
df.loc[df['language'] == 'Fransız', 'language'] =  fr
df.loc[df['language'] == '1- French', 'language'] = fr
df.loc[df['language'] == 'Français', 'language'] = fr
df.loc[df['language'] == 'French (Beginner)', 'language'] = fr

df.loc[df['language'] == 'Chinese (Simplified)', 'language'] =  chi
df.loc[df['language'] == 'Elementary Chinese', 'language'] =  chi
df.loc[df['language'] == 'Chinese(Simplified-Mandarin) - 中文', 'language'] =  chi
df.loc[df['language'] == 'Çince (Mandarin)', 'language'] =  chi
df.loc[df['language'] == 'Çince (Basitleştirilmiş)', 'language'] =  chi
df.loc[df['language'] == 'Çinçe', 'language'] =  chi
df.loc[df['language'] == 'Çince', 'language'] = chi
df.loc[df['language'] == 'CHINESE', 'language'] = chi

df.loc[df['language'] == 'Japanese(Beginner)', 'language'] = jp
df.loc[df['language'] == 'Japanese (Roomaji)', 'language'] = jp
df.loc[df['language'] == 'Japanesse(Roomaji)', 'language'] = jp
df.loc[df['language'] == 'Japonca | A1', 'language'] = jp
df.loc[df['language'] == 'Japonca', 'language'] = jp
df.loc[df['language'] == 'japonca', 'language'] = jp

df.loc[df['language'] == 'Rusça', 'language'] = rus
df.loc[df['language'] == 'rusca', 'language'] = rus
df.loc[df["language"] == "rusça", "language"] = rus
df.loc[df['language'] == 'Russian Русский Язык', 'language'] = rus
df.loc[df["language"] == 'russian', "language"] = rus
df.loc[df["language"] == 'Rusca', "language"] = rus
df.loc[df["language"] == 'Russian(Certified)', "language"] = rus
df.loc[df["language"] == 'Russe', "language"] = rus
df.loc[df["language"] == 'Rusça (Beginner A1)', "language"] = rus
df.loc[df["language"] == 'Russain', "language"] = rus

df.loc[df['language'] == 'Makedonca', 'language'] =  'Macedonian'
df.loc[df['language'] == 'Makedonski', 'language'] =  'Macedonian'
df.loc[df['language'] == 'Türkçe İşaret Dili', 'language'] = 'Turkish Sign Language'
df.loc[df['language'] == 'Kürtçe', 'language'] = 'Kurdish'
df.loc[df['language'] == 'Korece', 'language'] = 'Korean'
df.loc[df['language'] == 'Bulgarca', 'language'] = 'Bulgarian'
df.loc[df['language'] == 'Azerice', 'language'] = 'Azerbaijani'
df.loc[df['language'] == 'Azərbaycan', 'language'] = 'Azerbaijani'
df.loc[df['language'] == 'Azerbaycan Türkçesi', 'language'] = 'Azerbaijani'
df.loc[df['language'] == 'Portekizce', 'language'] = 'Portuguese'
df.loc[df['language'] == 'Yunanca', 'language'] = 'Greek'
df.loc[df['language'] == 'Latince', 'language'] = 'Latin'
df.loc[df['language'] == 'kürdi', 'language'] = 'Kurdish'
df.loc[df['language'] == 'Kurdî', 'language'] = 'Kurdish'
df.loc[df['language'] == 'Macarca', 'language'] = 'Hungarian'
df.loc[df['language'] == 'Litvanyaca', 'language'] = 'Lithuanian'
df.loc[df['language'] == 'Korece | A2', 'language'] = 'Korean'
df.loc[df['language'] == 'Dutch (beginner)', 'language'] = 'Dutch'
df.loc[df["language"] == "İşaret Dilleri", "language"] = "Sign Languages"
df.loc[df['language'] == 'Türkçe, Osmanlıca (1500-1928)', 'language'] = 'Turkish, Ottoman (1500-1928)'
df.loc[df['language'] == 'Boşnakça', 'language'] = 'Bosnian'
df.loc[df['language'] == 'Türk İşaret Dili', 'language'] = 'Turkish Sign Language'
df.loc[df['language'] == 'İngilizce, Eski (yaklaşık 450-1100)', 'language'] = 'English, Old (ca.450-1100)'
df.loc[df["language"] == "Farsça", "language"] = "Persian"
df.loc[df["language"] == "Sırpça", "language"] = "Serbian"
df.loc[df["language"] == "İsveççe", "language"] = "Swedish"
df.loc[df["language"] == "Kazakça", "language"] = "Kazakh"
df.loc[df["language"] == "Arnavutça", "language"] = "Albanian"
df.loc[df["language"] == "Çekçe", "language"] = "Czech"
df.loc[df["language"] == "Özbekçe", "language"] = "Uzbek"
df.loc[df["language"] == "Hırvatça", "language"] = "Croatian"
df.loc[df["language"] == "Bokmål, Norveç", "language"] = "Norwegian"
df.loc[df["language"] == "Norveççe", "language"] = "Norwegian"
df.loc[df["language"] == "Osmanlı Türkçesi", "language"] = "Ottoman Turkish"
df.loc[df["language"] == "Slovakça", "language"] = "Slovak"
df.loc[df["language"] == "Endonezya dili", "language"] = "Indonesian"
df.loc[df["language"] == "İşaret Dilleri", "language"] = "Sign Languages"
df.loc[df["language"] == "Gürcüce", "language"] = "Georgian"
df.loc[df["language"] == "Türkmence", "language"] = "Turkmen"
df.loc[df["language"] == "Türkmen", "language"] = "Turkmen"
df.loc[df["language"] == "İbranice", "language"] = "Hebrew"
df.loc[df["language"] == "turkmen", "language"] = "Turkmen"
df.loc[df["language"] == "Turkmence", "language"] = "Turkmen"
df.loc[df["language"] == "Türkmençe", "language"] = "Turkmen"
df.loc[df["language"] == "Ermenice", "language"] = "Armenian"

In [4]:
language_translated = dict()
for i in tqdm(df['language'].dropna().unique()):
    language_translated[i] = translator.translate(i)
for key in language_translated.keys():
    df.loc[df['language'] == key, 'language'] = language_translated[key]
df.loc[df['language'].notnull(), 'language'] = df.loc[df['language'].notnull(), 'language'].apply(lambda x: x.lower())
    
print(f'language data shape: {df.shape}')
print(f'language classes: {df["language"].nunique()}')
print(f'proficiency classes: {df["proficiency"].nunique()}')
df.to_csv(output_path, index = False)
df.head()

100%|██████████| 232/232 [01:14<00:00,  3.11it/s]


language data shape: (76062, 3)
language classes: 185
proficiency classes: 5


Unnamed: 0,user_id,language,proficiency
0,8,english,full_professional
1,8,turkish,native_or_bilingual
2,8,french,elementary
3,10,english,
4,11,turkish,native_or_bilingual
