In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

dont_plot = True

In [2]:
figsize = (12, 8)

def safe_file_name(file_name):
    keepcharacters = (' ', '.', '_')
    return "".join(c for c in file_name if c.isalnum() or c in keepcharacters).rstrip()


dir_name = 'plots'
if not os.path.exists(dir_name):
    os.mkdir(dir_name)


In [3]:
personal_info = pd.read_csv('01.personal.tsv', sep='\t')

trad = {
    '연번': 'Número de série',
    '국적  / 모국어': 'Nacionalidade / Língua materna',
    '성별': 'Gênero',
    '학년': 'Ano escolar',
    '유형': 'Tipo',
    '토픽 급수': 'Nível TOPIK',
    '졸업 후 계획': 'Planos após a graduação',
    '취업, 아르바이트 등 경제활동 경험 (종류, 기간 작성)': 'Experiência de atividade econômica (tipo, período)'
}

personal_info = personal_info.rename(columns=trad)
personal_info = personal_info.drop(personal_info.columns[0], axis=1)


personal_info['Nacionalidade / Língua materna'] = personal_info['Nacionalidade / Língua materna'].apply(
    lambda x: "".join(x.strip().split()))


def replace_data(df, column, old, new):
    df[column] = df[column].apply(lambda x: x.replace(old, new))
    return df


def replace_col1(old, new):
    replace_data(personal_info, 'Nacionalidade / Língua materna', old, new)


replace_col1('중국', '중국/중국어')
replace_col1('중국/중국어/중국/중국어어', '중국/중국어')
replace_col1('베트남', '베트남/베트남어')
replace_col1('베트남/베트남어/베트남/베트남어어', '베트남/베트남어')
replace_col1('PhilippinesFilipino', '필리핀/필리핀어')
replace_col1('이탈리아', '이탈리아/이탈리아어')
replace_col1('일본', '일본/일본어')
replace_col1('일본/일본어/일본/일본어어', '일본/일본어')
replace_col1('베트남/베트남어베트남/베트남어어', '베트남/베트남어')
replace_col1('앙골라-포르투갈어', '앙골라/포르투갈어')
replace_col1('Malaysia/Malay+English', '말레이시아/말레이어, 영어')
replace_col1('말레이시아/중국/중국어어', '말레이시아, 중국/중국어')
replace_col1('파키스탄/우르도', '파키스탄/우르두어')
replace_col1('러시아', '러시아/러시아어')
replace_col1('러시아/러시아어/러시아/러시아어어', '러시아/러시아어')
replace_col1('Uzbekistan/uzbek', '우즈베키스탄/우즈베키스탄어')
replace_col1('Cambodia', '캄보디아/캄보디아어')
replace_col1('에티오피아/Amharic', '에티오피아/아마하리어')
replace_col1(
    'Nationality-GEORGIA;nativelanguage-GeorgianandRussian', '그루지아/그루지아어,러시아어')
replace_col1('SriLankan/Sinhalese', '스리랑카/싱할라어')
replace_col1('India/Hindi', '인도/힌디어')
replace_col1('아제르바이잔-아제르바이잔어', '아제르바이잔/아제르바이잔어')
replace_col1('Pakistani/Urdu', '파키스탄/우르두어')
replace_col1('Italy,Italian', '이탈리아/이탈리아어')
replace_col1('이탈리아/이탈리아어/이탈리아/이탈리아어어', '이탈리아/이탈리아어')
replace_col1('네판/네파리', '네팔/네파리어')
replace_col1('Nigerian/Yoruba', '나이지리아/요루바어')
replace_col1('Georgia/Georgian', '그루지아/그루지아어')
replace_col1('우즈벡/우즈벡어', '우즈베키스탄/우즈베키스탄어')
replace_col1('Uzbek', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈베키스탄', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈벡/우즈베크어', '우즈베키스탄/우즈베키스탄어')
replace_col1('폴란드/폴란드어', '폴란드/폴란드어')
replace_col1('아랍어', '?/아랍어')
replace_col1('라오스/라오어', '라오스/라오어')
replace_col1('우즈베키스탄/우즈벡어', '우즈베키스탄/우즈베키스탄어')
replace_col1('UZBEKISTAN', '우즈베키스탄/우즈베키스탄어')
replace_col1('Indian/Hindi', '인도/힌디어')
replace_col1('우즈베키스탄/우즈베키어', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈베키스탄/우지벸', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈베키스탄/우즈벡어,러시아/러시아어어', '우즈베키스탄,러시아/우즈베키스탄어,러시아어')
replace_col1('우즈벡/우즈베키어', '우즈베키스탄/우즈베키스탄어')
replace_col1('몽골/몽골어', '몽골/몽골어')
replace_col1('이란/이란어', '이란/이란어')
replace_col1('인도/힌디어,영어', '인도/힌디어,영어')
replace_col1('이탈리아/이탈리아어', '이탈리아/이탈리아어')
replace_col1('우크라이나/우크라이나어', '우크라이나/우크라이나어')
replace_col1('투르크메니스탄/투르크맨어,러시아/러시아어어', '투르크메니스탄,러시아/투르크메니스탄어,러시아어')
replace_col1('적도기니/스페인어', '적도기니/스페인어')
replace_col1('부탄/부탄어', '부탄/부탄어')
replace_col1('Burkinabè', '부르키나파소/부르키나어')
replace_col1('우즈베키스탄/우즈베키스탄어/우즈베키스탄/우즈베키스탄어어', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈베키스탄/우즈베키스탄어/우즈벡어', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈베키스탄/우즈베키스탄어/우즈베키어', '우즈베키스탄/우즈베키스탄어')
replace_col1('우즈베키스탄/우즈베키스탄어/우지벸', '우즈베키스탄/우즈베키스탄어')
replace_col1('이집트/?/아랍어', '이집트/아랍어')
replace_col1('투르크메니스탄/투르크멘', '투르크메니스탄/투르크메니스탄어')

nac_lgmat = personal_info['Nacionalidade / Língua materna'].str.split(
    '/', expand=True)
personal_info.drop('Nacionalidade / Língua materna', axis=1, inplace=True)
personal_info['Nacionalidade'] = nac_lgmat[0]
personal_info['Língua materna'] = nac_lgmat[1]

new_order = ['Nacionalidade',
             'Língua materna', 'Gênero', 'Ano escolar', 'Tipo',
             'Nível TOPIK', 'Planos após a graduação',
             'Experiência de atividade econômica (tipo, período)']

personal_info = personal_info[new_order]

# strip whitespace
personal_info = personal_info.applymap(
    lambda x: x.strip() if isinstance(x, str) else x)


def replace_topik(old, new):
    replace_data(personal_info, 'Nível TOPIK', old, new)


replace_topik('없음', '0급')
replace_topik('없다', '0급')
replace_topik('없어요', '0급')
replace_topik('없습니다', '0급')
replace_topik('없어', '0급')
replace_topik('None', '0급')
replace_topik('4 급', '4급')
replace_topik('4', '4급')
replace_topik('Grade 4급', '4급')
replace_topik('5', '5급')
replace_topik('급급', '급')
replace_topik('금', '급')

for col in personal_info.columns[0:6]:
    personal_info[col] = personal_info[col].astype('category')

trad2 = {
    'Número de série': '연번',
    'Nacionalidade': '국적',
    'Língua materna':  '모국어',
    'Gênero': '성별',
    'Ano escolar': '학년',
    'Tipo': '유형',
    'Nível TOPIK': '토픽 급수',
    'Planos após a graduação': '졸업 후 계획',
    'Experiência de atividade econômica (tipo, período)': '취업, 아르바이트 등 경제활동 경험 (종류, 기간 작성)'
}

personal_info.rename(columns=trad2, inplace=True)


In [4]:
def column_plot(n):
    if not dont_plot:
        x = personal_info[personal_info.columns[n]].value_counts()
        n += 1
        plt.rc('font', family='KoPubDotum_Pro')
        fig, axs = plt.subplots(figsize=figsize)
        plt.barh(x.index, x.values)
        plt.title(x.name)
        plt.tight_layout()
        subdir_name = f'0.인적사항'
        if not os.path.exists(f'{dir_name}/{subdir_name}'):
            os.makedirs(f'{dir_name}/{subdir_name}')
        clean_name = f"{n:02} {safe_file_name(x.name)}"
        plt.savefig(f'{dir_name}/{subdir_name}/{clean_name}.png')
        plt.close()


for i in range(len(personal_info.columns)):
    column_plot(i)

personal_info.to_excel('01.norm_personal_info.xlsx', index=False)


In [5]:
# open 02.tandem.tsv

tandem = pd.read_csv('02.tandem.tsv', sep='\t', encoding='utf-8')

# drop first column
tandem.drop(tandem.columns[0], axis=1, inplace=True)

# transform to categorical data
for col in tandem.columns:
    tandem[col] = tandem[col].astype('category')


def column_plot(n):
    if not dont_plot:
        x = tandem[tandem.columns[n]].value_counts()
        n += 1
        plt.rc('font', family='KoPubDotum_Pro')
        fig, axs = plt.subplots(figsize=figsize)
        plt.barh(x.index, x.values)
        plt.title(x.name)
        plt.tight_layout()
        subdir_name = f'1.탄뎀형 비교과 프로그램 개발'
        if not os.path.exists(f'{dir_name}/{subdir_name}'):
            os.makedirs(f'{dir_name}/{subdir_name}')
        clean_name = f"{n:02} {safe_file_name(x.name)}"
        plt.savefig(f'{dir_name}/{subdir_name}/{clean_name}.png')
        plt.close()


for i in range(len(tandem.columns)):
    column_plot(i)

tandem.to_excel('02.norm_tandem.xlsx', index=False)


In [6]:
# read file "03.jinro.tsv"
jinro = pd.read_csv('03.jinro.tsv', sep='\t', encoding='utf-8')

# drop first column
jinro.drop(jinro.columns[0], axis=1, inplace=True)

# transform to categorical data
for col in jinro.columns:
    jinro[col] = jinro[col].astype('category')


def column_plot(n):
    if not dont_plot:
        x = jinro[jinro.columns[n]].value_counts()
        n += 1
        plt.rc('font', family='KoPubDotum_Pro')
        fig, axs = plt.subplots(figsize=figsize)
        plt.barh(x.index, x.values)
        plt.title(x.name)
        plt.tight_layout()
        subdir_name = f'2.유학생 진로 분석'
        if not os.path.exists(f'{dir_name}/{subdir_name}'):
            os.makedirs(f'{dir_name}/{subdir_name}')
        clean_name = f"{n:02} {safe_file_name(x.name)}"
        clean_name = clean_name.encode('utf-8')[:150].decode('utf-8', 'ignore')
        plt.savefig(f'{dir_name}/{subdir_name}/{clean_name}.png')
        plt.close()


for i in range(len(jinro.columns)):
    column_plot(i)

jinro.to_excel('03.norm_jinro.xlsx', index=False)


In [7]:
tandem = pd.read_csv('02.tandem.tsv', sep='\t')

first_group = tandem.columns[38:38+18]
second_group = tandem.columns[38+18:38+18+9]

programs = tandem[tandem.columns[38:]]


def get_line(x):
    data = programs.apply(pd.value_counts).iloc[x]
    data = data[data > 0]
    data = data.astype(int)
    return data


def plot_barh(data, title=None):
    if not dont_plot:
        data = data.sort_values()
        data = data[-10:]
        fig, ax = plt.subplots(figsize=figsize)
        ax.barh(data.index, data)
        ax.set_xlabel('평가 횟수')
        ax.set_ylabel('프로그램')
        if title:
            ax.set_title(title)
        plt.tight_layout()
        subdir_name = f'1.탄뎀형 비교과 프로그램 개발b'
        if not os.path.exists(f'{dir_name}/{subdir_name}'):
            os.makedirs(f'{dir_name}/{subdir_name}')
        clean_name = f"{safe_file_name(title)}"
        clean_name = clean_name.encode('utf-8')[:150].decode('utf-8', 'ignore')
        plt.savefig(f'{dir_name}/{subdir_name}/{clean_name}.png')
        plt.close()


l0 = get_line(0)
plot_barh(l0, '0점 평가 (관심 순서 대로 10개)')

l1 = get_line(1)
plot_barh(l1, '1점 평가 (관심 순서 대로 10개)')

l2 = get_line(2)
plot_barh(l2, '2점 평가 (관심 순서 대로 10개)')

l3 = get_line(3)
plot_barh(l3, '3점 평가 (관심 순서 대로 10개)')

l4 = get_line(4)
plot_barh(l4, '4점 평가 (관심 순서 대로 10개)')

l5 = get_line(5)
plot_barh(l5, '5점 평가 (관심 순서 대로 10개)')

l0l1 = pd.concat([l0, l1])
plot_barh(l0l1, '0점, 1점 평가 (관심 순서 대로 10개)')

l0l1l2 = pd.concat([l0, l1, l2])
plot_barh(l0l1l2, '0점, 1점, 2점 평가 (관심 순서 대로 10개)')

l3l4l5 = pd.concat([l3, l4, l5])
plot_barh(l3l4l5, '3점, 4점, 5점 평가 (관심 순서 대로 10개)')

l4l5 = pd.concat([l4, l5])
plot_barh(l4l5, '4점, 5점 평가 (관심 순서 대로 10개)')


In [15]:
ls = pd.DataFrame([l0, l1, l2, l3, l4, l5])

# to excel
ls.to_excel('04.tandem_grades.xlsx')