In [496]:
import numpy as np
import pandas as pd
from itertools import permutations, product, combinations
from copy import deepcopy
import tqdm

In [497]:
np.random.seed(42)

In [498]:
%pwd

'/mnt/data/baridxiai/workspace/CSworkshop/ezswitch'

In [499]:
path = 'lithops/singlish_data/output/compile_sge-zh.csv'

In [500]:
ev = pd.read_csv(path)

In [501]:
ev = ev.reset_index(drop=True)

In [502]:
ev = ev.set_index(['model', 'method', 'direction'])

In [503]:
ev['input_id'] = ev.groupby(level=list(range(ev.index.nlevels))).cumcount()

In [504]:
ev = ev.set_index('input_id', append=True).reorder_levels(['input_id', 'model', 'method', 'direction']).sort_index()

In [505]:
ev

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,src,tgt,generated
input_id,model,method,direction,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,full_gpt-4o-mini,baseline,src,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California Water Project 的新问题出现了。
0,full_gpt-4o-mini,baseline,tgt,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California 水务工程的新问题 ah.
0,full_gpt-4o-mini,gold,src,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California Water Project 有一些 new 问题出现了。
0,full_gpt-4o-mini,gold,tgt,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,加利福尼亚州水务工程的新问题。
0,full_gpt-4o-mini,silver,src,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California water project 有新的 questions 发生了 ove...
...,...,...,...,...,...,...
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,baseline,tgt,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"He say, China go strengthen collaboration with..."
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,gold,src,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"He lor, China leh strengthen cooperation with ..."
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,gold,tgt,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"Lah, he say China gonna strengthen collaborati..."
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,silver,src,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"He leh, China leh strengthen cooperation with ..."


In [506]:
ev = ev[['src', 'tgt', 'generated']]
ev

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,src,tgt,generated
input_id,model,method,direction,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,full_gpt-4o-mini,baseline,src,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California Water Project 的新问题出现了。
0,full_gpt-4o-mini,baseline,tgt,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California 水务工程的新问题 ah.
0,full_gpt-4o-mini,gold,src,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California Water Project 有一些 new 问题出现了。
0,full_gpt-4o-mini,gold,tgt,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,加利福尼亚州水务工程的新问题。
0,full_gpt-4o-mini,silver,src,New Questions Over California Water Project,加利福尼亚州 水务 工程 的 新 问题,California water project 有新的 questions 发生了 ove...
...,...,...,...,...,...,...
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,baseline,tgt,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"He say, China go strengthen collaboration with..."
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,gold,src,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"He lor, China leh strengthen cooperation with ..."
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,gold,tgt,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"Lah, he say China gonna strengthen collaborati..."
2001,full_meta-llama_Meta-Llama-3-8B-Instruct,silver,src,He said China would strengthen its cooperation...,他 说 ， 中国 将 加强 与 乌干达 在 基础设施 与 产业园 区 建设 方面 的 合作 ...,"He leh, China leh strengthen cooperation with ..."


In [507]:

def get_pairings(factors):
    if len(factors) == 0:
        return [[]]

    pairings = []
    for factor_to_vary, vs in factors.items():
        for v1, v2 in combinations(vs, 2):
            rest_factors = {k: v for k, v in factors.items() if k != factor_to_vary}
            pairings.extend([
                [d | {factor_to_vary: v1}, d | {factor_to_vary: v2}]
                for d in [
                    dict(zip(rest_factors, comb)) 
                    for comb in product(*rest_factors.values())
                ]
            ])
    return pairings
    
        
def pairing_for_factorial_analysis_one(df):
    factors = {
        factor: ev.index.get_level_values(factor).unique().tolist()
        for factor in df.index.names
    }

    pairings = get_pairings(factors)

    def dict_index(df, dict_indexer):
        return df.loc[tuple([
            dict_indexer[index]
            for index in df.index.names])]

    result_df = []
    for pairing in pairings:
        inst1, inst2 = dict_index(df, pairing[0]), dict_index(df, pairing[1])
        inst1.index = [idx + '_1' for idx in inst1.index]
        inst2.index = [idx + '_2' for idx in inst2.index]
        result = pd.concat([inst1, inst2])
        result_df.append(result)

    result_df = pd.DataFrame(result_df)

    def pairings_to_df(pairings):
        reformatted = [
            {
                k1 + '_1': v1
                for k1, v1 in p1.items()
            } | {
                k2 + '_2': v2
                for k2, v2 in p2.items()
            }
            for p1, p2 in pairings
        ]
        return pd.DataFrame(reformatted)
        
    return result_df, pairings_to_df(pairings)


def pairing_for_factorial_analysis_all(df, seed=42):
    result_df = pd.DataFrame()
    result_pairings = pd.DataFrame()
    
    for input_id in tqdm.tqdm(df.index.get_level_values('input_id').unique()):
        paired_df, pairings = pairing_for_factorial_analysis_one(df.loc[input_id])
        pairings['input_id'] = input_id
        result_df = pd.concat([result_df, paired_df])
        result_pairings = pd.concat([result_pairings, pairings])
    result_df = result_df.reset_index(drop=True)
    result_pairings = result_pairings.reset_index(drop=True)

    shuffled_idx = np.random.permutation(df.shape[0])
    return result_df.iloc[shuffled_idx], result_pairings.iloc[shuffled_idx]

In [508]:
paired_df, pairings = pairing_for_factorial_analysis_all(ev)


100%|██████████| 2002/2002 [00:26<00:00, 75.33it/s]


In [509]:
pairings

Unnamed: 0,method_1,direction_1,model_1,method_2,direction_2,model_2,input_id
6978,baseline,src,full_gpt-4o-mini,baseline,tgt,full_gpt-4o-mini,290
23818,baseline,src,full_gpt-4o-mini,silver,src,full_gpt-4o-mini,992
12152,baseline,src,full_meta-llama_Meta-Llama-3-8B-Instruct,gold,src,full_meta-llama_Meta-Llama-3-8B-Instruct,506
18662,gold,src,full_gpt-4o-mini,silver,src,full_gpt-4o-mini,777
21990,baseline,src,full_gpt-4o-mini,gold,src,full_gpt-4o-mini,916
...,...,...,...,...,...,...,...
21575,silver,src,full_meta-llama_Meta-Llama-3-8B-Instruct,silver,tgt,full_meta-llama_Meta-Llama-3-8B-Instruct,898
5390,gold,src,full_gpt-4o-mini,silver,src,full_gpt-4o-mini,224
860,silver,src,full_gpt-4o-mini,silver,tgt,full_gpt-4o-mini,35
15795,gold,tgt,full_gpt-4o-mini,gold,tgt,full_meta-llama_Meta-Llama-3-8B-Instruct,658


In [510]:
paired_df = paired_df[['src_1', 'tgt_1', 'generated_1', 'generated_2']].rename(columns={
    'src_1': 'original_l1', 
    'tgt_1': 'original_l2', 
    'generated_1': 'sent_1', 
    'generated_2': 'sent_2'
})
paired_df['lang'] = 'English-Chinese'

In [511]:
paired_df

Unnamed: 0,original_l1,original_l2,sent_1,sent_2,lang
6978,In strict medical terms marijuana is far safer...,在 严格 的 医学 条件 下 ， 大麻 比 我们 日常 消费 的 许多 食物 都 要 安全 ...,"In strict medical terms, marijuana 比起很多我们常吃的食物...","Under strict 医学 conditions, 大麻 is way safer th...",English-Chinese
23818,"According to a reporter, since the fire was co...",记者 了解 到 ， 由于 火势 控制 及时 ， 此次 火灾 未 造成 人员伤亡 ， 也 未 ...,根据记者讲，火灾及时被控制，所以这场火灾灾难没有造成伤亡也没有严重的财产损失。,"According to a reporter, 这个 fire disaster has ...",English-Chinese
12152,"And, who knows, maybe even Berahino will have ...",而且 ， 即使 是 贝拉 希诺 大概 也 会 找到 一家 新 的 俱乐部 ， 谁 知道 呢 ！,"Lah, who know leh, maybe Berahino already find...","Maybe a new club leh, who knows, Berahino can ...",English-Chinese
18662,"The rainfall sustained across much of Yunnan, ...",而且 云南 大部 雨势 维持 ， 局部地区 还 产生 了 局地 雷暴 、 短时 强降水 、 ...,Yunnan 的雨量持续，某些地区有雷阵雨、短时间强降雨、冰雹、强风和其他严重对流天气。,云南很多地方持续下雨，某些地区有雷阵雨、短时间强降雨、冰雹、大风和其他严重对流天气。,English-Chinese
21990,The Chinese side supports friendly African cou...,中方 支持 非洲 友好 国家 加强 国防 维稳 能力 建设 ， 并 通过 双 多边 渠道 向...,中国支持友好的非洲国家 加强国防能力的建设。除此之外，中国通过双边或多边渠道 向相关非洲国家...,Chinese 方面 supports friendly countries 以 stren...,English-Chinese
...,...,...,...,...,...
21575,Outlets in the eastern suburbs has an integrat...,东郊 奥莱 整体规划 40 万方 ， 计划 入驻 240 余种 国际 时尚品牌 ， 目前 已...,"Eastern suburbs 有一个 400,000 的整合规划区，计划让超过 240 个...","East-coast Ola whole plan 40 million square, p...",English-Chinese
5390,"Earlier, Ben Proud set a British record to rea...",稍早 的 时候 ， 本 · 普劳德以 打破 英国 纪录 的 成绩 晋级 男子 50 米 自由...,"Earlier, Ben Proud set 一个 British record 来到 me...","Earlier, Ben Proud 创造了 British record to reach...",English-Chinese
860,But 23-year-old Zhang Mengfan won't stay quiet.,不过 ， 23 岁 的 张梦凡 不愿 保持沉默 。,But 23-year-old Zhang Mengfan 不会 stay quiet.,"不过, 23 岁的张梦凡 不愿 keep silent 。",English-Chinese
15795,"On the whole, the per capita income and realiz...",总体 来看 ， 残疾人 家庭 人均收入 和 小康 实现 程度 与 全省 平均水平 仍 有 不...,总体来看，残疾人家庭人均收入 和 小康实现程度 与 全省平均水平 仍有 不小 差距。,"Total lah, come look, handicapped family incom...",English-Chinese


In [512]:
paired_df.to_csv('lithops/singlish_data/cspref/cspref_zhen.csv', index=False)

In [513]:
pairings.to_csv('lithops/singlish_data/cspref/pairing_params_zhen.csv', index=False)