In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
# This file takes the sentence-level distances produced by 03-compute_wmd.py
# and sums them to the chapter and document level (giving chapter- and
# document-level Translation Mover's Distance scores)
import os

import joblib
import pandas as pd
import numpy as np

import trglobals

In [3]:
doc1 = "de_tge"
lang1 = trglobals.get_lang_code(doc1)
doc2 = "el_mod"
lang2 = trglobals.get_lang_code(doc2)
alignment_code = trglobals.get_alignment_code(doc1, doc2)

In [4]:
# Load the TMDs
ch_scores = []
ch_data_path = trglobals.get_data_path(alignment_code)
pkl_fpath = os.path.join(ch_data_path, "full.pkl")
score_df = joblib.load(pkl_fpath)

In [5]:
score_df

Unnamed: 0,de,el,alignment_id,chapter,tmd
0,,ΤΟ ΕΜΠΟΡΕΥΜΑ 1.,ch01_clean.de_tge-ch01_clean.el_mod,ch15,inf
1,ERSTES KAPITEL Die Ware 1. Die zwei Faktoren d...,ΟΙ ΔΥΟ ΠΑΡΑΓΟΝΤΕΣ ΤΟΥ ΕΜΠΟΡΕΥΜΑΤΟΣ: ΑΞΙΑ ΧΡΗΣΗ...,ch01_clean.de_tge-ch01_clean.el_mod,ch15,0.963290
2,Unsere Untersuchung beginnt daher mit der Anal...,"Γιαυτό, ή Ερευνά μας αρχίζει μέ την άνάλυση το...",ch01_clean.de_tge-ch01_clean.el_mod,ch15,1.214450
3,"Die Ware ist zunachst ein ausserer Gegenstand,...",Τό έμπόρευμα είναι πριν άπ’ όλα ένα εξωτερικό ...,ch01_clean.de_tge-ch01_clean.el_mod,ch15,1.084576
4,"Die Natur dieser Bedurfnisse, ob sie z.B. dem ...","Ή φύση αυτών τών αναγκών, άν λχ. προέρχονται ά...",ch01_clean.de_tge-ch01_clean.el_mod,ch15,0.960944
...,...,...,...,...,...
110,"Die grosse Republik hat also aufgehort, das ge...",“Ετσι ή μεγάλη δημοκρατία έπαψε νά είναι ή γή ...,ch33_clean.de_tge-ch33_clean.el_mod,ch15,1.134638
111,Die kapitalistische Produktion geht dort mit R...,Ή κεφαλαιοκρατική παραγωγή προχωρεί έκεΐ μέ γι...,ch33_clean.de_tge-ch33_clean.el_mod,ch15,1.125233
112,"Die von Wakefield selbst so laut denunzierte, ...",Τό έπαίσχυντο ξεπούλημα σέ έξευτελιστικές τιμέ...,ch33_clean.de_tge-ch33_clean.el_mod,ch15,1.096947
113,Jedoch beschaftigt uns hier nicht der Zustand ...,Ωστόσο τό θέμα πού μάς άπασχολεΐ έδώ δέν είναι...,ch33_clean.de_tge-ch33_clean.el_mod,ch15,1.027426


In [9]:
score_df[score_df['tmd'] == np.inf]

Unnamed: 0,de,el,alignment_id,chapter,tmd
0,,ΤΟ ΕΜΠΟΡΕΥΜΑ 1.,ch01_clean.de_tge-ch01_clean.el_mod,ch15,inf
8,,Είναι έργο τής ιστορίας ν’ ανακαλύψει αυτές τί...,ch01_clean.de_tge-ch01_clean.el_mod,ch15,inf
9,,Τό ίδιο ισχύει καί γιά τήν άνακάλυψη τών κοινω...,ch01_clean.de_tge-ch01_clean.el_mod,ch15,inf
11,So die Findung gesellschaftlicher Masse fur di...,"Βετίίη 1859, 5.3 (Κάρλ Μάρξ: \\\\\""Κριτική τής...",ch01_clean.de_tge-ch01_clean.el_mod,ch15,inf
12,,"Βερολίνο 1859, σελ.",ch01_clean.de_tge-ch01_clean.el_mod,ch15,inf
...,...,...,...,...,...
73,Man begreife den Greuel!,"Γιά φανταστείτε, τί φρίκη !",ch33_clean.de_tge-ch33_clean.el_mod,ch15,inf
83,Wakefield erzahlt eine ausserst schmerzensreic...,Στίς αποικιακές χώρες δμως!,ch33_clean.de_tge-ch33_clean.el_mod,ch15,inf
86,,«Τό κεφάλαιό μας—λέει αναστενάζοντας ένα άπό τ...,ch33_clean.de_tge-ch33_clean.el_mod,ch15,inf
99,,«Σύμφωνα μ’ αύτό τό σχέδιο—αναφωνεί ό Ούέκφηλν...,ch33_clean.de_tge-ch33_clean.el_mod,ch15,inf


In [11]:
# First, we get the (non-inf) mean for each chapter
ch_means = score_df[score_df['tmd'] != np.inf].groupby("chapter").mean()
mean_map = ch_means.to_dict()['tmd']

In [12]:
ch_means

Unnamed: 0_level_0,tmd
chapter,Unnamed: 1_level_1
ch15,1.166985


In [13]:
mean_map

{'ch15': 1.1669852750570169}

In [14]:
def replace_infs(row):
    ch_name = row['chapter']
    ch_tmd = row['tmd']
    if ch_tmd == np.inf:
        return mean_map[ch_name]
    else:
        return ch_tmd

In [16]:
score_df['tmd'] = score_df.apply(replace_infs, axis=1)

In [17]:
score_df[score_df['tmd'] == np.inf]

Unnamed: 0,de,el,alignment_id,chapter,tmd,wmd


In [18]:
# Cool, no infs. Now we can compute means by chapter

In [19]:
score_df['sent_count'] = 1

In [20]:
ch_sums = score_df.groupby('chapter').sum()

In [21]:
ch_sums

Unnamed: 0_level_0,tmd,wmd,sent_count
chapter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ch15,12379.379798,12379.379798,10608


In [22]:
ch_sums['mean'] = ch_sums['tmd'] / ch_sums['sent_count']

In [23]:
ch_sums

Unnamed: 0_level_0,tmd,wmd,sent_count,mean
chapter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ch15,12379.379798,12379.379798,10608,1.166985


In [24]:
sums_fpath = os.path.join(trglobals.output_path, f"{alignment_code}.pkl")
ch_sums.to_pickle(sums_fpath)
# And in .csv format
csv_fpath = sums_fpath.replace(".pkl",".csv")
ch_sums.to_csv(csv_fpath)
print(f"Saved to {csv_fpath}")

Saved to ..\Texts_Output\de_tge.el_mod.csv
