## Using SeqTag model to classify errors in MT

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import tqdm
import os
os.getcwd()

'/content'

In [3]:
os.chdir('/content/drive/MyDrive/thesis') 
os.getcwd()

'/content/drive/MyDrive/thesis'

In [4]:
!git clone https://github.com/Unbabel/COMET

In [22]:
!pip install pyyaml
!pip install scipy
!pip install transformers
!pip install entmax
!pip install sentencepiece
!pip install torch
!pip install pytorch_lightning==2.0.1
!pip install huggingface_hub 

### Read and prepare the test set for scoring

In [2]:
import pandas as pd
import time
import glob
import re
import os
import numpy as np
import sys
import string

from tqdm.notebook import trange, tqdm

from IPython.display import display, HTML
pd.set_option('display.max_colwidth', None)

In [None]:
PROJECT_DIR = "segments"
SCORES_DIR = "scores"

SOURCE_FILE = "segments_test_set.xlsx"
RESULT_FILE = f"SCORES_{SOURCE_FILE}"

SOURCE_LANG = 'en'
TARGET_LANG = 'ru'

In [8]:
segments_df = pd.read_excel(SOURCE_FILE)
segments_df.head(1)

Unnamed: 0,source,reference,mt
0,"OK, we have three of three NFL players here.","Итак, у нас здесь три из трёх игроков НФЛ.","Итак, у нас здесь трое из трех игроков NFL."
1,"I mean, describe to us this Bullrun program where it's alleged that the NSA specifically weakened security in order to get the type of access that you've spoken of.","Расскажите нам о программе Bullrun, согласно которой АНБ якобы преднамеренно ослабляло безопасность коммуникаций, чтобы получить тот уровень доступа, о котором Вы говорите.","Я имею в виду, опишите нам эту программу Буллран, в которой утверждается, что АНБ специально ослабило безопасность, чтобы получить тот тип доступа, о котором вы говорили."
2,We live in a world where GDP is the benchmark of success in a global economy.,"Мы живём в мире, где ВВП стал показателем успеха в мировой экономики.","Мы живем в мире, где GDP является эталоном успеха в глобальной экономике."
3,"Okay, so the ALS Association, they think by year end, it'll be 160 million dollars.","Ассоциация БАС считает, что к концу года будет собрано 160 млн долларов.","Итак, Ассоциация ALS, по их мнению, к концу года получит 160 миллионов долларов."
4,Each person must know their HIV status.,Каждый человек должен знать свой ВИЧ-статус.,Каждый человек должен знать свой HIV-статус.


In [10]:
os.chdir('/content/drive/MyDrive/thesis/COMET') 
os.getcwd()

'/content/drive/MyDrive/thesis/COMET'

In [11]:
import torch

In [12]:
num_cores = 8
torch.set_num_threads(num_cores)

In [14]:
MODEL_AS_METRIC = 'wmt22-seqtag-mqm'

Testing SeqTag on a couple of sentences

In [23]:
from comet import download_model, load_from_checkpoint

In [24]:
model = load_from_checkpoint('/content/drive/MyDrive/thesis/COMET/wmt22-seqtag-mqm/checkpoints/model.ckpt')

INFO:pytorch_lightning.utilities.migration.utils:Lightning automatically upgraded your loaded checkpoint from v1.6.4 to v2.0.1. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint --file wmt22-seqtag-mqm/checkpoints/model.ckpt`


Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/513 [00:00<?, ?B/s]

In [25]:
data = [
    {
        "src": "Dem Feuer konnte Einhalt geboten werden",
        "mt": "The fire could be stopped",
        "ref": "They were able to control the fire."
    },
    {
        "src": "Schulen und Kindergärten wurden eröffnet.",
        "mt": "Schools and kindergartens were open",
        "ref": "Schools and kindergartens opened"
    }
]

In [27]:
model_output = model.predict(data, batch_size=8, gpus=1)

INFO:pytorch_lightning.utilities.rank_zero:GPU available: True (cuda), used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:IPU available: False, using: 0 IPUs
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
Predicting DataLoader 0: 100%|██████████| 1/1 [00:00<00:00,  1.15it/s]


In [28]:
model_output

Prediction([('scores', [0.6787528991699219, 0.7925233840942383]),
            ('system_score', 0.7356381416320801),
            ('metadata',
             Prediction([('src_scores',
                          [0.6785367727279663, 0.7679629325866699]),
                         ('ref_scores',
                          [0.7040753364562988, 0.8182905912399292]),
                         ('unified_scores',
                          [0.6536464691162109, 0.7913165092468262]),
                         ('subword_scores',
                          [[('▁The', 0.34047579765319824),
                            ('▁fire', 0.5225199460983276),
                            ('▁could', 0.4745945930480957),
                            ('▁be', 0.4918487071990967),
                            ('▁stopped', 0.6508753299713135)],
                           [('▁School', 0.2730139493942261),
                            ('s', 0.29079359769821167),
                            ('▁and', 0.36390990018844604),
          

In [29]:
def comet_as_metric_func(
    dataframe: pd.core.frame.DataFrame,  # type: ignore,
    col_name_source: str,
    col_name_hyp: str,
    col_name_ref: str,
    use_model: str,
    gpus: int,
) -> pd.core.frame.DataFrame:  # type: ignore

    list_source = dataframe[col_name_source].to_list()
    list_hyp = dataframe[col_name_hyp].to_list()
    list_ref = dataframe[col_name_ref].to_list()

    # load all

    data = {"src": list_source, "mt": list_hyp, "ref": list_ref}
    data = [dict(zip(data, t)) for t in zip(*data.values())]

    from comet import download_model, load_from_checkpoint

    model = load_from_checkpoint('/content/drive/MyDrive/thesis/COMET/wmt22-seqtag-mqm/checkpoints/model.ckpt')

    model_output = model.predict(
        data, gpus=gpus
    )
    word_scores = model_output.metadata.subword_scores
    word_scores_sorted = []
    for word_score in word_scores:
        word_score = sorted(word_score,key=lambda x: x[1],reverse=True)[:20]
        word_scores_sorted.append(word_score)
    
    scores_list, corpus_score = model_output.scores, model_output.system_score
    
    name_score = MODEL_AS_METRIC
    dataframe[name_score] = scores_list
    
    dataframe['corpus score'] = corpus_score
    
    dataframe['word_scores'] = word_scores
    
    dataframe['errors'] = word_scores_sorted

    return dataframe


In [30]:
segments_df = comet_as_metric_func(segments_df, 
                             col_name_source = 'source', 
                             col_name_hyp = 'mt', 
                             col_name_ref = 'reference',
                             use_model = MODEL_AS_METRIC,
                             gpus = 1)

INFO:pytorch_lightning.utilities.migration.utils:Lightning automatically upgraded your loaded checkpoint from v1.6.4 to v2.0.1. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint --file wmt22-seqtag-mqm/checkpoints/model.ckpt`
INFO:pytorch_lightning.utilities.rank_zero:GPU available: True (cuda), used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:IPU available: False, using: 0 IPUs
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
Predicting DataLoader 0: 100%|██████████| 25/25 [00:21<00:00,  1.17it/s]


In [31]:
segments_df.head(10)

Unnamed: 0,source,reference,mt,reason,wmt22-seqtag-mqm,corpus score,word_scores,errors
0,"OK, we have three of three NFL players here.","Итак, у нас здесь три из трёх игроков НФЛ.","Итак, у нас здесь трое из трех игроков NFL.",acronyms,0.601369,-0.311334,"[(▁Итак, 0.1069316416978836), (,, 0.07770725339651108), (▁у, 0.09060796350240707), (▁нас, 0.08213721960783005), (▁здесь, 0.07255853712558746), (▁тро, 0.057215042412281036), (е, 0.10864969342947006), (▁из, 0.05544544383883476), (▁трех, 0.042844563722610474), (▁игроков, 0.06365104019641876), (▁NFL, 0.1273880898952484), (., 0.07495640963315964)]","[(▁NFL, 0.1273880898952484), (е, 0.10864969342947006), (▁Итак, 0.1069316416978836), (▁у, 0.09060796350240707), (▁нас, 0.08213721960783005), (,, 0.07770725339651108), (., 0.07495640963315964), (▁здесь, 0.07255853712558746), (▁игроков, 0.06365104019641876), (▁тро, 0.057215042412281036), (▁из, 0.05544544383883476), (▁трех, 0.042844563722610474)]"
1,"I mean, describe to us this Bullrun program where it's alleged that the NSA specifically weakened security in order to get the type of access that you've spoken of.","Расскажите нам о программе Bullrun, согласно которой АНБ якобы преднамеренно ослабляло безопасность коммуникаций, чтобы получить тот уровень доступа, о котором Вы говорите.","Я имею в виду, опишите нам эту программу Буллран, в которой утверждается, что АНБ специально ослабило безопасность, чтобы получить тот тип доступа, о котором вы говорили.",acronyms,0.045041,-0.311334,"[(▁Я, 0.1389012187719345), (▁имею, 0.1648944914340973), (▁в, 0.05742048844695091), (▁виду, 0.13678967952728271), (,, 0.18801835179328918), (▁о, 0.20019179582595825), (пишите, 0.13455577194690704), (▁нам, 0.0882662758231163), (▁эту, 0.026207810267806053), (▁программу, 0.08424928784370422), (▁Бул, 0.6619203090667725), (л, 0.8324640989303589), (ран, 0.8820561170578003), (,, 0.1728247106075287), (▁в, 0.2123938500881195), (▁которой, 0.15930697321891785), (▁утверждает, 0.161564901471138), (ся, 0.08522588014602661), (,, 0.044819872826337814), (▁что, 0.017054015770554543), (▁АН, 0.060748156160116196), (Б, 0.03693024069070816), (▁специально, 0.047607116401195526), (▁о, 0.06707533448934555), (слаб, 0.06108957529067993), (ило, 0.040477968752384186), (▁безопасность, 0.06101026386022568), (,, 0.03389894217252731), (▁чтобы, 0.012669738382101059), (▁получить, 0.02784055843949318), (▁тот, 0.03133223578333855), (▁тип, 0.09789715707302094), (▁доступа, 0.07594802975654602), (,, 0.02961190603673458), (▁о, 0.03749142587184906), (▁котором, 0.034058380872011185), (▁вы, 0.11905922740697861), (▁говорили, 0.11533006280660629), (., 0.13715681433677673)]","[(ран, 0.8820561170578003), (л, 0.8324640989303589), (▁Бул, 0.6619203090667725), (▁в, 0.2123938500881195), (▁о, 0.20019179582595825), (,, 0.18801835179328918), (,, 0.1728247106075287), (▁имею, 0.1648944914340973), (▁утверждает, 0.161564901471138), (▁которой, 0.15930697321891785), (▁Я, 0.1389012187719345), (., 0.13715681433677673), (▁виду, 0.13678967952728271), (пишите, 0.13455577194690704), (▁вы, 0.11905922740697861), (▁говорили, 0.11533006280660629), (▁тип, 0.09789715707302094), (▁нам, 0.0882662758231163), (ся, 0.08522588014602661), (▁программу, 0.08424928784370422)]"
2,We live in a world where GDP is the benchmark of success in a global economy.,"Мы живём в мире, где ВВП стал показателем успеха в мировой экономики.","Мы живем в мире, где GDP является эталоном успеха в глобальной экономике.",acronyms,0.579424,-0.311334,"[(▁Мы, 0.012581933289766312), (▁живе, 0.009849824011325836), (м, 0.012900669127702713), (▁в, 0.022077325731515884), (▁мире, 0.010033882223069668), (,, 0.013114986941218376), (▁где, 0.011364590376615524), (▁, 0.1476125717163086), (GDP, 0.3069528043270111), (▁является, 0.06641090661287308), (▁эта, 0.11156110465526581), (ло, 0.1742878258228302), (ном, 0.06380042433738708), (▁успеха, 0.024717746302485466), (▁в, 0.02475670538842678), (▁глобальн, 0.026891272515058517), (ой, 0.07394921779632568), (▁экономике, 0.02103700116276741), (., 0.02301166020333767)]","[(GDP, 0.3069528043270111), (ло, 0.1742878258228302), (▁, 0.1476125717163086), (▁эта, 0.11156110465526581), (ой, 0.07394921779632568), (▁является, 0.06641090661287308), (ном, 0.06380042433738708), (▁глобальн, 0.026891272515058517), (▁в, 0.02475670538842678), (▁успеха, 0.024717746302485466), (., 0.02301166020333767), (▁в, 0.022077325731515884), (▁экономике, 0.02103700116276741), (,, 0.013114986941218376), (м, 0.012900669127702713), (▁Мы, 0.012581933289766312), (▁где, 0.011364590376615524), (▁мире, 0.010033882223069668), (▁живе, 0.009849824011325836)]"
3,"Okay, so the ALS Association, they think by year end, it'll be 160 million dollars.","Ассоциация БАС считает, что к концу года будет собрано 160 млн долларов.","Итак, Ассоциация ALS, по их мнению, к концу года получит 160 миллионов долларов.",acronyms,-0.034038,-0.311334,"[(▁Итак, 0.4232903718948364), (,, 0.1999836415052414), (▁Ас, 0.39962634444236755), (соци, 0.4153563380241394), (ация, 0.23021696507930756), (▁A, 0.8692757487297058), (LS, 0.8453407287597656), (,, 0.19485005736351013), (▁по, 0.0397845022380352), (▁их, 0.08091218769550323), (▁мнению, 0.07519985735416412), (,, 0.09660983085632324), (▁к, 0.055514320731163025), (▁концу, 0.031021974980831146), (▁года, 0.027943748980760574), (▁получи, 0.39457130432128906), (т, 0.21589915454387665), (▁160, 0.0722879096865654), (▁миллионов, 0.07766478508710861), (▁долларов, 0.1469871699810028), (., 0.36762917041778564)]","[(▁A, 0.8692757487297058), (LS, 0.8453407287597656), (▁Итак, 0.4232903718948364), (соци, 0.4153563380241394), (▁Ас, 0.39962634444236755), (▁получи, 0.39457130432128906), (., 0.36762917041778564), (ация, 0.23021696507930756), (т, 0.21589915454387665), (,, 0.1999836415052414), (,, 0.19485005736351013), (▁долларов, 0.1469871699810028), (,, 0.09660983085632324), (▁их, 0.08091218769550323), (▁миллионов, 0.07766478508710861), (▁мнению, 0.07519985735416412), (▁160, 0.0722879096865654), (▁к, 0.055514320731163025), (▁по, 0.0397845022380352), (▁концу, 0.031021974980831146)]"
4,Each person must know their HIV status.,Каждый человек должен знать свой ВИЧ-статус.,Каждый человек должен знать свой HIV-статус.,acronyms,0.622769,-0.311334,"[(▁Каждый, 0.019854936748743057), (▁человек, 0.02872910164296627), (▁должен, 0.024458736181259155), (▁знать, 0.02188253402709961), (▁свой, 0.025763263925909996), (▁HIV, 0.08281591534614563), (-, 0.09131084382534027), (стату, 0.07630757987499237), (с, 0.07245305180549622), (., 0.07669340074062347)]","[(-, 0.09131084382534027), (▁HIV, 0.08281591534614563), (., 0.07669340074062347), (стату, 0.07630757987499237), (с, 0.07245305180549622), (▁человек, 0.02872910164296627), (▁свой, 0.025763263925909996), (▁должен, 0.024458736181259155), (▁знать, 0.02188253402709961), (▁Каждый, 0.019854936748743057)]"
5,I didn't attend the first TED back in 1984 but I've been to a lot of them since that time.,"Я не был на первой конференции TED в 1984-м году, но с того времени я посетил многие из них.","Я не был на первом ТЭД в 1984 году, но с тех пор побывал на многих из них.",acronyms,0.438772,-0.311334,"[(▁Я, 0.08156793564558029), (▁не, 0.03203075751662254), (▁был, 0.03987798094749451), (▁на, 0.053610529750585556), (▁первом, 0.049101125448942184), (▁Т, 0.40111637115478516), (ЭД, 0.4293723702430725), (▁в, 0.029554668813943863), (▁1984, 0.015284008346498013), (▁году, 0.01994304731488228), (,, 0.035653240978717804), (▁но, 0.04030495882034302), (▁с, 0.0431084930896759), (▁тех, 0.032190389931201935), (▁пор, 0.04375514015555382), (▁по, 0.15033608675003052), (бывал, 0.20075175166130066), (▁на, 0.12264221906661987), (▁многих, 0.03264036029577255), (▁из, 0.029803654178977013), (▁них, 0.06063668057322502), (., 0.034817688167095184)]","[(ЭД, 0.4293723702430725), (▁Т, 0.40111637115478516), (бывал, 0.20075175166130066), (▁по, 0.15033608675003052), (▁на, 0.12264221906661987), (▁Я, 0.08156793564558029), (▁них, 0.06063668057322502), (▁на, 0.053610529750585556), (▁первом, 0.049101125448942184), (▁пор, 0.04375514015555382), (▁с, 0.0431084930896759), (▁но, 0.04030495882034302), (▁был, 0.03987798094749451), (,, 0.035653240978717804), (., 0.034817688167095184), (▁многих, 0.03264036029577255), (▁тех, 0.032190389931201935), (▁не, 0.03203075751662254), (▁из, 0.029803654178977013), (▁в, 0.029554668813943863)]"
6,"Unfortunately, it's not NFL practice footage because the NFL thinks emergent technology is what happens when a submarine surfaces, but — (Laughter) — we do what we can.","К сожалению, это не ролик подготовки НФЛ, потому что НФЛ считает, что зарождающиеся технологии — это когда всплывает подводная лодка, но — (Смех) — мы делаем, что можем.","К сожалению, это не кадры с тренировок NFL, потому что NFL считает, что возникающие технологии — это то, что происходит, когда подводная лодка всплывает на поверхность, но — (Смех) — мы делаем, что можем.",acronyms,0.241543,-0.311334,"[(▁К, 0.05146970599889755), (▁сожалению, 0.010325007140636444), (,, 0.027592284604907036), (▁это, 0.020250728353857994), (▁не, 0.03082127869129181), (▁кадр, 0.07352041453123093), (ы, 0.04714898020029068), (▁с, 0.05560958385467529), (▁трен, 0.11361293494701385), (иров, 0.10405667126178741), (ок, 0.04290694743394852), (▁NFL, 0.09281231462955475), (,, 0.03716914728283882), (▁потому, 0.015271160751581192), (▁что, 0.01443083118647337), (▁NFL, 0.14898984134197235), (▁считает, 0.030631383880972862), (,, 0.02914583683013916), (▁что, 0.015324991196393967), (▁возникающ, 0.40774625539779663), (ие, 0.1672370731830597), (▁технологии, 0.11245134472846985), (▁—, 0.14755631983280182), (▁это, 0.040389690548181534), (▁то, 0.0756664127111435), (,, 0.04755999147891998), (▁что, 0.03752816841006279), (▁происходит, 0.06807425618171692), (,, 0.05675157532095909), (▁когда, 0.03988111764192581), (▁под, 0.04136936366558075), (вод, 0.06357809156179428), (ная, 0.03942461311817169), (▁лодка, 0.03919323533773422), (▁вс, 0.10945328325033188), (пл, 0.10461366176605225), (ывает, 0.04087613523006439), (▁на, 0.08052660524845123), (▁поверх, 0.09068812429904938), (ность, 0.06385502219200134), (,, 0.06748117506504059), (▁но, 0.05384222790598869), (▁—, 0.14469966292381287), (▁(, 0.08222054690122604), (С, 0.07459482550621033), (ме, 0.07671047747135162), (х, 0.06277448683977127), (), 0.04796968400478363), (▁—, 0.09824484586715698), (▁мы, 0.036849185824394226), (▁дела, 0.03703073784708977), (ем, 0.03800685703754425), (,, 0.03357215225696564), (▁что, 0.0242844857275486), (▁можем, 0.030270103365182877), (., 0.07353605329990387)]","[(▁возникающ, 0.40774625539779663), (ие, 0.1672370731830597), (▁NFL, 0.14898984134197235), (▁—, 0.14755631983280182), (▁—, 0.14469966292381287), (▁трен, 0.11361293494701385), (▁технологии, 0.11245134472846985), (▁вс, 0.10945328325033188), (пл, 0.10461366176605225), (иров, 0.10405667126178741), (▁—, 0.09824484586715698), (▁NFL, 0.09281231462955475), (▁поверх, 0.09068812429904938), (▁(, 0.08222054690122604), (▁на, 0.08052660524845123), (ме, 0.07671047747135162), (▁то, 0.0756664127111435), (С, 0.07459482550621033), (., 0.07353605329990387), (▁кадр, 0.07352041453123093)]"
7,"So on our next project, we used more than eight hours to go live from a sheep to a sweater, and Jimmy Kimmel in the ABC show, he liked that.","Поэтому в нашем следующем проекте мы использовали более 8 часов прямого эфира, чтобы показать весь процесс от овец до свитеров. Джимми Киммелу, ведущему шоу на канале ABC, это понравилось.","Итак, в нашем следующем проекте мы потратили более восьми часов, чтобы в прямом эфире превратиться из овцы в свитер, и Джимми Киммелу в шоу АБС, ему это понравилось.",acronyms,-0.881613,-0.311334,"[(▁Итак, 0.26899445056915283), (,, 0.12151022255420685), (▁в, 0.07741479575634003), (▁нашем, 0.06538411974906921), (▁следующем, 0.13439929485321045), (▁проект, 0.15168552100658417), (е, 0.11545571684837341), (▁мы, 0.1191149652004242), (▁пот, 0.2784747779369354), (рати, 0.27036339044570923), (ли, 0.07800516486167908), (▁более, 0.027597717940807343), (▁восьми, 0.0238517876714468), (▁часов, 0.06245608627796173), (,, 0.14245668053627014), (▁чтобы, 0.07669283449649811), (▁в, 0.2140468806028366), (▁прямо, 0.1625656932592392), (м, 0.3763011693954468), (▁эфир, 0.21998517215251923), (е, 0.2213536947965622), (▁преврат, 0.6084769368171692), (иться, 0.6148726940155029), (▁из, 0.40515023469924927), (▁, 0.34086698293685913), (ов, 0.37730011343955994), (цы, 0.3945764899253845), (▁в, 0.3606615960597992), (▁сви, 0.3698961138725281), (тер, 0.4276982247829437), (,, 0.42920398712158203), (▁и, 0.36543628573417664), (▁Джи, 0.4040989279747009), (м, 0.41551101207733154), (ми, 0.3748408555984497), (▁Ким, 0.4850495755672455), (ме, 0.5051762461662292), (лу, 0.5396932363510132), (▁в, 0.621336817741394), (▁шоу, 0.6880263686180115), (▁А, 0.7299985885620117), (БС, 0.7491008639335632), (,, 0.6539158821105957), (▁ему, 0.6164634227752686), (▁это, 0.3024657964706421), (▁понравилось, 0.4106441140174866), (., 0.27858859300613403)]","[(БС, 0.7491008639335632), (▁А, 0.7299985885620117), (▁шоу, 0.6880263686180115), (,, 0.6539158821105957), (▁в, 0.621336817741394), (▁ему, 0.6164634227752686), (иться, 0.6148726940155029), (▁преврат, 0.6084769368171692), (лу, 0.5396932363510132), (ме, 0.5051762461662292), (▁Ким, 0.4850495755672455), (,, 0.42920398712158203), (тер, 0.4276982247829437), (м, 0.41551101207733154), (▁понравилось, 0.4106441140174866), (▁из, 0.40515023469924927), (▁Джи, 0.4040989279747009), (цы, 0.3945764899253845), (ов, 0.37730011343955994), (м, 0.3763011693954468)]"
8,"The 1980s brought us Bill Gates, DOS, ATM machines to replace bank tellers, bar code scanning to cut down on labor in the retail sector.","80-е дали нам Билла Гейтса, DOS, банкоматы, которые заменили банковских служащих, штрих коды на товарах, что позволило упростить условия труда в сфере розничных продаж.","1980-е принесли нам Билла Гейтса, ДОС, банкоматы для замены банковских кассиров, сканирование штрих-кода для сокращения рабочей силы в секторе розничной торговли.",acronyms,0.372932,-0.311334,"[(▁1980-, 0.02715260162949562), (е, 0.017699768766760826), (▁принес, 0.04152148962020874), (ли, 0.026795916259288788), (▁нам, 0.028096672147512436), (▁Бил, 0.01867472380399704), (ла, 0.01635109633207321), (▁Ге, 0.020125575363636017), (йт, 0.019637513905763626), (са, 0.013879540376365185), (,, 0.032006651163101196), (▁ДО, 0.08020267635583878), (С, 0.04438773915171623), (,, 0.05796493589878082), (▁банк, 0.028514644131064415), (ом, 0.03947979584336281), (аты, 0.019666338339447975), (▁для, 0.02371126040816307), (▁зам, 0.059867069125175476), (ены, 0.03265748545527458), (▁банков, 0.0552540048956871), (ских, 0.0170262660831213), (▁, 0.05618799850344658), (касс, 0.0987345427274704), (иров, 0.0645216703414917), (,, 0.0712953433394432), (▁скан, 0.1211746335029602), (ирование, 0.060284726321697235), (▁шт, 0.07693350315093994), (рих, 0.08955865353345871), (-, 0.09667088836431503), (ко, 0.0796755850315094), (да, 0.15119636058807373), (▁для, 0.04693309962749481), (▁сокращен, 0.13681569695472717), (ия, 0.04957976192235947), (▁рабочей, 0.10955949127674103), (▁силы, 0.14198897778987885), (▁в, 0.028892023488879204), (▁сектор, 0.03581758961081505), (е, 0.08463238179683685), (▁роз, 0.044849943369627), (ни, 0.05104649066925049), (чной, 0.018868526443839073), (▁торговли, 0.02964937686920166), (., 0.018046285957098007)]","[(да, 0.15119636058807373), (▁силы, 0.14198897778987885), (▁сокращен, 0.13681569695472717), (▁скан, 0.1211746335029602), (▁рабочей, 0.10955949127674103), (касс, 0.0987345427274704), (-, 0.09667088836431503), (рих, 0.08955865353345871), (е, 0.08463238179683685), (▁ДО, 0.08020267635583878), (ко, 0.0796755850315094), (▁шт, 0.07693350315093994), (,, 0.0712953433394432), (иров, 0.0645216703414917), (ирование, 0.060284726321697235), (▁зам, 0.059867069125175476), (,, 0.05796493589878082), (▁, 0.05618799850344658), (▁банков, 0.0552540048956871), (ни, 0.05104649066925049)]"
9,"What that means to an actual NSA analyst, someone like me who was working as an intelligence analyst targeting, Chinese cyber-hackers, things like that, in Hawaii, is the provenance of that data is directly from their servers.","Для аналитика АНБ, вроде меня, работавшего аналитиком разведки и ориентированного на китайских хакеров и тому подобных, на Гавайях, это значит, что данные были взяты непосредственно с серверов компаний.","Что это означает для настоящего аналитика NSA, такого как я, который работал аналитиком разведки, нацеленным на китайских кибер-хакеров и тому подобное на Гавайях, так это то, что происхождение этих данных происходит непосредственно с их серверов.",acronyms,0.049718,-0.311334,"[(▁Что, 0.015264901332557201), (▁это, 0.015100007876753807), (▁означает, 0.03436340391635895), (▁для, 0.022612929344177246), (▁настоящего, 0.05853947997093201), (▁, 0.02885330282151699), (аналитик, 0.056518591940402985), (а, 0.03385099768638611), (▁N, 0.24448248744010925), (SA, 0.22094333171844482), (,, 0.03807085379958153), (▁такого, 0.031279612332582474), (▁как, 0.04045894742012024), (▁я, 0.041923873126506805), (,, 0.033273667097091675), (▁который, 0.03016963228583336), (▁, 0.08742531388998032), (работал, 0.04607957601547241), (▁, 0.06188591942191124), (аналитик, 0.18542692065238953), (ом, 0.09584667533636093), (▁развед, 0.23342502117156982), (ки, 0.17072546482086182), (,, 0.16218315064907074), (▁на, 0.40577954053878784), (цел, 0.40192970633506775), (енным, 0.189337819814682), (▁на, 0.15237653255462646), (▁китайски, 0.0709388330578804), (х, 0.05512624233961105), (▁кибер, 0.23797515034675598), (-, 0.2759382128715515), (ха, 0.17793963849544525), (кер, 0.08317197859287262), (ов, 0.08787037432193756), (▁и, 0.15954534709453583), (▁тому, 0.34311842918395996), (▁подобно, 0.28648823499679565), (е, 0.2482164353132248), (▁на, 0.11360588669776917), (▁Га, 0.0930405855178833), (вай, 0.07105773687362671), (ях, 0.06719668209552765), (,, 0.04562830552458763), (▁так, 0.031109489500522614), (▁это, 0.02020128443837166), (▁то, 0.023863857612013817), (,, 0.0187632218003273), (▁что, 0.011504918336868286), (▁про, 0.04764596372842789), (ис, 0.14648941159248352), (хождение, 0.10158421844244003), (▁этих, 0.020020676776766777), (▁данных, 0.04698200523853302), (▁происходит, 0.24747532606124878), (▁непосредственно, 0.039575472474098206), (▁с, 0.10513070225715637), (▁их, 0.08289994299411774), (▁сервер, 0.08138740062713623), (ов, 0.05849714204668999), (., 0.03965380787849426)]","[(▁на, 0.40577954053878784), (цел, 0.40192970633506775), (▁тому, 0.34311842918395996), (▁подобно, 0.28648823499679565), (-, 0.2759382128715515), (е, 0.2482164353132248), (▁происходит, 0.24747532606124878), (▁N, 0.24448248744010925), (▁кибер, 0.23797515034675598), (▁развед, 0.23342502117156982), (SA, 0.22094333171844482), (енным, 0.189337819814682), (аналитик, 0.18542692065238953), (ха, 0.17793963849544525), (ки, 0.17072546482086182), (,, 0.16218315064907074), (▁и, 0.15954534709453583), (▁на, 0.15237653255462646), (ис, 0.14648941159248352), (▁на, 0.11360588669776917)]"


In [32]:
segments_df.shape

(400, 8)

In [33]:
segments_df.drop(columns='errors', inplace=True)

In [35]:
segments_df.to_excel(RESULT_FILE, index=False)