In [1]:
from datasets import load_dataset

ds = load_dataset("Murtazali/bible-dargwa-russian")
ds

DatasetDict({
    train: Dataset({
        features: ['id', 'osisID', 'book', 'chapter', 'start_verse', 'end_verse', 'dar_text', 'ru_text', 'rus_version'],
        num_rows: 26339
    })
})

In [2]:
import polars as pl

df = ds["train"].to_polars().filter(pl.col("start_verse") == pl.col("end_verse"))
df = df.with_columns(
    (df["book"].str.to_lowercase() + "_" + df["chapter"].cast(int) + "_" + df["start_verse"].cast(int)).alias("key")
)

df

id,osisID,book,chapter,start_verse,end_verse,dar_text,ru_text,rus_version,key
f64,str,str,f64,f64,f64,str,str,str,str
0.0,"""Gen""","""Genesis""",1.0,1.0,1.0,"""Гьаланачи Аллагьли зак ва ванз…","""В начале сотворил Бог небо и з…","""Sinodal""","""genesis_1_1"""
1.0,"""Gen""","""Genesis""",1.0,2.0,2.0,"""Ванза куцагарлири ва бацӀлири,…","""Земля же была безвидна и пуста…","""Sinodal""","""genesis_1_2"""
2.0,"""Gen""","""Genesis""",1.0,3.0,3.0,"""Аллагьли иб: «Шала биаб» ва ша…","""И сказал Бог: да будет свет. И…","""Sinodal""","""genesis_1_3"""
3.0,"""Gen""","""Genesis""",1.0,4.0,4.0,"""Шала гӀяхӀси биъни Аллагьли че…","""И увидел Бог свет, что он хоро…","""Sinodal""","""genesis_1_4"""
4.0,"""Gen""","""Genesis""",1.0,5.0,5.0,"""Аллагьли шалалис «бархӀи» бихь…","""И назвал Бог свет днём, а тьму…","""Sinodal""","""genesis_1_5"""
…,…,…,…,…,…,…,…,…,…
26334.0,"""Rev""","""Revelation""",22.0,17.0,17.0,"""РухӀ ва цӀикури дикӀар: «ВакӀи…","""И Дух и невеста Его говорят: ""…","""Modern""","""revelation_22_17"""
26335.0,"""Rev""","""Revelation""",22.0,18.0,18.0,""" Иш бергараг-белкӀла гьалахили…","""И я свидетельствую перед всеми…","""Modern""","""revelation_22_18"""
26336.0,"""Rev""","""Revelation""",22.0,19.0,19.0,""" чили-биалра гьалахили дурутал…","""И если кто опустит что-то из п…","""Modern""","""revelation_22_19"""
26337.0,"""Rev""","""Revelation""",22.0,20.0,20.0,""" Иличила Бикьридешдируси викӀа…","""Тот, Кто свидетельствует обо в…","""Modern""","""revelation_22_20"""


In [4]:
data = pl.read_parquet("ebible_merged.pq")
data.shape

(1146, 25)

In [8]:
data.null_count()

key,part,book,chapter,verse,tok,en,ru,uk,be,fr,es,pt,it,de,vi,ja,zh,ko,ar,he,pl,tr,la,el
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,9,307,7,5,1,9,12,12,4,12,914,12,14,12,4,12,12,307,107


In [22]:
joined = data.join(df[["key", "ru_text"]].unique("key"), on="key", how="left")
joined = joined.with_columns(joined["ru"].fill_null(joined["ru_text"]))
joined.null_count()

key,part,book,chapter,verse,tok,en,ru,uk,be,fr,es,pt,it,de,vi,ja,zh,ko,ar,he,pl,tr,la,el,ru_text
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,9,110,7,5,1,9,12,12,4,12,914,12,14,12,4,12,12,307,107,511


In [23]:
data = joined[data.columns]
print(data.shape)
data.null_count()

(1146, 25)


key,part,book,chapter,verse,tok,en,ru,uk,be,fr,es,pt,it,de,vi,ja,zh,ko,ar,he,pl,tr,la,el
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,9,110,7,5,1,9,12,12,4,12,914,12,14,12,4,12,12,307,107


In [24]:
data.write_parquet("enlarged.pq")