## Создание общего датасета // Creating one dataset
Дата создания: 14.05.2022 // Date of creation: 14.05.2022

Автор: Шилова надежда // Author: Nadejda Shilova

In [73]:
#Необходимые библиотеки // Required libraries
import os
import pandas as pd

In [74]:
#Путь к папке с данными // The path to the data folder
path ="Collected files//" 
#Датафрейм xlsx формата // xlsx format dataframe
df_xlsx = pd.DataFrame()
#Датафрейм csv формата // csv format dataframe
df_csv = pd.DataFrame()
#Загрузка данных // Loading data
for root, dirs, files in os.walk(path): 
    for file in files: 
        if 'csv' in os.path.join(root,file):
            df_csv = pd.concat([df_csv, pd.read_csv(os.path.join(root,file), header=None, names=[0, 1])], ignore_index=True)
        elif 'xlsx' in os.path.join(root,file):
            df_xlsx = pd.concat([df_xlsx, pd.read_excel(io=os.path.join(root,file), engine='openpyxl', header=None)], ignore_index=True)

In [75]:
#Удаление третьего столбца с английским языком // Deleting the third column with English
df_xlsx = df_xlsx.iloc[:, [0, 1]]

In [76]:
#Объединение форматов // Combining formats
df_final = pd.concat([df_xlsx, df_csv], ignore_index=True)

In [77]:
#Удаление пустых строк // Deleting empty lines
df_final.dropna(axis=0,inplace=True) 

In [78]:
#Удаление строк, которые были заголовками // Deleting lines that were headers
df_final = df_final.loc[(df_final[0] != 'Коми язык') & (df_final[0] != 'Русский язык')]

In [79]:
#Удаление дубликатов // Deleting duplicates
df_final = df_final.drop_duplicates().reset_index(drop=True)

In [80]:
#Присвоение названий столбцов // Assigning column names
df_final.columns = ['Коми язык', 'Русский язык'] 

In [81]:
df_final = df_final.loc[df_final['Русский язык'] != '-']

In [82]:
#Уникальные слова Коми // Unique words of Komi
len(df_final["Коми язык"].str.lower().str.split(" ").apply(pd.Series).stack().unique())

63320

In [83]:
#Уникальные слова русский // Unique words of Russian
len(df_final["Русский язык"].str.lower().str.split(" ").apply(pd.Series).stack().unique())

62018

In [84]:
#Сохранение файла // Saving file
df_final.to_csv('final_dataset.csv', index=False)

In [85]:
pd.read_csv('final_dataset.csv')

Unnamed: 0,Коми язык,Русский язык
0,Владимир Уйба выль коронавирус инфекция паська...,Владимир Уйба о решениях республиканского опер...
1,Коми Республикаын Роспотребнадзорлӧн веськӧдла...,Официальная информация Управления Роспотребнад...
2,Коми Республикаын Роспотребнадзорлӧн веськӧдла...,По официальной информации Управления Роспотреб...
3,"ПЦР-тестъяс отсӧгӧн тӧдмалӧма, мый COVІD-19 ви...",Выявлено ПЦР-тестированием 89984 (+291) случая...
4,"Медунаӧн висьмисны Сыктывкарын – 79, Ухтаын – ...",Наибольший прирост за сутки в Сыктывкаре – 79 ...
...,...,...
38378,"Заводитам монтаж, да во помӧдз установка лоӧ д...","Начнем её монтаж, и к концу года установка уже..."
38379,Республикаса Юралысь аттьӧаліс компанияӧн юрну...,Глава республики поблагодарил руководство комп...
38380,«Аттьӧала компанияӧс выль проектысь.,«Благодарю компанию за новый проект.
38381,Сійӧ сетас позянлун лӧсьӧдны выль уджалан мест...,"Который позволит создать новые рабочие места, ..."


In [86]:
#Изначальный датафрейм // Initial dataframe
df_final_load = pd.read_csv('final_dataset.csv')

In [87]:
#Датафрейм обратный загруженному // The dataframe is the reverse of the uploaded one
df_reverse_column = df_final_load[['Русский язык', 'Коми язык']]

In [88]:
#Изначальный датафрейм // Initial dataframe
#Добавление новых индексов // Adding new indexes
df_final_load["index"] = [ind for ind in range(0, df_final_load.shape[0]*2, 2)]
#Замена индексов // Replacing indexes
df_final_load = df_final_load.set_index("index")
#Добавление префикса // Adding a prefix
df_final_load["prefix"] = "translate komi to russian"
#Добавление бинарного номера // Adding a binary number
df_final_load["index_bin"] = 1
#Переименование столбцов // Rename columns
df_final_load.rename(columns={'Коми язык': 'input_text'}, inplace=True)
df_final_load.rename(columns={'Русский язык': 'target_text'}, inplace=True)

In [89]:
#Датафрейм обратный загруженному // The dataframe is the reverse of the uploaded one
#Добавление новых индексов // Adding new indexes
df_reverse_column["index"] = [ind for ind in range(1, df_reverse_column.shape[0]*2+1, 2)]
#Замена индексов // Replacing indexes
df_reverse_column = df_reverse_column.set_index("index")
#Добавление префикса // Adding a prefix
df_reverse_column["prefix"] = "translate russian to komi"
#Добавление бинарного номера // Adding a binary number
df_reverse_column["index_bin"] = 0
#Переименование столбцов // Rename columns
df_reverse_column.rename(columns={'Русский язык': 'input_text'}, inplace=True)
df_reverse_column.rename(columns={'Коми язык': 'target_text'}, inplace=True)

In [90]:
df_two_variants = df_final_load.combine_first(df_reverse_column)

In [91]:
#Сохранение файла // Saving file
df_two_variants.to_csv('final_two_variants_dataset.csv', index=False)

In [92]:
df_two_variants

Unnamed: 0_level_0,input_text,target_text,prefix,index_bin
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Владимир Уйба выль коронавирус инфекция паська...,Владимир Уйба о решениях республиканского опер...,translate komi to russian,1
1,Владимир Уйба о решениях республиканского опер...,Владимир Уйба выль коронавирус инфекция паська...,translate russian to komi,0
2,Коми Республикаын Роспотребнадзорлӧн веськӧдла...,Официальная информация Управления Роспотребнад...,translate komi to russian,1
3,Официальная информация Управления Роспотребнад...,Коми Республикаын Роспотребнадзорлӧн веськӧдла...,translate russian to komi,0
4,Коми Республикаын Роспотребнадзорлӧн веськӧдла...,По официальной информации Управления Роспотреб...,translate komi to russian,1
...,...,...,...,...
76761,«Благодарю компанию за новый проект.,«Аттьӧала компанияӧс выль проектысь.,translate russian to komi,0
76762,Сійӧ сетас позянлун лӧсьӧдны выль уджалан мест...,"Который позволит создать новые рабочие места, ...",translate komi to russian,1
76763,"Который позволит создать новые рабочие места, ...",Сійӧ сетас позянлун лӧсьӧдны выль уджалан мест...,translate russian to komi,0
76764,"Тайӧ кыпӧдас Войвылын и олан тшупӧдсӧ, и сылыс...","Это, в свою очередь, повысит и качество жизни ...",translate komi to russian,1
