# Create a dataset


In [10]:
import pandas as pd
import numpy as np

dataset_name = "AA_base"
origin_file_path = "/home/ips/projects/tatar-tts-2/VITS/vits/dataset.csv"

In [3]:
# Read and combine data from all files
data = pd.read_csv(origin_file_path, sep=';')
data = data.drop(['Unnamed: 0'],axis=1)
print("Number of lines:", len(data))
print(data.head())

# The data looks like this:
# sid_txtid_uttid text
# 16777288_629046_281474981563595 বাঁশের প্রায়

Number of lines: 36482
                  id                                                txt
0  1_2301208_2301208                              хәлүшләрне әйтәсеңме.
1  1_5100120_5100120              бүген ике баланы хастаханәгә озаттык.
2  1_2301620_2301620                                          коточкыч.
3  1_5202549_5202549  башта безнең группага әминәсен генә керткәннәр...
4    2_as0695_as0695  бернәрсә турында да уйламый кебек, җитди сүзгә...


In [5]:
megastr = ''
for text in data['txt']:
    megastr += text
print(np.unique(np.array(list(megastr))))

[' ' '!' ',' '-' '.' '?' 'a' 'c' 'i' 'n' 'o' 'p' 'r' 's' 't' 'v' 'y' 'z'
 'а' 'б' 'в' 'г' 'д' 'е' 'ж' 'з' 'и' 'й' 'к' 'л' 'м' 'н' 'о' 'п' 'р' 'с'
 'т' 'у' 'ф' 'х' 'ц' 'ч' 'ш' 'щ' 'ъ' 'ы' 'ь' 'э' 'ю' 'я' 'ё' 'җ' 'ң' 'ү'
 'һ' 'ә' 'ө' '„']


In [6]:
data = pd.concat([pd.DataFrame(data.id.str.split('_').tolist(),columns=['spkid', 'txtid', 'uttid']),data.txt],axis=1)
print(data.head())

  spkid    txtid    uttid                                                txt
0     1  2301208  2301208                              хәлүшләрне әйтәсеңме.
1     1  5100120  5100120              бүген ике баланы хастаханәгә озаттык.
2     1  2301620  2301620                                          коточкыч.
3     1  5202549  5202549  башта безнең группага әминәсен генә керткәннәр...
4     2   as0695   as0695  бернәрсә турында да уйламый кебек, җитди сүзгә...


In [7]:
data['text'] = data['txt']
data = data.drop(['txt'],axis=1)
print(data.head())

  spkid    txtid    uttid                                               text
0     1  2301208  2301208                              хәлүшләрне әйтәсеңме.
1     1  5100120  5100120              бүген ике баланы хастаханәгә озаттык.
2     1  2301620  2301620                                          коточкыч.
3     1  5202549  5202549  башта безнең группага әминәсен генә керткәннәр...
4     2   as0695   as0695  бернәрсә турында да уйламый кебек, җитди сүзгә...


### Map speaker ids to indices with sorted order


In [8]:
spkid_to_idx = {spkid: idx for idx,
                spkid in enumerate(sorted(data.spkid.unique()))}
spkidx = data["spkid"].map(spkid_to_idx)
print(np.unique(spkidx))

spkidx = pd.DataFrame(spkidx)
spkidx.columns = ["spkidx"]
data = pd.concat([spkidx, data], axis=1)
#print(data['spkidx'].unique())
print(data.head())

[0 1]
   spkidx spkid    txtid    uttid  \
0       0     1  2301208  2301208   
1       0     1  5100120  5100120   
2       0     1  2301620  2301620   
3       0     1  5202549  5202549   
4       1     2   as0695   as0695   

                                                text  
0                              хәлүшләрне әйтәсеңме.  
1              бүген ике баланы хастаханәгә озаттык.  
2                                          коточкыч.  
3  башта безнең группага әминәсен генә керткәннәр...  
4  бернәрсә турында да уйламый кебек, җитди сүзгә...  


In [9]:
# Number of speakers
print("Number of speakers:", len(data.spkidx.unique()))

Number of speakers: 2


### Save the data to .csv file


In [11]:
data.reset_index(drop=True).to_csv(f"/home/ips/projects/tatar-tts-2/VITS/vits/filelists/{dataset_name}.csv", sep="\t")