# Data from stt.pecha.tools

Connect to the postgres database hosted on Render using dbeaver-ce and run the following query and export the result as a csv file. 

![export_csv](data/export_csv.png)


### All transcribed data
Use the following query when you want more data but willing to compromise one the quality of the transcription. Task in state 'submitted' means the task has been transcribed by the first transcriber and not yet been reviewed or done quality control on.
```sql
select t.transcript, t.reviewed_transcript, t.final_transcript, t.file_name, t.url 
from "Task" t 
where t.state in ('submitted', 'accepted', 'finalised');
```

### Reviewed only
The following query selects only the task that has been reviewed by the team lead but may or may not have been reviewed by the quality control team.
reviewed at least once
```sql 
select t.reviewed_transcript, t.final_transcript, t.file_name, t.url 
from "Task" t 
where t.state in ('accepted', 'finalised');
```

Read the exported csv from stt.pecha.tools

In [2]:
import pandas as pd

# csv_path = "/home/monlamai/_Task__202403291101.csv"

# csv_path = "/home/monlamai/_Task__202404031433.csv"

csv_path = "/home/monlamai/_Task__202404041143.csv"

df = pd.read_csv(csv_path)

In [3]:
df.head()

Unnamed: 0,reviewed_transcript,final_transcript,file_name,url
0,སྔོན་འགོག་མ་བྱས་བ་ཡིན་ན་ལབ་དགོས་རཱ། ད་སྔོན་ནས་...,སྔོན་འགོག་མ་བྱས་བ་ཡིན་ན་ལབ་དགོས་རཱ། ད་སྔོན་ནས་...,STT_NS_M0321_0472_3336783_to_3340138,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...
1,འབེལ་འབེལ་ལྷུག་ལྷུག་ཡོད་རཱ། སོ་སོ་ག་རེ་བཟའ་ན་ཡ...,འབེལ་འབེལ་ལྷུག་ལྷུག་ཡོད་རཱ། སོ་སོ་ག་རེ་བཟའ་ན་ཡ...,STT_NS_M0321_0482_3402953_to_3405182,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...
2,དྲི་བ་འདི་ཡོད་བ་ཏོག་ཙི་དཀའ་ལས་ཁག་པོ་འདྲ་བོ་ཞིག...,,STT_NS_M0068_0003_15600_to_21102,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...
3,ད་ང་རང་ཡང་མོ་ཡག་པོ་ཡོད་རེད། མོ་ལག་པ་ཤང་པོ་ཡོད་...,ད་ང་རང་ཡང་མོ་ཡག་པོ་ཡོད་རེད། མོ་ལག་པ་ཤང་པོ་ཡོད་...,STT_NS_M0311_0108_714701_to_719069,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...
4,ཨེ་ནས་ཨ་རག་དང་ཨེ་འདྲའི་འདྲ་བོ་ལོངས་སྤྱོད་འདྲ་བ...,ཨེ་ནས་ཨ་རག་དང་ཨེ་འདྲའི་འདྲ་བོ་ལོངས་སྤྱོད་འདྲ་བ...,STT_NS_M0311_0120_793916_to_797602,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...


grade column is used to indicate if the quality of the transcription 
|grade|meaning|
|-----|--------|
| 1   | Transcribed only|
| 2   | Reviewed by the team lead|
| 3   | Reviewed by the quality control team|

In [4]:
df['grade'] = 1 # by default all the task are transcibed

In [5]:
df.loc[~df['reviewed_transcript'].isna(), 'grade'] = 2 # if the task has been reviewed, grade = 2

In [6]:
df.loc[~df['final_transcript'].isna(), 'grade'] = 3 # if the task has been finalized, grade = 3

In [7]:
df['final_transcript'].fillna(df['reviewed_transcript'], inplace=True)

In [8]:
df.head()

Unnamed: 0,reviewed_transcript,final_transcript,file_name,url,grade
0,སྔོན་འགོག་མ་བྱས་བ་ཡིན་ན་ལབ་དགོས་རཱ། ད་སྔོན་ནས་...,སྔོན་འགོག་མ་བྱས་བ་ཡིན་ན་ལབ་དགོས་རཱ། ད་སྔོན་ནས་...,STT_NS_M0321_0472_3336783_to_3340138,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,3
1,འབེལ་འབེལ་ལྷུག་ལྷུག་ཡོད་རཱ། སོ་སོ་ག་རེ་བཟའ་ན་ཡ...,འབེལ་འབེལ་ལྷུག་ལྷུག་ཡོད་རཱ། སོ་སོ་ག་རེ་བཟའ་ན་ཡ...,STT_NS_M0321_0482_3402953_to_3405182,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,3
2,དྲི་བ་འདི་ཡོད་བ་ཏོག་ཙི་དཀའ་ལས་ཁག་པོ་འདྲ་བོ་ཞིག...,དྲི་བ་འདི་ཡོད་བ་ཏོག་ཙི་དཀའ་ལས་ཁག་པོ་འདྲ་བོ་ཞིག...,STT_NS_M0068_0003_15600_to_21102,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,2
3,ད་ང་རང་ཡང་མོ་ཡག་པོ་ཡོད་རེད། མོ་ལག་པ་ཤང་པོ་ཡོད་...,ད་ང་རང་ཡང་མོ་ཡག་པོ་ཡོད་རེད། མོ་ལག་པ་ཤང་པོ་ཡོད་...,STT_NS_M0311_0108_714701_to_719069,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,3
4,ཨེ་ནས་ཨ་རག་དང་ཨེ་འདྲའི་འདྲ་བོ་ལོངས་སྤྱོད་འདྲ་བ...,ཨེ་ནས་ཨ་རག་དང་ཨེ་འདྲའི་འདྲ་བོ་ལོངས་སྤྱོད་འདྲ་བ...,STT_NS_M0311_0120_793916_to_797602,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,3


In [9]:
df = df[~df['final_transcript'].isnull()]

In [10]:
df['dept'] = df['file_name'].str[:6] # extract department code from file name

In [11]:
df = df[['file_name','final_transcript', 'url', 'dept', 'grade']]

In [12]:
df.rename(columns={'final_transcript':'uni'}, inplace=True)

In [13]:
df.head()

Unnamed: 0,file_name,uni,url,dept,grade
0,STT_NS_M0321_0472_3336783_to_3340138,སྔོན་འགོག་མ་བྱས་བ་ཡིན་ན་ལབ་དགོས་རཱ། ད་སྔོན་ནས་...,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,STT_NS,3
1,STT_NS_M0321_0482_3402953_to_3405182,འབེལ་འབེལ་ལྷུག་ལྷུག་ཡོད་རཱ། སོ་སོ་ག་རེ་བཟའ་ན་ཡ...,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,STT_NS,3
2,STT_NS_M0068_0003_15600_to_21102,དྲི་བ་འདི་ཡོད་བ་ཏོག་ཙི་དཀའ་ལས་ཁག་པོ་འདྲ་བོ་ཞིག...,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,STT_NS,2
3,STT_NS_M0311_0108_714701_to_719069,ད་ང་རང་ཡང་མོ་ཡག་པོ་ཡོད་རེད། མོ་ལག་པ་ཤང་པོ་ཡོད་...,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,STT_NS,3
4,STT_NS_M0311_0120_793916_to_797602,ཨེ་ནས་ཨ་རག་དང་ཨེ་འདྲའི་འདྲ་བོ་ལོངས་སྤྱོད་འདྲ་བ...,https://d38pmlk0v88drf.cloudfront.net/wav16k/S...,STT_NS,3


In [14]:
df['file_name'] = df['file_name'].map(lambda x: x.replace(".wav", ""))
df['file_name'] = df['file_name'].map(lambda x: x.replace(".mp3", ""))

In [15]:
df.to_csv('01_stt_pecha_tools.csv', index=False)

In [17]:
! aws s3 cp 01_stt_pecha_tools.csv s3://monlam.ai.stt/tsv/01_stt_pecha_tools.csv

upload: ./01_stt_pecha_tools.csv to s3://monlam.ai.stt/tsv/01_stt_pecha_tools.csv


In [16]:
df.shape

(358731, 5)