# Comprehensive Dataset Samples for Greek Medical Speech Transcriptions Thesis

This notebook generates and displays representative samples from all datasets used in the Bachelor Thesis 
"Development of a Domain-Specific System for Greek Medical Speech Transcriptions" 
by Vardis Georgilas (Athens University of Economics and Business, August 2025). 

The datasets support the fine-tuning of Whisper models, GPT-2 for reranking, 
and an initial mT5 experiment for text correction.

## Objective
- Showcase samples from audio datasets (Greek_Mosel, Common Voice, Fleurs) and text datasets (Greek Medical Text for GPT-2, Error-Augmented for mT5).
- Provide context for the thesis's methodology and data-driven approach.

## Datasets Overview
- **Greek_Mosel**: Custom Greek medical speech dataset for dictation.
- **Common Voice (el)**: General Greek speech from Mozilla Common Voice 11.0.
- **Fleurs (el_gr)**: Multilingual speech dataset with Greek subset from Google.
- **Greek Medical Text Dataset**: 20,430 samples from medical e-books, QTLP Greek CC Corpus, and Istorima podcast dialogues for GPT-2 training.
- **Error-Augmented Dataset**: 56,000 synthetic sentence pairs (corrupted-clean) for mT5 text correction (initial experiment).




## Greek Mosel

In [31]:
from datasets import load_dataset
import pandas as pd
from IPython.display import display

sample_size = 5

# Greek_Mosel 
ds_mosel = load_dataset("Vardis/Greek_Mosel", split=f"train[:{sample_size}]")
df_mosel = pd.DataFrame(ds_mosel)[['audio', 'text']]
df_mosel['audio'] = df_mosel['audio'].apply(lambda x: x['path'])

print("Samples from Vardis/Greek_Mosel:")
print(df_mosel.to_string())


Samples from Vardis/Greek_Mosel:


Unnamed: 0,audio,text
0,sample_0.wav,"Λήψης λόγου για ένα λεπτό, ο κ. Παπαστάμκος. Ε..."
1,sample_1.wav,και οι οχλήσεις στην έρευνα και διάσωση στην ί...
2,sample_2.wav,των κυριαρχικών δικαιωμάτων χώρας μέλους της Έ...
3,sample_3.wav,Αντικατοπτήσετε σωστά στην ουγγρική γλώσσα. Εί...
4,sample_4.wav,ανακοινώθηκε από την ΤΕΛ ότι 2.000 θέσεις εργα...


## Common Voice Greek

In [34]:
ds_cv = load_dataset("mozilla-foundation/common_voice_11_0", "el", split=f"test[:{sample_size}]")
df_cv = pd.DataFrame(ds_cv)[['audio', 'sentence']]
df_cv['audio'] = df_cv['audio'].apply(lambda x: x['path'])

print("\nSamples from Mozilla Common Voice (Greek):")
print(df_cv.to_string())



Samples from Mozilla Common Voice (Greek):
                                                                                                                                                           audio                                                           sentence
0  /root/.cache/huggingface/datasets/downloads/extracted/2d6f21bb441e72e8485f35182ca11a5d7e44682e75ccbf1bdaf92e248e8f6f17/el_test_0/common_voice_el_27443549.mp3                         Γιατί την αλυσίδα μού την είχε δώσει εμένα
1  /root/.cache/huggingface/datasets/downloads/extracted/2d6f21bb441e72e8485f35182ca11a5d7e44682e75ccbf1bdaf92e248e8f6f17/el_test_0/common_voice_el_24677613.mp3                           Από το φεγγάρι πρέπει να μας έπεσες εσύ.
2  /root/.cache/huggingface/datasets/downloads/extracted/2d6f21bb441e72e8485f35182ca11a5d7e44682e75ccbf1bdaf92e248e8f6f17/el_test_0/common_voice_el_25653813.mp3                     μη θέλοντας να πιστέψουν, ο γέρος εξακολούθησε
3  /root/.cache/huggingface/datasets/downloa

## Fleurs Greek

In [4]:
ds_fleurs = load_dataset("google/fleurs", "el_gr", split=f"test[:{sample_size}]")
df_fleurs = pd.DataFrame(ds_fleurs)[['audio', 'transcription']]
df_fleurs['audio'] = df_fleurs['audio'].apply(lambda x: x['path'])

print("\nSamples from Google Fleurs (Greek):")
print(df_fleurs.to_string())



Samples from Google Fleurs (Greek):
                           audio                                                                                                                                                                                                                        transcription
0  test/10055043144368529343.wav                                                                                       η δέκατη καταιγίδα της εποχής των ατλαντικών τυφώνων που απέκτησε όνομα η υποτροπική καταιγίδα τζέρι σχηματίσθηκε σήμερα στον ατλαντικό ωκεανό
1   test/1012934966458711671.wav  πιο παραδοσιακές εκκλησίες συχνά πραγματοποιούν την ακολουθία της ανάστασης το βράδυ του σαββάτου μέσα στο σαββατοκύριακο του πάσχα με το εκκλησίασμα να ξεσπά σε εορτασμούς ακριβώς τα μεσάνυχτα υμνώντας την ανάσταση του χριστού
2  test/10144476447854605907.wav                                                                                                              κάποια άτομα έχουν μη σταθερούς πυρ

## Greek Medical Text for GPT-2


In [15]:
ds_gpt_text = load_dataset("Vardis/Greek_Medical_Text", split=f"train[:{sample_size}]")
ds_gpt_text = ds_gpt_text.shuffle(seed=456).select(range(sample_size))
df_gpt_text = pd.DataFrame(ds_gpt_text)[['text']]

print("\nSamples from Greek Medical Text Dataset (GPT-2):")
print(df_gpt_text.to_string())



Samples from Greek Medical Text Dataset (GPT-2):
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           text
0  Πολύ ωραία και πολύ ευχάριστα. Με τρομερές αναμνήσεις. Με δασκάλους σε όλες τις βαθμίδες εκπαίδευσης που άφησαν το στίγμα και μπορούμε μετά από χρόνια πραγματικά και τους θυμόμαστε και λέμε ήταν 

## Error-Augmented Dataset for mT5


In [25]:
ds_mt5_error = load_dataset("Vardis/Greek_CorruptedTextPairs", split=f"train[:{sample_size}]")
df_mt5_error = pd.DataFrame(ds_mt5_error)[['corrupted', 'original']]

print("\nSamples from Error-Augmented Dataset (mT5):\n")
for i, row in df_mt5_error.iterrows():
    print(f"Corrupted: {row['corrupted']}")
    print(f"   Clean: {row['original']}\n")



Samples from Error-Augmented Dataset (mT5):

Corrupted: Πιστεύουμε στον κινωνικό χαρακτήρα τουργο μας και ση σημβολή μας στην βελτίωση ις ποηόιτας ζωής των νεφροπαθών σηνανθρώπων μας.
   Clean: Πιστεύουμε στον κοινωνικό χαρακτήρα του έργου μας και στη συμβολή μας στην βελτίωση της ποιότητας ζωής των νεφροπαθών συνανθρώπων μας.

Corrupted: Επενδύιμε όχη μόν ο οστην τεχνολογία ιαλλά και στις αξίες της ιπευθυνότητας, τοι σεβασμού, τι επαγγελματισμού, τιας υψηλήας ποιότητας παροχής ηπηρεσυών εγια τοιας οασθενείς μαςυ.
   Clean: Επενδύουμε όχι μόνο στην τεχνολογία αλλά και στις αξίες της υπευθυνότητας, του σεβασμού, του επαγγελματισμού, της υψηλής ποιότητας παροχής υπηρεσιών για τους ασθενείς μας.

Corrupted: Φροντίζουμε ναα είμαστε για τον κάθε αοσθενή οι ¨δικοί¨ του άνθρωποι, να αισθάνεται κοντά μας ασαν συτο σπίτι του.ι
   Clean: Φροντίζουμε να είμαστε για τον κάθε ασθενή οι ¨δικοί¨ του άνθρωποι, να αισθάνεται κοντά μας σαν στο σπίτι του.

Corrupted: Το “ΑΘΗΝΑΪΚΟ ΚΕΝΤΡΟ ΝΕΦΡΟΥ” είναη μη

## Combined Dataset Statistics


In [35]:
full_mosel = load_dataset("Vardis/Greek_Mosel", split="train")
full_cv = load_dataset("mozilla-foundation/common_voice_11_0", "el", split="test")
full_fleurs = load_dataset("google/fleurs", "el_gr", split="test")
full_gpt_text = load_dataset("Vardis/Greek_Medical_Text", split="train")
full_mt5_error = load_dataset("Vardis/Greek_CorruptedTextPairs", split="train")

stats = {
    "Dataset": ["Greek_Mosel", "Common Voice (el)", "Fleurs (el_gr)", "Greek Medical Text (GPT-2)", "Error-Augmented (mT5)"],
    "Num Samples": [len(full_mosel), len(full_cv), len(full_fleurs), len(full_gpt_text), len(full_mt5_error)]
}

df_stats = pd.DataFrame(stats)
print("\nDataset Statistics:")
display(df_stats)



Dataset Statistics:


Unnamed: 0,Dataset,Num Samples
0,Greek_Mosel,3876
1,Common Voice (el),1696
2,Fleurs (el_gr),650
3,Greek Medical Text (GPT-2),20430
4,Error-Augmented (mT5),56711
