# Preparation of the data

The dataset utilized in this project was sourced from chomikuj.pl and is used under license for educational purposes only. It comprises a total of 62 mp3 audio files, representing a diverse collection of Polish `kolędy`.

### Importing the files

In [42]:
import os 

data_directory = "koledy/mp3"  # Replacing with the actual directory name

if os.path.exists(data_directory) and os.path.isdir(data_directory):
    file_list = os.listdir(data_directory)

    # Printing the modified list of file names
    for file in file_list:
        print(file)

    # Adding dir name in the filename for further transformations
    modified_file_list = [os.path.join(data_directory, file) for file in file_list]

else:
    print(f"The directory {data_directory} does not exist or is not a directory.")


Anna Maria Jopek  - Gdy Śliczna Panna.mp3
Andrzej Piaseczny - Lulajże Jezuniu.mp3
Pospieszalscy - Jezusa Narodzonego.mp3
Ewa Bem - Anioł pasterzom mówi.mp3
Toples - Lulajze jezuniu.mp3
GOLEC uORKIESTRA - Pódźmy wszyscy do stajenki.mp3
Kapela Jarka Zawady - Pojdzmy wszyscy do stajenki.mp3
Zbigniew Wodecki - Dzisiaj w Betlejem.mp3
Toples - Gdy sliczna panna.mp3
Vox - Bracia, patrzcie jeno.mp3
Maryla Rodowicz - Przybieżeli Do Betlejem.mp3
Anna Maria Jopek  - W Żłobie Leży.mp3
Tomasz Blasiak Marcin Bosak Bartosz Porczyk - Bracia Patrzcie Jeno.mp3
Vox - Do szopy, hej pasterze.mp3
Universe - Jezus Malusieńki.mp3
Natalia Kukulska - Gdy śliczna Panna.mp3
Krzysztof Krawczyk - Do szopy hej pasterze.mp3
Kayah - Oj maluśki, maluśki.mp3
Bajm - W żłobie leży.mp3
Piotr Rubik - W żłobie leży.mp3
Ryszard Rynkowski - Pójdzmy wszyscy do stajenki.mp3
Manitou - Skrzypi wóz.mp3
Czerwone Gitary - Mości gospodarzu.mp3
Arka Noego - Dzisiaj w Betlejem.mp3
Stanisław Soyka - A wczora z wieczora.mp3
Stanisł

#### Renaming Files

All of the file names follow a pattern: "Artist - Title.mp3". As this project aims to focus on traditional melody recognition, not on artist or musical style recognition, the artist prefix in the file name is not needed. Some melodies are repeated in the data set (sung by different artists). It is nessecary to label them with numbers, so no data is lost. 

In [43]:
# Modifying the list to keep only the second part after splitting (melody name)
melody_name_list = [s.split(' - ')[1] for s in modified_file_list]
melody_name_list

['Gdy Śliczna Panna.mp3',
 'Lulajże Jezuniu.mp3',
 'Jezusa Narodzonego.mp3',
 'Anioł pasterzom mówi.mp3',
 'Lulajze jezuniu.mp3',
 'Pódźmy wszyscy do stajenki.mp3',
 'Pojdzmy wszyscy do stajenki.mp3',
 'Dzisiaj w Betlejem.mp3',
 'Gdy sliczna panna.mp3',
 'Bracia, patrzcie jeno.mp3',
 'Przybieżeli Do Betlejem.mp3',
 'W Żłobie Leży.mp3',
 'Bracia Patrzcie Jeno.mp3',
 'Do szopy, hej pasterze.mp3',
 'Jezus Malusieńki.mp3',
 'Gdy śliczna Panna.mp3',
 'Do szopy hej pasterze.mp3',
 'Oj maluśki, maluśki.mp3',
 'W żłobie leży.mp3',
 'W żłobie leży.mp3',
 'Pójdzmy wszyscy do stajenki.mp3',
 'Skrzypi wóz.mp3',
 'Mości gospodarzu.mp3',
 'Dzisiaj w Betlejem.mp3',
 'A wczora z wieczora.mp3',
 'Przybieżeli do Betlejem.mp3',
 'Aniol Pasterzom Mówil.mp3',
 'Z Narodzenia Pana.mp3',
 'Wesołą nowinę.mp3',
 'Kolęda dla nieobecnych.mp3',
 'Dnia jednego o północy.mp3',
 'Bog sie rodzi.mp3',
 'Dzisiaj w Betlejem.mp3',
 'Dzisiaj w Betlejem.mp3',
 'Do szopy hej pasterze.mp3',
 'Cicha noc.mp3',
 'Mędrcy 

#### Detecting which melodies are repeated

In [44]:
# Create a dictionary to store indices of repeated elements
index_dict = {}

for i, element in enumerate(melody_name_list):
    if element in index_dict:
        index_dict[element].append(i)
    else:
        index_dict[element] = [i]

# Filter the dictionary to keep only repeated elements
repeated_indices_dict = {element: indices for element, indices in index_dict.items() if len(indices) > 1}

# Print the dictionary of repeated elements and their indices
print("Indices of repeated elements:", repeated_indices_dict)


Indices of repeated elements: {'Dzisiaj w Betlejem.mp3': [7, 23, 32, 33, 42], 'Gdy śliczna Panna.mp3': [15, 40], 'Do szopy hej pasterze.mp3': [16, 34], 'Oj maluśki, maluśki.mp3': [17, 53], 'W żłobie leży.mp3': [18, 19], 'A wczora z wieczora.mp3': [24, 48], 'Przybieżeli do Betlejem.mp3': [25, 56], 'Bog sie rodzi.mp3': [31, 49], 'Cicha noc.mp3': [35, 37, 51, 54]}


Next the modification of the file names should be done by first adding indexes to repeated melodies, then removing the artist name.

In [45]:
# Iterate through the files in the directory
for filename in os.listdir(data_directory):
    file_path = os.path.join(data_directory, filename)
    
    # Check if the file is a regular file
    if os.path.isfile(file_path):
        melody_name = (filename.split(' - ')[1])
        # Check if the base filename has repeated indices
        if melody_name in repeated_indices_dict.keys():
            # Determine the repeated indices for the current base filename
            next_index = repeated_indices_dict[melody_name][0]
            # Rename the file by appending a unique number to the base filename
            new_filename = f"{melody_name[:-4]}_{next_index}.mp3"
            
            repeated_indices_dict[melody_name].remove(next_index)
        else:
            new_filename = melody_name

        print(new_filename)
        new_file_path = os.path.join(data_directory, new_filename)

        # Rename the file
        os.rename(file_path, new_file_path)
        


Gdy Śliczna Panna.mp3
Lulajże Jezuniu.mp3
Jezusa Narodzonego.mp3
Anioł pasterzom mówi.mp3
Lulajze jezuniu.mp3
Pódźmy wszyscy do stajenki.mp3
Pojdzmy wszyscy do stajenki.mp3
Dzisiaj w Betlejem_7.mp3
Gdy sliczna panna.mp3
Bracia, patrzcie jeno.mp3
Przybieżeli Do Betlejem.mp3
W Żłobie Leży.mp3
Bracia Patrzcie Jeno.mp3
Do szopy, hej pasterze.mp3
Jezus Malusieńki.mp3
Gdy śliczna Panna_15.mp3
Do szopy hej pasterze_16.mp3
Oj maluśki, maluśki_17.mp3
W żłobie leży_18.mp3
W żłobie leży_19.mp3
Pójdzmy wszyscy do stajenki.mp3
Skrzypi wóz.mp3
Mości gospodarzu.mp3
Dzisiaj w Betlejem_23.mp3
A wczora z wieczora_24.mp3
Przybieżeli do Betlejem_25.mp3
Aniol Pasterzom Mówil.mp3
Z Narodzenia Pana.mp3
Wesołą nowinę.mp3
Kolęda dla nieobecnych.mp3
Dnia jednego o północy.mp3
Bog sie rodzi_31.mp3
Dzisiaj w Betlejem_32.mp3
Dzisiaj w Betlejem_33.mp3
Do szopy hej pasterze_34.mp3
Cicha noc_35.mp3
Mędrcy Świata, Monarchowie.mp3
Cicha noc_37.mp3
Przybiezeli Do Betlejem.mp3
Nowy Rok bieży.mp3
Gdy śliczna Pann

In [16]:
def list_files(data_directory):
    # List files in the specified directory (default is the current directory)
    files = os.listdir(data_directory)

    # Print the list of files
    for file in files:
        print(file)

# Call the function with the specified directory path (optional, defaults to the current directory)
list_files("koledy/mp3")


A wczora z wieczora_24.mp3
Mości gospodarzu.mp3
Dzisiaj w Betlejem_42.mp3
Przybieżeli do Betlejem_25.mp3
Lulajże Jezuniu.mp3
Wesołą nowinę.mp3
Pastorałka największych przyjaciół.mp3
Kolęda dla nieobecnych.mp3
Polnoc juz byla.mp3
Aniol Pasterzom Mówil.mp3
Przybiezeli Do Betlejem.mp3
Dnia jednego o północy.mp3
Bracia, patrzcie jeno.mp3
Ach ubogi żłobie.mp3
Dalej, dalej pędzą sanie.mp3
Jezusa Narodzonego.mp3
Mędrcy Świata.mp3
Dzisiaj w Betlejem_23.mp3
Pódźmy wszyscy do stajenki.mp3
Nowy Rok bieży.mp3
Aaniol pasterzom mowil.mp3
Przybieżeli Do Betlejem.mp3
Gdy sie Chrystus rodzi.mp3
Mędrcy Świata, Monarchowie.mp3
Pojdzmy wszyscy do stajenki.mp3
Do szopy, hej pasterze.mp3
Przybieżeli do Betlejem_56.mp3
Do szopy hej pasterze_16.mp3
Bog sie rodzi_31.mp3
Mizerna, cicha.mp3
Oj maluśki, maluśki_53.mp3
Hej, w Dzień Narodzenia.mp3
Dzisiaj w Betlejem_33.mp3
Skrzypi wóz.mp3
Gdy śliczna Panna_15.mp3
Dzisiaj w Betlejem_32.mp3
W żłobie leży_18.mp3
Bracia Patrzcie Jeno.mp3
Z Narodzenia Pana.mp3
W 

### Renaming 

It is requeried for further processing of the data that filenames do not contain spaces or Polish characters.

In [46]:
def normalize_filename(filename):
    # Replace spaces with underscores
    filename = filename.replace(" ", "_")
    filename = filename.replace(",", "")
    # Replace Polish characters with their normal counterparts
    polish_chars = {'ą': 'a', 'ć': 'c', 'ę': 'e', 'ł': 'l', 'ń': 'n', 'ó': 'o', 'ś': 's', 'ź': 'z', 'ż': 'z'}
    for polish_char, normal_char in polish_chars.items():
        filename = filename.replace(polish_char, normal_char)

    # Convert all characters to lowercase
    filename = filename.lower()
    return filename

def normalize_files(directory_path):
    # List all files in the specified directory
    files = [file for file in os.listdir(directory_path) if os.path.isfile(os.path.join(directory_path, file))]

    # Iterate through files and normalize filenames
    for file in files:
        old_filepath = os.path.join(directory_path, file)
        new_filename = normalize_filename(file)
        new_filepath = os.path.join(directory_path, new_filename)

        # Rename the file
        os.rename(old_filepath, new_filepath)

# Call the function with the specified directory path (optional, defaults to the current directory)
normalize_files(data_directory)


In [24]:
# Call the function with the specified directory path (optional, defaults to the current directory)
list_files("koledy/mp3")

z_narodzenia_pana.mp3
medrcy_swiata.mp3
bog_sie_rodzi_49.mp3
oj_maluśki_maluśki_53.mp3
polnoc_juz_byla.mp3
pastoralka_najwiekszych_przyjaciol.mp3
medrcy_swiata_monarchowie.mp3
do_szopy_hej_pasterze.mp3
a_wczora_z_wieczora_24.mp3
przybieżeli_do_betlejem_56.mp3
lulajze_jezuniu.mp3
przybieżeli_do_betlejem_25.mp3
gdy_śliczna_panna_40.mp3
mosci_gospodarzu.mp3
podzmy_wszyscy_do_stajenki.mp3
aniol_pasterzom_mowi.mp3
aniol_pasterzom_mowil.mp3
do_szopy_hej_pasterze_34.mp3
mizerna_cicha.mp3
jezus_malusienki.mp3
hej_w_dzien_narodzenia.mp3
koleda_dla_nieobecnych.mp3
skrzypi_woz.mp3
bracia_patrzcie_jeno.mp3
nowy_rok_biezy.mp3
a_wczora_z_wieczora_48.mp3
dzisiaj_w_betlejem_7.mp3
gdy_sie_chrystus_rodzi.mp3
przybiezeli_do_betlejem.mp3
w_zlobie_lezy.mp3
dalej_dalej_pedza_sanie.mp3
cicha_noc_35.mp3
do_szopy_hej_pasterze_16.mp3
jezusa_narodzonego.mp3
bog_sie_rodzi_31.mp3
oj_maluśki_maluśki_17.mp3
gdy_sliczna_panna.mp3
wsrod_nocnej_ciszy.mp3
dzisiaj_w_betlejem_42.mp3
w_żlobie_leży_19.mp3
w_żlobie

There are still some inconsistencies / typos, lets fix them.

In [47]:
import os

def rename_file(old_name, new_name):
    try:
        os.rename(old_name, new_name)
        print(f"File {old_name} has been renamed to {new_name}.")
    except FileNotFoundError:
        print(f"File {old_name} not found.")
    except Exception as e:
        print(f"An error occurred: {e}")

# Example usage
dir_name = "koledy/mp3/"
old_file_names = ["medrcy_swiata_monarchowie.mp3","aniol_pasterzom_mowi.mp3", "aaniol_pasterzom_mowil.mp3", "podzmy_wszyscy_do_stajenki.mp3"]
new_file_names = ["medrcy_swiata_0.mp3","aniol_pasterzom_mowil_0.mp3", "aniol_pasterzom_mowil_1.mp3", "pojdzmy_wszyscy_do_stajenki_0.mp3"]

for id in range(len(old_file_names)):
 rename_file(dir_name+old_file_names[id], dir_name+new_file_names[id])


File koledy/mp3/medrcy_swiata_monarchowie.mp3 not found.
File koledy/mp3/aniol_pasterzom_mowi.mp3 has been renamed to koledy/mp3/aniol_pasterzom_mowil_0.mp3.
File koledy/mp3/aaniol_pasterzom_mowil.mp3 has been renamed to koledy/mp3/aniol_pasterzom_mowil_1.mp3.
File koledy/mp3/podzmy_wszyscy_do_stajenki.mp3 has been renamed to koledy/mp3/pojdzmy_wszyscy_do_stajenki_0.mp3.


In [48]:
list_files("koledy/mp3")

z_narodzenia_pana.mp3
bog_sie_rodzi_49.mp3
medrcy_świata_monarchowie.mp3
oj_maluśki_maluśki_53.mp3
polnoc_juz_byla.mp3
pastoralka_najwiekszych_przyjaciol.mp3
do_szopy_hej_pasterze.mp3
a_wczora_z_wieczora_24.mp3
przybieżeli_do_betlejem_56.mp3
gdy_śliczna_panna.mp3
lulajze_jezuniu.mp3
przybieżeli_do_betlejem_25.mp3
gdy_śliczna_panna_40.mp3
mosci_gospodarzu.mp3
aniol_pasterzom_mowil.mp3
do_szopy_hej_pasterze_34.mp3
mizerna_cicha.mp3
jezus_malusienki.mp3
hej_w_dzien_narodzenia.mp3
koleda_dla_nieobecnych.mp3
skrzypi_woz.mp3
bracia_patrzcie_jeno.mp3
pojdzmy_wszyscy_do_stajenki_0.mp3
nowy_rok_biezy.mp3
a_wczora_z_wieczora_48.mp3
dzisiaj_w_betlejem_7.mp3
gdy_sie_chrystus_rodzi.mp3
przybiezeli_do_betlejem.mp3
dalej_dalej_pedza_sanie.mp3
cicha_noc_35.mp3
do_szopy_hej_pasterze_16.mp3
jezusa_narodzonego.mp3
bog_sie_rodzi_31.mp3
oj_maluśki_maluśki_17.mp3
gdy_sliczna_panna.mp3
wsrod_nocnej_ciszy.mp3
dzisiaj_w_betlejem_42.mp3
w_żlobie_leży_19.mp3
w_żlobie_leży_18.mp3
wesola_nowine.mp3
cich

### Converting into wav

In [49]:
from pydub import AudioSegment
import os

def convert_mp3_to_wav(mp3_file, output_folder):
    audio = AudioSegment.from_mp3(mp3_file)
    wav_file = os.path.join(output_folder, os.path.splitext(os.path.basename(mp3_file))[0] + ".wav")
    audio.export(wav_file, format="wav")

def convert_all_mp3_to_wav(input_folder, output_folder):
    os.makedirs(output_folder, exist_ok=True)
    
    for filename in os.listdir(input_folder):
        if filename.endswith(".mp3"):
            mp3_file = os.path.join(input_folder, filename)
            convert_mp3_to_wav(mp3_file, output_folder)

input_directory = "koledy/mp3"
output_directory = "koledy/wav"

convert_all_mp3_to_wav(input_directory, output_directory)


### Creating 10s samples

In [52]:
def cut_wav_into_samples(wav_file, output_folder, sample_duration=4000):
    audio = AudioSegment.from_wav(wav_file)
    
    # Calculate the number of samples
    num_samples = len(audio) // sample_duration
    
    for i in range(num_samples):
        start_time = i * sample_duration
        end_time = (i + 1) * sample_duration
        sample = audio[start_time:end_time]
            
        sample_file = os.path.join(output_folder, f"{os.path.splitext(os.path.basename(wav_file))[0]}_{i + 1}.wav")
        sample.export(sample_file, format="wav")

def cut_all_wav_into_samples(input_folder, output_folder, sample_duration=4000):
    os.makedirs(output_folder, exist_ok=True)
    
    for filename in os.listdir(input_folder):
        if filename.endswith(".wav"):
            wav_file = os.path.join(input_folder, filename)
            cut_wav_into_samples(wav_file, output_folder, sample_duration)


input_directory = "koledy/wav"
output_directory = "koledy/samples"
sample_duration_ms = 10000  # 10 seconds
    
cut_all_wav_into_samples(input_directory, output_directory, sample_duration_ms)