In [1]:
# import bibliotek
import os
import librosa
import pickle
import sklearn
import numpy
import random

In [2]:
# 2. Wybór danych treningowych i testowych

# Zautomatyzowany i losowy sposób to użycie:
# "from sklearn.model_selection import train_test_split" oraz funkcji "train_test_split()"

best_mfcc = 0
best_quality = 0
for N in range(1,101):
    # wczytanie danych
    database = open(f'classes/database{N}.pkl', 'rb')
    classes, samples, labels = pickle.load(database)
    database.close()

    # wybierzmy 10 pierwszych próbek z każdej klasy jako uczące
    # oraz kolejne 2 z każdej klasy jako testowe
    # uwaga! train_size + test_size NIE może przekroczyć class_size (poprzedni punkt)
    train_size = 40
    test_size = 10
    train_samples = []
    train_labels = []
    test_samples = []
    test_labels = []

    max_iter = 10000
    it = 0
    used_idxs = []
    for classname in classes:
        train_size_index = 0
        test_size_index = 0
        it = 0
        used_idxs = []
        
        while(train_size_index < train_size):
            idx = random.randint(0, len(labels)-1)
            it += 1
            if labels[idx] == classname and (idx not in used_idxs):
                train_samples.append(samples[idx])
                train_labels.append(labels[idx])
                train_size_index += 1
                used_idxs.append(idx)
            if it > max_iter:
                break
        
        while(test_size_index < test_size):
            idx = random.randint(0, len(labels)-1)
            it += 1
            if labels[idx] == classname and (idx not in used_idxs):
                test_samples.append(samples[idx])
                test_labels.append(labels[idx])
                test_size_index += 1
                used_idxs.append(idx)
            if it > max_iter:
                break
        
#         for i in range(len(labels)):
#             if labels[i] == classname and train_size_index < train_size:
#                 train_samples.append(samples[i])
#                 train_labels.append(labels[i])
#                 train_size_index += 1
#             elif labels[i] == classname and test_size_index < test_size:
#                 test_samples.append(samples[i])
#                 test_labels.append(labels[i])
#                 test_size_index += 1
#             if train_size_index == train_size and test_size_index == test_size:
#                 break

    # proszę sprawdzić, czy dane zostały wybrane prawidłowo


    # 3. Uczenie klasyfikatora danymi treningowymi

    # Lista klasyfikatorów: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
    # Prosty tutorial: https://www.digitalocean.com/community/tutorials/how-to-build-a-machine-learning-classifier-in-python-with-scikit-learn

    # skalowanie/normalizacja danych
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(train_samples)
    train_samples = scaler.transform(train_samples)
    test_samples = scaler.transform(test_samples)

    # uczenie
    from sklearn.linear_model import LogisticRegression
    C = 1.0
    classifier = LogisticRegression(C = C, max_iter=10000)
    classifier.fit(train_samples, train_labels)


    # 4. Klasyfikacja nieznanych próbek
    predicted_labels = classifier.predict(test_samples)

    # zobaczmy wynik - zakomentować dla dużych zbiorów
    # print(test_labels)
    # print(predicted_labels)


    # 5. Ocena klasyfikatora
    # print(test_labels == predicted_labels)
    quality = numpy.sum(test_labels == predicted_labels) / len(test_labels) * 100;
    print(f'mfcc={N} Ocena klasyfikatora: %.2f %%' % quality)
    if (quality > best_quality):
        best_mfcc = N
        best_quality = quality

print(f"best_mfcc = {best_mfcc}; best_quality = {best_quality}")
n_mfcc_optimal = best_mfcc

mfcc=1 Ocena klasyfikatora: 3.67 %
mfcc=2 Ocena klasyfikatora: 5.00 %
mfcc=3 Ocena klasyfikatora: 6.00 %
mfcc=4 Ocena klasyfikatora: 11.00 %
mfcc=5 Ocena klasyfikatora: 14.33 %
mfcc=6 Ocena klasyfikatora: 14.00 %
mfcc=7 Ocena klasyfikatora: 21.67 %
mfcc=8 Ocena klasyfikatora: 19.67 %
mfcc=9 Ocena klasyfikatora: 22.67 %
mfcc=10 Ocena klasyfikatora: 22.33 %
mfcc=11 Ocena klasyfikatora: 24.67 %
mfcc=12 Ocena klasyfikatora: 26.33 %
mfcc=13 Ocena klasyfikatora: 27.33 %
mfcc=14 Ocena klasyfikatora: 24.00 %
mfcc=15 Ocena klasyfikatora: 27.33 %
mfcc=16 Ocena klasyfikatora: 26.67 %
mfcc=17 Ocena klasyfikatora: 21.33 %
mfcc=18 Ocena klasyfikatora: 32.67 %
mfcc=19 Ocena klasyfikatora: 29.67 %
mfcc=20 Ocena klasyfikatora: 28.33 %
mfcc=21 Ocena klasyfikatora: 30.33 %
mfcc=22 Ocena klasyfikatora: 24.00 %
mfcc=23 Ocena klasyfikatora: 25.00 %
mfcc=24 Ocena klasyfikatora: 28.33 %
mfcc=25 Ocena klasyfikatora: 28.33 %
mfcc=26 Ocena klasyfikatora: 30.67 %
mfcc=27 Ocena klasyfikatora: 25.00 %
mfcc=28 Ocena

In [3]:
# 2. Dobór optymalny zbioru testowego

# Zautomatyzowany i losowy sposób to użycie:
# "from sklearn.model_selection import train_test_split" oraz funkcji "train_test_split()"

best_mfcc = n_mfcc_optimal

best_train_size = 0
best_quality = 0
for N in range(1,91):
    # wczytanie danych
    database = open(f'classes/database{best_mfcc}.pkl', 'rb')
    classes, samples, labels = pickle.load(database)
    database.close()

    # wybierzmy 10 pierwszych próbek z każdej klasy jako uczące
    # oraz kolejne 2 z każdej klasy jako testowe
    # uwaga! train_size + test_size NIE może przekroczyć class_size (poprzedni punkt)
    train_size = N
    test_size = 10
    train_samples = []
    train_labels = []
    test_samples = []
    test_labels = []

    max_iter = 10000
    it = 0
    used_idxs = []
    for classname in classes:
        train_size_index = 0
        test_size_index = 0
        it = 0
        used_idxs = []
        
        while(train_size_index < train_size):
            idx = random.randint(0, len(labels)-1)
            it += 1
            if labels[idx] == classname and (idx not in used_idxs):
                train_samples.append(samples[idx])
                train_labels.append(labels[idx])
                train_size_index += 1
                used_idxs.append(idx)
            if it > max_iter:
                break
        
        while(test_size_index < test_size):
            idx = random.randint(0, len(labels)-1)
            it += 1
            if labels[idx] == classname and (idx not in used_idxs):
                test_samples.append(samples[idx])
                test_labels.append(labels[idx])
                test_size_index += 1
                used_idxs.append(idx)
            if it > max_iter:
                break
        
#         for i in range(len(labels)):
#             if labels[i] == classname and train_size_index < train_size:
#                 train_samples.append(samples[i])
#                 train_labels.append(labels[i])
#                 train_size_index += 1
#             elif labels[i] == classname and test_size_index < test_size:
#                 test_samples.append(samples[i])
#                 test_labels.append(labels[i])
#                 test_size_index += 1
#             if train_size_index == train_size and test_size_index == test_size:
#                 break

    # proszę sprawdzić, czy dane zostały wybrane prawidłowo


    # 3. Uczenie klasyfikatora danymi treningowymi

    # Lista klasyfikatorów: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
    # Prosty tutorial: https://www.digitalocean.com/community/tutorials/how-to-build-a-machine-learning-classifier-in-python-with-scikit-learn

    # skalowanie/normalizacja danych
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(train_samples)
    train_samples = scaler.transform(train_samples)
    test_samples = scaler.transform(test_samples)

    # uczenie
    from sklearn.linear_model import LogisticRegression
    C = 1.0
    classifier = LogisticRegression(C = C, max_iter=10000)
    classifier.fit(train_samples, train_labels)
    
    # 4. Klasyfikacja nieznanych próbek
    predicted_labels = classifier.predict(test_samples)

    # zobaczmy wynik - zakomentować dla dużych zbiorów
    # print(test_labels)
    # print(predicted_labels)


    # 5. Ocena klasyfikatora
    # print(test_labels == predicted_labels)
    quality = numpy.sum(test_labels == predicted_labels) / len(test_labels) * 100;
    print(f'train_size={N} Ocena klasyfikatora: %.2f %%' % quality)
    if (quality > best_quality):
        best_train_size = N
        best_quality = quality

print(f"best_train_size = {best_train_size}; best_quality = {best_quality}")
train_size_optimal = best_train_size

train_size=1 Ocena klasyfikatora: 5.59 %
train_size=2 Ocena klasyfikatora: 9.21 %
train_size=3 Ocena klasyfikatora: 16.17 %
train_size=4 Ocena klasyfikatora: 12.25 %
train_size=5 Ocena klasyfikatora: 10.30 %
train_size=6 Ocena klasyfikatora: 15.67 %
train_size=7 Ocena klasyfikatora: 20.67 %
train_size=8 Ocena klasyfikatora: 19.00 %
train_size=9 Ocena klasyfikatora: 21.67 %
train_size=10 Ocena klasyfikatora: 17.33 %
train_size=11 Ocena klasyfikatora: 15.33 %
train_size=12 Ocena klasyfikatora: 22.00 %
train_size=13 Ocena klasyfikatora: 22.00 %
train_size=14 Ocena klasyfikatora: 26.00 %
train_size=15 Ocena klasyfikatora: 18.00 %
train_size=16 Ocena klasyfikatora: 21.00 %
train_size=17 Ocena klasyfikatora: 22.33 %
train_size=18 Ocena klasyfikatora: 22.67 %
train_size=19 Ocena klasyfikatora: 21.67 %
train_size=20 Ocena klasyfikatora: 24.33 %
train_size=21 Ocena klasyfikatora: 23.33 %
train_size=22 Ocena klasyfikatora: 20.67 %
train_size=23 Ocena klasyfikatora: 23.00 %
train_size=24 Ocena kl

In [4]:
# 2. Dobór optymalny parametru C

# Zautomatyzowany i losowy sposób to użycie:
# "from sklearn.model_selection import train_test_split" oraz funkcji "train_test_split()"

best_mfcc = n_mfcc_optimal
best_train_size = train_size_optimal

best_C = 0
best_quality = 0
for N in range(1,31):
    # wczytanie danych
    database = open(f'classes/database{best_mfcc}.pkl', 'rb')
    classes, samples, labels = pickle.load(database)
    database.close()

    # wybierzmy 10 pierwszych próbek z każdej klasy jako uczące
    # oraz kolejne 2 z każdej klasy jako testowe
    # uwaga! train_size + test_size NIE może przekroczyć class_size (poprzedni punkt)
    train_size = best_train_size
    test_size = 10
    train_samples = []
    train_labels = []
    test_samples = []
    test_labels = []
    
    max_iter = 10000
    it = 0
    used_idxs = []
    for classname in classes:
        train_size_index = 0
        test_size_index = 0
        it = 0
        used_idxs = []
        
        while(train_size_index < train_size):
            idx = random.randint(0, len(labels)-1)
            it += 1
            if labels[idx] == classname and (idx not in used_idxs):
                train_samples.append(samples[idx])
                train_labels.append(labels[idx])
                train_size_index += 1
                used_idxs.append(idx)
            if it > max_iter:
                break
        
        while(test_size_index < test_size):
            idx = random.randint(0, len(labels)-1)
            it += 1
            if labels[idx] == classname and (idx not in used_idxs):
                test_samples.append(samples[idx])
                test_labels.append(labels[idx])
                test_size_index += 1
                used_idxs.append(idx)
            if it > max_iter:
                break
        
#         for i in range(len(labels)):
#             if labels[i] == classname and train_size_index < train_size:
#                 train_samples.append(samples[i])
#                 train_labels.append(labels[i])
#                 train_size_index += 1
#             elif labels[i] == classname and test_size_index < test_size:
#                 test_samples.append(samples[i])
#                 test_labels.append(labels[i])
#                 test_size_index += 1
#             if train_size_index == train_size and test_size_index == test_size:
#                 break

    # proszę sprawdzić, czy dane zostały wybrane prawidłowo


    # 3. Uczenie klasyfikatora danymi treningowymi

    # Lista klasyfikatorów: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
    # Prosty tutorial: https://www.digitalocean.com/community/tutorials/how-to-build-a-machine-learning-classifier-in-python-with-scikit-learn

    # skalowanie/normalizacja danych
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(train_samples)
    train_samples = scaler.transform(train_samples)
    test_samples = scaler.transform(test_samples)

    # uczenie
    # uczenie
    from sklearn.linear_model import LogisticRegression
    C = 0.1*N
    classifier = LogisticRegression(C = C, max_iter=10000)
    classifier.fit(train_samples, train_labels)


    # 4. Klasyfikacja nieznanych próbek
    predicted_labels = classifier.predict(test_samples)

    # zobaczmy wynik - zakomentować dla dużych zbiorów
    # print(test_labels)
    # print(predicted_labels)


    # 5. Ocena klasyfikatora
    # print(test_labels == predicted_labels)
    quality = numpy.sum(test_labels == predicted_labels) / len(test_labels) * 100;
    print(f'C={N*0.1} Ocena klasyfikatora: %.2f %%' % quality)
    if (quality > best_quality):
        best_C = N*0.1
        best_quality = quality

print(f"best_C = {best_C}; best_quality = {best_quality}")
C_optimal = best_C


C=0.1 Ocena klasyfikatora: 32.33 %
C=0.2 Ocena klasyfikatora: 23.33 %
C=0.30000000000000004 Ocena klasyfikatora: 28.00 %
C=0.4 Ocena klasyfikatora: 29.67 %
C=0.5 Ocena klasyfikatora: 30.33 %
C=0.6000000000000001 Ocena klasyfikatora: 22.33 %
C=0.7000000000000001 Ocena klasyfikatora: 26.67 %
C=0.8 Ocena klasyfikatora: 25.67 %
C=0.9 Ocena klasyfikatora: 30.00 %
C=1.0 Ocena klasyfikatora: 29.00 %
C=1.1 Ocena klasyfikatora: 27.33 %
C=1.2000000000000002 Ocena klasyfikatora: 27.33 %
C=1.3 Ocena klasyfikatora: 30.67 %
C=1.4000000000000001 Ocena klasyfikatora: 27.33 %
C=1.5 Ocena klasyfikatora: 24.33 %
C=1.6 Ocena klasyfikatora: 24.00 %
C=1.7000000000000002 Ocena klasyfikatora: 28.33 %
C=1.8 Ocena klasyfikatora: 24.67 %
C=1.9000000000000001 Ocena klasyfikatora: 28.33 %
C=2.0 Ocena klasyfikatora: 30.67 %
C=2.1 Ocena klasyfikatora: 35.33 %
C=2.2 Ocena klasyfikatora: 28.67 %
C=2.3000000000000003 Ocena klasyfikatora: 28.00 %
C=2.4000000000000004 Ocena klasyfikatora: 28.00 %
C=2.5 Ocena klasyfikator

In [5]:
# Dobrane parametry:
# mfcc 18
# train size 66
# C = 2.1

# Finalna wartosc parametru quality: 35.3
# Losowy wybor zbioru treningowego i testowego pozwala na osiagniecie lepszych, lecz niepowtarzalnych, rezultatow.