In [1]:
# import bibliotek
import os
import librosa
import pickle
import sklearn
import numpy

In [2]:
# 2. Wybór danych treningowych i testowych

# Zautomatyzowany i losowy sposób to użycie:
# "from sklearn.model_selection import train_test_split" oraz funkcji "train_test_split()"

best_mfcc = 0
best_quality = 0
for N in range(1,101):
    # wczytanie danych
    database = open(f'classes/database{N}.pkl', 'rb')
    classes, samples, labels = pickle.load(database)
    database.close()

    # wybierzmy 10 pierwszych próbek z każdej klasy jako uczące
    # oraz kolejne 2 z każdej klasy jako testowe
    # uwaga! train_size + test_size NIE może przekroczyć class_size (poprzedni punkt)
    train_size = 40
    test_size = 10
    train_samples = []
    train_labels = []
    test_samples = []
    test_labels = []
    for classname in classes:
        train_size_index = 0
        test_size_index = 0
        for i in range(len(labels)):
            if labels[i] == classname and train_size_index < train_size:
                train_samples.append(samples[i])
                train_labels.append(labels[i])
                train_size_index += 1
            elif labels[i] == classname and test_size_index < test_size:
                test_samples.append(samples[i])
                test_labels.append(labels[i])
                test_size_index += 1
            if train_size_index == train_size and test_size_index == test_size:
                break

    # proszę sprawdzić, czy dane zostały wybrane prawidłowo


    # 3. Uczenie klasyfikatora danymi treningowymi

    # Lista klasyfikatorów: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
    # Prosty tutorial: https://www.digitalocean.com/community/tutorials/how-to-build-a-machine-learning-classifier-in-python-with-scikit-learn

    # skalowanie/normalizacja danych
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(train_samples)
    train_samples = scaler.transform(train_samples)
    test_samples = scaler.transform(test_samples)

    # uczenie
    from sklearn.ensemble import RandomForestClassifier
    n = 100
    classifier = RandomForestClassifier(n_estimators = n)
    classifier.fit(train_samples, train_labels)


    # 4. Klasyfikacja nieznanych próbek
    predicted_labels = classifier.predict(test_samples)

    # zobaczmy wynik - zakomentować dla dużych zbiorów
    # print(test_labels)
    # print(predicted_labels)


    # 5. Ocena klasyfikatora
    # print(test_labels == predicted_labels)
    quality = numpy.sum(test_labels == predicted_labels) / len(test_labels) * 100;
    print(f'mfcc={N} Ocena klasyfikatora: %.2f %%' % quality)
    if (quality > best_quality):
        best_mfcc = N
        best_quality = quality

print(f"best_mfcc = {best_mfcc}; best_quality = {best_quality}")
n_mfcc_optimal = best_mfcc

mfcc=1 Ocena klasyfikatora: 3.00 %
mfcc=2 Ocena klasyfikatora: 5.33 %
mfcc=3 Ocena klasyfikatora: 5.33 %
mfcc=4 Ocena klasyfikatora: 6.00 %
mfcc=5 Ocena klasyfikatora: 7.67 %
mfcc=6 Ocena klasyfikatora: 9.00 %
mfcc=7 Ocena klasyfikatora: 9.33 %
mfcc=8 Ocena klasyfikatora: 12.00 %
mfcc=9 Ocena klasyfikatora: 12.67 %
mfcc=10 Ocena klasyfikatora: 13.00 %
mfcc=11 Ocena klasyfikatora: 11.33 %
mfcc=12 Ocena klasyfikatora: 11.33 %
mfcc=13 Ocena klasyfikatora: 11.67 %
mfcc=14 Ocena klasyfikatora: 12.00 %
mfcc=15 Ocena klasyfikatora: 14.33 %
mfcc=16 Ocena klasyfikatora: 12.33 %
mfcc=17 Ocena klasyfikatora: 13.00 %
mfcc=18 Ocena klasyfikatora: 13.67 %
mfcc=19 Ocena klasyfikatora: 12.33 %
mfcc=20 Ocena klasyfikatora: 14.00 %
mfcc=21 Ocena klasyfikatora: 13.67 %
mfcc=22 Ocena klasyfikatora: 15.33 %
mfcc=23 Ocena klasyfikatora: 13.67 %
mfcc=24 Ocena klasyfikatora: 12.33 %
mfcc=25 Ocena klasyfikatora: 14.33 %
mfcc=26 Ocena klasyfikatora: 15.00 %
mfcc=27 Ocena klasyfikatora: 12.67 %
mfcc=28 Ocena kla

In [5]:
# 2. Dobór optymalny zbioru testowego

# Zautomatyzowany i losowy sposób to użycie:
# "from sklearn.model_selection import train_test_split" oraz funkcji "train_test_split()"

best_mfcc = n_mfcc_optimal
print(f"best_mfcc: {best_mfcc}")

best_train_size = 0
best_quality = 0
for N in range(1,91):
    # wczytanie danych
    database = open(f'classes/database{best_mfcc}.pkl', 'rb')
    classes, samples, labels = pickle.load(database)
    database.close()

    # wybierzmy 10 pierwszych próbek z każdej klasy jako uczące
    # oraz kolejne 2 z każdej klasy jako testowe
    # uwaga! train_size + test_size NIE może przekroczyć class_size (poprzedni punkt)
    train_size = N
    test_size = 10
    train_samples = []
    train_labels = []
    test_samples = []
    test_labels = []
    for classname in classes:
        train_size_index = 0
        test_size_index = 0
        for i in range(len(labels)):
            if labels[i] == classname and train_size_index < train_size:
                train_samples.append(samples[i])
                train_labels.append(labels[i])
                train_size_index += 1
            elif labels[i] == classname and test_size_index < test_size:
                test_samples.append(samples[i])
                test_labels.append(labels[i])
                test_size_index += 1
            if train_size_index == train_size and test_size_index == test_size:
                break

    # proszę sprawdzić, czy dane zostały wybrane prawidłowo


    # 3. Uczenie klasyfikatora danymi treningowymi

    # Lista klasyfikatorów: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
    # Prosty tutorial: https://www.digitalocean.com/community/tutorials/how-to-build-a-machine-learning-classifier-in-python-with-scikit-learn

    # skalowanie/normalizacja danych
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(train_samples)
    train_samples = scaler.transform(train_samples)
    test_samples = scaler.transform(test_samples)

    # uczenie
    from sklearn.ensemble import RandomForestClassifier
    n = 100
    classifier = RandomForestClassifier(n_estimators = n)
    classifier.fit(train_samples, train_labels)
    
    # 4. Klasyfikacja nieznanych próbek
    predicted_labels = classifier.predict(test_samples)

    # zobaczmy wynik - zakomentować dla dużych zbiorów
    # print(test_labels)
    # print(predicted_labels)


    # 5. Ocena klasyfikatora
    # print(test_labels == predicted_labels)
    quality = numpy.sum(test_labels == predicted_labels) / len(test_labels) * 100;
    print(f'train_size={N} Ocena klasyfikatora: %.2f %%' % quality)
    if (quality > best_quality):
        best_train_size = N
        best_quality = quality

print(f"best_train_size = {best_train_size}; best_quality = {best_quality}")
train_size_optimal = best_train_size

best_mfcc: 42
train_size=1 Ocena klasyfikatora: 4.92 %
train_size=2 Ocena klasyfikatora: 6.91 %
train_size=3 Ocena klasyfikatora: 8.91 %
train_size=4 Ocena klasyfikatora: 8.94 %
train_size=5 Ocena klasyfikatora: 8.97 %
train_size=6 Ocena klasyfikatora: 10.67 %
train_size=7 Ocena klasyfikatora: 10.33 %
train_size=8 Ocena klasyfikatora: 9.00 %
train_size=9 Ocena klasyfikatora: 11.00 %
train_size=10 Ocena klasyfikatora: 14.67 %
train_size=11 Ocena klasyfikatora: 17.67 %
train_size=12 Ocena klasyfikatora: 17.00 %
train_size=13 Ocena klasyfikatora: 14.67 %
train_size=14 Ocena klasyfikatora: 14.33 %
train_size=15 Ocena klasyfikatora: 12.67 %
train_size=16 Ocena klasyfikatora: 14.00 %
train_size=17 Ocena klasyfikatora: 10.33 %
train_size=18 Ocena klasyfikatora: 10.00 %
train_size=19 Ocena klasyfikatora: 9.33 %
train_size=20 Ocena klasyfikatora: 11.33 %
train_size=21 Ocena klasyfikatora: 11.67 %
train_size=22 Ocena klasyfikatora: 15.33 %
train_size=23 Ocena klasyfikatora: 15.67 %
train_size=24

In [6]:
# 2. Dobór optymalny parametru n

# Zautomatyzowany i losowy sposób to użycie:
# "from sklearn.model_selection import train_test_split" oraz funkcji "train_test_split()"

best_mfcc = n_mfcc_optimal
best_train_size = train_size_optimal

best_n = 0
best_quality = 0
for N in range(10,101):
    # wczytanie danych
    database = open(f'classes/database{best_mfcc}.pkl', 'rb')
    classes, samples, labels = pickle.load(database)
    database.close()

    # wybierzmy 10 pierwszych próbek z każdej klasy jako uczące
    # oraz kolejne 2 z każdej klasy jako testowe
    # uwaga! train_size + test_size NIE może przekroczyć class_size (poprzedni punkt)
    train_size = best_train_size
    test_size = 10
    train_samples = []
    train_labels = []
    test_samples = []
    test_labels = []
    for classname in classes:
        train_size_index = 0
        test_size_index = 0
        for i in range(len(labels)):
            if labels[i] == classname and train_size_index < train_size:
                train_samples.append(samples[i])
                train_labels.append(labels[i])
                train_size_index += 1
            elif labels[i] == classname and test_size_index < test_size:
                test_samples.append(samples[i])
                test_labels.append(labels[i])
                test_size_index += 1
            if train_size_index == train_size and test_size_index == test_size:
                break

    # proszę sprawdzić, czy dane zostały wybrane prawidłowo


    # 3. Uczenie klasyfikatora danymi treningowymi

    # Lista klasyfikatorów: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
    # Prosty tutorial: https://www.digitalocean.com/community/tutorials/how-to-build-a-machine-learning-classifier-in-python-with-scikit-learn

    # skalowanie/normalizacja danych
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    scaler.fit(train_samples)
    train_samples = scaler.transform(train_samples)
    test_samples = scaler.transform(test_samples)

    # uczenie
    from sklearn.ensemble import RandomForestClassifier
    n = N
    classifier = RandomForestClassifier(n_estimators = n)
    classifier.fit(train_samples, train_labels)


    # 4. Klasyfikacja nieznanych próbek
    predicted_labels = classifier.predict(test_samples)

    # zobaczmy wynik - zakomentować dla dużych zbiorów
    # print(test_labels)
    # print(predicted_labels)


    # 5. Ocena klasyfikatora
    # print(test_labels == predicted_labels)
    quality = numpy.sum(test_labels == predicted_labels) / len(test_labels) * 100;
    print(f'N={N} Ocena klasyfikatora: %.2f %%' % quality)
    if (quality > best_quality):
        best_n = N
        best_quality = quality

print(f"best_n = {best_n}; best_quality = {best_quality}")
n_optimal = best_n


N=10 Ocena klasyfikatora: 7.67 %
N=11 Ocena klasyfikatora: 13.00 %
N=12 Ocena klasyfikatora: 14.33 %
N=13 Ocena klasyfikatora: 10.33 %
N=14 Ocena klasyfikatora: 13.33 %
N=15 Ocena klasyfikatora: 14.67 %
N=16 Ocena klasyfikatora: 10.67 %
N=17 Ocena klasyfikatora: 14.67 %
N=18 Ocena klasyfikatora: 13.67 %
N=19 Ocena klasyfikatora: 13.67 %
N=20 Ocena klasyfikatora: 15.00 %
N=21 Ocena klasyfikatora: 15.67 %
N=22 Ocena klasyfikatora: 13.67 %
N=23 Ocena klasyfikatora: 15.67 %
N=24 Ocena klasyfikatora: 15.33 %
N=25 Ocena klasyfikatora: 13.67 %
N=26 Ocena klasyfikatora: 16.00 %
N=27 Ocena klasyfikatora: 16.00 %
N=28 Ocena klasyfikatora: 17.00 %
N=29 Ocena klasyfikatora: 15.67 %
N=30 Ocena klasyfikatora: 15.67 %
N=31 Ocena klasyfikatora: 17.00 %
N=32 Ocena klasyfikatora: 17.00 %
N=33 Ocena klasyfikatora: 17.00 %
N=34 Ocena klasyfikatora: 15.67 %
N=35 Ocena klasyfikatora: 14.67 %
N=36 Ocena klasyfikatora: 18.33 %
N=37 Ocena klasyfikatora: 16.67 %
N=38 Ocena klasyfikatora: 16.67 %
N=39 Ocena klas

In [None]:
# Dobrane parametry:
# mfcc = 42
# train size = 78
# n_estimators = 99

# Finalna wartosc parametru quality: 22,7