<a href="https://colab.research.google.com/github/ekremtk/GlobalAIHub/blob/main/UrbanSounds_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Urban Sounds 8K - Preprocessing

*   **Google Colab - Google Drive Bağlantısı Kurulur**



In [1]:
from google.colab import drive
from google.colab import files
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


*   **Kütüphaneler Yüklenir**

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import cv2

from tqdm import tqdm
import os
import random

from sklearn.model_selection import train_test_split

* **Klasörlerin Bulunduğu Yol ve Başlıklar Belirtilir**

In [3]:
FoldersMainPath = "drive/MyDrive/GlobalAIHub/Project/spectrograms"

Labels = ["0", "1", "2", "3", "4", "5", "6", "7", "8", "9"]

* **Veri Oluşturma Fonksiyonu**

1.   For döngüsü ile başlıklar (Labels) içinde dolaşılır ve category oluşturulur
2.   path.join ile klasör yolu ile category değişkeni birleştirilip klasör için yol oluşturulur.
3.   index ile de başlıklar içindeki category için sınıf numarası oluşturulur.
---
4.   Oluşturulan klasör yolu içindeki her bir görsel üzerinde ön işleme yapılır.
5.   Görüntü okunur ve direkt Gri Formata çevrilir.
6.   Gri formata çevrilen görüntü yeniden boyutlandırılır.
7.   Yeniden boyutlandırılan görsel 0-255 aralığında normalize edilir.
8.   Normalize edilen görüntü ve sınıf numarası listeye atanır.
9.   Herhangi bir hata durumu görmezden gelinir.


In [4]:
def create_data(img_new_size):
    for category in Labels:                                 

        path = os.path.join(FoldersMainPath, category)      
        class_num = Labels.index(category)                  

        for img in tqdm(os.listdir(path)):
            try:
                img_array = cv2.imread(os.path.join(path, img), cv2.IMREAD_GRAYSCALE)   
                new_array = cv2.resize(img_array, (img_new_size, img_new_size))
                normalized_img = cv2.normalize(new_array, new_array, 0, 255, cv2.NORM_MINMAX)
                data.append([normalized_img, class_num])                                             
            except Exception as e:  
                pass

* **Veri Oluşturma Fonksiyonu Çalıştırılır**



In [5]:
# Boş veri listesi oluşturulur ve görüntünün yeni boyutu belirlenir.
data = [] 
img_new_size = 100

# Fonksiyon Çalıştırılır
create_data(img_new_size)

100%|██████████| 1000/1000 [00:11<00:00, 87.04it/s]
100%|██████████| 429/429 [00:02<00:00, 144.69it/s]
100%|██████████| 1000/1000 [00:07<00:00, 139.29it/s]
100%|██████████| 1000/1000 [00:06<00:00, 151.82it/s]
100%|██████████| 1000/1000 [00:07<00:00, 139.09it/s]
100%|██████████| 1000/1000 [00:06<00:00, 143.53it/s]
100%|██████████| 374/374 [00:02<00:00, 144.65it/s]
100%|██████████| 1000/1000 [00:09<00:00, 110.01it/s]
100%|██████████| 929/929 [00:06<00:00, 137.83it/s]
100%|██████████| 1000/1000 [00:07<00:00, 137.26it/s]


In [6]:
# Elde edilen verinin boyutu kontrol edilir
print(len(data))

8732


*   **Veri Karıştırılır - Shuffle**

In [7]:
random.shuffle(data)

* **Veri Kümesi Modeli Oluşturma**

In [8]:
X = []
y = []

# Verinin içindeki özellikler X listesine ve
# Verinin içindeki başlıklar  y listeine atanır
for features, label in data:
    X.append(features)
    y.append(label)

In [9]:
# X'i yeniden boyutlandırıp np.array olarak dönüştürülür
# y'yi de numpy array olarak dönüştürülür.

X = np.array(X).reshape(-1, img_new_size, img_new_size, 1)
y = np.array(y)

* **X ve y veri listeleri numpy olarak kayıt edilir.**

In [10]:
np.save('drive/MyDrive/GlobalAIHub/Project/data/features_new', X)
np.save('drive/MyDrive/GlobalAIHub/Project/data/labels_new', y)
  
print("The data has been saved in the folder.")

The data has been saved in the folder.


* **Veri Kümesi Modeli Oluşturma**

In [11]:
# Tüm verinin %70'i eğitim ve %30'u test kümesi için ayrılır. 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

# %30'u test için ayrılan veriden %50'si test ve %50'si doğrulama kümesi için ayrılır. 
X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, test_size = 0.5)

# Train = %70 / Test = %15 / Validation = %15

In [12]:
# Kontrol etmek için veri kümelerinin örnek sayısı (uzunluk) ekrana yazdırılır
 
print(f"X_train: {len(X_train)}")
print(f"X_test: {len(X_test)}")
print(f"X_val: {len(X_val)}")

print(f"y_train: {len(y_train)}")
print(f"y_test: {len(y_test)}")
print(f"y_val: {len(y_val)}")

X_train: 6112
X_test: 1310
X_val: 1310
y_train: 6112
y_test: 1310
y_val: 1310


* **Ayrılan veri listeleri numpy olarak kayıt edilir.**

In [13]:
np.save('drive/MyDrive/GlobalAIHub/Project/data/X_train', X_train)
np.save('drive/MyDrive/GlobalAIHub/Project/data/X_test', X_test)
np.save('drive/MyDrive/GlobalAIHub/Project/data/X_val', X_val)

np.save('drive/MyDrive/GlobalAIHub/Project/data/y_train', y_train)
np.save('drive/MyDrive/GlobalAIHub/Project/data/y_test', y_test)
np.save('drive/MyDrive/GlobalAIHub/Project/data/y_val', y_val)
  
print("The split data has been saved in the folder.")

The split data has been saved in the folder.
