In [1]:
import os
import json
import cv2
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from keras.preprocessing import image
from keras.utils import to_categorical
from keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from keras.models import Model
from keras.optimizers import Adam
from keras.callbacks import ModelCheckpoint,ReduceLROnPlateau, EarlyStopping

In [2]:
# Google Drive Mount
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [3]:
%cd '/content/drive/My Drive/Deep_Learning_homework/Data'

/content/drive/My Drive/Deep_Learning_homework/Data


In [4]:
# Veri yolları
csv_path = "new_train.csv"
json_path = "label_num_to_disease_map.json"
image_folder = "train_images"
# Sınıf adları
with open(json_path, 'r') as f:
    class_names = json.load(f)

In [5]:
class_names

{'0': 'Cassava Bacterial Blight (CBB)',
 '1': 'Cassava Brown Streak Disease (CBSD)',
 '2': 'Cassava Green Mottle (CGM)',
 '3': 'Cassava Mosaic Disease (CMD)',
 '4': 'Healthy'}

In [6]:
# Veri yollarını yükleyin
df = pd.read_csv(csv_path)

# **Etiket Sayısı hesaplama**

In [None]:
# Label sütunundaki değerleri say
label_counts = df['label'].value_counts()

# Etiketlerin sayısını yazdır
print("Etiket 0 olanların sayısı:", label_counts.get(0, 0))
print("Etiket 1 olanların sayısı:", label_counts.get(1, 0))
print("Etiket 2 olanların sayısı:", label_counts.get(2, 0))
print("Etiket 3 olanların sayısı:", label_counts.get(3, 0))
print("Etiket 4 olanların sayısı:", label_counts.get(4, 0))

Etiket 0 olanların sayısı: 1087
Etiket 1 olanların sayısı: 2189
Etiket 2 olanların sayısı: 2386
Etiket 3 olanların sayısı: 13158
Etiket 4 olanların sayısı: 2577


In [None]:
# Her sınıf için resim ve labellı resim sayılarını hesapla
class_counts = {}
for label, class_name in class_names.items():
    class_images = len(df[df['label'] == int(label)])
    labeled_images = class_images
    class_counts[class_name] = {'images': class_images, 'labeled_images': labeled_images}

    print(f"Sınıf: {class_name}, Toplam Resim Sayısı: {class_images}, Etiketli Resim Sayısı: {labeled_images}")

Sınıf: Cassava Bacterial Blight (CBB), Toplam Resim Sayısı: 1087, Etiketli Resim Sayısı: 1087
Sınıf: Cassava Brown Streak Disease (CBSD), Toplam Resim Sayısı: 2189, Etiketli Resim Sayısı: 2189
Sınıf: Cassava Green Mottle (CGM), Toplam Resim Sayısı: 2386, Etiketli Resim Sayısı: 2386
Sınıf: Cassava Mosaic Disease (CMD), Toplam Resim Sayısı: 13158, Etiketli Resim Sayısı: 13158
Sınıf: Healthy, Toplam Resim Sayısı: 2577, Etiketli Resim Sayısı: 2577


In [None]:
import os

# train.csv dosyasının boyutunu yazdır
csv_size = os.path.getsize(csv_path)
print(f"train.csv dosyasının boyutu: {csv_size} bytes")

# image_folder içindeki resim sayısını hesapla
image_files = os.listdir(image_folder)
num_images = len(image_files)
print(f"{image_folder} klasöründe {num_images} resim bulunmaktadır.")


train.csv dosyasının boyutu: 379681 bytes
train_images klasöründe 17938 resim bulunmaktadır.


In [None]:
import os

image_folder = "train_images"
image_id = "1000015157.jpg"

img_path = os.path.join(image_folder, image_id)

if os.path.exists(img_path):
    print(f"{image_id} dosyası {image_folder} klasöründe bulunuyor.")
else:
    print(f"{image_id} dosyası {image_folder} klasöründe bulunmuyor.")


1000015157.jpg dosyası train_images klasöründe bulunmuyor.


In [None]:
import pandas as pd

csv_path = "train.csv"
image_id_to_check = "1000015157.jpg"

# CSV dosyasını oku
df = pd.read_csv(csv_path)

# image_id sütununda belirtilen dosyanın olup olmadığını kontrol et
if image_id_to_check in df['image_id'].values:
    print(f"{image_id_to_check} dosyası train.csv dosyasında bulunuyor.")
else:
    print(f"{image_id_to_check} dosyası train.csv dosyasında bulunmuyor.")


1000015157.jpg dosyası train.csv dosyasında bulunuyor.


In [None]:
import pandas as pd
import os

# Boş bir DataFrame oluştur
new_df = pd.DataFrame(columns=['image_id', 'label'])

df = pd.read_csv(csv_path)


for image_id, label in zip(df['image_id'], df['label']):
    img_path = os.path.join(image_folder, image_id)

    # Eğer dosya mevcutsa işleme devam et, aksi takdirde atla
    if os.path.exists(img_path):
        # Yeni bir satır oluştur
        new_row = pd.DataFrame({'image_id': [image_id], 'label': [label]})
        # Mevcut DataFrame'e yeni satırı ekle
        new_df = pd.concat([new_df, new_row], ignore_index=True)
# Sonuçları göster
print(new_df)


             image_id label
0       157078263.jpg     3
1      1574893536.jpg     3
2      1575013487.jpg     3
3      1576606254.jpg     0
4      1579761476.jpg     1
...               ...   ...
17933   999068805.jpg     3
17934   999329392.jpg     3
17935   999474432.jpg     1
17936   999616605.jpg     4
17937   999998473.jpg     4

[17938 rows x 2 columns]


In [None]:
df.shape[0]

21397

In [None]:
new_df.to_csv('new_train.csv', index=False)

# **Preprocessing**

In [None]:

# Data and Labels Collection
data = []
labels = []
success_count = 0
skip_count = 0

df = pd.read_csv("new_train.csv")

for image_id, label in zip(df['image_id'], df['label']):
    img_path = os.path.join(image_folder, image_id)

    # Eğer dosya mevcutsa işleme devam et, aksi takdirde atla
    if os.path.exists(img_path):
        img = cv2.imread(img_path)
        resized_img = cv2.resize(img, (227, 227))
        data.append(resized_img)
        labels.append(label)
        success_count += 1
    else:
        print(f"Uyarı: {img_path} bulunamadı, bu nedenle atlandı.")
        skip_count += 1

# Convert to NumPy arrays
data = np.array(data)
labels = np.array(labels)

print(f"Başarılı işlenen fotoğraf sayısı: {success_count}")
print(f"Atlanan fotoğraf sayısı: {skip_count}")

In [None]:
#Train-test split
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)

In [None]:
# Veriyi normalleştir
X_train_normalized = X_train / 255.0

In [None]:
y_train = y_train.astype(int)
y_test = y_test.astype(int)

num_classes = len(class_names)

# Convert training labels to one-hot encoding
y_train_one_hot = to_categorical(y_train, num_classes)

# Convert testing labels to one-hot encoding
y_test_one_hot = to_categorical(y_test, num_classes)

# **Model Oluşturma**

In [None]:
def alexnet(input_size=(227, 227, 3),num_classes=5):
    inputs = Input(input_size)

    # Layer 1
    conv1 = Conv2D(96, kernel_size=(11,11), strides= 4, padding= 'valid', activation= 'relu',
                        input_shape= input_size, kernel_initializer= 'he_normal')(inputs)
    pool1 = MaxPooling2D(pool_size=(3,3), strides= (2,2), padding= 'valid', data_format= None)(conv1)

    # Layer 2
    conv2 = Conv2D(256, kernel_size=(5,5), strides= 1,padding= 'same', activation= 'relu',
                        kernel_initializer= 'he_normal')(pool1)
    pool2 = MaxPooling2D(pool_size=(3,3), strides= (2,2), padding= 'valid', data_format= None)(conv2)

    # Layer 3
    conv3 = Conv2D(384, kernel_size=(3,3), strides= 1, padding= 'same', activation= 'relu',
                        kernel_initializer= 'he_normal')(pool2)

    # Layer 4
    conv4 = Conv2D(384, kernel_size=(3,3), strides= 1, padding= 'same', activation= 'relu',
                        kernel_initializer= 'he_normal')(conv3)

    # Layer 5
    conv5 = Conv2D(256, kernel_size=(3,3), strides= 1, padding= 'same', activation= 'relu',
                        kernel_initializer= 'he_normal')(conv4)
    pool5 = MaxPooling2D(pool_size=(3,3), strides= (2,2), padding= 'valid', data_format= None)(conv5)

    # Flatten
    flatten = Flatten()(pool5)

    # Fully connected layers
    dense1 = Dense(4096, activation='relu')(flatten)

    dense2 = Dense(4096, activation='relu')(dense1)

    # Output layer
    output = Dense(num_classes, activation='softmax')(dense2)

    model = Model(inputs=inputs, outputs=output)

    return model



In [None]:
# Build AlexNet Model
alexnet_model = alexnet(num_classes=5)

# Print Model Summary
alexnet_model.summary()
# Compile Model
alexnet_model.compile(optimizer= Adam(0.001),
                    loss='categorical_crossentropy',
                    metrics=['accuracy'])


In [None]:
checkpoint = ModelCheckpoint("best_model_weights.h5",
                             monitor='val_loss',  # Kaydetme kriteri olarak doğruluk metriğini kullanın
                             verbose=1,
                             save_best_only=True,    # Sadece en iyi performansı gösteren ağırlıkları kaydedin
                             mode='min')
# Callbacks
reduce_lr = ReduceLROnPlateau(monitor='val_loss', patience=3, mode='auto', factor=0.1, min_lr=0.000001)
early_stopping = EarlyStopping(monitor='val_loss', patience=7, restore_best_weights=True)

In [None]:
# Modeli eğit
history=alexnet_model.fit(X_train_normalized, y_train_one_hot, epochs=100, batch_size=64, validation_split=0.2, verbose=1,callbacks=[reduce_lr,checkpoint,early_stopping])