# Image Classification with CNN for Malaria Data - Sıtma Verileri için CNN ile Görüntü Sınıflandırma

<img src='11.webp'>

In [1]:
import cv2  # Bilgisayarla görme kütüphanesi
import pandas as pd  # Veri analizi için pandas kütüphanesi
import numpy as np  # Sayısal hesaplamalar için numpy kütüphanesi
import matplotlib.pyplot as plt  # Grafik çizimi için matplotlib kütüphanesi
from sklearn.model_selection import train_test_split  # Eğitim ve test setlerine ayırmak için sklearn kütüphanesi
import os  # İşletim sistemi ile etkileşim için os kütüphanesi

In [2]:
labels=['parasitized','uninfected'] #resimleri etiketledik
img_path='cell_images/'

In [3]:
img_list = []  # Resim dosyalarının yollarını depolamak için boş bir liste oluşturuyoruz.
label_list = []  # Her resmin etiketini depolamak için boş bir liste oluşturuyoruz.

# img_list: Resim dosyalarının tam yollarını tutmak için kullanılacak.
# label_list: Her bir resimle ilişkili etiketleri tutmak için kullanılacak.

for label in labels:  #Bu döngü, daha önce tanımlanan labels listesindeki her bir etiketi (yani 'parasitized' ve 'uninfected') sırayla işler.
    for img_file in os.listdir(img_path+label):  #os.listdir(img_path + label): Belirli bir etiket klasöründeki (örneğin, 'cell_images/parasitized') resim dosyalarının isimlerini listeleyen bir işlevdir.Bu döngü, her etiket için o etikete ait tüm resim dosyalarını işler.
        #os.listdir(img_path + label) ifadesi, belirtilen etiketin klasöründeki dosyaları alır.
        
        img_list.append(img_path+label+'/'+img_file) #Bu satır, mevcut döngüdeki resim dosyasının tam yolunu oluşturur ve img_list listesine ekler.
#Örneğin, 'cell_images/parasitized/image1.png' gibi bir yol oluşturulur.
        
        label_list.append(label) #Bu satır, mevcut döngüdeki etiketin adını (label) label_list listesine ekler.
#Böylece, her bir resim dosyası için uygun etiket kaydedilmiş olur.

In [4]:
df=pd.DataFrame({'img':img_list,'label':label_list})
#img_list ve label_list'i kullanarak yeni bir pandas DataFrame (df) oluşturur. Bu DataFrame, iki sütun içerir:
# img: Resim dosyalarının yollarını içerir.
# label: Her resimle ilişkili etiketleri içerir.
#daha sonra bu DataFrame üzerinden makine öğrenimi işlemleri yapabilir veya verileri görselleştirebiliriz.

In [5]:
df.head()

Unnamed: 0,img,label
0,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized
1,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized
2,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized
3,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized
4,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16162 entries, 0 to 16161
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   img     16162 non-null  object
 1   label   16162 non-null  object
dtypes: object(2)
memory usage: 252.7+ KB


In [7]:
df["label"].value_counts()

parasitized    8081
uninfected     8081
Name: label, dtype: int64

In [8]:
d={'uninfected':0, 'parasitized':1}

# Bu sözlük, etiketlerin sayısal değerlerle eşleştirilmesi için kullanılır. Örneğin, bir makine öğrenimi modelinde, kategorik etiketleri sayısal değerlere dönüştürmek genellikle gereklidir. Bu sayede, model bu değerleri kullanarak veriler üzerinde işlem yapabilir.

# Örneğin:

# 'uninfected' etiketine sahip bir resim, 0 olarak kodlanır.
# 'parasitized' etiketine sahip bir resim, 1 olarak kodlanır.
# Bu tür bir kodlama, modelin sınıflandırma işlemi yaparken daha iyi performans göstermesine yardımcı olur.

In [9]:
df['class']=df['label'].map(d)

#df['class']: Bu ifade, df DataFrame'ine yeni bir sütun ekler. Bu yeni sütunun adı 'class' olarak belirlenmiştir.
# df['label']: Bu, mevcut df DataFrame'indeki 'label' sütununu temsil eder. Bu sütun, her resme karşılık gelen etiketleri içerir (örneğin, 'uninfected' ve 'parasitized').
# map(d): map() fonksiyonu, df['label'] sütunundaki her bir değeri, d sözlüğündeki karşılık gelen değeri ile eşleştirir.
# Örneğin, 'uninfected' etiketine sahip olan bir değer, d sözlüğünde 0 ile eşleştirilecektir.
# 'parasitized' etiketine sahip olan bir değer ise 1 ile eşleştirilecektir.

In [10]:
df.head()

Unnamed: 0,img,label,class
0,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized,1
1,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized,1
2,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized,1
3,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized,1
4,cell_images/parasitized/C100P61ThinF_IMG_20150...,parasitized,1


In [11]:
df.tail()

Unnamed: 0,img,label,class
16157,cell_images/uninfected/C241NThinF_IMG_20151207...,uninfected,0
16158,cell_images/uninfected/C241NThinF_IMG_20151207...,uninfected,0
16159,cell_images/uninfected/C241NThinF_IMG_20151207...,uninfected,0
16160,cell_images/uninfected/C241NThinF_IMG_20151207...,uninfected,0
16161,cell_images/uninfected/C241NThinF_IMG_20151207...,uninfected,0


In [12]:
df.isnull().sum()

img      0
label    0
class    0
dtype: int64

In [13]:
x=[] #x: Bu liste, işlenmiş resim verilerini depolamak için kullanılır.
for img in df['img']:  #pil diye bi paket var,onlada okuyabilirsin. Bu döngü, df DataFrame'indeki 'img' sütunundaki her bir resim yolu üzerinde iterasyon yapar.
#Her img, resim dosyasının tam yolunu temsil eder.
    
    img=cv2.imread(str(img))
    img=cv2.resize(img,(128,128)) #boyutunu 128 x 128 pixel yaptik
    img=img/255.0 #normalize ettik
    x.append(img)

In [14]:
x=np.array(x) 
#np.array(): NumPy kütüphanesinin bir fonksiyonudur. Bu fonksiyon, verilen listeyi (bu durumda x listesi) bir NumPy dizisine (array) dönüştürür.

#Neden Kullanılır?
# Veri Yapısı: NumPy dizileri, Python listelerine göre daha verimli bellek kullanımı ve daha hızlı işlem özelliğine sahiptir. Bu, özellikle büyük veri setleriyle çalışırken önemlidir.
# Matematiksel İşlemler: NumPy dizileri, çok boyutlu matrislerle çalışmayı kolaylaştırır. Dizi üzerinde matematiksel işlemler yapmak, liste üzerinde aynı işlemleri yapmaktan çok daha hızlı ve kolaydır.
# Uyumlu Format: Makine öğrenimi ve derin öğrenme modelleri genellikle NumPy dizileri veya tensörler (TensorFlow veya PyTorch gibi kütüphaneler kullanıyorsanız) ile beslenir. Bu nedenle, verilerinizi bu formata dönüştürmek, modelin eğitimi ve değerlendirmesi için gereklidir.

In [15]:
y=df['class']
#y: Bu değişken, df DataFrame'indeki 'class' sütununu temsil eder. Bu sütun, her resmin sayısal sınıf etiketlerini içerir (örneğin, 0 veya 1).
#df['class']: Bu ifade, pandas DataFrame'indeki 'class' sütununu seçer. Daha önce oluşturulan bu sütun, her resmin etiketlerini sayısal formatta tutar.

In [17]:
#pip install tensorflow 
#TensorFlow kütüphanesini Python ortamınıza yüklemek için kullanılır. TensorFlow, makine öğrenimi ve derin öğrenme için yaygın olarak kullanılan bir açık kaynak kütüphanesidir.

In [18]:
print(len(x))
print(len(y))

16162
16162


In [19]:
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=.20,random_state=42)

In [20]:
from keras.models import Sequential
from keras.layers import Conv2D, Dense, Flatten, Input, MaxPooling2D, Dropout,BatchNormalization, Reshape

#Verdiğiniz kod, Keras kütüphanesinden çeşitli katmanları içe aktarmak için kullanılır. Keras, derin öğrenme modelleri oluşturmak için yüksek seviyeli bir API'dir ve TensorFlow ile entegre çalışır.
# Sequential: Bu, katmanları ardışık olarak ekleyerek model oluşturmak için kullanılan bir model türüdür. Her katman, bir önceki katmanın çıktısını alır.
# Conv2D: İki boyutlu evrişim katmanı. Görüntü verileriyle çalışırken yaygın olarak kullanılır. Resimlerden uzamsal özellikleri çıkarmak için kullanılır.
# Dense: Tam bağlantılı katman. Her bir nöron, bir önceki katmandaki tüm nöronlarla bağlantılıdır. Genellikle modelin son katmanlarında kullanılır.
# Flatten: Çok boyutlu bir girişi tek boyutlu bir diziye dönüştürür. Genellikle evrişim katmanlarının çıktısını tam bağlantılı katmanlara iletmek için kullanılır.
# Input: Modelin giriş katmanını tanımlar. Giriş boyutunu belirlemek için kullanılır.
# MaxPooling2D: İki boyutlu maksimum havuzlama katmanı. Görüntü boyutunu azaltmak ve özellikleri özetlemek için kullanılır. Genellikle evrişim katmanlarının ardından gelir.
# Dropout: Aşırı öğrenmeyi önlemek için kullanılan bir katmandır. Eğitim sırasında belirli bir oranda nöronları rastgele kapatır.
# BatchNormalization: Eğitim sırasında katman girişlerini normalize eder. Bu, öğrenme sürecini hızlandırabilir ve daha stabil hale getirebilir.
# Reshape: Girdi verisinin biçimini değiştirmek için kullanılır. Genellikle modelin katmanları arasında veri formatını ayarlamak için kullanılır.

In [23]:
model = Sequential()  # Sıralı bir model oluşturur.

model.add(Input(shape=(128, 128, 3)))  # Giriş katmanı; 128x128 piksel ve 3 renk kanalı (RGB) olan görüntüler. 3 ekledik çünkü 3 tane rgb renk modeli vardı yani renkli çalışıyoruz.

model.add(Conv2D(32, kernel_size=(3, 3), activation='relu'))  # 32 filtreli evrişim katmanı; özellikleri çıkarmak için.
model.add(MaxPooling2D(pool_size=(2, 2)))  # Havuzlama katmanı; görüntü boyutunu azaltır.

model.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))  # 64 filtreli evrişim katmanı; daha karmaşık özellikleri öğrenir.
model.add(MaxPooling2D(pool_size=(2, 2)))  # Bir havuzlama katmanı daha; görüntü boyutunu daha da azaltır.

model.add(Flatten())  # Çok boyutlu çıktıyı tek boyutlu bir diziye dönüştürür; tam bağlantılı katmanlara geçiş için.

model.add(Dense(128))  # 128 nöronlu tam bağlantılı katman; öğrenilen özellikleri birleştirir.

model.add(Dense(9, activation='softmax'))  # 9 nöronlu çıkış katmanı; çok sınıflı sınıflandırma için softmax aktivasyonu kullanır.  2 fakli cevap classification yapıyoruz çünkü.,cancer veya noncancer olacak.
#softmax aktivasyon fonksiyonu, çok sınıflı sınıflandırma problemleri için kullanılır. Burada, 9 farklı sınıf (örneğin, kanserli ve kanserli olmayan) arasında olasılık dağılımı sağlar.
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])  # Modelin eğitim sürecini yapılandırır.

In [24]:
history=model.fit(x_train,y_train,validation_data=(x_test,y_test), epochs=20, verbose=1) #Keras ile bir modeli eğitmek için kullanılır.

# model.fit: Modelin eğitim sürecini başlatır.
# x_train: Eğitim verileri. Model, bu verilerle öğrenme yapar.
# y_train: Eğitim etiketleri. Model, bu etiketlere göre tahminlerde bulunmayı öğrenir.
# validation_data=(x_test, y_test): Modelin doğruluğunu değerlendirmek için test verileri ve etiketleri. Her epoch sonunda modelin performansı bu verilerle kontrol edilir.
# epochs=20: Eğitim sürecinin kaç kez tekrarlanacağını belirtir. Bu durumda model, 20 kez tüm eğitim verileri üzerinde eğitim yapacaktır.
# verbose=1: Eğitim süreci sırasında bilgi düzeyini belirler. 1 seçeneği, eğitim sürecinin ilerlemesini ve her epoch sonunda doğruluk ve kayıp bilgilerini gösterecektir.

#Bu kod satırı, modelin eğitimini başlatır ve eğitim sürecinin sonuçlarını history değişkeninde saklar. history değişkeni, eğitim ve doğrulama kaybı ile doğruluğu içeren bilgileri tutar ve daha sonra bu verileri analiz etmek için kullanılabilir.


Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Sonuç