<a href="https://colab.research.google.com/github/berilcankutlu/deep_learning_miuul/blob/main/miuul_assignment_logistic_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Understanding Gradients

# Task 1: Veri Setindeki İlk Ağırlık İçin İterasyon, Gradyan ve Loss Değişimlerini Gözlemlemek İstiyoruz.

Aşağıdaki çıktıdaki sonuçları almak için uygun kodları yazmanız beklenmektedir.

## Beklenen çıktı:

```
    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.250376  0.527516
2           3            0.196769  0.441138
3           4            0.163503  0.387700
4           5            0.140597  0.350752
..        ...                 ...       ...
95         96            0.010033  0.108377
96         97            0.009923  0.108025
97         98            0.009816  0.107678
98         99            0.009711  0.107337
99        100            0.009608  0.107001

[100 rows x 3 columns]
```

## İpuçları:


- Modelleme işlemi ve diğer tüm işlemler içeriklerde olduğu gibi tüm değişkenler üzerinden yapılır.

- Tek bir değişken için gradyan istediğimiz için sadece gradyan hesabının yapıldığı dw içerisinden şu şekilde bir seçim yapılması yeterli dw[0] böylece ilk değişkenin gradyan bilgisini tutmuş olacağız.

- gradient_descent fonksiyonunun içinde döngü başlamadan önce aşağıdaki gibi bir sözlük tanımlamak işinize yarayabilir:

- grad_tracking = {'Iteration': [], 'Feature 1 Gradient': [], 'Loss': []}

Sonrasında iterasyonlar devam ederken yani for döngüsünün içindeyken grad_tracking sözlük içerisine ilgili iterasyondaki iterasyon bilgisini (epoch +1), ilk değişkenin gradyan bilgisini (dw[0]) ve loss bilgisini eklemeniz yeterli (loss)

***Yani döngü içindeyken basit bir sözlüğe eleman ekleme işimiz olacak.***

- Predict fonksiyonuna ihtiyacımız yok amacımız gradyanları, iterasyonları ve loss'u gözlemlemek.

- gradient_descent fonksiyonun çıktısı sadece grad_tracking'i return etmeli.

- gradient_descent fonksiyonunu çağırırken argumanlar şunlar olabilir: gradient_descent(X_train_scaled, y_train, lr=0.1, epochs=100)

- çıktı çirkin olacaktır, bu sebeple çıktıyı tutup sonrasında bir dataframe'e çevirmek iyi olacaktır.


## Kod taslağı aşağıda bırakılmıştır, düzenleme yapılması gereken yerler işaretlenmiştir:


In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

data = load_breast_cancer()
X = data.data
y = data.target

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def compute_loss(y, y_pred):
    epsilon = 1e-5
    return -np.mean(y * np.log(y_pred + epsilon) + (1 - y) * np.log(1 - y_pred + epsilon))

def compute_gradients(X, y, y_pred):
    return np.dot(X.T, (y_pred - y)) / len(y)

def gradient_descent(X, y, lr=0.01, epochs=100):
    weights = np.zeros(X.shape[1])
    bias = 0

    # grad_tracking burada tanımlanabilir.
    grad_tracking = {'Iteration': [], 'Feature 1 Gradient': [], 'Loss': []}

    for epoch in range(epochs):
        z = np.dot(X, weights) + bias
        y_pred = sigmoid(z)
        loss = compute_loss(y, y_pred)
        dw = compute_gradients(X, y, y_pred)
        db = np.mean(y_pred - y)

        # gradyanları ve loss'u burada yakalıyoruz.
        grad_tracking["Iteration"].append(epoch +1)
        grad_tracking["Feature 1 Gradient"].append(dw[0])
        grad_tracking["Loss"].append(loss)

        weights -= lr * dw
        bias -= lr * db

    return grad_tracking

In [11]:
grad_tracking = gradient_descent(X_train_scaled, y_train, lr=0.1, epochs=100)

In [12]:
grad_tracking_df = pd.DataFrame(grad_tracking)
print(grad_tracking_df)

    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.250376  0.527516
2           3            0.196769  0.441138
3           4            0.163503  0.387700
4           5            0.140597  0.350752
..        ...                 ...       ...
95         96            0.010033  0.108377
96         97            0.009923  0.108025
97         98            0.009816  0.107678
98         99            0.009711  0.107337
99        100            0.009608  0.107001

[100 rows x 3 columns]


# Task 2: gradient_descent Fonksiyonunun Çıktısını Kaydedip dataframe'e Çeviriniz.

Gradient descent fonksiyonunu aşağıdaki 3 kombinasyonda çağırarak sonuçları dataframe'e çevirip yazdırınız.


1. gradient_descent(X_train_scaled, y_train, lr=0.1, epochs=100)
2. gradient_descent(X_train_scaled, y_train, lr=0.01, epochs=100)
3. gradient_descent(X_train_scaled, y_train, lr=0.001, epochs=100)


## Beklenen çıktılar:


```
    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.250376  0.527516
2           3            0.196769  0.441138
3           4            0.163503  0.387700
4           5            0.140597  0.350752
..        ...                 ...       ...
95         96            0.010033  0.108377
96         97            0.009923  0.108025
97         98            0.009816  0.107678
98         99            0.009711  0.107337
99        100            0.009608  0.107001

[100 rows x 3 columns]
```




```
    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.336617  0.673916
2           3            0.326640  0.655887
3           4            0.317060  0.638961
4           5            0.307888  0.623058
..        ...                 ...       ...
95         96            0.085450  0.259625
96         97            0.084800  0.258520
97         98            0.084160  0.257431
98         99            0.083530  0.256357
99        100            0.082909  0.255299

[100 rows x 3 columns]
```



```
    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.345928  0.691178
2           3            0.344896  0.689242
3           4            0.343867  0.687318
4           5            0.342841  0.685405
..        ...                 ...       ...
95         96            0.265483  0.552141
96         97            0.264805  0.551030
97         98            0.264130  0.549925
98         99            0.263458  0.548826
99        100            0.262789  0.547733

[100 rows x 3 columns]
```



In [13]:
grad_tracking = gradient_descent(X_train_scaled, y_train, lr=0.1, epochs=100)
grad_tracking_df = pd.DataFrame(grad_tracking)
print(grad_tracking_df)

    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.250376  0.527516
2           3            0.196769  0.441138
3           4            0.163503  0.387700
4           5            0.140597  0.350752
..        ...                 ...       ...
95         96            0.010033  0.108377
96         97            0.009923  0.108025
97         98            0.009816  0.107678
98         99            0.009711  0.107337
99        100            0.009608  0.107001

[100 rows x 3 columns]


In [14]:
grad_tracking = gradient_descent(X_train_scaled, y_train, lr=0.01, epochs=100)
grad_tracking_df = pd.DataFrame(grad_tracking)
print(grad_tracking_df)

    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.336617  0.673916
2           3            0.326640  0.655887
3           4            0.317060  0.638961
4           5            0.307888  0.623058
..        ...                 ...       ...
95         96            0.085450  0.259625
96         97            0.084800  0.258520
97         98            0.084160  0.257431
98         99            0.083530  0.256357
99        100            0.082909  0.255299

[100 rows x 3 columns]


In [15]:
grad_tracking = gradient_descent(X_train_scaled, y_train, lr=0.001, epochs=100)
grad_tracking_df = pd.DataFrame(grad_tracking)
print(grad_tracking_df)

    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.345928  0.691178
2           3            0.344896  0.689242
3           4            0.343867  0.687318
4           5            0.342841  0.685405
..        ...                 ...       ...
95         96            0.265483  0.552141
96         97            0.264805  0.551030
97         98            0.264130  0.549925
98         99            0.263458  0.548826
99        100            0.262789  0.547733

[100 rows x 3 columns]


# Task 3: Learning Rate Değiştikçe Loss Değerleri Nasıl Değişmektedir? Sebebi Nedir?

Bir önceki soruda farklı learning rate değerleri kullandık, bu farklı learning rate değerleri neticesinde ortaya çıkan loss değerleri nasıl değişmektedir? Sebebi nedir? Açıklayınız.





Learning rate değeri küçüldükçe loss değeri de daha yavaş düşerek daha yüksek bir sayıda kalıyor. Learning rate'in büyük olması global minimum değerini kaçırmaya sebep olabilir. Temkinli yaklaşılmalı, lr değeri verilirken göz önünde bulundurulmalı. Lr update kuralında gradyanların parametrelerinin eski değerlerine ne kadar eklenip çıkarılacağını belirliyordu. Gradyanlarda yol çizmemize yardımcı olduğu için direkt etkiliyor.

# Task 4: İlk Update Kuralı Sonucu Yeni Ağırlık Değeri Nedir?

```
    Iteration  Feature 1 Gradient      Loss
0           1            0.346963  0.693127
1           2            0.336617  0.673916
2           3            0.326640  0.655887
3           4            0.317060  0.638961
4           5            0.307888  0.623058
..        ...                 ...       ...
95         96            0.085450  0.259625
96         97            0.084800  0.258520
97         98            0.084160  0.257431
98         99            0.083530  0.256357
99        100            0.082909  0.255299

[100 rows x 3 columns]
```


## Elimizde şunlar var:

- learning rate: 0.001
- birinci iterasyondaki gradyan değeri: 0.346963
- Ağırlığın başlangıç değeri: 0


Bu durumda ilk update kuralı sonucu yeni ağırlık değeri ne olur?

In [None]:
# 0 - 0.001 * 0.346963