# Artificial Neural Networks

İnsan beyninin bilgi işleme şeklini referans alan sınıflandırma ve regresyon problemleri için kullanılabilen kuvvetli makine öğrenmesi algoritmalarından birisidir.

![image.png](image07.png)

![image.png](image08.png)

Yapay sinir hücresi, şekilde görüldüğü üzere insan beyninin sinir hücrelerine benzemektedir. Farklılaştığı nokta ise yapay sinir hücresinde sinapsis'e karşılık gelen aktivasyon fonksiyonu vardır. Ayrıca çıktılardan elde edilen hata sonucu, dendrit kısmına karşılık gelen ağırlıklar ayarlanır. (geri yayılım fonksiyonları ile)  
Bu yapay sinir hücreleri bir araya gelerek yapay sinir ağlarını oluşturur.

![image.png](image09.png)

Bu yapay sinir hücreleri belli katmanlar şeklinde sıralanarak yapay sinir ağları (çok katmanlı algılayıcılar) oluşturulur. Tamamı işlenen katmanlara epoch denir ve hata sonucu katsayılar ayarlanır. Art arda epoch uygulandıkça katsayılar belli sayılarda sabit olmaya başlar.

![image.png](image10.png)

## *İlk üç denklem*

İlk denklemdeki parantez içerisindeki kısma bakacak olursak doğrusal regresyon formülünü görmüş oluruz. Fakat doğrusal olmayan bir fonksiyon ile (örneğin sigmoid fonksiyonu) uygulanarak modelin doğrusal olmayan ilişkileri öğrenmesi sağlanır. Çünkü bu dönüşüm, modelin daha karmaşık örüntüleri yakalamasına olanak tanır.  

Üçüncü denkleme gelecek olursak, burada ℎ𝑘(𝑥) daha önce tanımlanan sigmoid dönüşümünden gelen ara katman çıktılarını temsil ediyor. Bu yapı, temel olarak bir çok katmanlı yapay sinir ağı veya evrişimli sinir ağı (MLP - Multilayer Perceptron) modelinin matematiksel temelini oluşturuyor.

## *Sondaki denklem ise*
**Düzenlenmiş (regularized) hata fonksiyonunu** ifade eder.  

### **Anlamı:**  
- İlk terim: **Kare hata (Squared Error)**, yani modelin tahmin hatasıdır.  
- İkinci terim: **Ağırlık cezası (Weight Penalty)**, yani **L2 düzenlileştirmesi (Ridge Regression)** uygulanıyor.  
- Üçüncü terim: **Ekstra düzenleme**, modelin daha sade olmasını sağlıyor.  

### **Sonuç:**  
Bu, **L2 regularization (Ridge Regression)** içeren bir **kayıp fonksiyonu** olup, aşırı öğrenmeyi (overfitting) önlemek için ağırlıkları küçültmeye çalışır.

Kısaca açıklamak gerekirse: Bu denklem kümesi, bir yapay sinir ağının temel bileşenlerini gösterir. İlk aşamada girdiler doğrusal bir kombinasyon halinde toplanır, ardından sigmoid gibi bir aktivasyon fonksiyonundan (adam'ı hatırla) geçirilerek doğrusal olmayan hale getirilir. Son olarak, bu ara katman çıktıları başka bir doğrusal kombinasyona girerek nihai çıktıyı oluşturur. Bu yapı, ileri beslemeli yapay sinir ağlarının temelini oluşturur.

## *Geriye yayılım algoritmaları*
Geriye yayılım, yapay sinir ağlarında ağırlıkları güncellemek için kullanılan temel bir öğrenme algoritmasıdır. Delta algoritması ise bu yöntemin özel bir versiyonudur ve genellikle tek katmanlı perceptronlar veya hata bazlı ağırlık güncellemesi için kullanılır.

**Adımları:**  
1. **İleri Yayılım:** Girdiler ağdan geçirilerek çıktı hesaplanır.  
2. **Hata Hesaplama:** Çıktı ile beklenen değer arasındaki fark bulunur.  
3. **Geri Yayılım:** Hata, zincir kuralı ile katmanlara geri yayılır.  
4. **Ağırlık Güncelleme:** Gradyan inişi ile ağırlıklar güncellenir.  

**Delta Algoritması**, tek katmanlı perceptronlar için özel bir durumdur ve ağırlıkları günceller.

Yapay sinir ağları overfitting yapmaya meyillidir. Artificial Neural Networks prone to overfit. This problem can solved with Early stopping and weight decay methods.

## Konunun tam hali için Kaggle Deep Learning kursuna bakabilirsin.

## Model

In [1]:
import pandas as pd 
from sklearn.model_selection import train_test_split

hit = pd.read_csv('Hitters.csv')
df = hit.copy()
df = df.dropna()
dms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
y = df['Salary']
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')
X = pd.concat([X_, dms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                   test_size=0.25,
                                                   random_state=42) 

In [3]:
from sklearn.preprocessing import StandardScaler # tum modeller standardizasyonu sever fakat YSA da cok gerekli.

In [18]:
scaler = StandardScaler()
scaler.fit(X_train)

In [19]:
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [20]:
from sklearn.neural_network import MLPRegressor 

MLP (Multilayer Perceptron), yapay sinir ağlarının (Artificial Neural Networks - ANN) en temel türlerinden biridir.

**Yapay Sinir Ağı (ANN) Türleri - Kısa Özet**  

1️⃣ **MLP (Multilayer Perceptron)** – Klasik ileri beslemeli ağ, sınıflandırma ve regresyon için kullanılır.  
2️⃣ **CNN (Convolutional Neural Network)** – Görüntü işleme ve nesne tanımada kullanılır.  
3️⃣ **RNN (Recurrent Neural Network)** – Zaman serisi ve ardışık veriler için kullanılır.  
4️⃣ **LSTM (Long Short-Term Memory)** – RNN’in geliştirilmiş versiyonu, uzun süreli bağımlılıkları öğrenir.  
5️⃣ **GRU (Gated Recurrent Unit)** – LSTM’nin daha sade ve hızlı versiyonu.  
6️⃣ **Autoencoder** – Veri sıkıştırma, gürültü giderme ve özellik çıkarma için kullanılır.  
7️⃣ **GAN (Generative Adversarial Networks)** – Gerçekçi görüntüler ve sahte veriler üretir.  
8️⃣ **RBFN (Radial Basis Function Network)** – Öklid mesafesiyle sınıflandırma yapar.  
9️⃣ **SOM (Self-Organizing Map)** – Denetimsiz öğrenme ile veriyi düşük boyutlu haritalar halinde görselleştirir.  
🔟 **Transformer** – NLP ve büyük dil modellerinde kullanılır (BERT, GPT gibi).

In [21]:
mlp_model = MLPRegressor(hidden_layer_sizes=(100, 20)).fit(X_train_scaler, y_train)

# 2. katman (1. gizli katman): 100 nöron içerir.
# 3. katman (2. gizli katman): 20 nöron içerir.



In [22]:
mlp_model.get_params()

{'activation': 'relu',
 'alpha': 0.0001,
 'batch_size': 'auto',
 'beta_1': 0.9,
 'beta_2': 0.999,
 'early_stopping': False,
 'epsilon': 1e-08,
 'hidden_layer_sizes': (100, 20),
 'learning_rate': 'constant',
 'learning_rate_init': 0.001,
 'max_fun': 15000,
 'max_iter': 200,
 'momentum': 0.9,
 'n_iter_no_change': 10,
 'nesterovs_momentum': True,
 'power_t': 0.5,
 'random_state': None,
 'shuffle': True,
 'solver': 'adam',
 'tol': 0.0001,
 'validation_fraction': 0.1,
 'verbose': False,
 'warm_start': False}

In [23]:
mlp_model.n_layers_

4

## Tahmin

In [24]:
mlp_model.predict(X_train_scaler)[0:5]

array([ 74.23126783, 260.10188987, 177.76616274,  74.60699326,
        53.4767084 ])

In [25]:
y_pred = mlp_model.predict(X_test_scaled)

In [27]:
import numpy as np
from sklearn.metrics import mean_squared_error

np.sqrt(mean_squared_error(y_test, y_pred))

np.float64(514.6047242344323)

## Model Tuning

In [32]:
mlp_params = {'alpha': [0.1, 0.01, 0.02, 0.005],
             'hidden_layer_sizes': [(20, 20), (100, 50, 150), (300, 200, 150)],
             'activation': ['relu', 'logistic']}

In [33]:
from sklearn.model_selection import GridSearchCV
mlp_cv_model = GridSearchCV(mlp_model, mlp_params, cv=10)

In [34]:
mlp_cv_model.fit(X_train_scaled, y_train)



In [35]:
mlp_cv_model.best_params_

{'activation': 'relu', 'alpha': 0.01, 'hidden_layer_sizes': (100, 50, 150)}

In [36]:
mlp_tuned = MLPRegressor(alpha=0.01, activation='relu', hidden_layer_sizes=(100, 50, 150)).fit(X_train_scaled, y_train)



In [37]:
y_pred = mlp_tuned.predict(X_test_scaled)

In [39]:
np.sqrt(mean_squared_error(y_test, y_pred))

np.float64(358.87361606113006)