# Machine Learning with Python

* Linear regression (least squares regression)
* Logistic regression
* Linear discriminant analysis
* Decision trees
* Naive Bayes (hem sınıflandırma hem de regrasyon için) / Bayes Teoremi
* K-Nearest Neighbors (KNN)
* Expectation Maximization (EM)
* Support Vector Machines (SVM
* Random Forests
* Gradient Boosting Machines (GBM)
* Gradient descent
* Derin Öğrenme Modelleri (Yapay Sinir Ağları)
* Kümeleme (K-Means, Hiyerarşik Kümeleme, Gausian Karışım Modeli)
* Maximum Likelihood/Gauss-Newton


# K-Nearest Neighbors

> K-En Yakın Komşular (KNN), hem sınıflandırma hem de regresyon görevleri için kullanılabilen basit bir denetimli makine öğrenimi algoritmasıdır.Temel fikir, bir veri noktasının tahmin edilmesinde, o noktaya en yakın komşularının etkisini kullanmaktır.

> Algoritma çalışma prensibi şu adımları izler:

* Eğitim veri setindeki tüm veri noktalarının özellik vektörleri ve etiketleri kaydedilir.
* Bir test veri noktası verildiğinde, bu noktaya en yakın k komşusu bulunur.
* Sınıflandırma problemlerinde, bu k komşunun etiketleri incelenir ve en sık tekrar eden etiket tahmin olarak verilir.
* Regresyon problemlerinde, bu k komşunun etiketlerinin ortalaması tahmin olarak verilir.

> KNN algoritması, yeni veri noktalarını tahmin etmek için oldukça basit ve etkili bir yöntemdir. Ancak, büyük veri setlerinde hesaplama yoğunluğu ve bellek kullanımı gibi bazı zorluklarla karşılaşabilir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/uciml/iris

***Aşağıdaki Kod Hazır Fonksiyon Kullanılmadan Yapılmıştır!***

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# İris veri setini yükleme
from sklearn.datasets import load_iris
iris = load_iris()

X = iris.data
y = iris.target

# Eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# KNN sınıfını tanımlama
class KNN:
    def __init__(self, k=3):
        self.k = k
    
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
    
    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2)**2))
    
    def predict(self, X_test):
        predictions = []
        for i in range(len(X_test)):
            distances = [self.euclidean_distance(X_test[i], x_train) for x_train in self.X_train]
            k_indices = np.argsort(distances)[:self.k]
            k_nearest_labels = [self.y_train[j] for j in k_indices]
            most_common = max(set(k_nearest_labels), key=k_nearest_labels.count)
            predictions.append(most_common)
        return predictions

# KNN modelini oluşturma
knn = KNN(k=3)
knn.fit(X_train, y_train)

# Modeli test seti üzerinde değerlendirme
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 1.0


# Logistic Regression

> Lojistik regresyon, ikili bağımlı bir değişkeni modellemek için lojistik bir işlev kullanan istatistiksel bir modeldir. Kategorik bağımlı bir değişkenin olasılığını tahmin etmek için kullanılan denetimli bir öğrenme sınıflandırma algoritmasıdır.Logistic Regression, bağımsız değişkenlerin ağırlıklarını ve etkilerini kullanarak, her bir sınıfın olasılığını tahmin eder. Ancak, doğrudan sınıfların tahmin edilmesi yerine, bir girişin her sınıfa ait olma olasılığı verilir. Bu olasılıklar daha sonra bir eşik değeri (threshold) kullanılarak sınıflara dönüştürülür.

> Logistic Regression modeli, sigmoid fonksiyonu olarak da bilinen lojistik fonksiyon kullanılarak oluşturulur. Bu fonksiyon, sonsuz olan bir aralıktaki girişlerin değerini 0 ile 1 arasında bir çıktıya dönüştürür, bu da olasılık olarak yorumlanabilir. Logistic Regression algoritması, parametre tahminlerini genellikle maksimum olabilirlik tahmini (maximum likelihood estimation) yöntemiyle elde eder. Bu, veri setinin olasılığını maksimize etmek için model parametrelerini ayarlamayı içerir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/dipayanbiswas/parkinsons-disease-speech-signal-features

***Aşağıdaki Kod Hazır Fonksiyon Kullanılmadan Yapılmıştır!***

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Load data
df = pd.read_csv('/kaggle/input/parkinsons-disease-speech-signal-features/pd_speech_features.csv')

# Exploratory data analysis
print(df.shape)

# Bağımsız ve bağımlı değişkenleri tanımlama
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veriyi eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Verileri ölçeklendirme
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Lojistik regresyon modeli oluşturma
class LogisticRegression:
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.weights = None
        self.bias = None
    
    def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.weights = np.zeros(n_features)
        self.bias = 0
        
        for _ in range(self.n_iterations):
            model = np.dot(X, self.weights) + self.bias
            y_predicted = self.sigmoid(model)
            
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1 / n_samples) * np.sum(y_predicted - y)
            
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db
    
    def predict(self, X):
        model = np.dot(X, self.weights) + self.bias
        y_predicted = self.sigmoid(model)
        y_predicted_cls = [1 if i > 0.5 else 0 for i in y_predicted]
        return y_predicted_cls

# Modeli eğitme
model = LogisticRegression(learning_rate=0.1, n_iterations=1000)
model.fit(X_train, y_train)

# Modeli değerlendirme
y_pred = model.predict(X_test)
accuracy = np.mean(y_pred == y_test)
print("Accuracy:", accuracy)


(756, 755)
Accuracy: 0.8421052631578947


# Maximum Likelihood/Gauss-Newton

> Maximum Likelihood ve Gauss-Newton, parametre tahmininde kullanılan iki farklı yöntemdir.

**1. Maximum Likelihood (MLE - Maximum Likelihood Estimation):** 

> Bu yöntem, parametre tahminindeki bir olasılık odaklı yaklaşımdır. Bir model belirlendiğinde, MLE, gözlemlenen veri setinin bu modele en uygun parametre değerlerini bulmaya çalışır. Bu parametreler, veri setinin olasılık dağılımının maksimum olasılığını sağlamak için tahmin edilir.

**2. Gauss-Newton:** 

> Bu yöntem, özellikle doğrusal olmayan regresyon modellerinde kullanılan bir optimizasyon yöntemidir. Bir tahmin modelinin parametrelerini güncellemek için kullanılır. Gauss-Newton yöntemi, hedef fonksiyonunun (genellikle ortalama kareler hatası) birinci ve ikinci türevlerini kullanarak iteratif olarak parametreleri günceller. Bu yöntem, tahmin edilen parametrelerin gerçek değerlere yakınsamasını sağlamak için kullanılır.

**Aşağıdaki Maximum Likelihood/Gauss Newton Kodunda Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/abhia1999/chronic-kidney-disease

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from scipy.optimize import minimize
from sklearn.metrics import mean_squared_error
from scipy.stats import norm

# Veri setini yükleme
df = pd.read_csv('/kaggle/input/chronic-kidney-disease/new_model.csv')

# Özellikler ve hedef değişkeni seçme
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Eğitim ve test setlerini ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Maximum Likelihood yöntemi ile model oluşturma
def log_likelihood(params, X, y):
    a = params
    y_pred = np.dot(X, a)
    residuals = y - y_pred
    likelihood = -np.sum(norm.logpdf(residuals))
    return likelihood

def log_likelihood_gradient(params, X, y):
    a = params
    y_pred = np.dot(X, a)
    residuals = y - y_pred
    gradient = -np.dot(X.T, residuals)  # Gradient hesaplama hatası düzeltildi
    return gradient

params_init = np.random.rand(X_train.shape[1])

result_ml = minimize(log_likelihood, params_init, args=(X_train, y_train), method='BFGS', jac=log_likelihood_gradient)
params_ml = result_ml.x

# Gauss-Newton yöntemi ile model oluşturma
def gauss_newton(params, X, y):
    a = params
    y_pred = np.dot(X, a)
    residuals = y - y_pred
    jacobian = -X  # Jacobian hesaplama hatası düzeltildi
    hessian = np.dot(jacobian.T, jacobian)
    gradient = np.dot(jacobian.T, residuals)
    params_new = params - np.linalg.solve(hessian, gradient)
    return params_new

params_gn = gauss_newton(params_init, X_train, y_train)

# Model performansını değerlendirme
def evaluate_model(params, X, y):
    y_pred = np.dot(X, params)
    mse = mean_squared_error(y, y_pred)
    return mse

mse_ml = evaluate_model(params_ml, X_test, y_test)
mse_gn = evaluate_model(params_gn, X_test, y_test)

print("Maximum Likelihood MSE:", mse_ml)
print("Gauss-Newton MSE:", mse_gn)

Maximum Likelihood MSE: 0.0798591010435056
Gauss-Newton MSE: 0.07985910113886487


# Support Vector Machine

> Bir destek vektör makinesi (SVM), hem sınıflandırma hem de regresyon görevleri için kullanılabilen denetimli bir makine öğrenimi algoritmasıdır. İki sınıfın örnekleri arasındaki en büyük farkla farklı sınıfları ayırmak için bir hiper düzlem kullanır. Bu, modelin genelleme yeteneğini geliştirmeye yardımcı olur.

> SVM'nin çalışma prensibi, veri noktalarını sınıflar arasında bir hiperdüzlemle (veya düzlemle) en iyi şekilde ayırmaya çalışırken, bu hiperdüzlemi belirlerken maksimum marjinal ayırma ilkesini kullanır. Marjin, sınıflar arasındaki en yakın veri noktaları ile hiperdüzlem arasındaki mesafedir. SVM, bu marjini maksimize eden hiperdüzlemi seçer, böylece yeni veri noktaları sınıflandırılırken daha iyi genelleme yapabilir.
> 
> SVM'nin avantajları arasında yüksek boyutlu veri setleri üzerinde etkili performans, çeşitli kernel fonksiyonlarını kullanabilme esnekliği ve overfitting'e karşı direnç gibi özellikler bulunur. SVM ayrıca doğrusal olmayan veri setleri üzerinde de iyi performans gösterebilir, bunun için çeşitli kernel fonksiyonları kullanılır.
>
> SVM'nin bir diğer önemli özelliği, destek vektörleri kullanarak modeli özetlemesidir. Destek vektörleri, sınıflar arasındaki marjinal ayırıcı hiperdüzleme en yakın olan veri noktalarıdır. Bu destek vektörleri, SVM modelinin optimum hiperdüzlemi belirlemesinde kilit rol oynar.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset

In [4]:
import pandas as pd

veri = pd.read_csv("/kaggle/input/default-of-credit-card-clients-dataset/UCI_Credit_Card.csv")

print(veri.head())

from sklearn.model_selection import train_test_split

X = veri.drop("default.payment.next.month", axis=1)
y = veri["default.payment.next.month"]

X_egitim, X_test, y_egitim, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_egitim = scaler.fit_transform(X_egitim)
X_test = scaler.transform(X_test)

from sklearn.svm import SVC

svm_modeli = SVC(kernel='linear')
svm_modeli.fit(X_egitim, y_egitim)

dogruluk = svm_modeli.score(X_test, y_test)
print("Model Doğruluğu:", dogruluk)

   ID  LIMIT_BAL  SEX  EDUCATION  MARRIAGE  AGE  PAY_0  PAY_2  PAY_3  PAY_4  \
0   1    20000.0    2          2         1   24      2      2     -1     -1   
1   2   120000.0    2          2         2   26     -1      2      0      0   
2   3    90000.0    2          2         2   34      0      0      0      0   
3   4    50000.0    2          2         1   37      0      0      0      0   
4   5    50000.0    1          2         1   57     -1      0     -1      0   

   ...  BILL_AMT4  BILL_AMT5  BILL_AMT6  PAY_AMT1  PAY_AMT2  PAY_AMT3  \
0  ...        0.0        0.0        0.0       0.0     689.0       0.0   
1  ...     3272.0     3455.0     3261.0       0.0    1000.0    1000.0   
2  ...    14331.0    14948.0    15549.0    1518.0    1500.0    1000.0   
3  ...    28314.0    28959.0    29547.0    2000.0    2019.0    1200.0   
4  ...    20940.0    19146.0    19131.0    2000.0   36681.0   10000.0   

   PAY_AMT4  PAY_AMT5  PAY_AMT6  default.payment.next.month  
0       0.0       0.0   

# Random Forest

> Rastgele orman, eğitim sırasında çok sayıda karar ağacı oluşturarak ve tek tek ağaçların sınıflarının modu olan sınıfı çıkararak çalışan, topluluk denetimli bir makine öğrenimi algoritmasıdır. Verilerin büyük bir kısmı eksik olduğunda doğruluğu korur.

> Random Forest algoritması, birden fazla karar ağacının (decision tree) oluşturulmasını içerir. Her karar ağacı, rastgele örneklerle (bootstrap sampling) ve rastgele özelliklerle (feature sampling) eğitilir. Bu şekilde, her bir karar ağacı farklı bir alt küme veri ve özellik kümesi üzerinde eğitilir, bu da modele çeşitlilik katar.
> 
> Sınıflandırma problemleri için, Random Forest karar ağaçları genellikle çoğunluk oyu (majority vote) prensibiyle birleştirilir. Yani, her karar ağacının tahmin ettiği sınıf değerlerinin ortalaması alınarak final tahmin yapılır. Regresyon problemleri için ise karar ağaçlarının tahmin ettiği değerlerin ortalaması alınır.
> 
> Random Forest'ın avantajları arasında yüksek doğruluk, overfitting'e karşı direnç, farklı özellik türlerini (kategorik, sayısal) bir arada kullanabilme yeteneği ve dengesiz veri setlerinde etkili performans gösterme kabiliyeti bulunur.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

In [5]:
# Import libraries
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, confusion_matrix

# Load data

df = pd.read_csv("/kaggle/input/pima-indians-diabetes-database/diabetes.csv")

# Exploratory data analysis 
print(df.shape)
print(df.describe())

# Preprocess data
X = df.drop('Outcome', axis=1) 
y = df['Outcome']

# Train/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train model
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)

# Evaluate model 
y_pred = rf.predict(X_test)
print('Accuracy:', accuracy_score(y_test, y_pred))

(768, 9)
       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  120.894531      69.105469      20.536458   79.799479   
std       3.369578   31.972618      19.355807      15.952218  115.244002   
min       0.000000    0.000000       0.000000       0.000000    0.000000   
25%       1.000000   99.000000      62.000000       0.000000    0.000000   
50%       3.000000  117.000000      72.000000      23.000000   30.500000   
75%       6.000000  140.250000      80.000000      32.000000  127.250000   
max      17.000000  199.000000     122.000000      99.000000  846.000000   

              BMI  DiabetesPedigreeFunction         Age     Outcome  
count  768.000000                768.000000  768.000000  768.000000  
mean    31.992578                  0.471876   33.240885    0.348958  
std      7.884160                  0.331329   11.760232    0.476951  
min      0.000000         

# Neural Network

> Yapay Sinir Ağları (Neural Networks), beyin biyolojisinden ilham alarak tasarlanmış bir makine öğrenimi ve yapay zeka yöntemidir. Bir sinir ağı, nöron adı verilen basit birimlerin birbirine bağlı olduğu bir yapıdır. Her bir nöron, girdi verilerini alır, bu verileri ağırlıklarla çarparak toplar, bir aktivasyon fonksiyonuna sokar ve çıktıyı üretir.

> Yapay sinir ağları, genellikle bir girdi katmanı, bir veya daha fazla gizli katman ve bir çıktı katmanından oluşur. Katmanlar arasındaki bağlantılar, ağırlıklar olarak adlandırılan parametrelerle belirlenir. Eğitim sürecinde, sinir ağı, girdi verileriyle beslenir ve belirlenen hedef çıktıya yaklaşmak için ağırlıkları güncellemek için geriye doğru yayılım algoritması kullanır.
> 
> Yapay Sinir Ağları, geniş bir uygulama yelpazesine sahiptir ve sınıflandırma, regresyon, kümelenme, desen tanıma, doğal dil işleme ve oyun yapay zekası gibi birçok alanda kullanılırlar. Derin Öğrenme (Deep Learning) adı verilen ve çok katmanlı sinir ağlarının kullanıldığı bir alt dalıyla birlikte, özellikle büyük ve karmaşık veri setleri üzerinde başarılı sonuçlar elde edilmiştir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/cherngs/heart-disease-cleveland-uci

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from keras.models import Sequential
from keras.layers import Dense

# Load data
df = pd.read_csv('/kaggle/input/heart-disease-cleveland-uci/heart_cleveland_upload.csv')

# Exploratory data analysis
print(df.shape) 
print(df.head())

# Preprocess data
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) 
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Custom neural network implementation
model = Sequential()
model.add(Dense(units=16, activation='relu', input_dim=X_train.shape[1]))
model.add(Dense(units=8, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))
    
# Train model
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, batch_size=32, epochs=50)

# Evaluate model
loss, accuracy = model.evaluate(X_test, y_test)
print("Test Loss:", loss)
print("Test Accuracy:", accuracy)
# Model evaluation
#print(confusion_matrix(y_test, y_pred))

2024-02-04 18:01:12.321533: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-02-04 18:01:12.321633: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-02-04 18:01:12.479169: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


(297, 14)
   age  sex  cp  trestbps  chol  fbs  restecg  thalach  exang  oldpeak  slope  \
0   69    1   0       160   234    1        2      131      0      0.1      1   
1   69    0   0       140   239    0        0      151      0      1.8      0   
2   66    0   0       150   226    0        0      114      0      2.6      2   
3   65    1   0       138   282    1        2      174      0      1.4      1   
4   64    1   0       110   211    0        2      144      1      1.8      1   

   ca  thal  condition  
0   1     0          0  
1   2     0          0  
2   0     0          0  
3   1     0          1  
4   0     0          0  
Epoch 1/50


I0000 00:00:1707069685.812987      71 device_compiler.h:186] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.


Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Test Loss: 0.4673685133457184
Test Accuracy: 0.75


# Multiple Linear Regression

> Çoklu Doğrusal Regresyon (Multiple Linear Regression), bir bağımlı değişkenin birden fazla bağımsız değişken tarafından açıklanmaya çalışıldığı bir regresyon analizi yöntemidir. Çoklu doğrusal regresyon, bağımlı değişkenin tahmin edilmesinde kullanılan bağımsız değişkenlerin doğrusal bir kombinasyonunu ifade eden bir denklemi kullanır.

> Bu regresyon denklemi, bağımlı değişkenin beklenen değerini, bağımsız değişkenlerin katsayıları ve bir sabitin bir kombinasyonu olarak ifade eder.Tahminlerin doğruluğu, modelin uyumunun derecesi ve bağımsız değişkenlerin bağımlı değişken üzerindeki etkisi gibi faktörlere bağlıdır.

> MSE (Mean Squared Error), bir regresyon modelinin tahminlerinin gerçek değerlerden ne kadar uzak olduğunu ölçen bir performans metriğidir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Veri setini yükleme
df = pd.read_csv("/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-red.csv")

# Bağımlı değişken (y) ve bağımsız değişkenler (X) olarak ayırma
# Preprocess data  
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veriyi eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear regresyon modelini oluşturma ve eğitme
model = LinearRegression()
model.fit(X_train, y_train)

# Modeli test seti üzerinde değerlendirme
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

Mean Squared Error: 0.39002514396395477


# NonLinear Regression

> Nonlinear Regression, bağımlı ve bağımsız değişkenler arasındaki ilişkinin doğrusal olmadığı durumlar için kullanılan bir regresyon analiz yöntemidir. Bu yöntem, doğrusal olmayan bir modelin veriye uyarlanması için kullanılır. Genellikle, bir polinom ya da başka bir matematiksel fonksiyon kullanılarak bu ilişki modellenir. Bu yöntem, veri setindeki karmaşık ilişkileri modellemek için kullanılır ve doğrusal regresyonun yetersiz kaldığı durumlarda tercih edilir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/harrywang/wine-dataset-for-clustering

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error

# Veri setini yükleme
data = pd.read_csv("/kaggle/input/wine-dataset-for-clustering/wine-clustering.csv")

# Bağımlı değişken (y) ve bağımsız değişkenler (X) olarak ayırma
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Veriyi eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Doğrusal olmayan regresyon modelini oluşturma ve eğitme
model = SVR()
model.fit(X_train, y_train)

# Modeli test seti üzerinde değerlendirme
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Ortalama Kareler Hatası (MSE):", mse)

Ortalama Kareler Hatası (MSE): 143587.95354817758


# Decision trees

> Karar ağaçları, birçok makine öğrenimi algoritmasından biridir ve sınıflandırma ve regresyon problemlerinde kullanılır. Bir karar ağacı, bir veri kümesindeki özelliklere dayalı olarak bir dizi karar düğümü ve sonuçları olan yaprak düğümleri içeren bir ağaç yapısıdır. Karar ağaçları, veri kümesini belirli özelliklere göre bölerek ve her düğümdeki en uygun bölünmeyi seçerek veri kümesini sınıflandırmak veya regresyon yapmak için kullanılır.

> Karar ağaçları, verileri anlamak ve yorumlamak kolay olduğu için popülerdir. Ayrıca, karmaşık ilişkileri modelleyebilirler ve genellikle diğer makine öğrenimi algoritmalarından daha hızlı eğitim sürelerine sahiptirler. Karar ağaçları, sınıflandırma ve regresyon problemleri için geniş bir uygulama yelpazesine sahiptir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/heptapod/uci-ml-datasets

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

df = pd.read_csv('/kaggle/input/uci-ml-datasets/hou_all.csv')

X = df.drop('0', axis=1)
y = df['0']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Degerlendir ve Tahmin Et
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

#Dogruluk degeri dondur
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.8811881188118812
[[89  5]
 [ 7  0]]


# Naive Bayes / Bayes Teoremi

> Bayes Teoremi, bir olayın gerçekleşme olasılığını, bu olayın meydana gelmesine ilişkin kanıtlara dayanarak güncellemeyi sağlayan bir formül olarak tanımlanır.Naive Bayes, Bayes Teoremi'nin bir uygulamasıdır ve sınıflandırma problemlerinde sıklıkla kullanılır. Bu algoritma, belirli bir örneğin bir sınıfa ait olma olasılığını, özniteliklerin değerleri verildiğinde Bayes Teoremi'ni kullanarak hesaplar. Öznitelikler arasında bağımsızlık varsayımı yapar, yani öznitelikler arasındaki ilişkileri göz ardı eder

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/piyushrumao/malware-executable-detection

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics
import pandas as pd

df = pd.read_csv('/kaggle/input/malware-executable-detection/uci_malware_detection.csv')

X = df.drop('Label', axis=1)
y = df['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

#Naive Bayes Sınıflandırıcısını Başlat
gnb = GaussianNB()

gnb.fit(X_train, y_train)

y_pred = gnb.predict(X_test)
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.9866666666666667
[[64  0]
 [ 1 10]]


# Gradient Descent Algorithm

> Gradient descent (gradyan inişi), bir fonksiyonun minimumunu bulmak için kullanılan bir optimizasyon algoritmasıdır. Algoritma, mevcut konumda fonksiyonun gradyanı (türevi) ile doğrudan ters yönde hareket ederek minimuma doğru ilerler. Bu işlem, gradyan vektörünün negatifine doğru küçük adımlarla yapılır, böylece fonksiyon minimuma yaklaşır. Gradient descent, makine öğrenmesinde model parametrelerini ayarlamak için sıkça kullanılan bir optimizasyon tekniğidir.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/ritesaluja/bank-note-authentication-uci-data

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import classification_report

df = pd.read_csv('/kaggle/input/bank-note-authentication-uci-data/BankNote_Authentication.csv')

X = df.drop('class', axis=1)
y = df['class']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Gradient Descent Sınıflandırıcısını Başlat
clf = SGDClassifier(loss="hinge", penalty="l2", max_iter=5)

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.97      0.97      0.97       148
           1       0.97      0.97      0.97       127

    accuracy                           0.97       275
   macro avg       0.97      0.97      0.97       275
weighted avg       0.97      0.97      0.97       275





# Gradient Boosting Machines (GBM)

> Gradient Boosting Machines (GBM), genellikle karar ağaçlarını bir araya getirerek güçlü bir tahmin modeli oluşturan bir makine öğrenmesi tekniğidir. GBM, gradyan descent algoritmasını kullanarak ağaçları bir araya getirir. Her ağaç, önceki ağaçların hatalarını düzeltmek için eğitilir.Bu süreç, hata azaldıkça yeni ağaçlar ekleyerek devam eder.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/uciml/biomechanical-features-of-orthopedic-patients


In [12]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

df = pd.read_csv('/kaggle/input/biomechanical-features-of-orthopedic-patients/column_2C_weka.csv')

X = df.drop('class', axis=1)
y = df['class']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Gradient Boosting Classifier Başlat
gbm = GradientBoostingClassifier()

gbm.fit(X_train, y_train)

y_pred = gbm.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print('Model accuracy:', accuracy)

Model accuracy: 0.7580645161290323


# Kümeleme (K-Means, Hiyerarşik Kümeleme, Gausian Karışım Modeli)

> Kümeleme, bir veri kümesindeki benzer örnekleri gruplara ayırma işlemidir. Kümeleme algoritmaları, veri noktalarını benzerliklerine göre gruplandırmak için kullanılır ve veri setindeki doğal yapıyı tanımlamak ve keşfetmek için kullanılır.

**1. K-Means Kümeleme:**

> K-Means kümeleme, veri noktalarını belirli sayıda küme veya k-merkezine göre gruplandırır.
> Algoritma, önceden belirlenmiş k sayısında küme merkezlerini rastgele yerleştirir ve veri noktalarını bu merkezlere göre gruplandırır.
> Ardından, küme merkezleri tekrar hesaplanır ve veri noktaları bu yeni merkezlere göre yeniden gruplandırılır.
> Bu işlem, küme merkezlerinin hareket etmeyene kadar veya belirli bir iterasyon sayısına ulaşılana kadar tekrarlanır.

**2. Hiyerarşik Kümeleme:**

> Hiyerarşik kümeleme, veri noktalarını bir ağaç yapısı içinde hiyerarşik olarak gruplandırır.
> Bu algoritma, agglomeratif (birleştirici) ve bölücü (ayırıcı) olmak üzere iki temel yaklaşıma sahiptir.
> Agglomeratif yöntemde, her veri noktası bir küme olarak başlar ve en yakın iki küme birleştirilir.
> Bölücü yöntemde, tüm veri noktaları tek bir küme olarak başlar ve her adımda küme bölünür.
> Bu işlem, bir kümeleme ağacı oluşturulana kadar veya belirli bir küme sayısına ulaşılana kadar devam eder.

**3. Gauss Karışım Modeli (Gaussian Mixture Model - GMM):**

> Gauss Karışım Modeli, veri noktalarını bir veya daha fazla Gauss dağılımının bir kombinasyonu olarak modellemek için kullanılır.
> GMM, her biri bir merkez ve bir kovaryans matrisine sahip olan bir dizi Gauss dağılımından oluşur.
> GMM, veri noktalarını bu Gauss dağılımlarına göre en iyi uyacak şekilde gruplandırır.
> Bu algoritma, verinin karmaşık yapısını modellemek ve belirli bir veri setindeki farklı bileşenlerin katkısını anlamak için kullanılır.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/sansuthi/dry-bean-dataset

In [13]:
import pandas as pd
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.model_selection import train_test_split
from sklearn.metrics import silhouette_score

# Veri setini yükleme ve ön işleme
df = pd.read_csv('/kaggle/input/dry-bean-dataset/Dry_Bean.csv')

# Bağımlı değişken (y) ve bağımsız değişkenler (X) olarak ayırma
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veri setini train ve test olarak ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# K-Means Kümeleme
kmeans = KMeans(n_clusters=5) #5 parçaya ayrılır
kmeans.fit(X_train) 
kmeans_labels = kmeans.predict(X_test)
kmeans_silhouette_score = silhouette_score(X_test, kmeans_labels)

# Hiyerarşik Kümeleme
hierarchical = AgglomerativeClustering(n_clusters=5)
hierarchical_labels = hierarchical.fit_predict(X_test)
hierarchical_silhouette_score = silhouette_score(X_test, hierarchical_labels)

# Gausian Karışım Modeli
gmm = GaussianMixture(n_components=5)
gmm.fit(X_train)
gmm_labels = gmm.predict(X_test)
gmm_silhouette_score = silhouette_score(X_test, gmm_labels)

# Sonuçları değerlendirme
print("K-Means Silhouette Score:", kmeans_silhouette_score)
print("Hiyerarşik Kümeleme Silhouette Score:", hierarchical_silhouette_score)
print("Gausian Karışım Modeli Silhouette Score:", gmm_silhouette_score)



K-Means Silhouette Score: 0.5449746269258475
Hiyerarşik Kümeleme Silhouette Score: 0.5294249957531247
Gausian Karışım Modeli Silhouette Score: 0.13702610074964017


# Expectation Maximization (EM)

> Expectation Maximization (EM), denetimsiz öğrenme algoritmalarından biridir ve genellikle gizli değişkenlere sahip modellerin tahmininde kullanılır.
> EM algoritması, veri setindeki gözlemlerin bir karışımını oluşturan gizli bileşenlerin (örneğin Gauss karışım modeli) parametrelerini tahmin etmek için kullanılır.
> EM algoritması, iki ana adımdan oluşur: Beklenti (Expectation) adımı ve Maksimizasyon (Maximization) adımı.
> Beklenti adımında, veri noktaları üzerindeki gizli değişkenlerin olası değerleri hesaplanır.
> Maksimizasyon adımında, veri seti üzerindeki gözlemlerin parametreleri (örneğin, ortalama ve kovaryans matrisleri) maksimize edilir.
> Bu iki adım iteratif olarak tekrarlanır ve EM algoritması, veri setindeki gizli yapının ve bileşenlerin tahmin edilmesini sağlar.

**Kullanılan Data Set 👇**

https://www.kaggle.com/datasets/isatish/phishing-dataset-uci-ml-csv

In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.mixture import GaussianMixture
from sklearn.metrics import accuracy_score

# Veri setini yükleme ve ön işleme
df = pd.read_csv('/kaggle/input/phishing-dataset-uci-ml-csv/uci-ml-phishing-dataset.csv')
# Bağımlı değişken (y) ve bağımsız değişkenler (X) olarak ayırma
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veri setini train ve test olarak ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Expectation Maximization (EM)
em = GaussianMixture(n_components=2) # İki sınıf olduğunu varsayalım
em.fit(X_train)
em_predictions = em.predict(X_test)
em_accuracy = accuracy_score(y_test, em_predictions)

# Sonuçları değerlendirme
print("EM Accuracy:", em_accuracy)


EM Accuracy: 0.24061510628674807
