# Machine Learning with Python

* Linear regression (least squares regression)
* Logistic regression
* Linear discriminant analysis
* Decision trees
* Naive Bayes (hem sÄ±nÄ±flandÄ±rma hem de regrasyon iÃ§in) / Bayes Teoremi
* K-Nearest Neighbors (KNN)
* Expectation Maximization (EM)
* Support Vector Machines (SVM
* Random Forests
* Gradient Boosting Machines (GBM)
* Gradient descent
* Derin Ã–ÄŸrenme Modelleri (Yapay Sinir AÄŸlarÄ±)
* KÃ¼meleme (K-Means, HiyerarÅŸik KÃ¼meleme, Gausian KarÄ±ÅŸÄ±m Modeli)
* Maximum Likelihood/Gauss-Newton


# K-Nearest Neighbors

> K-En YakÄ±n KomÅŸular (KNN), hem sÄ±nÄ±flandÄ±rma hem de regresyon gÃ¶revleri iÃ§in kullanÄ±labilen basit bir denetimli makine Ã¶ÄŸrenimi algoritmasÄ±dÄ±r.Temel fikir, bir veri noktasÄ±nÄ±n tahmin edilmesinde, o noktaya en yakÄ±n komÅŸularÄ±nÄ±n etkisini kullanmaktÄ±r.

> Algoritma Ã§alÄ±ÅŸma prensibi ÅŸu adÄ±mlarÄ± izler:

* EÄŸitim veri setindeki tÃ¼m veri noktalarÄ±nÄ±n Ã¶zellik vektÃ¶rleri ve etiketleri kaydedilir.
* Bir test veri noktasÄ± verildiÄŸinde, bu noktaya en yakÄ±n k komÅŸusu bulunur.
* SÄ±nÄ±flandÄ±rma problemlerinde, bu k komÅŸunun etiketleri incelenir ve en sÄ±k tekrar eden etiket tahmin olarak verilir.
* Regresyon problemlerinde, bu k komÅŸunun etiketlerinin ortalamasÄ± tahmin olarak verilir.

> KNN algoritmasÄ±, yeni veri noktalarÄ±nÄ± tahmin etmek iÃ§in oldukÃ§a basit ve etkili bir yÃ¶ntemdir. Ancak, bÃ¼yÃ¼k veri setlerinde hesaplama yoÄŸunluÄŸu ve bellek kullanÄ±mÄ± gibi bazÄ± zorluklarla karÅŸÄ±laÅŸabilir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/uciml/iris

***AÅŸaÄŸÄ±daki Kod HazÄ±r Fonksiyon KullanÄ±lmadan YapÄ±lmÄ±ÅŸtÄ±r!***

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Ä°ris veri setini yÃ¼kleme
from sklearn.datasets import load_iris
iris = load_iris()

X = iris.data
y = iris.target

# EÄŸitim ve test setlerine ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# KNN sÄ±nÄ±fÄ±nÄ± tanÄ±mlama
class KNN:
    def __init__(self, k=3):
        self.k = k
    
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
    
    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2)**2))
    
    def predict(self, X_test):
        predictions = []
        for i in range(len(X_test)):
            distances = [self.euclidean_distance(X_test[i], x_train) for x_train in self.X_train]
            k_indices = np.argsort(distances)[:self.k]
            k_nearest_labels = [self.y_train[j] for j in k_indices]
            most_common = max(set(k_nearest_labels), key=k_nearest_labels.count)
            predictions.append(most_common)
        return predictions

# KNN modelini oluÅŸturma
knn = KNN(k=3)
knn.fit(X_train, y_train)

# Modeli test seti Ã¼zerinde deÄŸerlendirme
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 1.0


# Logistic Regression

> Lojistik regresyon, ikili baÄŸÄ±mlÄ± bir deÄŸiÅŸkeni modellemek iÃ§in lojistik bir iÅŸlev kullanan istatistiksel bir modeldir. Kategorik baÄŸÄ±mlÄ± bir deÄŸiÅŸkenin olasÄ±lÄ±ÄŸÄ±nÄ± tahmin etmek iÃ§in kullanÄ±lan denetimli bir Ã¶ÄŸrenme sÄ±nÄ±flandÄ±rma algoritmasÄ±dÄ±r.Logistic Regression, baÄŸÄ±msÄ±z deÄŸiÅŸkenlerin aÄŸÄ±rlÄ±klarÄ±nÄ± ve etkilerini kullanarak, her bir sÄ±nÄ±fÄ±n olasÄ±lÄ±ÄŸÄ±nÄ± tahmin eder. Ancak, doÄŸrudan sÄ±nÄ±flarÄ±n tahmin edilmesi yerine, bir giriÅŸin her sÄ±nÄ±fa ait olma olasÄ±lÄ±ÄŸÄ± verilir. Bu olasÄ±lÄ±klar daha sonra bir eÅŸik deÄŸeri (threshold) kullanÄ±larak sÄ±nÄ±flara dÃ¶nÃ¼ÅŸtÃ¼rÃ¼lÃ¼r.

> Logistic Regression modeli, sigmoid fonksiyonu olarak da bilinen lojistik fonksiyon kullanÄ±larak oluÅŸturulur. Bu fonksiyon, sonsuz olan bir aralÄ±ktaki giriÅŸlerin deÄŸerini 0 ile 1 arasÄ±nda bir Ã§Ä±ktÄ±ya dÃ¶nÃ¼ÅŸtÃ¼rÃ¼r, bu da olasÄ±lÄ±k olarak yorumlanabilir. Logistic Regression algoritmasÄ±, parametre tahminlerini genellikle maksimum olabilirlik tahmini (maximum likelihood estimation) yÃ¶ntemiyle elde eder. Bu, veri setinin olasÄ±lÄ±ÄŸÄ±nÄ± maksimize etmek iÃ§in model parametrelerini ayarlamayÄ± iÃ§erir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/dipayanbiswas/parkinsons-disease-speech-signal-features

***AÅŸaÄŸÄ±daki Kod HazÄ±r Fonksiyon KullanÄ±lmadan YapÄ±lmÄ±ÅŸtÄ±r!***

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Load data
df = pd.read_csv('/kaggle/input/parkinsons-disease-speech-signal-features/pd_speech_features.csv')

# Exploratory data analysis
print(df.shape)

# BaÄŸÄ±msÄ±z ve baÄŸÄ±mlÄ± deÄŸiÅŸkenleri tanÄ±mlama
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veriyi eÄŸitim ve test setlerine ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Verileri Ã¶lÃ§eklendirme
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Lojistik regresyon modeli oluÅŸturma
class LogisticRegression:
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.weights = None
        self.bias = None
    
    def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.weights = np.zeros(n_features)
        self.bias = 0
        
        for _ in range(self.n_iterations):
            model = np.dot(X, self.weights) + self.bias
            y_predicted = self.sigmoid(model)
            
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1 / n_samples) * np.sum(y_predicted - y)
            
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db
    
    def predict(self, X):
        model = np.dot(X, self.weights) + self.bias
        y_predicted = self.sigmoid(model)
        y_predicted_cls = [1 if i > 0.5 else 0 for i in y_predicted]
        return y_predicted_cls

# Modeli eÄŸitme
model = LogisticRegression(learning_rate=0.1, n_iterations=1000)
model.fit(X_train, y_train)

# Modeli deÄŸerlendirme
y_pred = model.predict(X_test)
accuracy = np.mean(y_pred == y_test)
print("Accuracy:", accuracy)


(756, 755)
Accuracy: 0.8421052631578947


# Maximum Likelihood/Gauss-Newton

> Maximum Likelihood ve Gauss-Newton, parametre tahmininde kullanÄ±lan iki farklÄ± yÃ¶ntemdir.

**1. Maximum Likelihood (MLE - Maximum Likelihood Estimation):** 

> Bu yÃ¶ntem, parametre tahminindeki bir olasÄ±lÄ±k odaklÄ± yaklaÅŸÄ±mdÄ±r. Bir model belirlendiÄŸinde, MLE, gÃ¶zlemlenen veri setinin bu modele en uygun parametre deÄŸerlerini bulmaya Ã§alÄ±ÅŸÄ±r. Bu parametreler, veri setinin olasÄ±lÄ±k daÄŸÄ±lÄ±mÄ±nÄ±n maksimum olasÄ±lÄ±ÄŸÄ±nÄ± saÄŸlamak iÃ§in tahmin edilir.

**2. Gauss-Newton:** 

> Bu yÃ¶ntem, Ã¶zellikle doÄŸrusal olmayan regresyon modellerinde kullanÄ±lan bir optimizasyon yÃ¶ntemidir. Bir tahmin modelinin parametrelerini gÃ¼ncellemek iÃ§in kullanÄ±lÄ±r. Gauss-Newton yÃ¶ntemi, hedef fonksiyonunun (genellikle ortalama kareler hatasÄ±) birinci ve ikinci tÃ¼revlerini kullanarak iteratif olarak parametreleri gÃ¼nceller. Bu yÃ¶ntem, tahmin edilen parametrelerin gerÃ§ek deÄŸerlere yakÄ±nsamasÄ±nÄ± saÄŸlamak iÃ§in kullanÄ±lÄ±r.

**AÅŸaÄŸÄ±daki Maximum Likelihood/Gauss Newton Kodunda KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/abhia1999/chronic-kidney-disease

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from scipy.optimize import minimize
from sklearn.metrics import mean_squared_error
from scipy.stats import norm

# Veri setini yÃ¼kleme
df = pd.read_csv('/kaggle/input/chronic-kidney-disease/new_model.csv')

# Ã–zellikler ve hedef deÄŸiÅŸkeni seÃ§me
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# EÄŸitim ve test setlerini ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Maximum Likelihood yÃ¶ntemi ile model oluÅŸturma
def log_likelihood(params, X, y):
    a = params
    y_pred = np.dot(X, a)
    residuals = y - y_pred
    likelihood = -np.sum(norm.logpdf(residuals))
    return likelihood

def log_likelihood_gradient(params, X, y):
    a = params
    y_pred = np.dot(X, a)
    residuals = y - y_pred
    gradient = -np.dot(X.T, residuals)  # Gradient hesaplama hatasÄ± dÃ¼zeltildi
    return gradient

params_init = np.random.rand(X_train.shape[1])

result_ml = minimize(log_likelihood, params_init, args=(X_train, y_train), method='BFGS', jac=log_likelihood_gradient)
params_ml = result_ml.x

# Gauss-Newton yÃ¶ntemi ile model oluÅŸturma
def gauss_newton(params, X, y):
    a = params
    y_pred = np.dot(X, a)
    residuals = y - y_pred
    jacobian = -X  # Jacobian hesaplama hatasÄ± dÃ¼zeltildi
    hessian = np.dot(jacobian.T, jacobian)
    gradient = np.dot(jacobian.T, residuals)
    params_new = params - np.linalg.solve(hessian, gradient)
    return params_new

params_gn = gauss_newton(params_init, X_train, y_train)

# Model performansÄ±nÄ± deÄŸerlendirme
def evaluate_model(params, X, y):
    y_pred = np.dot(X, params)
    mse = mean_squared_error(y, y_pred)
    return mse

mse_ml = evaluate_model(params_ml, X_test, y_test)
mse_gn = evaluate_model(params_gn, X_test, y_test)

print("Maximum Likelihood MSE:", mse_ml)
print("Gauss-Newton MSE:", mse_gn)

Maximum Likelihood MSE: 0.0798591010435056
Gauss-Newton MSE: 0.07985910113886487


# Support Vector Machine

> Bir destek vektÃ¶r makinesi (SVM), hem sÄ±nÄ±flandÄ±rma hem de regresyon gÃ¶revleri iÃ§in kullanÄ±labilen denetimli bir makine Ã¶ÄŸrenimi algoritmasÄ±dÄ±r. Ä°ki sÄ±nÄ±fÄ±n Ã¶rnekleri arasÄ±ndaki en bÃ¼yÃ¼k farkla farklÄ± sÄ±nÄ±flarÄ± ayÄ±rmak iÃ§in bir hiper dÃ¼zlem kullanÄ±r. Bu, modelin genelleme yeteneÄŸini geliÅŸtirmeye yardÄ±mcÄ± olur.

> SVM'nin Ã§alÄ±ÅŸma prensibi, veri noktalarÄ±nÄ± sÄ±nÄ±flar arasÄ±nda bir hiperdÃ¼zlemle (veya dÃ¼zlemle) en iyi ÅŸekilde ayÄ±rmaya Ã§alÄ±ÅŸÄ±rken, bu hiperdÃ¼zlemi belirlerken maksimum marjinal ayÄ±rma ilkesini kullanÄ±r. Marjin, sÄ±nÄ±flar arasÄ±ndaki en yakÄ±n veri noktalarÄ± ile hiperdÃ¼zlem arasÄ±ndaki mesafedir. SVM, bu marjini maksimize eden hiperdÃ¼zlemi seÃ§er, bÃ¶ylece yeni veri noktalarÄ± sÄ±nÄ±flandÄ±rÄ±lÄ±rken daha iyi genelleme yapabilir.
> 
> SVM'nin avantajlarÄ± arasÄ±nda yÃ¼ksek boyutlu veri setleri Ã¼zerinde etkili performans, Ã§eÅŸitli kernel fonksiyonlarÄ±nÄ± kullanabilme esnekliÄŸi ve overfitting'e karÅŸÄ± direnÃ§ gibi Ã¶zellikler bulunur. SVM ayrÄ±ca doÄŸrusal olmayan veri setleri Ã¼zerinde de iyi performans gÃ¶sterebilir, bunun iÃ§in Ã§eÅŸitli kernel fonksiyonlarÄ± kullanÄ±lÄ±r.
>
> SVM'nin bir diÄŸer Ã¶nemli Ã¶zelliÄŸi, destek vektÃ¶rleri kullanarak modeli Ã¶zetlemesidir. Destek vektÃ¶rleri, sÄ±nÄ±flar arasÄ±ndaki marjinal ayÄ±rÄ±cÄ± hiperdÃ¼zleme en yakÄ±n olan veri noktalarÄ±dÄ±r. Bu destek vektÃ¶rleri, SVM modelinin optimum hiperdÃ¼zlemi belirlemesinde kilit rol oynar.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset

In [4]:
import pandas as pd

veri = pd.read_csv("/kaggle/input/default-of-credit-card-clients-dataset/UCI_Credit_Card.csv")

print(veri.head())

from sklearn.model_selection import train_test_split

X = veri.drop("default.payment.next.month", axis=1)
y = veri["default.payment.next.month"]

X_egitim, X_test, y_egitim, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_egitim = scaler.fit_transform(X_egitim)
X_test = scaler.transform(X_test)

from sklearn.svm import SVC

svm_modeli = SVC(kernel='linear')
svm_modeli.fit(X_egitim, y_egitim)

dogruluk = svm_modeli.score(X_test, y_test)
print("Model DoÄŸruluÄŸu:", dogruluk)

   ID  LIMIT_BAL  SEX  EDUCATION  MARRIAGE  AGE  PAY_0  PAY_2  PAY_3  PAY_4  \
0   1    20000.0    2          2         1   24      2      2     -1     -1   
1   2   120000.0    2          2         2   26     -1      2      0      0   
2   3    90000.0    2          2         2   34      0      0      0      0   
3   4    50000.0    2          2         1   37      0      0      0      0   
4   5    50000.0    1          2         1   57     -1      0     -1      0   

   ...  BILL_AMT4  BILL_AMT5  BILL_AMT6  PAY_AMT1  PAY_AMT2  PAY_AMT3  \
0  ...        0.0        0.0        0.0       0.0     689.0       0.0   
1  ...     3272.0     3455.0     3261.0       0.0    1000.0    1000.0   
2  ...    14331.0    14948.0    15549.0    1518.0    1500.0    1000.0   
3  ...    28314.0    28959.0    29547.0    2000.0    2019.0    1200.0   
4  ...    20940.0    19146.0    19131.0    2000.0   36681.0   10000.0   

   PAY_AMT4  PAY_AMT5  PAY_AMT6  default.payment.next.month  
0       0.0       0.0   

# Random Forest

> Rastgele orman, eÄŸitim sÄ±rasÄ±nda Ã§ok sayÄ±da karar aÄŸacÄ± oluÅŸturarak ve tek tek aÄŸaÃ§larÄ±n sÄ±nÄ±flarÄ±nÄ±n modu olan sÄ±nÄ±fÄ± Ã§Ä±kararak Ã§alÄ±ÅŸan, topluluk denetimli bir makine Ã¶ÄŸrenimi algoritmasÄ±dÄ±r. Verilerin bÃ¼yÃ¼k bir kÄ±smÄ± eksik olduÄŸunda doÄŸruluÄŸu korur.

> Random Forest algoritmasÄ±, birden fazla karar aÄŸacÄ±nÄ±n (decision tree) oluÅŸturulmasÄ±nÄ± iÃ§erir. Her karar aÄŸacÄ±, rastgele Ã¶rneklerle (bootstrap sampling) ve rastgele Ã¶zelliklerle (feature sampling) eÄŸitilir. Bu ÅŸekilde, her bir karar aÄŸacÄ± farklÄ± bir alt kÃ¼me veri ve Ã¶zellik kÃ¼mesi Ã¼zerinde eÄŸitilir, bu da modele Ã§eÅŸitlilik katar.
> 
> SÄ±nÄ±flandÄ±rma problemleri iÃ§in, Random Forest karar aÄŸaÃ§larÄ± genellikle Ã§oÄŸunluk oyu (majority vote) prensibiyle birleÅŸtirilir. Yani, her karar aÄŸacÄ±nÄ±n tahmin ettiÄŸi sÄ±nÄ±f deÄŸerlerinin ortalamasÄ± alÄ±narak final tahmin yapÄ±lÄ±r. Regresyon problemleri iÃ§in ise karar aÄŸaÃ§larÄ±nÄ±n tahmin ettiÄŸi deÄŸerlerin ortalamasÄ± alÄ±nÄ±r.
> 
> Random Forest'Ä±n avantajlarÄ± arasÄ±nda yÃ¼ksek doÄŸruluk, overfitting'e karÅŸÄ± direnÃ§, farklÄ± Ã¶zellik tÃ¼rlerini (kategorik, sayÄ±sal) bir arada kullanabilme yeteneÄŸi ve dengesiz veri setlerinde etkili performans gÃ¶sterme kabiliyeti bulunur.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

In [5]:
# Import libraries
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, confusion_matrix

# Load data

df = pd.read_csv("/kaggle/input/pima-indians-diabetes-database/diabetes.csv")

# Exploratory data analysis 
print(df.shape)
print(df.describe())

# Preprocess data
X = df.drop('Outcome', axis=1) 
y = df['Outcome']

# Train/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train model
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)

# Evaluate model 
y_pred = rf.predict(X_test)
print('Accuracy:', accuracy_score(y_test, y_pred))

(768, 9)
       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  120.894531      69.105469      20.536458   79.799479   
std       3.369578   31.972618      19.355807      15.952218  115.244002   
min       0.000000    0.000000       0.000000       0.000000    0.000000   
25%       1.000000   99.000000      62.000000       0.000000    0.000000   
50%       3.000000  117.000000      72.000000      23.000000   30.500000   
75%       6.000000  140.250000      80.000000      32.000000  127.250000   
max      17.000000  199.000000     122.000000      99.000000  846.000000   

              BMI  DiabetesPedigreeFunction         Age     Outcome  
count  768.000000                768.000000  768.000000  768.000000  
mean    31.992578                  0.471876   33.240885    0.348958  
std      7.884160                  0.331329   11.760232    0.476951  
min      0.000000         

# Neural Network

> Yapay Sinir AÄŸlarÄ± (Neural Networks), beyin biyolojisinden ilham alarak tasarlanmÄ±ÅŸ bir makine Ã¶ÄŸrenimi ve yapay zeka yÃ¶ntemidir. Bir sinir aÄŸÄ±, nÃ¶ron adÄ± verilen basit birimlerin birbirine baÄŸlÄ± olduÄŸu bir yapÄ±dÄ±r. Her bir nÃ¶ron, girdi verilerini alÄ±r, bu verileri aÄŸÄ±rlÄ±klarla Ã§arparak toplar, bir aktivasyon fonksiyonuna sokar ve Ã§Ä±ktÄ±yÄ± Ã¼retir.

> Yapay sinir aÄŸlarÄ±, genellikle bir girdi katmanÄ±, bir veya daha fazla gizli katman ve bir Ã§Ä±ktÄ± katmanÄ±ndan oluÅŸur. Katmanlar arasÄ±ndaki baÄŸlantÄ±lar, aÄŸÄ±rlÄ±klar olarak adlandÄ±rÄ±lan parametrelerle belirlenir. EÄŸitim sÃ¼recinde, sinir aÄŸÄ±, girdi verileriyle beslenir ve belirlenen hedef Ã§Ä±ktÄ±ya yaklaÅŸmak iÃ§in aÄŸÄ±rlÄ±klarÄ± gÃ¼ncellemek iÃ§in geriye doÄŸru yayÄ±lÄ±m algoritmasÄ± kullanÄ±r.
> 
> Yapay Sinir AÄŸlarÄ±, geniÅŸ bir uygulama yelpazesine sahiptir ve sÄ±nÄ±flandÄ±rma, regresyon, kÃ¼melenme, desen tanÄ±ma, doÄŸal dil iÅŸleme ve oyun yapay zekasÄ± gibi birÃ§ok alanda kullanÄ±lÄ±rlar. Derin Ã–ÄŸrenme (Deep Learning) adÄ± verilen ve Ã§ok katmanlÄ± sinir aÄŸlarÄ±nÄ±n kullanÄ±ldÄ±ÄŸÄ± bir alt dalÄ±yla birlikte, Ã¶zellikle bÃ¼yÃ¼k ve karmaÅŸÄ±k veri setleri Ã¼zerinde baÅŸarÄ±lÄ± sonuÃ§lar elde edilmiÅŸtir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/cherngs/heart-disease-cleveland-uci

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from keras.models import Sequential
from keras.layers import Dense

# Load data
df = pd.read_csv('/kaggle/input/heart-disease-cleveland-uci/heart_cleveland_upload.csv')

# Exploratory data analysis
print(df.shape) 
print(df.head())

# Preprocess data
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) 
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Custom neural network implementation
model = Sequential()
model.add(Dense(units=16, activation='relu', input_dim=X_train.shape[1]))
model.add(Dense(units=8, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))
    
# Train model
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, batch_size=32, epochs=50)

# Evaluate model
loss, accuracy = model.evaluate(X_test, y_test)
print("Test Loss:", loss)
print("Test Accuracy:", accuracy)
# Model evaluation
#print(confusion_matrix(y_test, y_pred))

2024-02-04 18:01:12.321533: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-02-04 18:01:12.321633: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-02-04 18:01:12.479169: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


(297, 14)
   age  sex  cp  trestbps  chol  fbs  restecg  thalach  exang  oldpeak  slope  \
0   69    1   0       160   234    1        2      131      0      0.1      1   
1   69    0   0       140   239    0        0      151      0      1.8      0   
2   66    0   0       150   226    0        0      114      0      2.6      2   
3   65    1   0       138   282    1        2      174      0      1.4      1   
4   64    1   0       110   211    0        2      144      1      1.8      1   

   ca  thal  condition  
0   1     0          0  
1   2     0          0  
2   0     0          0  
3   1     0          1  
4   0     0          0  
Epoch 1/50


I0000 00:00:1707069685.812987      71 device_compiler.h:186] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.


Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Test Loss: 0.4673685133457184
Test Accuracy: 0.75


# Multiple Linear Regression

> Ã‡oklu DoÄŸrusal Regresyon (Multiple Linear Regression), bir baÄŸÄ±mlÄ± deÄŸiÅŸkenin birden fazla baÄŸÄ±msÄ±z deÄŸiÅŸken tarafÄ±ndan aÃ§Ä±klanmaya Ã§alÄ±ÅŸÄ±ldÄ±ÄŸÄ± bir regresyon analizi yÃ¶ntemidir. Ã‡oklu doÄŸrusal regresyon, baÄŸÄ±mlÄ± deÄŸiÅŸkenin tahmin edilmesinde kullanÄ±lan baÄŸÄ±msÄ±z deÄŸiÅŸkenlerin doÄŸrusal bir kombinasyonunu ifade eden bir denklemi kullanÄ±r.

> Bu regresyon denklemi, baÄŸÄ±mlÄ± deÄŸiÅŸkenin beklenen deÄŸerini, baÄŸÄ±msÄ±z deÄŸiÅŸkenlerin katsayÄ±larÄ± ve bir sabitin bir kombinasyonu olarak ifade eder.Tahminlerin doÄŸruluÄŸu, modelin uyumunun derecesi ve baÄŸÄ±msÄ±z deÄŸiÅŸkenlerin baÄŸÄ±mlÄ± deÄŸiÅŸken Ã¼zerindeki etkisi gibi faktÃ¶rlere baÄŸlÄ±dÄ±r.

> MSE (Mean Squared Error), bir regresyon modelinin tahminlerinin gerÃ§ek deÄŸerlerden ne kadar uzak olduÄŸunu Ã¶lÃ§en bir performans metriÄŸidir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Veri setini yÃ¼kleme
df = pd.read_csv("/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-red.csv")

# BaÄŸÄ±mlÄ± deÄŸiÅŸken (y) ve baÄŸÄ±msÄ±z deÄŸiÅŸkenler (X) olarak ayÄ±rma
# Preprocess data  
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veriyi eÄŸitim ve test setlerine ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear regresyon modelini oluÅŸturma ve eÄŸitme
model = LinearRegression()
model.fit(X_train, y_train)

# Modeli test seti Ã¼zerinde deÄŸerlendirme
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

Mean Squared Error: 0.39002514396395477


# NonLinear Regression

> Nonlinear Regression, baÄŸÄ±mlÄ± ve baÄŸÄ±msÄ±z deÄŸiÅŸkenler arasÄ±ndaki iliÅŸkinin doÄŸrusal olmadÄ±ÄŸÄ± durumlar iÃ§in kullanÄ±lan bir regresyon analiz yÃ¶ntemidir. Bu yÃ¶ntem, doÄŸrusal olmayan bir modelin veriye uyarlanmasÄ± iÃ§in kullanÄ±lÄ±r. Genellikle, bir polinom ya da baÅŸka bir matematiksel fonksiyon kullanÄ±larak bu iliÅŸki modellenir. Bu yÃ¶ntem, veri setindeki karmaÅŸÄ±k iliÅŸkileri modellemek iÃ§in kullanÄ±lÄ±r ve doÄŸrusal regresyonun yetersiz kaldÄ±ÄŸÄ± durumlarda tercih edilir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/harrywang/wine-dataset-for-clustering

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error

# Veri setini yÃ¼kleme
data = pd.read_csv("/kaggle/input/wine-dataset-for-clustering/wine-clustering.csv")

# BaÄŸÄ±mlÄ± deÄŸiÅŸken (y) ve baÄŸÄ±msÄ±z deÄŸiÅŸkenler (X) olarak ayÄ±rma
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Veriyi eÄŸitim ve test setlerine ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# DoÄŸrusal olmayan regresyon modelini oluÅŸturma ve eÄŸitme
model = SVR()
model.fit(X_train, y_train)

# Modeli test seti Ã¼zerinde deÄŸerlendirme
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Ortalama Kareler HatasÄ± (MSE):", mse)

Ortalama Kareler HatasÄ± (MSE): 143587.95354817758


# Decision trees

> Karar aÄŸaÃ§larÄ±, birÃ§ok makine Ã¶ÄŸrenimi algoritmasÄ±ndan biridir ve sÄ±nÄ±flandÄ±rma ve regresyon problemlerinde kullanÄ±lÄ±r. Bir karar aÄŸacÄ±, bir veri kÃ¼mesindeki Ã¶zelliklere dayalÄ± olarak bir dizi karar dÃ¼ÄŸÃ¼mÃ¼ ve sonuÃ§larÄ± olan yaprak dÃ¼ÄŸÃ¼mleri iÃ§eren bir aÄŸaÃ§ yapÄ±sÄ±dÄ±r. Karar aÄŸaÃ§larÄ±, veri kÃ¼mesini belirli Ã¶zelliklere gÃ¶re bÃ¶lerek ve her dÃ¼ÄŸÃ¼mdeki en uygun bÃ¶lÃ¼nmeyi seÃ§erek veri kÃ¼mesini sÄ±nÄ±flandÄ±rmak veya regresyon yapmak iÃ§in kullanÄ±lÄ±r.

> Karar aÄŸaÃ§larÄ±, verileri anlamak ve yorumlamak kolay olduÄŸu iÃ§in popÃ¼lerdir. AyrÄ±ca, karmaÅŸÄ±k iliÅŸkileri modelleyebilirler ve genellikle diÄŸer makine Ã¶ÄŸrenimi algoritmalarÄ±ndan daha hÄ±zlÄ± eÄŸitim sÃ¼relerine sahiptirler. Karar aÄŸaÃ§larÄ±, sÄ±nÄ±flandÄ±rma ve regresyon problemleri iÃ§in geniÅŸ bir uygulama yelpazesine sahiptir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/heptapod/uci-ml-datasets

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

df = pd.read_csv('/kaggle/input/uci-ml-datasets/hou_all.csv')

X = df.drop('0', axis=1)
y = df['0']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Degerlendir ve Tahmin Et
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

#Dogruluk degeri dondur
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.8811881188118812
[[89  5]
 [ 7  0]]


# Naive Bayes / Bayes Teoremi

> Bayes Teoremi, bir olayÄ±n gerÃ§ekleÅŸme olasÄ±lÄ±ÄŸÄ±nÄ±, bu olayÄ±n meydana gelmesine iliÅŸkin kanÄ±tlara dayanarak gÃ¼ncellemeyi saÄŸlayan bir formÃ¼l olarak tanÄ±mlanÄ±r.Naive Bayes, Bayes Teoremi'nin bir uygulamasÄ±dÄ±r ve sÄ±nÄ±flandÄ±rma problemlerinde sÄ±klÄ±kla kullanÄ±lÄ±r. Bu algoritma, belirli bir Ã¶rneÄŸin bir sÄ±nÄ±fa ait olma olasÄ±lÄ±ÄŸÄ±nÄ±, Ã¶zniteliklerin deÄŸerleri verildiÄŸinde Bayes Teoremi'ni kullanarak hesaplar. Ã–znitelikler arasÄ±nda baÄŸÄ±msÄ±zlÄ±k varsayÄ±mÄ± yapar, yani Ã¶znitelikler arasÄ±ndaki iliÅŸkileri gÃ¶z ardÄ± eder

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/piyushrumao/malware-executable-detection

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics
import pandas as pd

df = pd.read_csv('/kaggle/input/malware-executable-detection/uci_malware_detection.csv')

X = df.drop('Label', axis=1)
y = df['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

#Naive Bayes SÄ±nÄ±flandÄ±rÄ±cÄ±sÄ±nÄ± BaÅŸlat
gnb = GaussianNB()

gnb.fit(X_train, y_train)

y_pred = gnb.predict(X_test)
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.9866666666666667
[[64  0]
 [ 1 10]]


# Gradient Descent Algorithm

> Gradient descent (gradyan iniÅŸi), bir fonksiyonun minimumunu bulmak iÃ§in kullanÄ±lan bir optimizasyon algoritmasÄ±dÄ±r. Algoritma, mevcut konumda fonksiyonun gradyanÄ± (tÃ¼revi) ile doÄŸrudan ters yÃ¶nde hareket ederek minimuma doÄŸru ilerler. Bu iÅŸlem, gradyan vektÃ¶rÃ¼nÃ¼n negatifine doÄŸru kÃ¼Ã§Ã¼k adÄ±mlarla yapÄ±lÄ±r, bÃ¶ylece fonksiyon minimuma yaklaÅŸÄ±r. Gradient descent, makine Ã¶ÄŸrenmesinde model parametrelerini ayarlamak iÃ§in sÄ±kÃ§a kullanÄ±lan bir optimizasyon tekniÄŸidir.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/ritesaluja/bank-note-authentication-uci-data

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import classification_report

df = pd.read_csv('/kaggle/input/bank-note-authentication-uci-data/BankNote_Authentication.csv')

X = df.drop('class', axis=1)
y = df['class']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Gradient Descent SÄ±nÄ±flandÄ±rÄ±cÄ±sÄ±nÄ± BaÅŸlat
clf = SGDClassifier(loss="hinge", penalty="l2", max_iter=5)

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.97      0.97      0.97       148
           1       0.97      0.97      0.97       127

    accuracy                           0.97       275
   macro avg       0.97      0.97      0.97       275
weighted avg       0.97      0.97      0.97       275





# Gradient Boosting Machines (GBM)

> Gradient Boosting Machines (GBM), genellikle karar aÄŸaÃ§larÄ±nÄ± bir araya getirerek gÃ¼Ã§lÃ¼ bir tahmin modeli oluÅŸturan bir makine Ã¶ÄŸrenmesi tekniÄŸidir. GBM, gradyan descent algoritmasÄ±nÄ± kullanarak aÄŸaÃ§larÄ± bir araya getirir. Her aÄŸaÃ§, Ã¶nceki aÄŸaÃ§larÄ±n hatalarÄ±nÄ± dÃ¼zeltmek iÃ§in eÄŸitilir.Bu sÃ¼reÃ§, hata azaldÄ±kÃ§a yeni aÄŸaÃ§lar ekleyerek devam eder.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/uciml/biomechanical-features-of-orthopedic-patients


In [12]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

df = pd.read_csv('/kaggle/input/biomechanical-features-of-orthopedic-patients/column_2C_weka.csv')

X = df.drop('class', axis=1)
y = df['class']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Gradient Boosting Classifier BaÅŸlat
gbm = GradientBoostingClassifier()

gbm.fit(X_train, y_train)

y_pred = gbm.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print('Model accuracy:', accuracy)

Model accuracy: 0.7580645161290323


# KÃ¼meleme (K-Means, HiyerarÅŸik KÃ¼meleme, Gausian KarÄ±ÅŸÄ±m Modeli)

> KÃ¼meleme, bir veri kÃ¼mesindeki benzer Ã¶rnekleri gruplara ayÄ±rma iÅŸlemidir. KÃ¼meleme algoritmalarÄ±, veri noktalarÄ±nÄ± benzerliklerine gÃ¶re gruplandÄ±rmak iÃ§in kullanÄ±lÄ±r ve veri setindeki doÄŸal yapÄ±yÄ± tanÄ±mlamak ve keÅŸfetmek iÃ§in kullanÄ±lÄ±r.

**1. K-Means KÃ¼meleme:**

> K-Means kÃ¼meleme, veri noktalarÄ±nÄ± belirli sayÄ±da kÃ¼me veya k-merkezine gÃ¶re gruplandÄ±rÄ±r.
> Algoritma, Ã¶nceden belirlenmiÅŸ k sayÄ±sÄ±nda kÃ¼me merkezlerini rastgele yerleÅŸtirir ve veri noktalarÄ±nÄ± bu merkezlere gÃ¶re gruplandÄ±rÄ±r.
> ArdÄ±ndan, kÃ¼me merkezleri tekrar hesaplanÄ±r ve veri noktalarÄ± bu yeni merkezlere gÃ¶re yeniden gruplandÄ±rÄ±lÄ±r.
> Bu iÅŸlem, kÃ¼me merkezlerinin hareket etmeyene kadar veya belirli bir iterasyon sayÄ±sÄ±na ulaÅŸÄ±lana kadar tekrarlanÄ±r.

**2. HiyerarÅŸik KÃ¼meleme:**

> HiyerarÅŸik kÃ¼meleme, veri noktalarÄ±nÄ± bir aÄŸaÃ§ yapÄ±sÄ± iÃ§inde hiyerarÅŸik olarak gruplandÄ±rÄ±r.
> Bu algoritma, agglomeratif (birleÅŸtirici) ve bÃ¶lÃ¼cÃ¼ (ayÄ±rÄ±cÄ±) olmak Ã¼zere iki temel yaklaÅŸÄ±ma sahiptir.
> Agglomeratif yÃ¶ntemde, her veri noktasÄ± bir kÃ¼me olarak baÅŸlar ve en yakÄ±n iki kÃ¼me birleÅŸtirilir.
> BÃ¶lÃ¼cÃ¼ yÃ¶ntemde, tÃ¼m veri noktalarÄ± tek bir kÃ¼me olarak baÅŸlar ve her adÄ±mda kÃ¼me bÃ¶lÃ¼nÃ¼r.
> Bu iÅŸlem, bir kÃ¼meleme aÄŸacÄ± oluÅŸturulana kadar veya belirli bir kÃ¼me sayÄ±sÄ±na ulaÅŸÄ±lana kadar devam eder.

**3. Gauss KarÄ±ÅŸÄ±m Modeli (Gaussian Mixture Model - GMM):**

> Gauss KarÄ±ÅŸÄ±m Modeli, veri noktalarÄ±nÄ± bir veya daha fazla Gauss daÄŸÄ±lÄ±mÄ±nÄ±n bir kombinasyonu olarak modellemek iÃ§in kullanÄ±lÄ±r.
> GMM, her biri bir merkez ve bir kovaryans matrisine sahip olan bir dizi Gauss daÄŸÄ±lÄ±mÄ±ndan oluÅŸur.
> GMM, veri noktalarÄ±nÄ± bu Gauss daÄŸÄ±lÄ±mlarÄ±na gÃ¶re en iyi uyacak ÅŸekilde gruplandÄ±rÄ±r.
> Bu algoritma, verinin karmaÅŸÄ±k yapÄ±sÄ±nÄ± modellemek ve belirli bir veri setindeki farklÄ± bileÅŸenlerin katkÄ±sÄ±nÄ± anlamak iÃ§in kullanÄ±lÄ±r.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/sansuthi/dry-bean-dataset

In [13]:
import pandas as pd
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.model_selection import train_test_split
from sklearn.metrics import silhouette_score

# Veri setini yÃ¼kleme ve Ã¶n iÅŸleme
df = pd.read_csv('/kaggle/input/dry-bean-dataset/Dry_Bean.csv')

# BaÄŸÄ±mlÄ± deÄŸiÅŸken (y) ve baÄŸÄ±msÄ±z deÄŸiÅŸkenler (X) olarak ayÄ±rma
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veri setini train ve test olarak ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# K-Means KÃ¼meleme
kmeans = KMeans(n_clusters=5) #5 parÃ§aya ayrÄ±lÄ±r
kmeans.fit(X_train) 
kmeans_labels = kmeans.predict(X_test)
kmeans_silhouette_score = silhouette_score(X_test, kmeans_labels)

# HiyerarÅŸik KÃ¼meleme
hierarchical = AgglomerativeClustering(n_clusters=5)
hierarchical_labels = hierarchical.fit_predict(X_test)
hierarchical_silhouette_score = silhouette_score(X_test, hierarchical_labels)

# Gausian KarÄ±ÅŸÄ±m Modeli
gmm = GaussianMixture(n_components=5)
gmm.fit(X_train)
gmm_labels = gmm.predict(X_test)
gmm_silhouette_score = silhouette_score(X_test, gmm_labels)

# SonuÃ§larÄ± deÄŸerlendirme
print("K-Means Silhouette Score:", kmeans_silhouette_score)
print("HiyerarÅŸik KÃ¼meleme Silhouette Score:", hierarchical_silhouette_score)
print("Gausian KarÄ±ÅŸÄ±m Modeli Silhouette Score:", gmm_silhouette_score)



K-Means Silhouette Score: 0.5449746269258475
HiyerarÅŸik KÃ¼meleme Silhouette Score: 0.5294249957531247
Gausian KarÄ±ÅŸÄ±m Modeli Silhouette Score: 0.13702610074964017


# Expectation Maximization (EM)

> Expectation Maximization (EM), denetimsiz Ã¶ÄŸrenme algoritmalarÄ±ndan biridir ve genellikle gizli deÄŸiÅŸkenlere sahip modellerin tahmininde kullanÄ±lÄ±r.
> EM algoritmasÄ±, veri setindeki gÃ¶zlemlerin bir karÄ±ÅŸÄ±mÄ±nÄ± oluÅŸturan gizli bileÅŸenlerin (Ã¶rneÄŸin Gauss karÄ±ÅŸÄ±m modeli) parametrelerini tahmin etmek iÃ§in kullanÄ±lÄ±r.
> EM algoritmasÄ±, iki ana adÄ±mdan oluÅŸur: Beklenti (Expectation) adÄ±mÄ± ve Maksimizasyon (Maximization) adÄ±mÄ±.
> Beklenti adÄ±mÄ±nda, veri noktalarÄ± Ã¼zerindeki gizli deÄŸiÅŸkenlerin olasÄ± deÄŸerleri hesaplanÄ±r.
> Maksimizasyon adÄ±mÄ±nda, veri seti Ã¼zerindeki gÃ¶zlemlerin parametreleri (Ã¶rneÄŸin, ortalama ve kovaryans matrisleri) maksimize edilir.
> Bu iki adÄ±m iteratif olarak tekrarlanÄ±r ve EM algoritmasÄ±, veri setindeki gizli yapÄ±nÄ±n ve bileÅŸenlerin tahmin edilmesini saÄŸlar.

**KullanÄ±lan Data Set ðŸ‘‡**

https://www.kaggle.com/datasets/isatish/phishing-dataset-uci-ml-csv

In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.mixture import GaussianMixture
from sklearn.metrics import accuracy_score

# Veri setini yÃ¼kleme ve Ã¶n iÅŸleme
df = pd.read_csv('/kaggle/input/phishing-dataset-uci-ml-csv/uci-ml-phishing-dataset.csv')
# BaÄŸÄ±mlÄ± deÄŸiÅŸken (y) ve baÄŸÄ±msÄ±z deÄŸiÅŸkenler (X) olarak ayÄ±rma
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Veri setini train ve test olarak ayÄ±rma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Expectation Maximization (EM)
em = GaussianMixture(n_components=2) # Ä°ki sÄ±nÄ±f olduÄŸunu varsayalÄ±m
em.fit(X_train)
em_predictions = em.predict(X_test)
em_accuracy = accuracy_score(y_test, em_predictions)

# SonuÃ§larÄ± deÄŸerlendirme
print("EM Accuracy:", em_accuracy)


EM Accuracy: 0.24061510628674807
