In [None]:
# 1.Kütüphanelerin Yüklenmesi

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk

#pandas: Veri manipülasyonu ve analizi için kullanılır.
#matplotlib.pyplot: Statik, etkileşimli ve animasyonlu görselleştirmeler oluşturmak için kullanılır.
#seaborn: Çekici istatistiksel grafikler çizmek için yüksek seviyeli bir arayüz sağlar.
#sklearn: Python için bir makine öğrenimi kütüphanesidir.

# 2. Verilerin Yüklenmesi ve İncelenmesi

df = pd.read_csv ('/content/archive.zip')
print(df.head())
print(df.info())
print(df.describe())
print(df.isnull().sum())

#pd.read_csv(): CSV dosyasını bir DataFrame'e okur.
#df.head(): DataFrame'in ilk 5 satırını gösterir.
#df.info(): DataFrame'in özetini, veri türlerini ve boş değer sayısını sağlar.
#df.describe(): Betimleyici istatistikleri üretir.
#df.isnull().sum(): Her sütundaki eksik değerleri kontrol eder.

# 3. Verilerin Görselleştirilmesi

sns.pairplot(df)
plt.show()

#sns.pairplot(): DataFrame'deki her özellik çiftinin arasındaki ilişkileri görselleştiren bir çizim ızgarası oluşturur.

# 4. Veri Temizleme

df = df.dropna()
#df.dropna(): Eksik değere sahip satırları kaldırır.

#5. Kategorik Değerlerin Kodlanması

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['Gender'] = le.fit_transform(df['Gender'])

#LabelEncoder(): Kategorik etiketleri sayısal değerlere dönüştürür.
#le.fit_transform(): Etiket kodlayıcıyı fit eder ve veriyi dönüştürür.

# 6. Verilerin Eğitim ve Test Setlerine Bölünmesi

from sklearn.model_selection import train_test_split
x = df.drop('Index', axis=1)
y = df['Index']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

#train_test_split(): Veriyi eğitim ve test setlerine böler.
#x ve y: Özellikler ve hedef değişkeni.
#test_size=0.2: Verinin %20'si test için kullanılır.
#random_state=42: Bölünmenin tekrar edilebilirliğini sağlar.


# 7. Lojistik Regresyon Modelinin Eğitilmesi
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)

#LogisticRegression(): Lojistik regresyon modelini başlatır.
#model.fit(): Modeli eğitim verisi üzerinde eğitir.
#model.predict(): Test verisi üzerinde hedef değişkenini tahmin eder.

# 8. Modelin Değerlendirilmesi

from sklearn.metrics import accuracy_score, confusion_matrix

accuracy = accuracy_score(y_test, y_pred)
print(f'Doğruluk: {accuracy}')

cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True)
plt.show()

#accuracy_score(): Modelin doğruluğunu hesaplar.
#confusion_matrix(): Sınıflandırmanın performansını değerlendirmek için bir karışıklık matrisini oluşturur.
#sns.heatmap(): Karışıklık matrisini görselleştirir.

# 9. K-Means Kümeleme

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3)
kmeans.fit(x_train)

y_kmeans = kmeans.predict(x_test)


plt.scatter(x_test.iloc[:, 0], x_test.iloc[:,1], c=y_kmeans, cmap='rainbow')
plt.show()


from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))


centers = kmeans.cluster_centers_
print(centers)

#KMeans(): K-Means kümeleme modelini başlatır.
#kmeans.fit(): Modeli eğitim verisi üzerinde eğitir.
#kmeans.predict(): Test verisi üzerinde kümeleri tahmin eder.
#plt.scatter(): Test verisi üzerinde kümeleri görselleştirir.
#classification_report(): Modelin sınıflandırma performansını özetler.
#kmeans.cluster_centers_: Kümelerin merkezlerini yazdırır.






   step      type    amount     nameOrig  oldbalanceOrg  newbalanceOrig  \
0     1   PAYMENT   9839.64  C1231006815       170136.0       160296.36   
1     1   PAYMENT   1864.28  C1666544295        21249.0        19384.72   
2     1  TRANSFER    181.00  C1305486145          181.0            0.00   
3     1  CASH_OUT    181.00   C840083671          181.0            0.00   
4     1   PAYMENT  11668.14  C2048537720        41554.0        29885.86   

      nameDest  oldbalanceDest  newbalanceDest  isFraud  isFlaggedFraud  
0  M1979787155             0.0             0.0        0               0  
1  M2044282225             0.0             0.0        0               0  
2   C553264065             0.0             0.0        1               0  
3    C38997010         21182.0             0.0        1               0  
4  M1230701703             0.0             0.0        0               0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6362620 entries, 0 to 6362619
Data columns (total 11 co