# Scikit-learn Kütüphanesi Rehberi

## Scikit-learn Nedir

Scikit-learn, Python için en popüler ve güçlü makine öğrenmesi kütüphanelerinden biridir. Veri madenciliği ve veri analizi için basit ve verimli araçlar sunar. NumPy, SciPy ve Matplotlib üzerine inşa edilmiştir ve ticari kullanıma da uygun olan açık kaynaklı bir projedir.

## Neden Scikit-learn Kullanmalıyız

- **Geniş Algoritma Yelpazesi:** Sınıflandırma, regresyon, kümeleme, boyut azaltma gibi birçok denetimli ve denetimsiz öğrenme algoritmasını içerir.
- **Tutarlı Arayüz:** Tüm modeller (estimator'lar) `fit()`, `predict()`, `transform()` gibi tutarlı metotlara sahiptir. Bu da öğrenmeyi ve kullanmayı kolaylaştırır.
- **Veri Ön İşleme ve Model Seçimi:** Veriyi hazırlamak, modelleri karşılaştırmak ve parametreleri optimize etmek için zengin araçlar sunar.
- **Entegrasyon:** NumPy dizileri ve Pandas DataFrame'leri ile sorunsuz çalışır.
- **Harika Dökümantasyon:** Anlaşılır ve bol örnekli bir dökümantasyona sahiptir.

https://scikit-learn.org/stable/ adresinden detaylı bilgi alabilirsiniz.

## Kurulum

In [None]:
!pip install scikit-learn

## Temel Makine Öğrenmesi Akışı ve Örnekler

### 1. Veri Setini Yükleme ve Ayırma

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Scikit-learn'ün kendi içerisindeki örnek iris veri setini yükleyelim
iris = load_iris()
X, y = iris.data, iris.target

# Veri setini eğitim ve test setleri olarak ikiye ayıralım
# %80 eğitim, %20 test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Eğitim seti boyutu: {X_train.shape}")
print(f"Test seti boyutu: {X_test.shape}")

### 2. Denetimli Öğrenme: Sınıflandırma (Classification)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Modelimizi oluşturalım (K-En Yakın Komşu algoritması)
model = KNeighborsClassifier(n_neighbors=3)

# Modeli eğitim verisiyle eğitelim
model.fit(X_train, y_train)

# Test verisiyle tahmin yapalım
y_pred = model.predict(X_test)

# Modelin doğruluğunu ölçelim
accuracy = accuracy_score(y_test, y_pred)

print(f"Tahmin edilen ilk 5 değer: {y_pred[:5]}")
print(f"Gerçek ilk 5 değer:     {y_test[:5]}")
print(f"Model Doğruluğu: {accuracy:.2f}")

### 3. Denetimli Öğrenme: Regresyon (Regression)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# Basit bir regresyon verisi oluşturalım
X_reg = np.array([[1], [2], [3], [4], [5]])
y_reg = np.array([2, 4, 5, 4, 5])

# Lineer Regresyon modelini oluşturalım ve eğitelim
reg_model = LinearRegression()
reg_model.fit(X_reg, y_reg)

# Yeni bir veri için tahmin yapalım
yeni_veri = np.array([[6]])
tahmin = reg_model.predict(yeni_veri)

print(f"6 değeri için tahmin: {tahmin[0]:.2f}")

### 4. Denetimsiz Öğrenme: Kümeleme (Clustering)

In [None]:
from sklearn.cluster import KMeans

# Iris veri setini (X) kullanarak kümeleme yapalım
# Verinin 3 farklı türden oluştuğunu bildiğimiz için 3 küme belirtelim
kmeans_model = KMeans(n_clusters=3, random_state=42, n_init=10)

# Modeli eğitelim ve her bir verinin hangi kümeye ait olduğunu bulalım
kumeler = kmeans_model.fit_predict(X)

print(f"İlk 10 verinin küme etiketleri: {kumeler[:10]}")

### 5. Veri Ön İşleme (Preprocessing)

Modellerin daha iyi performans göstermesi için veriyi ölçeklendirmek genellikle iyi bir adımdır.

In [None]:
from sklearn.preprocessing import StandardScaler

# Ölçekleyiciyi oluşturalım
scaler = StandardScaler()

# Eğitim verisine göre ölçekleyiciyi eğitelim ve veriyi dönüştürelim
X_train_scaled = scaler.fit_transform(X_train)

# Test verisini de aynı ölçekleyici ile dönüştürelim
X_test_scaled = scaler.transform(X_test)

print("--- Orjinal Veriden İlk Satır ---")
print(X_train[0])
print("
--- Ölçeklendirilmiş Veriden İlk Satır ---")
print(X_train_scaled[0])