# 🧠 Veri Bilimi Nedir?

## Tanım: Sayıların Anlamlı Olduğu Yer

Veri bilimi, iş problemini anlamak ve çözüme gitmek için veriyi inceleyen, analiz eden ve anlamlı öngörüler elde etmeye çalışan disiplinler arası bir bilimdir.

> “Veri bilimi, verinin anlam kazandığı bilim dalıdır.  

## Temel Yapıları: Üç Kolon Üzerinden Düşünmek

Veri bilimi üç temel alana dayanır:

| Alan | Rolü |
|------|------|
| **İstatistik & Olasılık** | Veriyi nasıl okuyacağını gösterir |
| **Bilgisayar Bilimi** | Veriyi işlemek ve modellemek için gerekli araçlardır |
| **Alan Bilgisi (Domain Knowledge)** | İş problemine göre şekillenen bağlamdır |

📌 Bu üç kolon, aynı anda güçlü olduğunda → veri bilimi süreçleri güzel işler.

## Veri Biliminin Amacı: Ne Yapmaya Çalışıyoruz?

Veri bilimiyle yapmak istediğimiz şey şudur:

- **Veriyi toplamak**
- **Temizlemek ve dönüştürmek**
- **Anlamak ve görselleştirmek**
- **Model kurmak ve tahmin üretmek**
- **Karar desteklemek**

> “Amaç, sadece veriyi anlamak değil, onu eyleme dönüştürmektir.”  

## 📊 Veri Bilimi Süreci: Adım Adım Yaklaşım

### 1. **Veri Toplama**
Veriyi nereden alıyorsun?  
Databaseden mi, API’den mi, CSV’den mi?

In [36]:
#pyhon ile sample data oluşturma

import pandas as pd
import random
from datetime import datetime, timedelta


# satis_verisi.csv'i oluştur

# Rastgele tarih üretimi
def rastgele_tarih(baslangic_yili=2023, bitis_yili=2024): # 2023 ve 2024 arasında rastgele tarih üretir
    start = datetime(baslangic_yili, 1, 1) # 2023 yılının başlangıcı
    end = datetime(bitis_yili, 12, 31) # 2024 yılının sonu
    return start + timedelta(days=random.randint(0, (end - start).days))  # days = (end - start).days aralığındaki rastgele gün sayısı

# Veri üretimi
data = {
    "Tarih": [rastgele_tarih().strftime('%Y-%m-%d') for _ in range(100)], # rastgele tarih üretimi
    "UrunID": [f"Ürün_{random.randint(1,5)}" for _ in range(100)],          # Ürün ID'si
    "Fiyat": [round(random.uniform(50, 500), 2) for _ in range(100)],  # 50-500 arası fiyat
    "SatisAdedi": [random.randint(1, 20) for _ in range(100)],         # 1-20 arası satış adedi
    "Kategori": [random.choice(["Elektronik", "Giyim", "Ev Eşyası"]) for _ in range(100)], # rastgele kategori
    "Sehir": [random.choice(["İstanbul", "Ankara", "İzmir", "Bursa"]) for _ in range(100)] # rastgele şehir
}

df_satis = pd.DataFrame(data)

# CSV olarak kaydet
df_satis.to_csv("data/satis_verisi.csv", index=False)
print("✅ satis_verisi.csv oluşturuldu.")





# ornek_satis.csv'yi oluştur

# Basit regresyon modeline uygun veri üretimi
import numpy as np

np.random.seed(42) # rastgele sayı üretimini sabitleme
fiyatlar = np.random.uniform(50, 500, 100)  # fiyatlar rastgele üretiliyor
satis_miktari = 200 - 0.3 * fiyatlar + np.random.normal(0, 10, 100)  # negatif ilişki

# DataFrame oluştur
df_ornek_satis = pd.DataFrame({
    "fiyat": fiyatlar,
    "satis": satis_miktari
})

# Yuvarlama ekleyelim
df_ornek_satis["fiyat"] = df_ornek_satis["fiyat"].round(2)
df_ornek_satis["satis"] = df_ornek_satis["satis"].round(0).astype(int)

# Kaydet
df_ornek_satis.to_csv("data/ornek_satis.csv", index=False)
print("✅ ornek_satis.csv oluşturuldu.")


✅ satis_verisi.csv oluşturuldu.
✅ ornek_satis.csv oluşturuldu.


In [37]:
import pandas as pd

# Örnek veri yükleme
df = pd.read_csv("data/satis_verisi.csv")
print("Toplanan veri satır sayısı:", len(df))

Toplanan veri satır sayısı: 100


### 2. **Veri Ön İşleme**
Veri hep temiz gelmez.  
Kayıp değerleri doldurmak, aykırı değerleri elemek,  
verileri ölçeklendirmek gerekebilir.



In [38]:
# Kayıp değer kontrolü
print("Kayıp değerler:\n", df.isnull().sum())

# Ortalama ile doldurma
#df.fillna(df.mean(), inplace=True)

Kayıp değerler:
 Tarih         0
UrunID        0
Fiyat         0
SatisAdedi    0
Kategori      0
Sehir         0
dtype: int64


### 3. **Keşifsel Veri Analizi (EDA)**
Veriyi tanımak için ilk adım budur.

In [39]:
# Temel istatistiksel özet
print("\nİstatistiksel Özeti:")
print(df.describe())


İstatistiksel Özeti:
            Fiyat  SatisAdedi
count  100.000000  100.000000
mean   277.026200    9.320000
std    133.031241    5.557559
min     51.820000    1.000000
25%    161.825000    4.000000
50%    276.945000    9.500000
75%    384.412500   14.000000
max    497.600000   20.000000


### 4. **Özellik Mühendisliği**
Ham veriyi modelleme için kullanılır hale getirmek.

- Kategorik değişkenleri dönüştürmek  
- Yeni değişkenler türetmek  
- Veriyi ölçeklendirmek  

In [40]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df[['SatisAdedi', 'Fiyat']])

### 5. **Model Kurma & Tahmin Etme**
Burada makine öğrenmesi devreye girer.


In [41]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()  # Doğrusal regresyon modeli
X = df[['Fiyat']]  # Bağımsız değişken
y = df['SatisAdedi'] # Bağımlı değişken

model.fit(X, y)  # Modeli eğitmek için veri kullanılır
tahmin = model.predict([[80]])  # Fiyat 80 olan bir durumda t
print(f"Tahmin edilen satış miktarı: {tahmin[0]:.2f}")  # Tahmin edilen satış miktarı




# not: Eğitim verisinde feature_names kullanılmadıysa (NumPy array gibi), bu uyarıyı görmezden gelebilirsiniz çünkü teknik olarak bir sorun oluşturmaz. Tahminler doğru çalışacaktır.


Tahmin edilen satış miktarı: 10.04




In [42]:
from sklearn.linear_model import LinearRegression
import pandas as pd

# Modeli oluştur ve eğit
model = LinearRegression()
X = df[['Fiyat']]  # Bağımsız değişken (DataFrame)
y = df['SatisAdedi']  # Bağımlı değişken (Series)

model.fit(X, y)  # Modeli eğit

# Tahmin yaparken DataFrame kullan
yeni_veri = pd.DataFrame({'Fiyat': [80]})  # DataFrame oluştur
tahmin = model.predict(yeni_veri)  # Tahmin yap

print(f"Tahmin edilen satış miktarı: {tahmin[0]:.2f}")

Tahmin edilen satış miktarı: 10.04


### 6. **Değerlendirme ve Yorumlama**
Model doğru mu çalışıyor?  
Hata payı nedir?  
İş dünyasına ne anlatıyor?

In [43]:
from sklearn.metrics import mean_squared_error

hata = mean_squared_error(y, model.predict(X))
print(f"Ortalama kare hatası: {hata:.2f}")

Ortalama kare hatası: 30.34


### 7. **Sunum ve Eyleme Dönüştürme**
Sonuçlar, teknik olmaktan çıkarılıp  
**karar vericilere sunulur.**

📌 Bu adımda grafikler, tablolar, dashboard'lar  
ve akılda kalıcı raporlarla anlatım yapılır.

## 🔍 Gerçek Hayatta Ne Zaman Kullanılır?

| Sektör | Uygulama |
|--------|-----------|
| **E-ticaret** | Müşteri segmentasyonu, ürün önerisi |
| **Finans** | Risk skoru, dolandırıcılık tespiti |
| **Sağlık** | Hastalık teşhisi, risk faktörü analizi |
| **Üretim** | Kalite kontrolü, süreç optimizasyonu |
| **Mobilite** | Trafik tahmini, yolcu yoğunluğu |

📌 Her sektöre göre farklı veri yapıları, farklı modeller,  
ama aynı temel prensip:  
**“Veriden anlamlı bilgiye geç.”**

## ⚙️ Neden İstatistik Gerekli?

Veriyi sadece toplamak yetmez.  
Onu anlamak için şu sorulara yanıt bulmalısın:

- Ortalama nedir?
- Dağılım nasıldır?
- Aykırı değer var mı?
- Değişkenler arasında ilişki var mı?
- Hangi değişken daha güçlü?

📌 Bunları bilmeden model kurmak,  
**gözler kapalı harita çizmeye benzer.**

## 💻 Neden Programlama Becerisi Gerekli?

Çünkü veri büyük ve dinamiktir.  
Elle işlem yapmak zaman kaybedilir.  
Ve zaman, günümüzde en değerli kaynaklardan biridir.

Python, R, SQL, Spark gibi araçlarla  
veriyi hızlıca toplayabilir, işleyebilir, görselleştirebilirsin.

## 🤖 Veri Bilimi vs. Yapay Zeka

| Konu | Veri Bilimi | Yapay Zeka |
|------|-------------|------------|
| **Amacı** | Anlam çıkarmak | Karar vermek |
| **Yöntem** | İstatistik + Görselleştirme | Derin öğrenme, sinir ağları |
| **Model Türü** | Regresyon, kümeleme | CNN, RNN, Transformer |
| **Giriş-Çıkış** | Tablo verisi → tahmin | Görüntü/metin → sınıflandırma |

📌 Veri bilimi, yapay zekadan önce gelen adımdır.  
İyi bir model, iyi bir veri bilimi süreciyle beslenir.

## 🎯 Veri Bilimcisinin Rolü

Veri bilimcisi kimdir?

- Soru soran kişidir.
- Yanıtları veride arayan kişidir.
- Veriyi anlamlandıran kişidir.
- Modeli geliştiren kişidir.
- Sonuçları paylaşan kişidir.

> Veri bilimcisi, sayılardan hikâyeler yazan yazar gibidir.  

🛠️ Basit Bir Veri Bilimi Akışı: Kodla Gösterelim

In [44]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 1. Veri Toplama
df = pd.read_csv("data/ornek_satis.csv")

# 2. Veri Ön İşleme
df.dropna(inplace=True)

# 3. Keşifsel Analiz
print("Veri özeti:\n", df.describe())

# 4. Özellik Seçimi
X = df[['fiyat']]
y = df['satis']

# 5. Model Kurulumu
model = LinearRegression()
model.fit(X, y)

# 6. Tahmin ve Hata
tahmin = model.predict(X)
mse = mean_squared_error(y, tahmin)
print(f"Model Hatası (MSE): {mse:.2f}")

# 7. Sonuç Yorumlama
print("Model Eğimi:", model.coef_)

Veri özeti:
             fiyat       satis
count  100.000000  100.000000
mean   261.580900  121.520000
std    133.870366   42.503828
min     52.480000   35.000000
25%    136.937500   85.500000
50%    258.865000  124.000000
75%    378.590000  161.000000
max    494.100000  196.000000
Model Hatası (MSE): 81.33
Model Eğimi: [-0.31019665]


## 📘 Veri Bilimi Neden Önemli?

| Sebep | Açıklama |
|--------|----------|
| ✅ Stratejik kararlar alınabilir | Satış tahmini, müşteri davranışları |
| ✅ Otomasyon sağlanabilir | Manuel işlemler yerine otomatik sistemler |
| ✅ Gelecek hakkında tahmin yapılabilir | Zaman serisi, regresyon, sınıflandırma |
| ✅ Veri odaklı çalışma kültürünü geliştirir | Sezgi yerine sayılar konuşur |

📌 Günümüzde her sektör veriye dayalı karar almayı tercih ediyor.  
Veri bilimi de bu sürecin omurgasıdır.

## 🚀 Veri Bilimi Kariyeri: Kimler İçinde?

Veri bilimi, tek bir rol değil; birçok rolden oluşur:

| Rol | Açıklama |
|-----|---------|
| **Veri Bilimcisi** | Model kurar, tahmin yapar |
| **Veri Mühendisi** | Veriyi toplar, saklar, aktarır |
| **Analiz Uzmanı** | Veriyi okur, yorumlar |
| **ML Mühendisi** | Modelleri üretim ortamına taşır |
| **Veri Yöneticisi / Yönetmeni** | Süreci yönetir, strateji belirler |

📌 Kariyer yolu, genellikle istatistik,  
programlama ve iş bilgisiyle başlar.  
İleri düzeyde ise matematiksel modelleme ve mühendislik bilgisiyle devam eder.

## 🧩 Veri Bilimi ve Makine Öğrenmesi Arasındaki Bağ

| Veri Bilimi | Makine Öğrenmesi |
|-------------|------------------|
| Geniş çaplı yaklaşımdır | Belirli bir alt kümesidir |
| Problemle başlar | Algoritmayla başlar |
| Görselleştirme, raporlama da içerir | Modelleme ağırlıklıdır |

📌 Makine öğrenmesi, veri bilimi sürecinin yalnızca bir parçasıdır.  

## 💬 Son Söz: Veri Bilimi Nedir?

> “Veri bilimi, veriyi anlamlandırmak ve ondan bilgi üretmek için yapılan sistematik çalışmadır.”