# Sentetik Veri Oluşturma ve Kaydetme

Bu notebook hücresi, **auto_mpg_extended.csv** adında yeni bir sentetik veri kümesi oluşturur. Veri,
orijinal auto-mpg.data ile **aynı sütun yapısına** (9 sütun: mpg, cylinders, displacement, horsepower, weight, acceleration, model_year, origin, car_name) sahiptir,
ancak **daha büyük** (N=2000 satır) ve rastgele oluşturulmuş değerler taşır.

Ardından, oluşturduğu dosyayı **boşluk ayracı**, **header olmadan** kaydederek auto-mpg tarzını korur,
ve Google Drive’a yükler. Sonrasında 2_veri_hazirlama.py veya benzeri kodlarla **bire bir** aynı ön işleme adımlarını uygulayabilirsiniz.


In [1]:
import numpy as np
import pandas as pd
import random

# 1) Google Drive'ı mount et
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# ---------------------------------------------------------
# 2) SENTETİK VERİ OLUŞTUR
# ---------------------------------------------------------

# Rastgele üretim tekrarlanabilir olsun diye seed
np.random.seed(42)
random.seed(42)

# KAYIT SAYISI (dilediğin kadar artırabilirsin, burada 2000)
N = 2000

# 1) mpg: 8–48 arası
mpg_vals = np.round(np.random.uniform(8, 48, N), 1)

# 2) cylinders: 3,4,4,4,5,6,6,8,8 (rastgele)
possible_cyl = [3,4,4,4,5,6,6,8,8]
cylinders_vals = [random.choice(possible_cyl) for _ in range(N)]

# 3) displacement: 70–450
displacement_vals = np.round(np.random.uniform(70, 450, N), 1)

# 4) horsepower: 46–230, bazen “?”
horsepower_real = np.round(np.random.uniform(46, 230, N))
horsepower_vals = []
for hp in horsepower_real:
    # Yaklaşık %5 satırda “?” olsun
    if random.random() < 0.05:
        horsepower_vals.append("?")
    else:
        horsepower_vals.append(str(int(hp)))

# 5) weight: 1500–5500
weight_vals = np.round(np.random.uniform(1500, 5500, N))

# 6) acceleration: 8.0–24.0
accel_vals = np.round(np.random.uniform(8.0, 24.0, N), 1)

# 7) model_year: 70–82
model_year_vals = np.random.randint(70, 83, N)

# 8) origin: 1–3
origin_vals = np.random.randint(1, 4, N)

# 9) car_name: rastgele marka_model
brands = ["ford","chevy","toyota","honda","mazda","plymouth","buick","vw","dodge"]
models = ["civic","camaro","corolla","mustang","beetle","maverick","accord","crown","valiant"]
car_name_vals = [random.choice(brands) + "_" + random.choice(models) for _ in range(N)]

# Tüm satırları listede topla
records = []
for i in range(N):
    row = [
        mpg_vals[i],
        cylinders_vals[i],
        displacement_vals[i],
        horsepower_vals[i],
        weight_vals[i],
        accel_vals[i],
        model_year_vals[i],
        origin_vals[i],
        car_name_vals[i]
    ]
    records.append(row)

# DataFrame oluştur
cols = ["mpg","cylinders","displacement","horsepower","weight","acceleration","model_year","origin","car_name"]
df = pd.DataFrame(records, columns=cols)

# ---------------------------------------------------------
# 3) KAYDETME AŞAMALARI
# ---------------------------------------------------------

# (A) Boşluk ayracı, header olmadan KAYDET (ÇALIŞMA DİZİNİNE)
df.to_csv("auto_mpg_extended.csv", sep=" ", header=False, index=False)
print("Yapay veri seti 'auto_mpg_extended.csv' oluşturuldu!")
print(df.head(10))  # ilk 10 satırı göster

# (B) Google Drive’a da kaydet
df.to_csv("/content/drive/MyDrive/Colab Notebooks/auto_mpg_extended.csv",
          sep=" ",
          header=False,
          index=False)
print("Google Drive'a da 'auto_mpg_extended.csv' kaydedildi!")

Mounted at /content/drive
Yapay veri seti 'auto_mpg_extended.csv' oluşturuldu!
    mpg  cylinders  displacement horsepower  weight  acceleration  model_year  \
0  23.0          4         169.4        151  4093.0          19.5          76   
1  46.0          3         163.9        194  2190.0          19.0          73   
2  37.3          5         414.4        186  4990.0           9.5          71   
3  31.9          4         164.8         74  3952.0          22.8          74   
4  14.2          4         173.3         73  2129.0          17.1          80   
5  14.2          4         358.6         95  5349.0          13.8          80   
6  10.3          4         240.9        112  3573.0          20.1          72   
7  42.6          8         365.2        121  1792.0          12.1          78   
8  32.0          4          94.8        171  4007.0          19.1          75   
9  36.3          6         255.3         56  2513.0           8.6          70   

   origin        car_name  
0