In [1]:
# train_model.py
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.metrics import r2_score
import joblib

# 1. Veriyi Yükle
df = pd.read_csv("Startups.csv")

# 2. Veri Hazırlığı
X = df.drop('Profit', axis=1)
y = df['Profit']

# Eğitim ve Test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Pipeline Kurulumu (Kategorik Dönüşüm + Model)
# 'State' sütunu metin olduğu için sayıya çevirmeliyiz (One-Hot Encoding)
categorical_features = ['State']
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ],
    remainder='passthrough' # Diğer sayısal sütunları (R&D, Admin, Marketing) olduğu gibi geçir
)

# Model Tanımlama (Çoklu Doğrusal Regresyon)
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

# 4. Modeli Eğitme
print("Model eğitiliyor...")
model.fit(X_train, y_train)

# 5. Değerlendirme
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)

print(f"Model Başarısı (R2 Score): {r2:.4f}")

# 6. Modeli Kaydetme
joblib.dump(model, 'profit_model.pkl')
print("Model 'profit_model.pkl' olarak kaydedildi.")

Model eğitiliyor...
Model Başarısı (R2 Score): 0.8987
Model 'profit_model.pkl' olarak kaydedildi.
