In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
import os

In [2]:
df = pd.read_csv("train.csv")
print(df.shape)
df.head()

(188533, 13)


Unnamed: 0,id,brand,model,model_year,milage,fuel_type,engine,transmission,ext_col,int_col,accident,clean_title,price
0,0,MINI,Cooper S Base,2007,213000,Gasoline,172.0HP 1.6L 4 Cylinder Engine Gasoline Fuel,A/T,Yellow,Gray,None reported,Yes,4200
1,1,Lincoln,LS V8,2002,143250,Gasoline,252.0HP 3.9L 8 Cylinder Engine Gasoline Fuel,A/T,Silver,Beige,At least 1 accident or damage reported,Yes,4999
2,2,Chevrolet,Silverado 2500 LT,2002,136731,E85 Flex Fuel,320.0HP 5.3L 8 Cylinder Engine Flex Fuel Capab...,A/T,Blue,Gray,None reported,Yes,13900
3,3,Genesis,G90 5.0 Ultimate,2017,19500,Gasoline,420.0HP 5.0L 8 Cylinder Engine Gasoline Fuel,Transmission w/Dual Shift Mode,Black,Black,None reported,Yes,45000
4,4,Mercedes-Benz,Metris Base,2021,7388,Gasoline,208.0HP 2.0L 4 Cylinder Engine Gasoline Fuel,7-Speed A/T,Black,Beige,None reported,Yes,97500


In [3]:
# Rastgele karıştır ve split et
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# İd'yi koru
train_df = train_df.sort_values(by='id').reset_index(drop=True)
test_df = test_df.sort_values(by='id').reset_index(drop=True)


In [4]:
import re

def extract_hp(val):
    if isinstance(val, str):
        match = re.search(r"(\d+\.?\d*)HP", val)
        return float(match.group(1)) if match else np.nan
    return np.nan

def extract_liter(val):
    if isinstance(val, str):
        match = re.search(r"(\d+\.?\d*)L", val)
        return float(match.group(1)) if match else np.nan
    return np.nan

for df_ in [train_df, test_df]:
    df_["horsepower"] = df_["engine"].apply(extract_hp)
    df_["engine_liter"] = df_["engine"].apply(extract_liter)


In [5]:
for df_ in [train_df, test_df]:
    df_["age"] = 2025 - df_["model_year"]


In [6]:
rename_cols = {
    "model_year": "year",
    "milage": "km",
    "ext_col": "color_ext",
    "int_col": "color_int"
}

train_df.rename(columns=rename_cols, inplace=True)
test_df.rename(columns=rename_cols, inplace=True)


In [7]:
drop_cols = ["engine"]  # motor metni artık gerekli değil, numeriklerine ayırdık
train_df.drop(columns=drop_cols, inplace=True)
test_df.drop(columns=drop_cols, inplace=True)


In [8]:
solution_df = test_df[["id", "price"]].copy()
test_df.drop(columns=["price"], inplace=True)


In [None]:
sample_submission = test_df[["id"]].copy()
sample_submission["price"] = 0  # veya örnek olarak train ortalaması


'''sample_submission.to_csv("sample_submission.csv", index=False)
train_df.to_csv("train_processed.csv", index=False)
test_df.to_csv("test_processed.csv", index=False)
solution_df.to_csv("solution.csv", index=False)
print("Train and test datasets processed and saved.")
print("Sample submission created.")
print("Solution file created.")
print("Processed train shape:", train_df.shape)
print("Processed test shape:", test_df.shape)
print("Sample submission shape:", sample_submission.shape)
print("Solution shape:", solution_df.shape)
print("Data processing complete.")'''


In [10]:
output_dir = "competition_files"
os.makedirs(output_dir, exist_ok=True)

train_df.to_csv(f"{output_dir}/train_new.csv", index=False)
test_df.to_csv(f"{output_dir}/test_new.csv", index=False)
solution_df.to_csv(f"{output_dir}/solution.csv", index=False)
sample_submission.to_csv(f"{output_dir}/sample_submission.csv", index=False)
print("Data preparation completed and files saved in:", output_dir)

Data preparation completed and files saved in: competition_files


In [14]:
'''from sklearn.metrics import root_mean_square


# test verisinde gerçek ve örnek prediction
y_true = solution_df["price"]
y_pred = sample_submission["price"]

def root_mean_squared_error(y_true, y_pred):
    return np.sqrt(root_mean_squared_error(y_true, y_pred))
# Eğer y_true ve y_pred tanımlıysa, RMSE hesapla
if 'y_true' in locals() and 'y_pred' in locals():
    rmse = root_mean_squared_error(y_true, y_pred)
    print(f"Sample RMSE: {rmse:.2f}")
# RMSE hesaplamak için gerekli fonksiyon

# y_true ve y_pred tanımlıysa:
rmse = root_mean_squared_error(y_true, y_pred)
print(f"Sample RMSE: {rmse:.2f}")

# Örnek RMSE hesaplandı, ancak gerçek test verisi ile karşılaştırma yapılmadı.
# Bu kod, verilerin hazırlanması ve örnek submission dosyalarının oluşturulması için kullanılır.
# Gerçek test verisi ile karşılaştırma yapmak için gerçek fiyatları içeren bir test setine ihtiyaç vardır.
# Bu kod, verilerin hazırlanması ve örnek submission dosyalarının oluşturulması için kullanılır.
# Gerçek test verisi ile karşılaştırma yapmak için gerçek fiyatları içeren bir test setine ihtiyaç vardır.
# Bu kod, verilerin hazırlanması ve örnek submission dosyalarının oluşturulması için kullanılır.
# Gerçek test verisi ile karşılaştırma yapmak için gerçek fiyatları içeren bir test setine ihtiyaç vardır.
# Bu kod, verilerin hazırlanması ve örnek submission dosyalarının oluşturulması için kullanılır.'''

'from sklearn.metrics import root_mean_square\n\n\n# test verisinde gerçek ve örnek prediction\ny_true = solution_df["price"]\ny_pred = sample_submission["price"]\n\ndef root_mean_squared_error(y_true, y_pred):\n    return np.sqrt(root_mean_squared_error(y_true, y_pred))\n# Eğer y_true ve y_pred tanımlıysa, RMSE hesapla\nif \'y_true\' in locals() and \'y_pred\' in locals():\n    rmse = root_mean_squared_error(y_true, y_pred)\n    print(f"Sample RMSE: {rmse:.2f}")\n# RMSE hesaplamak için gerekli fonksiyon\n\n# y_true ve y_pred tanımlıysa:\nrmse = root_mean_squared_error(y_true, y_pred)\nprint(f"Sample RMSE: {rmse:.2f}")\n\n# Örnek RMSE hesaplandı, ancak gerçek test verisi ile karşılaştırma yapılmadı.\n# Bu kod, verilerin hazırlanması ve örnek submission dosyalarının oluşturulması için kullanılır.\n# Gerçek test verisi ile karşılaştırma yapmak için gerçek fiyatları içeren bir test setine ihtiyaç vardır.\n# Bu kod, verilerin hazırlanması ve örnek submission dosyalarının oluşturulması için

In [16]:
from sklearn.metrics import root_mean_squared_error

y_true = solution_df["price"]
y_pred = sample_submission["price"]

rmse = root_mean_squared_error(y_true, y_pred)
print(f"Sample RMSE: {rmse:.2f}")
# RMSE hesaplandı, ancak gerçek test verisi ile karşılaştırma yapılmadı.

Sample RMSE: 86498.19
