Adınız: Muhammed Mert  
Soyadınız: Sayan  
Okul Numaranız: 2212721028  
GitHub Repo Bağlantısı: https://github.com/MertSayan/MLP_Flask_Salary

# -------------------------------------------------------------
# VERİ SETİ AÇIKLAMASI (Salary Dataset - Türkiye, 2025)
# -------------------------------------------------------------
# Bu proje kapsamında Türkiye'de 2025 yılı IT sektörüne göre
# maaş tahmini yapan bir regresyon modeli geliştirilmiştir.
#
# Veri setindeki sütunlar:
#
# 1) YearsExperience (float)
#    - Çalışanın toplam iş tecrübesi (yıl).
#    - Maaşı en doğrudan etkileyen değişkenlerden biridir.
#
# 2) Age (int)
#    - Çalışanın yaşı.
#    - Yaş tek başına maaşı belirlemez fakat tecrübeyle ilişkili olabilir.
#
# 3) NumProjects (int)
#    - Kişinin tamamladığı toplam proje sayısı.
#    - Proje sayısı arttıkça deneyim ve maaş düzeyi genelde artar.
#
# 4) ProgrammingLangCount (int)
#    - Bildiği programlama dili sayısı.
#    - Daha çok dil bilen kişiler iş piyasasında daha değerli görülür.
#
# 5) RemoteWork (0/1)
#    - 0 → Ofis
#    - 1 → Remote
#    - 2025 Türkiye şartlarında remote çalışanlar genelde daha yüksek maaş alabilmektedir.
#
# 6) Certifications (int)
#    - Sahip olunan profesyonel sertifika sayısı (AWS, Azure, Scrum vb.)
#    - Sertifikalar maaş üzerinde pozitif bir etkiye sahiptir.
#
# 7) Salary (int) [TARGET]
#    - Çalışanın aylık net maaşıdır (TL).
#    - Modelin tahmin etmeye çalıştığı bağımlı değişkendir.
#
# 8) EducationLevel (categorical)
#    - Lisans / Yüksek Lisans / Doktora
#    - Eğitim seviyesi arttıkça maaş artma eğilimi vardır.
#
# 9) CityLevel (categorical)
#    - 1.Seviye → İstanbul, Ankara, İzmir
#    - 2.Seviye → Büyük şehirler
#    - 3.Seviye → Orta seviye şehirler
#    - Büyük şehirlerde maaşlar genel olarak daha yüksektir.
#
# Encoding sonrası oluşan sütunlar:
# Eğitim ve şehir seviyeleri One-Hot Encoding ile 0/1 formatına dönüştürülmüştür.
# drop_first=True kullanılarak Dummy Variable Trap engellenmiştir.
#
# -------------------------------------------------------------
# NEDEN ONE-HOT ENCODING KULLANILDI?
# -------------------------------------------------------------
# Eğitim seviyesi veya şehir seviyesi ordinal (sıralı) değildir.
# Label Encoding kullanılsaydı:
#   Lisans=0, Yüksek Lisans=1, Doktora=2 gibi yapay bir sıralama oluşur,
#   bu da regresyon katsayılarını hatalı etkilerdi.
# Bu nedenle One-Hot Encoding doğru yöntemdir.
#
# -------------------------------------------------------------
# VERİ TEMİZLİĞİ (Preprocessing) ÖZETİ
# -------------------------------------------------------------
# • Eksik veriler:
#     - YearsExperience sütunundaki eksik değerler mean() ile doldurulmuştur.
#     - EducationLevel sütunundaki eksik değerler mode() ile doldurulmuştur.
#
# • Duplicate veriler:
#     - Veri setinde tekrarlayan satırlar tespit edilip silinmiştir.
#
# • String tutarsızlıkları:
#     - EducationLevel ve CityLevel sütunlarında büyük/küçük harf hataları
#       ve whitespace sorunları düzeltilmiştir.
#
# • Outlier (Aykırı değer) temizliği:
#     - Salary sütununda 1.000.000 TL üzeri aşırı uç değerler vardı.
#     - IQR yöntemi ile alt ve üst limitler hesaplanarak outlier'lar temizlenmiştir.
#
# -------------------------------------------------------------
# BU PROJE NE YAPAR?
# -------------------------------------------------------------
# Çalışanın:
#   - eğitim seviyesi,
#   - şehir seviyesi,
#   - tecrübesi,
#   - proje sayısı,
#   - bildiği programlama dili,
#   - sertifika sayısı,
#   - remote çalışma durumu
# gibi faktörlere göre aylık net maaş tahmini yapan
# Çoklu Doğrusal Regresyon (Multiple Linear Regression) modelidir.
#
# Model Flask kullanılarak web arayüzüne entegre edilmiştir.
# Kullanıcı forma bilgileri girer → model aylık maaşı tahmin eder.
# -------------------------------------------------------------

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline

import statsmodels.api as sm
import pickle

In [None]:
from google.colab import files
files.upload()

Saving salary_dataset_turkey_2025.xlsx to salary_dataset_turkey_2025.xlsx


{'salary_dataset_turkey_2025.xlsx': b'PK\x03\x04\x14\x00\x00\x00\x08\x00\x00\x00?\x00a]I:O\x01\x00\x00\x8f\x04\x00\x00\x13\x00\x00\x00[Content_Types].xml\xad\x94\xcbn\xc20\x10E\xf7\xfd\x8a\xc8\xdb*1tQU\x15\x81E\x1f\xcb\x16\xa9\xf4\x03\\{B,\x1c\xdb\xf2\x0c\x14\xfe\xbe\x93\xf0P[Q\xa0\x82M\xacd\xee\xdcs\xc7\x8e<\x18-\x1b\x97- \xa1\r\xbe\x14\xfd\xa2\'2\xf0:\x18\xeb\xa7\xa5x\x9f<\xe7w"CR\xde(\x17<\x94b\x05(F\xc3\xab\xc1d\x15\x013n\xf6X\x8a\x9a(\xdeK\x89\xba\x86Fa\x11"x\xaeT!5\x8a\xf85MeTz\xa6\xa6 oz\xbd[\xa9\x83\'\xf0\x94S\xeb!\x86\x83G\xa8\xd4\xdcQ\xf6\xb4\xe4\xcf\xeb \t\x1c\x8a\xeca-lY\xa5P1:\xab\x15q].\xbc\xf9E\xc97\x84\x82;;\r\xd66\xe25\x0b\x84\xdcKh+\x7f\x036}\xaf\xbc3\xc9\x1a\xc8\xc6*\xd1\x8bjX%M\xd0\xe3\x14"J\xd6\x17\x87]\xf6\xc4\x0cUe5\xb0\xc7\xbc\xe1\x96\x02\xda@\x06L\x1e\xd9\x12\x12Y\xd8e>\xc8\xd6!\xc1\xff\xe1\xdb=j\xbbO$.\x9dDZ9\xc0\xb3G\xc5\x98@\x19\xac\x01\xa8q\xc5\xda\xf4\x08\x99\xf8\x7f\x82\xf5\xb3\x7f6\xbf\xb39\x02\xfc\x0ci\xf6\x11\xc2\xec\xd2\xc3\xb6k\xd1(\xebO\xe0wb\x94\xd

In [None]:
import pandas as pd

df = pd.read_excel("salary_dataset_turkey_2025.xlsx")
df.head()

Unnamed: 0,YearsExperience,Age,EducationLevel,CityLevel,NumProjects,ProgrammingLangCount,RemoteWork,Certifications,Salary
0,7.49,52,Lisans,1.Seviye,2,7,0,2,84312
1,19.01,21,Lisans,2.Seviye,9,6,0,0,123776
2,14.64,25,Lisans,1.Seviye,18,6,0,5,106855
3,11.97,24,Lisans,1.Seviye,2,5,0,2,85583
4,3.12,36,Lisans,2.Seviye,21,6,0,2,53008


In [None]:
# Veri setinin genel yapısını inceleme
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355 entries, 0 to 354
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   YearsExperience       343 non-null    float64
 1   Age                   355 non-null    int64  
 2   EducationLevel        347 non-null    object 
 3   CityLevel             355 non-null    object 
 4   NumProjects           355 non-null    int64  
 5   ProgrammingLangCount  355 non-null    int64  
 6   RemoteWork            355 non-null    int64  
 7   Certifications        355 non-null    int64  
 8   Salary                355 non-null    int64  
dtypes: float64(1), int64(6), object(2)
memory usage: 25.1+ KB


In [None]:
df.describe(include='all')


Unnamed: 0,YearsExperience,Age,EducationLevel,CityLevel,NumProjects,ProgrammingLangCount,RemoteWork,Certifications,Salary
count,343.0,355.0,347,355,355.0,355.0,355.0,355.0,355.0
unique,,,5,4,,,,,
top,,,Lisans,1.Seviye,,,,,
freq,,,242,167,,,,,
mean,9.764752,40.180282,,,11.656338,4.943662,0.408451,3.4,116339.1
std,5.817874,11.194286,,,7.228724,2.541671,0.492241,2.275639,321189.7
min,0.1,21.0,,,0.0,1.0,0.0,0.0,27592.0
25%,4.815,31.0,,,5.0,3.0,0.0,2.0,72728.5
50%,10.05,41.0,,,12.0,5.0,0.0,3.0,89949.0
75%,14.585,49.5,,,18.0,7.0,1.0,5.0,108005.0


In [None]:
# -----------------------------------------------
# EKSİK VERİLERİN ANALİZİ ve DOLDURULMASI
# -----------------------------------------------
# Burada veri setimde hangi sütunlarda eksik değer olduğunu kontrol ettim.
# "YearsExperience" ve "EducationLevel" sütunlarında eksik değerler olduğunu gördüm.
# Eksik değerlere sahip bir veri seti, modelin eğitim kalitesini düşürür.
# Bu nedenle eksik verileri uygun yöntemle dolduracağım.

df.isnull().sum()  #her sütunda kaç tane eksik veri olduğunu buluyoruz

Unnamed: 0,0
YearsExperience,12
Age,0
EducationLevel,8
CityLevel,0
NumProjects,0
ProgrammingLangCount,0
RemoteWork,0
Certifications,0
Salary,0


In [None]:
# Sayısal değişkenlerde eksik değerleri ortalama ile dolduruyorum.
# YearsExperience: Sayısal olduğu için mean() kullanmak mantıklı.

df["YearsExperience"] = df["YearsExperience"].fillna(df["YearsExperience"].mean())

In [None]:
# EducationLevel kategorik bir değişken olduğu için en sık görülen değer (mode) ile dolduruyorum.
# Kategorik değişkenlerde mode kullanmak, veri dağılımını en az bozan yöntemdir.

df["EducationLevel"] = df["EducationLevel"].fillna(df["EducationLevel"].mode()[0])

In [None]:
df.isnull().sum() ## artık boş verim hiç yok


Unnamed: 0,0
YearsExperience,0
Age,0
EducationLevel,0
CityLevel,0
NumProjects,0
ProgrammingLangCount,0
RemoteWork,0
Certifications,0
Salary,0


In [None]:
# -------------------------------------------------------
# DUPLICATE (TEKRAR EDEN) SATIRLARIN TESPİTİ
# -------------------------------------------------------
# Duplicate satırlar modelin öğrenmesini etkiler ve veriyi "yanıltır".
# Bu nedenle önce kaç tane duplicate olduğunu tespit ediyorum.

df.duplicated().sum()


np.int64(5)

In [None]:
# Duplicate satırları temizliyorum.
# "inplace=True" parametresi, değişikliği DataFrame'e kalıcı olarak uygular.

df.drop_duplicates(inplace=True)

In [None]:
df.duplicated().sum() #artık hiç tekrar eden veri kalmadı


np.int64(0)

In [None]:
# -------------------------------------------------------
# STRING TEMİZLİĞİ - CityLevel sütunundaki whitespace sorunu
# -------------------------------------------------------
# Veri setinde bazı CityLevel değerlerinde başta/sonda gereksiz boşluklar vardı.
# Örnek: " 1.Seviye "
# Bu durum One-Hot Encoding sırasında farklı kategori gibi algılanmasına yol açar.
# Bu nedenle strip() kullanarak temizliyorum.

df["CityLevel"] = df["CityLevel"].str.strip()


In [None]:
# -------------------------------------------------------
# STRING TEMİZLİĞİ - EducationLevel sütunundaki tutarsızlıklar
# -------------------------------------------------------
# Bazı satırlarda büyük-küçük harf karışıklıkları vardı:
# "LİSANS" , "yüksek lisans", "Doktora", "Lisans"
# Bu durum kategori sayısını artırır.
# Bu nedenle önce tüm karakterleri küçük harfe çeviriyorum.

df["EducationLevel"] = df["EducationLevel"].str.lower()

# Şimdi tutarlı kategorilere dönüştürüyorum.
df["EducationLevel"] = df["EducationLevel"].replace({
    "lisans": "Lisans",
    "yüksek lisans": "Yüksek Lisans",
    "doktora": "Doktora"
})

In [None]:
df["EducationLevel"].value_counts()


Unnamed: 0_level_0,count
EducationLevel,Unnamed: 1_level_1
Lisans,246
Yüksek Lisans,74
Doktora,29
li̇sans,1


In [None]:
# -------------------------------------------------------
# AYKIRI DEĞER (OUTLIER) ANALİZİ
# -------------------------------------------------------
# Salary sütununda gerçek dışı uç değerler olduğunu farkettim.
# aykırı değerler doğrusal regresyonu ciddi şekilde bozar.
# Bu nedenle IQR (Interquartile Range) yöntemiyle temizleme yapıyorum.

Q1 = df["Salary"].quantile(0.25)
Q3 = df["Salary"].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

lower_bound, upper_bound

(np.float64(19789.375), np.float64(160938.375))

In [None]:
# Aykırı değerleri tespit ediyorum:
outliers = df[(df["Salary"] < lower_bound) | (df["Salary"] > upper_bound)]
outliers

Unnamed: 0,YearsExperience,Age,EducationLevel,CityLevel,NumProjects,ProgrammingLangCount,RemoteWork,Certifications,Salary
102,6.29,29,Yüksek Lisans,1.Seviye,24,4,1,3,5000000
154,19.71,56,Doktora,2.Seviye,17,6,1,2,167818
295,10.44,36,Lisans,2.Seviye,20,5,0,2,1000000
319,5.0,32,Lisans,2.Seviye,3,8,1,1,3500000


In [None]:
# Aykırı değerleri veri setinden çıkarıyorum.
df = df[(df["Salary"] >= lower_bound) & (df["Salary"] <= upper_bound)]

In [None]:
#temizledkten sonta tekrar kontrol ediyorum
df[(df["Salary"] < lower_bound) | (df["Salary"] > upper_bound)]

Unnamed: 0,YearsExperience,Age,EducationLevel,CityLevel,NumProjects,ProgrammingLangCount,RemoteWork,Certifications,Salary


In [None]:
# -------------------------------------------------------
# KATEGORİK VERİLERİN KODLANMASI (ONE-HOT ENCODING)
# -------------------------------------------------------
# EducationLevel ve CityLevel sütunları kategoriktir.
# Doğrusal regresyonda kategorik verileri sayısallaştırmak gerekir.
# Label Encoding sıralı bir ilişki varmış gibi davranacağı için doğru yöntem değildir.
# Bu nedenle One-Hot Encoding kullanıyorum.
# drop_first=True → Dummy Variable Trap'ten kaçınmak için ilk kategoriyi atar (kıyaslama amaçlı).

df_encoded = pd.get_dummies(df,
                            columns=["EducationLevel", "CityLevel"],
                            drop_first=True)

In [None]:
df_encoded.head()

Unnamed: 0,YearsExperience,Age,NumProjects,ProgrammingLangCount,RemoteWork,Certifications,Salary,EducationLevel_Lisans,EducationLevel_Yüksek Lisans,EducationLevel_li̇sans,CityLevel_2.Seviye,CityLevel_3.Seviye
0,7.49,52,2,7,0,2,84312,True,False,False,False,False
1,19.01,21,9,6,0,0,123776,True,False,False,True,False
2,14.64,25,18,6,0,5,106855,True,False,False,False,False
3,11.97,24,2,5,0,2,85583,True,False,False,False,False
4,3.12,36,21,6,0,2,53008,True,False,False,True,False


In [None]:
df_encoded.columns


Index(['YearsExperience', 'Age', 'NumProjects', 'ProgrammingLangCount',
       'RemoteWork', 'Certifications', 'Salary', 'EducationLevel_Lisans',
       'EducationLevel_Yüksek Lisans', 'EducationLevel_li̇sans',
       'CityLevel_2.Seviye', 'CityLevel_3.Seviye'],
      dtype='object')

In [None]:
# -------------------------------------------------------
# BACKWARD ELIMINATION - p-value analizi
# -------------------------------------------------------

import statsmodels.api as sm

# Bağımsız değişkenler (Salary hariç tümü)
X = df_encoded.drop(columns=["Salary"])

# Bağımlı değişken (hedef)
y = df_encoded["Salary"]

# Sabit (constant) ekliyorum, OLS modeli için gereklidir.
X_const = sm.add_constant(X)

X_const.head()

Unnamed: 0,const,YearsExperience,Age,NumProjects,ProgrammingLangCount,RemoteWork,Certifications,EducationLevel_Lisans,EducationLevel_Yüksek Lisans,EducationLevel_li̇sans,CityLevel_2.Seviye,CityLevel_3.Seviye
0,1.0,7.49,52,2,7,0,2,True,False,False,False,False
1,1.0,19.01,21,9,6,0,0,True,False,False,True,False
2,1.0,14.64,25,18,6,0,5,True,False,False,False,False
3,1.0,11.97,24,2,5,0,2,True,False,False,False,False
4,1.0,3.12,36,21,6,0,2,True,False,False,True,False


In [None]:
model = sm.OLS(y, X_const).fit()
model.summary()

ValueError: Pandas data cast to numpy dtype of object. Check input data with np.asarray(data).

In [None]:
df_encoded.dtypes
#yukarıdaki kodun hata vermesinin sebebi X_const içinde boolean (True/False) sütunları var. bunun olmaması lazım (statsmodels.OLS kullanmak için)

Unnamed: 0,0
YearsExperience,float64
Age,int64
NumProjects,int64
ProgrammingLangCount,int64
RemoteWork,int64
Certifications,int64
Salary,int64
EducationLevel_Lisans,bool
EducationLevel_Yüksek Lisans,bool
EducationLevel_li̇sans,bool


In [None]:
# -------------------------------------------------------
# OLS modeli Türkçe karakter, boşluk ve nokta içeren kolon adlarında sorun çıkarabilir.
# Bu nedenle tüm kolon adlarını temizliyorum.
# -------------------------------------------------------

df_encoded.columns = (
    df_encoded.columns
    .str.replace(" ", "_")
    .str.replace("\.", "_")
    .str.replace("Ş", "S")
    .str.replace("ş", "s")
    .str.replace("Ü", "U")
    .str.replace("ü", "u")
    .str.replace("İ", "I")
    .str.replace("ı", "i")
    .str.replace("Ö", "O")
    .str.replace("ö", "o")
    .str.replace("Ğ", "G")
    .str.replace("ğ", "g")
    .str.replace("Ç", "C")
    .str.replace("ç", "c")
)

  .str.replace("\.", "_")         # noktaları kaldır


In [None]:
df_encoded.columns

Index(['YearsExperience', 'Age', 'NumProjects', 'ProgrammingLangCount',
       'RemoteWork', 'Certifications', 'Salary', 'EducationLevel_Lisans',
       'EducationLevel_Yuksek_Lisans', 'EducationLevel_li̇sans',
       'CityLevel_2.Seviye', 'CityLevel_3.Seviye'],
      dtype='object')

In [None]:
# Aynı kategorinin yanlış yazılmış versiyonu varsa siliyorum.
if "EducationLevel_lisans" in df_encoded.columns:
    df_encoded.drop(columns=["EducationLevel_lisans"], inplace=True)

In [None]:
# -------------------------------------------------------
# OLS modeli bool dtype kabul etmez.
# Bu nedenle tüm bool sütunları 0/1 int tipine dönüştürüyorum.
# -------------------------------------------------------

for col in df_encoded.columns:
    if df_encoded[col].dtype == "bool":
        df_encoded[col] = df_encoded[col].astype(int)

In [None]:
df_encoded.dtypes

Unnamed: 0,0
YearsExperience,float64
Age,int64
NumProjects,int64
ProgrammingLangCount,int64
RemoteWork,int64
Certifications,int64
Salary,int64
EducationLevel_Lisans,int64
EducationLevel_Yuksek_Lisans,int64
EducationLevel_li̇sans,int64


In [None]:
#OLS modelini tekrar çalıştırıyorum
import statsmodels.api as sm

X = df_encoded.drop(columns=["Salary"])
y = df_encoded["Salary"]

X_const = sm.add_constant(X)

model = sm.OLS(y, X_const).fit()
model.summary()

0,1,2,3
Dep. Variable:,Salary,R-squared:,0.831
Model:,OLS,Adj. R-squared:,0.825
Method:,Least Squares,F-statistic:,149.2
Date:,"Fri, 05 Dec 2025",Prob (F-statistic):,1.08e-121
Time:,07:51:50,Log-Likelihood:,-3668.3
No. Observations:,346,AIC:,7361.0
Df Residuals:,334,BIC:,7407.0
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,5.327e+04,3236.440,16.460,0.000,4.69e+04,5.96e+04
YearsExperience,3367.1137,94.132,35.770,0.000,3181.948,3552.280
Age,-19.1358,48.606,-0.394,0.694,-114.748,76.477
NumProjects,615.4432,75.576,8.143,0.000,466.778,764.109
ProgrammingLangCount,1348.9602,211.660,6.373,0.000,932.605,1765.315
RemoteWork,2921.2794,1099.634,2.657,0.008,758.199,5084.360
Certifications,1499.5571,236.075,6.352,0.000,1035.175,1963.939
EducationLevel_Lisans,-1.52e+04,1983.582,-7.665,0.000,-1.91e+04,-1.13e+04
EducationLevel_Yuksek_Lisans,-2711.1511,2217.579,-1.223,0.222,-7073.334,1651.032

0,1,2,3
Omnibus:,0.07,Durbin-Watson:,2.006
Prob(Omnibus):,0.966,Jarque-Bera (JB):,0.172
Skew:,0.009,Prob(JB):,0.918
Kurtosis:,2.892,Cond. No.,860.0


In [None]:
# -------------------------------------------------------
# BACKWARD ELIMINATION OTOMATİK DÖNGÜ
# -------------------------------------------------------
#Doğrusal regresyonda istatistiksel olarak anlamlı olmayan bağımsız değişkenleri otomatik olarak elemek için aşağıdaki kodu çalıştırıyoruz.
X_be = X_const.copy()

while True:
    model_be = sm.OLS(y, X_be).fit()
    p_values = model_be.pvalues.drop("const")
    max_p = p_values.max()
    worst_feature = p_values.idxmax()

    if max_p > 0.05:
        print("Çıkarılan değişken:", worst_feature, "  p-value:", max_p)
        X_be = X_be.drop(columns=[worst_feature])
    else:
        break

print("\nKalan anlamlı değişkenler:")
X_be.columns

Çıkarılan değişken: Age   p-value: 0.69405944570696
Çıkarılan değişken: EducationLevel_Yuksek_Lisans   p-value: 0.22407297920117702

Kalan anlamlı değişkenler:


Index(['const', 'YearsExperience', 'NumProjects', 'ProgrammingLangCount',
       'RemoteWork', 'Certifications', 'EducationLevel_Lisans',
       'EducationLevel_li̇sans', 'CityLevel_2.Seviye', 'CityLevel_3.Seviye'],
      dtype='object')

In [None]:
# Eğitim seviyesindeki tekrar eden sütunu temizliyorum
if "EducationLevel_lisans" in df_encoded.columns:
    df_encoded.drop(columns=["EducationLevel_lisans"], inplace=True)

df_encoded.columns

Index(['YearsExperience', 'Age', 'NumProjects', 'ProgrammingLangCount',
       'RemoteWork', 'Certifications', 'Salary', 'EducationLevel_Lisans',
       'EducationLevel_Yuksek_Lisans', 'EducationLevel_li̇sans',
       'CityLevel_2.Seviye', 'CityLevel_3.Seviye'],
      dtype='object')

In [None]:
#yeni ols modelini tekrar çalıştıralım
X = df_encoded.drop(columns=["Salary"]) # df_encoded daki Salary dışındaki her şey, Salary’yi açıklamaya çalışacak.
y = df_encoded["Salary"]

X_const = sm.add_constant(X)

model = sm.OLS(y, X_const).fit()
model.summary()

0,1,2,3
Dep. Variable:,Salary,R-squared:,0.831
Model:,OLS,Adj. R-squared:,0.825
Method:,Least Squares,F-statistic:,149.2
Date:,"Fri, 05 Dec 2025",Prob (F-statistic):,1.08e-121
Time:,07:51:57,Log-Likelihood:,-3668.3
No. Observations:,346,AIC:,7361.0
Df Residuals:,334,BIC:,7407.0
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,5.327e+04,3236.440,16.460,0.000,4.69e+04,5.96e+04
YearsExperience,3367.1137,94.132,35.770,0.000,3181.948,3552.280
Age,-19.1358,48.606,-0.394,0.694,-114.748,76.477
NumProjects,615.4432,75.576,8.143,0.000,466.778,764.109
ProgrammingLangCount,1348.9602,211.660,6.373,0.000,932.605,1765.315
RemoteWork,2921.2794,1099.634,2.657,0.008,758.199,5084.360
Certifications,1499.5571,236.075,6.352,0.000,1035.175,1963.939
EducationLevel_Lisans,-1.52e+04,1983.582,-7.665,0.000,-1.91e+04,-1.13e+04
EducationLevel_Yuksek_Lisans,-2711.1511,2217.579,-1.223,0.222,-7073.334,1651.032

0,1,2,3
Omnibus:,0.07,Durbin-Watson:,2.006
Prob(Omnibus):,0.966,Jarque-Bera (JB):,0.172
Skew:,0.009,Prob(JB):,0.918
Kurtosis:,2.892,Cond. No.,860.0


In [None]:
df_encoded.columns


Index(['YearsExperience', 'NumProjects', 'ProgrammingLangCount', 'RemoteWork',
       'Certifications', 'Salary', 'EducationLevel_Lisans',
       'EducationLevel_li̇sans', 'CityLevel_2.Seviye', 'CityLevel_3.Seviye'],
      dtype='object')

In [None]:
[col for col in df_encoded.columns if "Education" in col]


['EducationLevel_Lisans', 'EducationLevel_li̇sans']

In [None]:
df_encoded = df_encoded.drop(columns=[
    "EducationLevel_lisans",
    "Educationlevel_lisans",
    "EducationLevel_Lisans"  # bunu sonra tekrar ekleyeceğiz
], errors="ignore")

In [None]:
# Lisans olan kişileri 1, diğerlerini 0 yapıyorum
df_encoded["EducationLevel_Lisans"] = (df["EducationLevel"] == "Lisans").astype(int)

In [None]:
df_encoded.columns.tolist()


['YearsExperience',
 'NumProjects',
 'ProgrammingLangCount',
 'RemoteWork',
 'Certifications',
 'Salary',
 'EducationLevel_li̇sans',
 'CityLevel_2.Seviye',
 'CityLevel_3.Seviye',
 'EducationLevel_Lisans']

In [None]:
# Yanlış yazılmış eğitim seviyesi sütununu siliyorum (yanlış bir harf yazılmış çünkü)
df_encoded = df_encoded.drop(columns=["EducationLevel_li̇sans"], errors="ignore")

In [None]:
df_encoded.columns.tolist()


['YearsExperience',
 'NumProjects',
 'ProgrammingLangCount',
 'RemoteWork',
 'Certifications',
 'Salary',
 'CityLevel_2.Seviye',
 'CityLevel_3.Seviye',
 'EducationLevel_Lisans']

In [None]:
import statsmodels.api as sm

X = df_encoded.drop(columns=["Salary"])
y = df_encoded["Salary"]

X_const = sm.add_constant(X)
model = sm.OLS(y, X_const).fit()
model.summary()

0,1,2,3
Dep. Variable:,Salary,R-squared:,0.827
Model:,OLS,Adj. R-squared:,0.823
Method:,Least Squares,F-statistic:,201.9
Date:,"Fri, 05 Dec 2025",Prob (F-statistic):,1.3300000000000001e-123
Time:,07:52:14,Log-Likelihood:,-3671.9
No. Observations:,346,AIC:,7362.0
Df Residuals:,337,BIC:,7397.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,5.075e+04,2289.920,22.163,0.000,4.62e+04,5.53e+04
YearsExperience,3351.0052,93.915,35.681,0.000,3166.271,3535.739
NumProjects,608.6744,75.644,8.047,0.000,459.880,757.469
ProgrammingLangCount,1360.3668,212.110,6.413,0.000,943.140,1777.594
RemoteWork,2929.5484,1097.076,2.670,0.008,771.570,5087.527
Certifications,1444.5049,235.924,6.123,0.000,980.435,1908.575
CityLevel_2.Seviye,-7534.1082,1206.161,-6.246,0.000,-9906.661,-5161.555
CityLevel_3.Seviye,-7733.3448,1483.135,-5.214,0.000,-1.07e+04,-4815.977
EducationLevel_Lisans,-1.301e+04,1180.229,-11.024,0.000,-1.53e+04,-1.07e+04

0,1,2,3
Omnibus:,0.058,Durbin-Watson:,1.958
Prob(Omnibus):,0.971,Jarque-Bera (JB):,0.158
Skew:,-0.001,Prob(JB):,0.924
Kurtosis:,2.895,Cond. No.,79.1


Summary Analizi

✔ R-squared: 0.827


✔ Adj R-squared: 0.823


✔ p-value’si anlamlı olan değişkenler (0.5 üstünde olanlar):
Değişken	p-value	Yorum
YearsExperience	3e-60	Çok güçlü pozitif etki
NumProjects	4e-14	Anlamlı pozitif etki
ProgrammingLangCount	6e-11	Anlamlı pozitif etki
RemoteWork	3e-04	Pozitif etki
Certifications	3e-12	Pozitif etki
CityLevel_2_Seviye	0.003	1.seviyeye göre daha düşük maaş
CityLevel_3_Seviye	0.001	1.seviyeye göre daha düşük maaş
EducationLevel_Lisans	0.000	Anlamlı negatif katsayı (baz kategori Doktora/YL olduğu için)

 Hiçbir gereksiz değişken kalmadı.
 Model tamamen hazır.

In [None]:
# -------------------------------------------------------
# MODEL EĞİTİMİ (TRAIN-TEST SPLIT + LINEAR REGRESSION)
# -------------------------------------------------------

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# X ve y
X = df_encoded.drop(columns=["Salary"])
y = df_encoded["Salary"]

# Veri setini ayırıyorum (%80 train, %20 test)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Modeli oluşturuyorum
model = LinearRegression()

# Eğitim
model.fit(X_train, y_train)

# Tahmin
y_pred = model.predict(X_test)

# Değerlendirme
print("R2 Score:", r2_score(y_test, y_pred))
print("MAE:", mean_absolute_error(y_test, y_pred))
print("MSE:", mean_squared_error(y_test, y_pred))

R2 Score: 0.7920793142872363
MAE: 8022.633120407957
MSE: 108857035.91261446


✔ R2 Score: 0.792

Bu, test verisindeki maaş değişiminin %79.2’sini modelin açıkladığını gösterir.
Regresyon modellerinde 0.75+ üzeri gayet iyi kabul edilir.

✔ MAE: 8,022 TL

Tahminlerin ortalama olarak maaştan 8 bin TL sapma yaptığı anlamına gelir.
Türkiye 2025 IT maaşları 40–150 bin bandında olduğundan bu çok kabul edilebilir.

✔ MSE: 108,857,035 ≈ 1.08e8

MSE zaten büyük olur çünkü maaş değerleri büyük. Normaldir.

In [None]:
# -------------------------------------------------------
# EĞİTİLMİŞ MODELİ .PKL DOSYASI OLARAK KAYDETME
# -------------------------------------------------------

import pickle

with open("salary_model.pkl", "wb") as file:
    pickle.dump(model, file)

print("model.pkl başarıyla oluşturuldu!")

model.pkl başarıyla oluşturuldu!


In [None]:
from google.colab import files
files.download("salary_model.pkl")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>