In [3]:
import pandas as pd
import numpy as np

In [10]:
# Ham verilerin yeniden okunması
path_salary_data = "../data/raw/salary_data.csv"
path_salary_by_country = "../data/raw/salary_by_jobtitle_country.csv"

df_salary_raw = pd.read_csv(path_salary_data)
df_country_raw = pd.read_csv(path_salary_by_country)


In [11]:
# İşlenmiş olan nihai veri setini okuduk
combined = pd.read_csv("../data/processed/main_salary_dataset.csv")

In [12]:
# Duplicate kontrolünde kullanılan kolonlar
dup_subset_raw = [
    'Age',
    'Job Title',
    'Education Level',
    'Years of Experience',
    'Salary'
]

dup_subset = [
    'age',
    'job_title',
    'education_level',
    'years_experience',
    'salary',
    'seniority_level'
]


In [13]:
# Ham iki veri setini birleştirip "before" tarafındaki bazı istatistikleri çıkardık.
raw_combined = pd.concat([df_salary_raw, df_country_raw], ignore_index=True)

print("=== BEFORE / AFTER ÖZETİ ===\n")

# 1) Satır sayısı
before_rows = raw_combined.shape[0]
after_rows = combined.shape[0]

print(f"Toplam satır sayısı (before): {before_rows}")
print(f"Toplam satır sayısı (after):  {after_rows}\n")

# 2) Eksik maaş içeren satırlar (before)
missing_salary_before = raw_combined['Salary'].isna().sum()
missing_salary_after = combined['salary'].isna().sum()

print(f"Eksik maaş içeren satır sayısı (before): {missing_salary_before}")
print(f"Eksik maaş içeren satır sayısı (after):  {missing_salary_after}\n")

# 3) 0 veya negatif maaş içeren satırlar (before)
zero_neg_salary_before = (raw_combined['Salary'] <= 0).sum()
zero_neg_salary_after = (combined['salary'] <= 0).sum()

print(f"0 veya negatif maaş içeren satır sayısı (before): {zero_neg_salary_before}")
print(f"0 veya negatif maaş içeren satır sayısı (after):  {zero_neg_salary_after}\n")

# 4) Uç maaş değerleri için 99. persentil karşılaştırması
salary_q99_before = raw_combined['Salary'].quantile(0.99)
salary_q99_after = combined['salary'].quantile(0.99)

print(f"Salary 99. persentil (before): {salary_q99_before:.2f}")
print(f"Salary 99. persentil (after):  {salary_q99_after:.2f}\n")

# 5) Duplicate kayıt sayısı (before/after)
dup_subset_raw = [
    'Age',
    'Job Title',
    'Education Level',
    'Years of Experience',
    'Salary'
]
dup_before = raw_combined.duplicated(subset=dup_subset_raw).sum()
dup_after = combined.duplicated(subset=dup_subset, keep='first').sum()

print(f"Duplicate kayıt sayısı (before): {dup_before}")
print(f"Duplicate kayıt sayısı (after):  {dup_after}")
print("\n=== ÖZET BİTTİ ===")


=== BEFORE / AFTER ÖZETİ ===

Toplam satır sayısı (before): 13388
Toplam satır sayısı (after):  1689

Eksik maaş içeren satır sayısı (before): 5
Eksik maaş içeren satır sayısı (after):  0

0 veya negatif maaş içeren satır sayısı (before): 0
0 veya negatif maaş içeren satır sayısı (after):  0

Salary 99. persentil (before): 210000.00
Salary 99. persentil (after):  200000.00

Duplicate kayıt sayısı (before): 9991
Duplicate kayıt sayısı (after):  0

=== ÖZET BİTTİ ===


In [14]:
print("=== İŞLENMİŞ VERİDE SÜTUN BAZLI ÇEŞİTLİLİK ÖZETİ ===\n")

for col in combined.columns:
    n_unique = combined[col].nunique()
    print(f"--- {col} ---")
    print(f"Farklı değer sayısı: {n_unique}")
    
    if combined[col].dtype == 'object':
        unique_vals = sorted(combined[col].unique())
        print("Değerler:")
        for v in unique_vals:
            print(f"  - {v}")
    else:
        print("İstatistiksel özet:")
        print(combined[col].describe())
    
    print()


=== İŞLENMİŞ VERİDE SÜTUN BAZLI ÇEŞİTLİLİK ÖZETİ ===

--- age ---
Farklı değer sayısı: 41
İstatistiksel özet:
count    1689.000000
mean       35.272943
std         8.184165
min        21.000000
25%        29.000000
50%        33.000000
75%        41.000000
max        62.000000
Name: age, dtype: float64

--- job_title ---
Farklı değer sayısı: 118
Değerler:
  - account executive
  - account manager
  - accountant
  - administrative assistant
  - advertising coordinator
  - backend developer
  - business analyst
  - business development associate
  - business development manager
  - business intelligence analyst
  - business operations analyst
  - consultant
  - content marketing manager
  - copywriter
  - creative director
  - customer service manager
  - customer service representative
  - customer success manager
  - customer support specialist
  - data analyst
  - data engineer
  - data entry clerk
  - data scientist
  - delivery driver
  - designer
  - digital content producer
  - di