In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test_x.csv')

In [None]:
train_df.head(12)

In [None]:
test_df.head(12)

In [None]:
missing_values = train_df.isnull().sum()

In [None]:
train_df['Öbek İsmi'].value_counts()

In [None]:
train_df.drop(columns=['index'], inplace=True)
test_df.drop(columns=['index'], inplace=True)

In [None]:
train_df.head()

In [None]:
X = train_df.drop('Öbek İsmi', axis=1)
y = train_df['Öbek İsmi']

In [None]:
categorical_features = ['Cinsiyet', 'Yaş Grubu', 'Medeni Durum', 'Eğitim Düzeyi',
                        'İstihdam Durumu', 'Yaşadığı Şehir', 'En Çok İlgilendiği Ürün Grubu', 'Eğitime Devam Etme Durumu']

In [None]:
visual_data_original = pd.concat([X, y], axis=1)
plt.figure(figsize=(20, 15))
for idx, feature in enumerate(categorical_features, start=1):
    plt.subplot(3, 3, idx)
    sns.countplot(data=visual_data_original, x=feature, hue='Öbek İsmi')
    plt.title(feature)
    plt.xticks(rotation=45)
    plt.legend(loc='upper right')

plt.tight_layout()
plt.show()


**Cinsiyet**: Bazı öbeklerde cinsiyet farklılığı görünüyor. Örneğin öbek 2'de kadın oranı fazlayken, öbek 5 ve öbek 3'de erkek oranı fazla.
**Yaş Grubu**: öbek 1, öbek 2, öbek 3'de yaş aralığı eşit oranda dağılmış gibi görünüyor.

Öbek 4 ve öbek 5'de 18-40 yaş arası çoğunlukta. Öbek 6'da 51-60 ve 60 üstü yaş aralığı çoğunlukta görünüyor. öbek 7'de 31-50 yaş aralığı fazla görünüyor ve arkasından 18-30 yaş aralığı geliyor.
Öbek 8'de 18-30 yaş aralığı ezici çoğunlukta.

**Medeni Durum**: öbek 4 ve öbek 8'de bekarlar fazla iken, öbek 3, öbek 6, öbek 1 öbek 7 ve öbek 2'de evliler fazla görünüyor. öbek 5'de eşite yakın bir dağılım var.

**Eğitim Düzeyi**: öbek 1 ve öbek 2'de eğitimsiz, ilkokul, ortaokul ve lise mezunları fazlalıkta. öbek 3'de, öbek 5'de ve öbek 8'de lise mezunları fazlalıkta. öbek 4'de ve öbek 6'da üniversite mezunları fazlalıkta. öbek 7'de üniversite ve yüksek lisans mezunları fazlalıkta.

**İstihdam Durumu**: Emekliler öbek 6'da çoğunlukta. öbek 7 ve öbek 6'da işsiz veya düzenli işi olmayanlar azınlıkta. düzenli ve ücretli bir işi olanlar öbek 2'de azınlıkta, diğer öbeklerde orantılı bir dağılım var.

**Yaşadığı Şehir**: Büyük şehirde yaşayanların çoğunluğu öbek 4'de. öbek 6'nın çoğunluğu kırsal, köy veya kasabada yaşıyor.

**Eğitime Devam**: Öbek 8 eğitime devam ediyor.



**Öbek 1**: Eşit cinsiyet, eşit yaş ama 60 yaş üstü azınlıkta, evliler fazla, eğitimsiz, ilkokul, ortaokul, lise mezunları, emekli ve kendi işinin sahibi olanlar az, yaşadıkları şehirler eşit sayılır, eğitime devam etmiyorlar, en çok giyim ile ilgileniyorlar. (memur ve işçi kesimi)


**Öbek 2**: Kadın fazlalıkta, yaş dağılımı eşit, evliler fazla, eğitimsiz, ilkokul, ortaokul ve lise mezunları fazla, işsizler, yaşadıkları şehirler eşit dağılım, eğitime devam yok, giyim ev ve mobilya en çok alınanlar (ev hanımları)


**Öbek 3**: Erkek, yaş aralığı eşit, evli, lise mezunu, düzenli işi var veya kendi işinin sahibi, küçük şehir biraz çoğunlukta, eğitime devam etmiyor, kozmetik almıyor (erkekler)


**Öbek 4**: Eşit cinsiyet, 18-40 yaş aralığı, bekar, üniversite mezunu, düzenli ve ücretli bir işi var ve işsizler çoğunlukta, büyük şehirde yaşıyorlar, ilgilenilen ürünler eşit, eğitime devam etmiyor (mezun çalışan)


**Öbek 5**: Erkek, 18-40 yaş aralığı, medeni durum eşit gibi, lise mezunu, düzenli ve ücretli işleri var, küçük şehir ya da köy veya kasabada yaşıyorlar, eğitime devam etmiyorlar, elektronik ve teknolojik ve spor malzemeleri alıyorlar 
(öbek 3 ile aynı gibi)


**Öbek 6**: Eşit cinsiyet, 51-60 ve 60 yaş üstü, evlilik çoğunlukta, üniversite mezunları, emekli ya da düzenli ve ücretli işleri var, kırsal, köy veya kasabada yaşıyorlar, her ürünle eşit ilgeniyorlar, eğitime devam yok (emekliler)


**Öbek 7**: Eşit cinsiyet, 31-50 yaş aralığı fazla, evliler, üniversite ve yüksek lisans mezunları, düzenli işleri var, büyük ve küçük şehirlerde yaşıyorlar, ev ve mobilya ilgileniyorlar, eğitime devam etmiyorlar (beyaz yaka)


**Öbek 8**: Eşit cinsiyet, 18-30 yaş, bekar, lise, yüksekokul, üniversite mezunları, düzenli ve ücretli işleri var, büyük ve küçük şehirlerde yaşıyorlar, ilgilendikleri ürünler orantılı, eğitime devam ediyorlar

In [None]:
label_encoders = {}
for column in categorical_features:
    le = LabelEncoder()
    train_df[column] = le.fit_transform(train_df[column])
    label_encoders[column] = le

train_df

In [None]:
label_encoders = {}
for column in categorical_features:
    le = LabelEncoder()
    test_df[column] = le.fit_transform(test_df[column])
    label_encoders[column] = le

test_df

In [None]:
target_encoder = LabelEncoder()
train_df['Öbek İsmi'] = target_encoder.fit_transform(train_df['Öbek İsmi'])

train_df

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [None]:
X = train_df.drop(columns=["Öbek İsmi"])
y = train_df["Öbek İsmi"]
clf = RandomForestClassifier(random_state=40, n_estimators=500, max_depth=8)
clf.fit(X, y)
clf.predict(test_df)

y_pred = clf.predict(test_df)
y_pred

In [None]:
submission_data = {
    "id": range(0, len(y_pred)),
    "Öbek İsmi": [f"obek_{cluster}" for cluster in y_pred]
}

submission_df = pd.DataFrame(submission_data)
submission_df.to_csv("newest_submission.csv", index=False)

In [2]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test_x.csv')

In [4]:
test_df.head(12)

Unnamed: 0,index,Cinsiyet,Yaş Grubu,Medeni Durum,Eğitim Düzeyi,İstihdam Durumu,Yıllık Ortalama Gelir,Yaşadığı Şehir,En Çok İlgilendiği Ürün Grubu,Yıllık Ortalama Satın Alım Miktarı,Yıllık Ortalama Sipariş Verilen Ürün Adedi,Eğitime Devam Etme Durumu,Yıllık Ortalama Sepete Atılan Ürün Adedi
0,0,Erkek,51-60,Evli,Yüksek Lisans Mezunu,Düzenli ve Ücretli Bir İşi Var,365331.930346,Köy veya Kasaba,Giyim,5566.587664,15.442635,Etmiyor,19.64646
1,1,Erkek,41-50,Bekar,Lise Mezunu,İşsiz veya Düzenli Bir İşi Yok,414899.236174,Büyük Şehir,Spor Malzemeleri,6756.766203,14.957246,Etmiyor,19.675863
2,2,Kadın,>60,Evli,Eğitimsiz,İşsiz veya Düzenli Bir İşi Yok,152825.872271,Küçük Şehir,Giyim,4493.915682,10.90793,Etmiyor,46.904518
3,3,Kadın,51-60,Evli,Doktora Ötesi,Düzenli ve Ücretli Bir İşi Var,489052.908472,Köy veya Kasaba,Kozmetik,42670.646595,32.333021,Etmiyor,48.083609
4,4,Erkek,18-30,Evli,Yüksek Lisans Mezunu,Kendi İşinin Sahibi,323635.711534,Küçük Şehir,Giyim,5959.266948,4.519968,Etmiyor,12.752491
5,5,Kadın,18-30,Bekar,Ortaokul Mezunu,İşsiz veya Düzenli Bir İşi Yok,181609.929894,Büyük Şehir,Giyim,4030.203747,28.811244,Etmiyor,59.615934
6,6,Erkek,51-60,Evli,Eğitimsiz,İşsiz veya Düzenli Bir İşi Yok,276886.697016,Küçük Şehir,Kozmetik,5311.590423,5.967002,Etmiyor,10.301621
7,7,Erkek,18-30,Evli,Üniversite Mezunu,İşsiz veya Düzenli Bir İşi Yok,228428.173077,Küçük Şehir,Giyim,9900.234299,47.742024,Ediyor,113.57447
8,8,Kadın,18-30,Evli,Yüksek Lisans Mezunu,Düzenli ve Ücretli Bir İşi Var,342851.316827,Büyük Şehir,Giyim,23998.258647,21.540486,Etmiyor,102.27795
9,9,Erkek,18-30,Bekar,Üniversite Mezunu,Düzenli ve Ücretli Bir İşi Var,276358.769901,Büyük Şehir,Kozmetik,9106.272062,48.354515,Ediyor,189.459429


In [6]:
train_df['Öbek İsmi'].value_counts()

Öbek İsmi
obek_4    720
obek_8    717
obek_5    706
obek_3    695
obek_7    695
obek_1    692
obek_6    688
obek_2    547
Name: count, dtype: int64

In [8]:
train_df.head()

Unnamed: 0,Cinsiyet,Yaş Grubu,Medeni Durum,Eğitim Düzeyi,İstihdam Durumu,Yıllık Ortalama Gelir,Yaşadığı Şehir,En Çok İlgilendiği Ürün Grubu,Yıllık Ortalama Satın Alım Miktarı,Yıllık Ortalama Sipariş Verilen Ürün Adedi,Eğitime Devam Etme Durumu,Öbek İsmi,Yıllık Ortalama Sepete Atılan Ürün Adedi
0,Kadın,31-40,Bekar,Yüksek Lisans Mezunu,Düzenli ve Ücretli Bir İşi Var,748266.440879,Büyük Şehir,Elektronik ve Teknolojik Ürünler,32010.900881,37.310644,Etmiyor,obek_4,102.936904
1,Erkek,>60,Evli,Lise Mezunu,Kendi İşinin Sahibi,246298.609605,Küçük Şehir,Spor Malzemeleri,4145.729891,11.554851,Etmiyor,obek_5,82.176053
2,Erkek,18-30,Bekar,Lise Mezunu,Düzenli ve Ücretli Bir İşi Var,268582.73236,Küçük Şehir,Giyim,9924.379414,55.353236,Ediyor,obek_8,141.661426
3,Erkek,51-60,Evli,Lise Mezunu,Kendi İşinin Sahibi,327721.837865,Kırsal,Giyim,6417.780714,15.417239,Etmiyor,obek_3,17.097397
4,Erkek,31-40,Evli,Ortaokul Mezunu,İşsiz veya Düzenli Bir İşi Yok,397431.626948,Büyük Şehir,Giyim,7886.663061,14.689837,Etmiyor,obek_3,20.470459


In [10]:
categorical_features = ['Cinsiyet', 'Yaş Grubu', 'Medeni Durum', 'Eğitim Düzeyi',
                        'İstihdam Durumu', 'Yaşadığı Şehir', 'En Çok İlgilendiği Ürün Grubu', 'Eğitime Devam Etme Durumu']


**Cinsiyet**: Bazı öbeklerde cinsiyet farklılığı görünüyor. Örneğin öbek 2'de kadın oranı fazlayken, öbek 5 ve öbek 3'de erkek oranı fazla.
**Yaş Grubu**: öbek 1, öbek 2, öbek 3'de yaş aralığı eşit oranda dağılmış gibi görünüyor.

Öbek 4 ve öbek 5'de 18-40 yaş arası çoğunlukta. Öbek 6'da 51-60 ve 60 üstü yaş aralığı çoğunlukta görünüyor. öbek 7'de 31-50 yaş aralığı fazla görünüyor ve arkasından 18-30 yaş aralığı geliyor.
Öbek 8'de 18-30 yaş aralığı ezici çoğunlukta.

**Medeni Durum**: öbek 4 ve öbek 8'de bekarlar fazla iken, öbek 3, öbek 6, öbek 1 öbek 7 ve öbek 2'de evliler fazla görünüyor. öbek 5'de eşite yakın bir dağılım var.

**Eğitim Düzeyi**: öbek 1 ve öbek 2'de eğitimsiz, ilkokul, ortaokul ve lise mezunları fazlalıkta. öbek 3'de, öbek 5'de ve öbek 8'de lise mezunları fazlalıkta. öbek 4'de ve öbek 6'da üniversite mezunları fazlalıkta. öbek 7'de üniversite ve yüksek lisans mezunları fazlalıkta.

**İstihdam Durumu**: Emekliler öbek 6'da çoğunlukta. öbek 7 ve öbek 6'da işsiz veya düzenli işi olmayanlar azınlıkta. düzenli ve ücretli bir işi olanlar öbek 2'de azınlıkta, diğer öbeklerde orantılı bir dağılım var.

**Yaşadığı Şehir**: Büyük şehirde yaşayanların çoğunluğu öbek 4'de. öbek 6'nın çoğunluğu kırsal, köy veya kasabada yaşıyor.

**Eğitime Devam**: Öbek 8 eğitime devam ediyor.



**Öbek 1**: Eşit cinsiyet, eşit yaş ama 60 yaş üstü azınlıkta, evliler fazla, eğitimsiz, ilkokul, ortaokul, lise mezunları, emekli ve kendi işinin sahibi olanlar az, yaşadıkları şehirler eşit sayılır, eğitime devam etmiyorlar, en çok giyim ile ilgileniyorlar. (memur ve işçi kesimi)


**Öbek 2**: Kadın fazlalıkta, yaş dağılımı eşit, evliler fazla, eğitimsiz, ilkokul, ortaokul ve lise mezunları fazla, işsizler, yaşadıkları şehirler eşit dağılım, eğitime devam yok, giyim ev ve mobilya en çok alınanlar (ev hanımları)


**Öbek 3**: Erkek, yaş aralığı eşit, evli, lise mezunu, düzenli işi var veya kendi işinin sahibi, küçük şehir biraz çoğunlukta, eğitime devam etmiyor, kozmetik almıyor (erkekler)


**Öbek 4**: Eşit cinsiyet, 18-40 yaş aralığı, bekar, üniversite mezunu, düzenli ve ücretli bir işi var ve işsizler çoğunlukta, büyük şehirde yaşıyorlar, ilgilenilen ürünler eşit, eğitime devam etmiyor (mezun çalışan)


**Öbek 5**: Erkek, 18-40 yaş aralığı, medeni durum eşit gibi, lise mezunu, düzenli ve ücretli işleri var, küçük şehir ya da köy veya kasabada yaşıyorlar, eğitime devam etmiyorlar, elektronik ve teknolojik ve spor malzemeleri alıyorlar 
(öbek 3 ile aynı gibi)


**Öbek 6**: Eşit cinsiyet, 51-60 ve 60 yaş üstü, evlilik çoğunlukta, üniversite mezunları, emekli ya da düzenli ve ücretli işleri var, kırsal, köy veya kasabada yaşıyorlar, her ürünle eşit ilgeniyorlar, eğitime devam yok (emekliler)


**Öbek 7**: Eşit cinsiyet, 31-50 yaş aralığı fazla, evliler, üniversite ve yüksek lisans mezunları, düzenli işleri var, büyük ve küçük şehirlerde yaşıyorlar, ev ve mobilya ilgileniyorlar, eğitime devam etmiyorlar (beyaz yaka)


**Öbek 8**: Eşit cinsiyet, 18-30 yaş, bekar, lise, yüksekokul, üniversite mezunları, düzenli ve ücretli işleri var, büyük ve küçük şehirlerde yaşıyorlar, ilgilendikleri ürünler orantılı, eğitime devam ediyorlar

In [13]:
label_encoders = {}
for column in categorical_features:
    le = LabelEncoder()
    test_df[column] = le.fit_transform(test_df[column])
    label_encoders[column] = le

test_df

Unnamed: 0,Cinsiyet,Yaş Grubu,Medeni Durum,Eğitim Düzeyi,İstihdam Durumu,Yıllık Ortalama Gelir,Yaşadığı Şehir,En Çok İlgilendiği Ürün Grubu,Yıllık Ortalama Satın Alım Miktarı,Yıllık Ortalama Sipariş Verilen Ürün Adedi,Eğitime Devam Etme Durumu,Yıllık Ortalama Sepete Atılan Ürün Adedi
0,0,3,1,5,0,365331.930346,1,2,5566.587664,15.442635,1,19.646460
1,0,2,0,3,3,414899.236174,0,4,6756.766203,14.957246,1,19.675863
2,1,4,1,2,3,152825.872271,2,2,4493.915682,10.907930,1,46.904518
3,1,3,1,1,0,489052.908472,1,3,42670.646595,32.333021,1,48.083609
4,0,0,1,5,2,323635.711534,2,2,5959.266948,4.519968,1,12.752491
...,...,...,...,...,...,...,...,...,...,...,...,...
2335,1,0,0,6,2,259190.078834,2,1,9559.156534,41.883661,0,117.627785
2336,1,1,1,3,3,194580.563177,3,1,4070.232154,20.082996,1,45.659622
2337,0,4,1,5,0,357730.521969,0,1,22589.204381,18.922305,1,100.691379
2338,0,0,1,1,0,213179.637202,2,4,4205.390562,10.758108,1,97.778913


In [15]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [17]:
submission_data = {
    "id": range(0, len(y_pred)),
    "Öbek İsmi": [f"obek_{cluster}" for cluster in y_pred]
}

submission_df = pd.DataFrame(submission_data)
submission_df.to_csv("newest_submission.csv", index=False)