# Veri Seti Hakkında

Dünya Sağlık Örgütü'ne (WHO) göre inme, küresel olarak toplam ölümlerin yaklaşık% 11'inden sorumlu olan 2. önde gelen ölüm nedenidir.
Bu veri kümesi, bir hastanın cinsiyet, yaş, çeşitli hastalıklar ve sigara içme durumu gibi girdi parametrelerine dayanarak felç geçirme olasılığının olup olmadığını tahmin etmek için kullanılır. Verilerdeki her satır hasta hakkında anlamlı bilgiler sağlar.

### Gerekli Kütüphanelerin İmport Edilmesi

In [1]:
import numpy as np
import pandas as pd

In [2]:
veri = pd.read_excel("healthcare-dataset-stroke-data.xlsx")

## Verinin Kod İle Analizi

In [3]:
veri.head()

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1


In [4]:
veri.tail()

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
5105,18234,Female,80.0,1,0,Yes,Private,Urban,83.75,,never smoked,0
5106,44873,Female,81.0,0,0,Yes,Self-employed,Urban,125.2,40.0,never smoked,0
5107,19723,Female,35.0,0,0,Yes,Self-employed,Rural,82.99,30.6,never smoked,0
5108,37544,Male,51.0,0,0,Yes,Private,Rural,166.29,25.6,formerly smoked,0
5109,44679,Female,44.0,0,0,Yes,Govt_job,Urban,85.28,26.2,Unknown,0


In [5]:
veri.shape

(5110, 12)

In [6]:
veri.describe()

Unnamed: 0,id,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke
count,5110.0,5110.0,5110.0,5110.0,5110.0,4909.0,5110.0
mean,36517.829354,43.226614,0.097456,0.054012,106.147677,28.893237,0.048728
std,21161.721625,22.612647,0.296607,0.226063,45.28356,7.854067,0.21532
min,67.0,0.08,0.0,0.0,55.12,10.3,0.0
25%,17741.25,25.0,0.0,0.0,77.245,23.5,0.0
50%,36932.0,45.0,0.0,0.0,91.885,28.1,0.0
75%,54682.0,61.0,0.0,0.0,114.09,33.1,0.0
max,72940.0,82.0,1.0,1.0,271.74,97.6,1.0


In [7]:
veri.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 5110 non-null   int64  
 1   gender             5110 non-null   object 
 2   age                5110 non-null   float64
 3   hypertension       5110 non-null   int64  
 4   heart_disease      5110 non-null   int64  
 5   ever_married       5110 non-null   object 
 6   work_type          5110 non-null   object 
 7   Residence_type     5110 non-null   object 
 8   avg_glucose_level  5110 non-null   float64
 9   bmi                4909 non-null   float64
 10  smoking_status     5110 non-null   object 
 11  stroke             5110 non-null   int64  
dtypes: float64(3), int64(4), object(5)
memory usage: 479.2+ KB


## Unknown Satırların Silinmesi

Not: Bu veri setinde smoking_status özelliğinde çok fazla ‘unknown’ yani bilinmeyen var. 
smoking_status’u unknown olan satırları veriden silin. 

In [8]:
veri = veri.drop(veri[veri['smoking_status'] == 'Unknown'].index).reset_index(drop=True)

In [9]:
veri.tail()

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
3561,45010,Female,57.0,0,0,Yes,Private,Rural,77.93,21.7,never smoked,0
3562,18234,Female,80.0,1,0,Yes,Private,Urban,83.75,,never smoked,0
3563,44873,Female,81.0,0,0,Yes,Self-employed,Urban,125.2,40.0,never smoked,0
3564,19723,Female,35.0,0,0,Yes,Self-employed,Rural,82.99,30.6,never smoked,0
3565,37544,Male,51.0,0,0,Yes,Private,Rural,166.29,25.6,formerly smoked,0


# ORTAK GÖRVLER

### O1. Verideki sözel (kategorik) tipteki özellikleri sayısallaştırın. Bunu yaparken özelliğin tipine uygun davranın. Eğer unique değerler arasında bir sıralama mevcutsa bu değerleri 0,1,2,3,… şeklinde; mevcut değilse bu değerleri one-hot encoding şeklinde sayısallaştırın (10p).

Veride elimizde bazı kategorik sütunlar ileriki görevlerde işimize yaramayacakları için silinecektir. O yüzden bu görevde sadece ileride kullanılacak olan sütunlar sayısallaştırılacaktır

### GENDER Sütunu

In [10]:
# Sütunda bulunan değerlere bakıldı
veri['gender'].unique()

array(['Male', 'Female', 'Other'], dtype=object)

In [11]:
# Veride her bir değerden kaç tane bulunduğuna bakıldı.
female = veri['gender'].eq('Female').sum()
male = veri['gender'].eq('Male').sum()
other = veri['gender'].eq('Other').sum()

In [12]:
print(f" Female sayısı: {female}")
print(f" Male sayısı: {male}")
print(f" Other sayısı: {other}")

 Female sayısı: 2158
 Male sayısı: 1407
 Other sayısı: 1


In [13]:
# Sadece bir tane 'Other' değeri olduğu için veriden silindi.
veri.drop(veri[veri['gender'] == 'Other'].index,inplace=True)

In [14]:
# Other sayısı kontrol edildi.
other = veri['gender'].eq('Other').sum()
print(f" Other sayısı: {other}")

 Other sayısı: 0


In [15]:
Gender = pd.DataFrame()

# 'Male' durumunu temsil eden sütun eklendi
Gender['male'] = (veri['gender'] == 'Male').astype(int)

# 'Female' durumunu temsil eden sütun eklendi
Gender['female'] = (veri['gender'] == 'Female').astype(int)

# Orijinal DataFrame'e yeni sütunları eklendi
veri = pd.concat([veri, Gender], axis=1)

# 'gender' sütunu silindi
veri.drop('gender', axis=1, inplace=True)

In [16]:
veri.head()

Unnamed: 0,id,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,male,female
0,9046,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1,1,0
1,51676,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1,0,1
2,31112,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1,1,0
3,60182,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1,0,1
4,1665,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1,0,1


### SMOKİNG_STATUS kolonu

In [17]:
# smoking_status kolonunda bulunan değerler
veri['smoking_status'].unique()

array(['formerly smoked', 'never smoked', 'smokes'], dtype=object)

In [18]:
smokingstatus = pd.DataFrame()
# 'never smoked' durumunu temsil eden sütun eklendi
smokingstatus['never_moked'] = (veri['smoking_status'] == 'never smoked').astype(int)

# 'formerly smoked' durumunu temsil eden sütun eklendi
smokingstatus['formerly_smoked'] = (veri['smoking_status'] == 'formerly smoked').astype(int)

# 'smoking' durumunu temsil eden sütun eklendi
smokingstatus['smokes'] = (veri['smoking_status'] == 'smokes').astype(int)

# Orijinal DataFrame'e yeni sütunları eklendi.
veri = pd.concat([veri, smokingstatus], axis=1)

# 'smoking_status' sütununu silindi
veri.drop('smoking_status', axis=1, inplace=True)

In [19]:
veri.head()

Unnamed: 0,id,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,stroke,male,female,never_moked,formerly_smoked,smokes
0,9046,67.0,0,1,Yes,Private,Urban,228.69,36.6,1,1,0,0,1,0
1,51676,61.0,0,0,Yes,Self-employed,Rural,202.21,,1,0,1,1,0,0
2,31112,80.0,0,1,Yes,Private,Rural,105.92,32.5,1,1,0,1,0,0
3,60182,49.0,0,0,Yes,Private,Urban,171.23,34.4,1,0,1,0,0,1
4,1665,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,1,0,1,1,0,0


### O2. Verideki boş değerleri ait olduğu kolonda en çok görülen değer ile doldurun (5p).

In [20]:
# Veride boş değer olup olmadığı kontrol edildi.
veri.isnull().sum()

id                     0
age                    0
hypertension           0
heart_disease          0
ever_married           0
work_type              0
Residence_type         0
avg_glucose_level      0
bmi                  140
stroke                 0
male                   0
female                 0
never_moked            0
formerly_smoked        0
smokes                 0
dtype: int64

In [21]:
# Sadece 'bmi' sütunu ile ilgilenildi.
# Boş değerler moduna göre dolduruldu.
bmi_mode = veri['bmi'].mode()[0] 
veri['bmi'].fillna(bmi_mode, inplace=True)

In [22]:
# Boş değerler tekrar kontrol edildi.
veri.isnull().sum()

id                   0
age                  0
hypertension         0
heart_disease        0
ever_married         0
work_type            0
Residence_type       0
avg_glucose_level    0
bmi                  0
stroke               0
male                 0
female               0
never_moked          0
formerly_smoked      0
smokes               0
dtype: int64

### O3. Veride elinizdeki sınıflandırma görevi ile alakası olmadığını düşündüğünüz kolonlari veriden silin. Bunu yaparken sildiğiniz kolonun neden alakasız olduğunu belirtiniz (5p)

#### SİLENEN KOLONLAR VE NEDENLERİ
##### İD = 'id' kolonunun amacı veride kayıtlı olan hastalara sayısal değerler vererek her birini tutmaktır. İleriki görevlerde 'id' ile ilgilenmeyeceğimiz için veriden sildik.
##### EVER MARRİED = Hastanın evlilik durumunun felç ile doğrudan bir ilgisi yoktur bu yüzden veriden silindi.
##### WORK TYPE = İş durumu normal zamanda felci etkileyebilir fakat elimizdeki veride iş durumları ile milgili ayrıntılı bilgi bulunmadığı için veriden silindi.
##### RESİDENCE TYPE = Konut tipinin felç ile bir ilgisi yoktur bu yüzden veriden çıkarıldı.

In [23]:
veri.drop("Residence_type",axis=1,inplace=True)
veri.drop("ever_married",axis=1,inplace=True)
veri.drop("id",axis=1,inplace=True)
veri.drop("work_type",axis=1,inplace=True)

In [24]:
veri.head()

Unnamed: 0,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke,male,female,never_moked,formerly_smoked,smokes
0,67.0,0,1,228.69,36.6,1,1,0,0,1,0
1,61.0,0,0,202.21,28.4,1,0,1,1,0,0
2,80.0,0,1,105.92,32.5,1,1,0,1,0,0
3,49.0,0,0,171.23,34.4,1,0,1,0,0,1
4,79.0,1,0,174.12,24.0,1,0,1,1,0,0


In [25]:
veri.columns

Index(['age', 'hypertension', 'heart_disease', 'avg_glucose_level', 'bmi',
       'stroke', 'male', 'female', 'never_moked', 'formerly_smoked', 'smokes'],
      dtype='object')

### O4. Veriyi min-max normalizasyonu ile normalleştirin. Bunun sonucunda her kolonda değerler 0-1 arasinda yer alacaktır (10p).

In [26]:
norm_columns = ["age",'avg_glucose_level', 'bmi']

In [27]:
for i in norm_columns :
    veri[i] = (veri[i] - veri[i].min()) / (veri[i].max() - veri[i].min())

In [28]:
veri.head()

Unnamed: 0,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke,male,female,never_moked,formerly_smoked,smokes
0,0.791667,0,1,0.801265,0.311801,1,1,0,0,1,0
1,0.708333,0,0,0.679023,0.209938,1,0,1,1,0,0
2,0.972222,0,1,0.234512,0.26087,1,1,0,1,0,0
3,0.541667,0,0,0.536008,0.284472,1,0,1,0,0,1
4,0.958333,1,0,0.549349,0.15528,1,0,1,1,0,0


# O5. Veri setinin satirlarini random olarak karıştırdiktan sonra veri setininin %70’ini eğitim seti, %30’unu test seti olarak alın. Test setindeki örneklerin her birinin tüm eğitim seti örnekleri ile olan iç çarpımını hesaplayın. Hatırlarsak iki vektörün iç çarpımı bu iki vektörün birbirine ne kadar benzediğini verir. En yüksek iç çarpımı veren 3 adet eğitim örneğini bularak bu örneklerde en yaygın sınıfı o test örneği için tahmin edilen sınıf olarak bulun. Sonucun başarısını hesaplayın (test setinin tamamı için bir başarı oranı verin) (10p).


In [29]:
test_data=np.array(veri)
toplamornek= veri.shape[0] 
random=np.random.permutation(veri.shape[0])
test_data=test_data[random,:]

In [30]:
train_X=test_data[:int(toplamornek*0.7),:-1]
train_y=test_data[:int(toplamornek*0.7),-1]

test_X=test_data[int(toplamornek*0.7):,:-1]
test_y=test_data[int(toplamornek*0.7):,-1]

In [31]:
print(train_X.shape,train_y.shape,test_X.shape,test_y.shape)

(2495, 10) (2495,) (1070, 10) (1070,)


In [32]:
def basari_hesapla(tahmin,gercek):
    t=0
    for i in range(len(tahmin)):
        if tahmin[i]==gercek[i]:
            t+=1
    return (t/len(tahmin))*100

In [33]:
tahminler = []
for tX in test_X:
    iccarpim = np.dot(train_X,tX)
    enyuksekiccarpim = np.argsort(iccarpim)[-3:]
    en_yuksek_sinif= pd.Series(train_y[enyuksekiccarpim]).mode()[0]
    tahminler.append(en_yuksek_sinif)

In [34]:
basari=basari_hesapla(tahminler,test_y)
print(f'Başarı Oranı: {basari}')

Başarı Oranı: 82.33644859813084


# Seviye Görevler: (15p)
# 1.0 Veri setinin satirlarini random olarak karıştırdiktan sonra veri setininin %70’ini eğitim seti, %30’unu test seti olarak alın. Test setindeki örnekleri kNN algoritmasinda ‘Manhattan Uzaklığı’ kullanarak sınıflandırın. (k=3 alın). Sonucun başarısını hesaplayın (test setinin tamamı için bir başarı oranı verin

In [35]:
def manhattan(point1, point2):
    return np.sum(np.abs(point1 - point2))

In [36]:
tahminler = np.zeros(test_X.shape[0])
for i in range(test_X.shape[0]):
    ornek = test_X[i, :]
    uzaklik = manhattan(ornek, train_X)
    index = np.argsort(uzaklik)
    tahminsinif = train_y[index[:3]]
    # Başarı hesaplaması
    tekrar= 0
    tekrar_sayisi = 0
    for sinif in set(tahminsinif):
        tekrar_sayisi = np.sum(tahminsinif == sinif)
        if tekrar > tekrar_sayisi:
            tekrar_sayisi = tekrar
            tekrar_sayisi = sinif
    tahminler[i] = tekrar
basari = basari_hesapla(tahminler, train_y)
print(f'Başarı: {basari}')

Başarı: 76.72897196261682


# 2-0. Veri setinin satirlarini random olarak karıştırdiktan sonra veri setininin %70’ini eğitim seti, %30’unu test seti olarak alın. Test setinin sınıf kolonu hariç kolonlarının oluşturduğu matrisi (X_test), eğitim setinin sınıf kolonu hariç kolonlarının oluşturduğu matrisin (X_egitim’in ) transpozu ile çarpın (matris-matris çarpımı). Bu çarpım sonucu ortaya çıkan bu matris, her bir test örneğinin her bir eğitim örneği ile iç çarpımlarını verir. Yani böylece her bir test örneğinin her bir eğitim örnegine ne kadar benzedigini bu çarpım sayesinde direkt öğrenebiliriz. Çarpım sonucu ortaya çıkan bu matrisi kullanarak test örneklerini en yakın komşu algoritması mantığıyla sınıflandırın. Sonucun başarısını hesaplayın (test setinin tamamı için bir başarı oranı verin). (k=3alın)

In [37]:
train_X_transpoze = train_X.T
ic_carpim = np.dot(test_X, train_X_transpoze)

In [38]:
k = 3
tahminler = []

for ic in ic_carpim:
    k_index = np.argsort(ic)[-k:]
    k_etiket = train_y[k_index]

    etiket, sayi = np.unique(k_etiket, return_counts=True)
    k_etiket = etiket[np.argmax(sayi)]
    
    tahminler.append(k_etiket)
    
dogru_tahminler = np.sum(tahminler == test_y)
toplam_test = len(test_y)
basari = dogru_tahminler / toplam_test
print(f'başarı oranı: {basari}')

başarı oranı: 0.8233644859813084


In [39]:
import warnings
warnings.filterwarnings("ignore")

## 3-0. Veri setinin satirlarini random olarak karıştırdiktan sonra veri setininin %70’ini eğitim seti, %30’unu test seti olarak alın. Daha sonra eğitim setindeki pozitif sınıflara ait örneklerle (satırlarla) negatif sınıflara ait örnekleri birbirinden ayırın. Pozitif eğitim örneklerini, “k-means” algoritması kullanarak 5 gruba (cluster’a) ayırın. Bunun için k-means’i bilmenize gerek yok şöyle bir komut kullanarak bunu başarabilirsiniz:
```
from sklearn.cluster import KMeans
kmeans_pozitif = KMeans(n_clusters = 5, random_state = 0, 
n_init='auto')
kmeans_pozitif.fit(X_egitim_pozitif)
```
## Buradaki X_egitim_pozitif, satırları egitim örneklerine karşılık gelen bir matris (not bu matriste sınıf kolonu yok). Bu noktadan sonra kmeans.labels_ komutu her bir eğitim örneğinin ait olduğu grubu veren bir listeye döner. 
```
kmeans_pozitif.cluster_centers_
```
## komutu pozitif örneklerin oluşturduğu grupların grup merkezlerini verir. Yukarıdaki adımları tekrar ederek bu sefer negatif eğitim örnekleri için 5 adet grup ve bu gruplara ait grup merkezlerini bulun. Artık elimizde pozitif örneklerden gelen 5 adet merkez, negatif örneklerden gelen 5 adet merkez bulunmaktadır. Bu merkezleri birleştirerek 5’i pozitif, 5’i negatif sinifa ait 10 örneklik yeni bir eğitim seti oluşturun. Test örneklerini bu yeni egitim setini kullanarak kNN ile sınıflandırın (k=3 alın, öklid kullanın). Sonucun başarısını hesaplayın (test setinin tamamı için bir başarı oranı verin)

In [40]:
from sklearn.cluster import KMeans

In [41]:
pozitif = train_X[train_y == 1]
negatif = train_X[train_y == 0]

k = 5
pozitif_k = KMeans(n_clusters=k, random_state=0, n_init='auto')
pozitif_k.fit(pozitif)
pozitif_center = pozitif_k.cluster_centers_

negatif_k = KMeans(n_clusters=k, random_state=0, n_init='auto')
negatif_k.fit(negatif)
negatif_center = negatif_k.cluster_centers_

In [42]:
new_train = np.concatenate((pozitif_center, negatif_center), axis=0)

In [43]:
def uzaklik_hesapla(ornek,matris):
    uzakliklar=np.zeros(matris.shape[0])
    for i in range(matris.shape[0]):
        uzakliklar[i]=np.sqrt(np.sum((ornek-matris[i,:])**2))
    return uzakliklar

In [44]:
def basari_hesapla(tahmin,gercek):
    t=0
    for i in range(len(tahmin)):
        if tahmin[i]==gercek[i]:
            t+=1
    return (t/len(tahmin))*100

In [46]:
tahmin =np.zeros(test_X.shape[0])
for i in range(test_X.shape[0]):
    ornek = test_X[i, :]
    uzakliklar = uzaklik_hesapla(ornek, train_X)
    yakindan_uzaga_indisler = np.argsort(uzakliklar)
    tahmin = train_y[yakindan_uzaga_indisler[:3]]
    
    tekrar = 0
    tekrak_no = 0

    for sinif in set(tahmin):
        tekrar = np.sum(tahmin == sinif)
        if tekrar > tekrak_no:
            tekrak_no = tekrar
            tekrak_no = sinif
    
    tahminler[i] = tekrak_no

basari = basari_hesapla(tahminler, test_y)
print(f'Başarı: {basari}')

Başarı: 100.0
