In [35]:
# Pandas kütüphanesini veri işleme için içe aktarıyoruz
import pandas as pd

# Eksik veri doldurma işlemi için SimpleImputer sınıfını, kategorik verilerin kodlanması için OneHotEncoder ve 
# sayısal verilerin ölçeklendirilmesi için StandardScaler sınıfını içe aktarıyoruz
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

# Farklı sütunlar için veri dönüşüm adımlarını uygulamak için ColumnTransformer sınıfını içe aktarıyoruz
# Veri işleme adımlarını bir pipeline içinde düzenlemek için Pipeline sınıfını kullanıyoruz
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

In [36]:
# Veri setini 'side_effect_data.csv' dosyasından pandas ile okuyoruz
df = pd.read_csv('side_effect_data.csv')

In [37]:
# Veri seti hakkında genel bilgi almak için df.info() fonksiyonunu kullanıyoruz
# Bu işlem sütun isimleri, veri tipleri ve eksik veri olup olmadığı gibi bilgileri gösterir
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2357 entries, 0 to 2356
Data columns (total 19 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Kullanici_id                      2357 non-null   int64  
 1   Cinsiyet                          1579 non-null   object 
 2   Dogum_Tarihi                      2357 non-null   object 
 3   Uyruk                             2357 non-null   object 
 4   Il                                2130 non-null   object 
 5   Ilac_Adi                          2357 non-null   object 
 6   Ilac_Baslangic_Tarihi             2357 non-null   object 
 7   Ilac_Bitis_Tarihi                 2357 non-null   object 
 8   Yan_Etki                          2357 non-null   object 
 9   Yan_Etki_Bildirim_Tarihi          2357 non-null   object 
 10  Alerjilerim                       1873 non-null   object 
 11  Kronik Hastaliklarim              1965 non-null   object 
 12  Baba K

In [38]:
df['Dogum_Tarihi'] = pd.to_datetime(df['Dogum_Tarihi'], errors='coerce')
df['Ilac_Baslangic_Tarihi'] = pd.to_datetime(df['Ilac_Baslangic_Tarihi'], errors='coerce')
df['Ilac_Bitis_Tarihi'] = pd.to_datetime(df['Ilac_Bitis_Tarihi'], errors='coerce')

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2357 entries, 0 to 2356
Data columns (total 19 columns):
 #   Column                            Non-Null Count  Dtype         
---  ------                            --------------  -----         
 0   Kullanici_id                      2357 non-null   int64         
 1   Cinsiyet                          1579 non-null   object        
 2   Dogum_Tarihi                      2357 non-null   datetime64[ns]
 3   Uyruk                             2357 non-null   object        
 4   Il                                2130 non-null   object        
 5   Ilac_Adi                          2357 non-null   object        
 6   Ilac_Baslangic_Tarihi             2357 non-null   datetime64[ns]
 7   Ilac_Bitis_Tarihi                 2357 non-null   datetime64[ns]
 8   Yan_Etki                          2357 non-null   object        
 9   Yan_Etki_Bildirim_Tarihi          2357 non-null   object        
 10  Alerjilerim                       1873 non-null 

In [40]:
# Veri setinde her sütundaki eksik değerlerin sayısını görmek için isnull().sum() fonksiyonunu kullanıyoruz
df.isnull().sum()

Kullanici_id                          0
Cinsiyet                            778
Dogum_Tarihi                          0
Uyruk                                 0
Il                                  227
Ilac_Adi                              0
Ilac_Baslangic_Tarihi                 0
Ilac_Bitis_Tarihi                     0
Yan_Etki                              0
Yan_Etki_Bildirim_Tarihi              0
Alerjilerim                         484
Kronik Hastaliklarim                392
Baba Kronik Hastaliklari            156
Anne Kronik Hastaliklari            217
Kiz Kardes Kronik Hastaliklari       97
Erkek Kardes Kronik Hastaliklari    121
Kan Grubu                           347
Kilo                                293
Boy                                 114
dtype: int64

In [50]:
# eksik veri doldurma

# Kategorik değişkenlerde eksik değerleri en sık görülen değerle dolduruyoruz
df['Cinsiyet'] = df['Cinsiyet'].fillna(df['Cinsiyet'].mode()[0])
df['Il'] = df['Il'].fillna(df['Il'].mode()[0])
df['Alerjilerim'] = df['Alerjilerim'].fillna(df['Alerjilerim'].mode()[0])
df['Kronik Hastaliklarim'] = df['Kronik Hastaliklarim'].fillna(df['Kronik Hastaliklarim'].mode()[0])
df['Baba Kronik Hastaliklari'] = df['Baba Kronik Hastaliklari'].fillna(df['Baba Kronik Hastaliklari'].mode()[0])
df['Anne Kronik Hastaliklari'] = df['Anne Kronik Hastaliklari'].fillna(df['Anne Kronik Hastaliklari'].mode()[0])
df['Kiz Kardes Kronik Hastaliklari'] = df['Kiz Kardes Kronik Hastaliklari'].fillna(df['Kiz Kardes Kronik Hastaliklari'].mode()[0])
df['Erkek Kardes Kronik Hastaliklari'] = df['Erkek Kardes Kronik Hastaliklari'].fillna(df['Erkek Kardes Kronik Hastaliklari'].mode()[0])
df['Kan Grubu'] = df['Kan Grubu'].fillna(df['Kan Grubu'].mode()[0])

# Sayısal değişkenlerde eksik değerleri ortalama ile dolduruyoruz
df['Kilo'] = df['Kilo'].fillna(df['Kilo'].mean())
df['Boy'] = df['Boy'].fillna(df['Boy'].mean())

In [51]:
#kontrol

df.isnull().sum()

Kullanici_id                        0
Cinsiyet                            0
Dogum_Tarihi                        0
Uyruk                               0
Il                                  0
Ilac_Adi                            0
Ilac_Baslangic_Tarihi               0
Ilac_Bitis_Tarihi                   0
Yan_Etki                            0
Yan_Etki_Bildirim_Tarihi            0
Alerjilerim                         0
Kronik Hastaliklarim                0
Baba Kronik Hastaliklari            0
Anne Kronik Hastaliklari            0
Kiz Kardes Kronik Hastaliklari      0
Erkek Kardes Kronik Hastaliklari    0
Kan Grubu                           0
Kilo                                0
Boy                                 0
Ilac_Kullanim_Suresi                0
dtype: int64

In [42]:
# Aykırı Değerlerin Kontrolü:

print(df['Kilo'].describe())
print(df['Boy'].describe())

count    2064.000000
mean       80.863857
std        18.635269
min        50.000000
25%        65.000000
50%        83.000000
75%        96.000000
max       110.000000
Name: Kilo, dtype: float64
count    2243.000000
mean      174.638431
std        16.516552
min       145.000000
25%       160.000000
50%       176.000000
75%       187.000000
max       203.000000
Name: Boy, dtype: float64


In [43]:
# Tarih Verilerine Dayalı Yeni Özellikler Oluşturma:

df['Ilac_Kullanim_Suresi'] = (df['Ilac_Bitis_Tarihi'] - df['Ilac_Baslangic_Tarihi']).dt.days

In [44]:
# Kategorik veri içeren sütunları categorical_cols listesinde topluyoruz
categorical_cols = ['Cinsiyet', 'Uyruk', 'Il', 'Ilac_Adi', 'Yan_Etki', 'Alerjilerim', 
                    'Kronik Hastaliklarim', 'Baba Kronik Hastaliklari', 
                    'Anne Kronik Hastaliklari', 'Kiz Kardes Kronik Hastaliklari', 
                    'Erkek Kardes Kronik Hastaliklari', 'Kan Grubu']

# Sayısal veri içeren sütunları numerical_cols listesinde topluyoruz
numerical_cols = ['Kilo', 'Boy']

In [45]:
# Kategorik verilerde eksik olan değerleri en sık görülen değerle doldurmak için SimpleImputer kullanıyoruz
categorical_imputer = SimpleImputer(strategy='most_frequent')

# Sayısal verilerde eksik olan değerleri ortalama ile doldurmak için SimpleImputer kullanıyoruz
numerical_imputer = SimpleImputer(strategy='mean')

In [46]:
# Sayısal ve kategorik sütunlara farklı veri dönüşüm adımlarını uygulamak için ColumnTransformer kullanıyoruz
# Sayısal sütunlara numerical_imputer, kategorik sütunlara categorical_imputer uygulanacak
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_imputer, numerical_cols),  # Sayısal sütunlara ortalama ile doldurma
        ('cat', categorical_imputer, categorical_cols)  # Kategorik sütunlara en sık görülen değer ile doldurma
    ]
)

In [47]:
# Kategorik verileri OneHotEncoder ile kodluyoruz, bilinmeyen kategorileri göz ardı ediyoruz ve sparse matris döndürüyoruz
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=True)

# Sayısal verileri ölçeklendirmek için StandardScaler kullanıyoruz, ortalamayı çıkarmadan standartlaştırma yapıyoruz
scaler = StandardScaler(with_mean=False)

In [48]:
# Veri işleme adımlarını sıralı bir şekilde uygulamak için Pipeline oluşturuyoruz
# İlk adımda eksik verileri dolduruyoruz (preprocessor), 
# ardından kategorik verileri onehot_encoder ile kodluyoruz ve 
# son olarak sayısal verileri scaler ile standartlaştırıyoruz
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Eksik verileri doldurma
    ('onehot', onehot_encoder),      # Kategorik verileri OneHotEncoder ile kodlama
    ('scaler', scaler)               # Sayısal verileri ölçeklendirme
])

In [49]:
# Veriyi işlemek için tanımlanan pipeline'ı uyguluyoruz ve işlenmiş veriyi X_processed değişkenine atıyoruz
X_processed = pipeline.fit_transform(df)

# İşlenmiş verinin sonuçlarını incelemek için yazdırıyoruz
print(X_processed)

  (0, 49)	11.817543051785101
  (0, 90)	5.246178389074344
  (0, 100)	2.1822670912464415
  (0, 101)	1.0
  (0, 106)	3.774888509166798
  (0, 253)	11.487042266869796
  (0, 278)	4.022418580048886
  (0, 291)	8.920737570541114
  (0, 350)	9.22987506717997
  (0, 428)	7.153270754735845
  (0, 531)	5.8908434332063635
  (0, 654)	11.817543051785101
  (0, 742)	8.920737570541114
  (0, 754)	3.3504594476069705
  (1, 29)	6.808045441229919
  (1, 83)	4.641868768273212
  (1, 100)	2.1822670912464415
  (1, 101)	1.0
  (1, 114)	3.630065254475365
  (1, 183)	14.050686244360296
  (1, 287)	3.5564973046733805
  (1, 314)	5.8908434332063635
  (1, 318)	2.53791463130529
  (1, 427)	8.386785180150857
  (1, 527)	7.388315419102405
  :	:
  (2355, 101)	1.0
  (2355, 110)	4.761548146925872
  (2355, 173)	10.399316587060195
  (2355, 270)	5.810991392003452
  (2355, 312)	5.697326791905631
  (2355, 318)	2.53791463130529
  (2355, 400)	3.43752591578037
  (2355, 542)	8.267885482734071
  (2355, 643)	13.502341959185365
  (2355, 670)	9.960