# Veri Analizi ve Ön İşleme Dokümantasyonu

## 1. Veri Setinin Tanıtımı

##### Veri seti, yan etkilerle ilgili kullanıcı bilgilerini içermektedir. Toplam 2357 giriş ve 19 sütun bulunmaktadır.

##### Sütunlar:

Kullanici_id: Kullanıcı kimliği
Cinsiyet: Kullanıcının cinsiyeti
Dogum_Tarihi: Kullanıcının doğum tarihi
Uyruk: Kullanıcının uyruk bilgisi
Il: Kullanıcının yaşadığı il
Ilac_Adi: Kullanılan ilaç adı
Ilac_Baslangic_Tarihi: İlacın başlangıç tarihi
Ilac_Bitis_Tarihi: İlacın bitiş tarihi
Yan_Etki: Kullanılan ilacın yan etkileri
Yan_Etki_Bildirim_Tarihi: Yan etkilerin bildirildiği tarih
Alerjilerim: Kullanıcının alerji bilgileri
Kronik Hastaliklarim: Kullanıcının kronik hastalıkları
Baba Kronik Hastaliklari: Babasının kronik hastalıkları
Anne Kronik Hastaliklari: Annesinin kronik hastalıkları
Kiz Kardes Kronik Hastaliklari: Kız kardeşinin kronik hastalıkları
Erkek Kardes Kronik Hastaliklari: Erkek kardeşinin kronik hastalıkları
Kan Grubu: Kullanıcının kan grubu
Kilo: Kullanıcının kilosu
Boy: Kullanıcının boyu

## 2. EDA Bulguları

#### Veri setinde yapılan ön incelemeler sonucunda aşağıdaki bulgular elde edilmiştir:

##### Genel Bilgiler

In [None]:
print(df.info())

Toplam 2357 kayıt mevcuttur.
Cinsiyet, Il, Alerjilerim, Kronik Hastaliklarim, Baba Kronik Hastaliklari, Anne Kronik Hastaliklari, Kiz Kardes Kronik Hastaliklari, Erkek Kardes Kronik Hastaliklari, Kan Grubu gibi sütunlarda eksik değerler bulunmaktadır.

##### Eksik Değerler

In [None]:
df.isnull().sum()

Cinsiyet: 778 eksik
Il: 227 eksik
Alerjilerim: 484 eksik
Kilo: 293 eksik
Boy: 114 eksik

##### Aykırı Değerlerin Kontrolü

In [None]:
print(df['Kilo'].describe())
print(df['Boy'].describe())

Kilo: Ortalama 80.86, Minimum 50, Maksimum 110
Boy: Ortalama 174.64, Minimum 145, Maksimum 203

##### Tarih Verilerine Dayalı Yeni Özellikler

In [None]:
df['Ilac_Kullanim_Suresi'] = (df['Ilac_Bitis_Tarihi'] - df['Ilac_Baslangic_Tarihi']).dt.days

Kullanım süresi gün cinsinden hesaplanmıştır.

## 3. Veri Ön İşleme Adımları

### Kategorik ve Sayısal Sütunların Belirlenmesi

In [None]:
categorical_cols = ['Cinsiyet', 'Uyruk', 'Il', 'Ilac_Adi', 'Yan_Etki', 
                    'Alerjilerim', 'Kronik Hastaliklarim', 'Baba Kronik Hastaliklari', 
                    'Anne Kronik Hastaliklari', 'Kiz Kardes Kronik Hastaliklari', 
                    'Erkek Kardes Kronik Hastaliklari', 'Kan Grubu']

numerical_cols = ['Kilo', 'Boy']

### Eksik Veri Doldurma

##### Kategorik veriler için en sık görülen değer ile doldurma:

In [None]:
categorical_imputer = SimpleImputer(strategy='most_frequent')

##### Sayısal veriler için ortalama ile doldurma:

In [None]:
numerical_imputer = SimpleImputer(strategy='mean')

### Veri Dönüşüm Adımları

##### Sayısal ve kategorik veriler için dönüşümler:

In [None]:
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_imputer, numerical_cols),
        ('cat', categorical_imputer, categorical_cols)
    ]
)

### One-Hot Encoding ve Ölçeklendirme

##### Kategorik verilerin kodlanması:

In [None]:
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=True)

##### Sayısal verilerin standartlaştırılması:

In [None]:
scaler = StandardScaler(with_mean=False)

### Pipeline Oluşturma

##### Tüm işlem adımlarını sıralı bir şekilde uygulamak için pipeline oluşturulmuştur:

In [None]:
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('onehot', onehot_encoder),
    ('scaler', scaler)
])

### Veri İşleme

##### Pipeline'ı veri setine uygulayarak işlenmiş veriyi elde etme:

In [None]:
X_processed = pipeline.fit_transform(df)

### İşlenmiş Veri Sonuçları

In [None]:
print(X_processed)

##### İşlenmiş veri, modelleme için hazır hale getirilmiştir.