!![img_1.png](attachment:img_1.png)

![img_2..png](attachment:img_2..png) 



![img_3.png](attachment:img_3.png)

# INTRODUCTION

<p>Kan nakli, büyük bir ameliyat veya ciddi bir yaralanma sırasında kaybedilen kanın yerine konulmasından çeşitli hastalıkların ve kan bozukluklarının tedavisine kadar hayat kurtarır. İhtiyaç duyulduğunda yeterli kanın bulunmasını sağlamak sağlık profesyonelleri için ciddi bir zorluktur. ''.  According to <a href="https://www.webmd.com/a-to-z-guides/blood-transfusion-what-to-know#1">WebMD</a>'ye göre "her yıl yaklaşık 5 milyon Amerikalının kan nakline ihtiyacı var".</p>

<p>Veri setimiz Tayvan'daki mobil kan bağışı aracından alınmıştır.</p>

<p>Veriler datasets/transfusion.data'da saklanır ve RFMTC pazarlama modeline (RFM'nin bir çeşidi) göre yapılandırılmıştır.  
    

    
RFM genellikle müşteri segmentasyonu için kullanılır ve müşterilerin ne zaman (Recency), ne sıklıkla (Frequency), ve ne kadar para harcadığı (Monetary) gibi özellikler üzerinden analiz yapılmasını sağlar. 

Bu özellikler genellikle müşteri yaşam değeri modellemesi, churn tahmini, müşteri segmentasyonu gibi konulara uyarlanır. 

Ancak burada, bu özellikler bir sosyal iyilik konusu olan kan bağışı için kullanılmıştır.

Bu veri setinde:

**RFMTC Bileşenleri**

1. **Recency (R) - Yakınlık  — "Recency (months)"**
    - Bu özellik, bir bağışçının son bağışından bu yana ne kadar süre geçtiğini temsil eder. Genellikle, son bağışı daha yakın olan bağışçıların tekrar bağış yapma olasılığı daha yüksektir. 
  
2. **Frequency (F) - Sıklık — "Frequency (times)"**
    - Bu, bir bağışçının ne sıklıkla kan bağışı yaptığını gösterir. Yüksek sıklıkta bağış yapan kişilerin, gelecekte de bağış yapma olasılığı genellikle daha yüksektir.
  
3. **Monetary (M) - Parasal Değer — "Monetary (c.c. blood)"**
    - Bu özellik, bağışçının toplamda ne kadar kan bağışladığını temsil eder. Genellikle, daha yüksek miktarda kan bağışlayan bağışçıların değeri daha yüksek kabul edilir.

4. **Time (T) - Zaman — "Time (months)"**
    - Bu, bir bağışçının ilk bağışından bu yana ne kadar süre geçtiğini gösterir. Bu özellik, bağışçının bağış yapma süresi boyunca ne kadar "sadık" olduğunu anlamak için kullanılabilir.

5. **Churn (C) - Ayrılma — "whether he/she donated blood in March 2007"**
    - Bu, bir bağışçının belirli bir zaman diliminde (Mart 2007'de) bağış yapılıp yapmadığını gösterir. Churn, bu örnekte bağışçının o dönemde bağış yapmama olasılığını temsil eder.

**RFMTC'nin Kullanım Alanları**

1. **Segmentasyon**: Bağışçılar, bu özellikler kullanılarak farklı segmentlere ayrılabilir. Örneğin, yüksek "F" ve düşük "R" değerine sahip bağışçılar "Sadık Bağışçılar" olarak etiketlenebilir.

2. **Tahminleme**: Gelecekteki bağış olasılığı, mevcut RFMTC değerleri kullanılarak tahmin edilebilir.

3. **Hedefleme**: Özel kampanyalar veya teşvikler, belirli bağışçı segmentlerini hedeflemek için kullanılabilir.

4. **Risk Analizi**: Düşük sıklıkta ve yüksek churn oranına sahip bağışçılar "Riskli" olarak etiketlenebilir, ve bu bağışçılara yönelik özel stratejiler geliştirilebilir.

Bu modelleme tekniği, bağışçıların gelecekteki davranışlarını anlamak ve onları daha etkin bir şekilde yönetmek için oldukça kullanışlıdır.

Bağışçıların gelecekte kan bağışı yapma olasılığını modellemek için kullanılabilir.

# Importing Libraries

In [1]:
import numpy as np
import pandas as pd 


# Exploratory Data Analysis and Visualization

In [2]:
df = pd.read_csv("transfusion.data")
df

Unnamed: 0,Recency (months),Frequency (times),Monetary (c.c. blood),Time (months),whether he/she donated blood in March 2007
0,2,50,12500,98,1
1,0,13,3250,28,1
2,1,16,4000,35,1
3,2,20,5000,45,1
4,1,24,6000,77,0
...,...,...,...,...,...
743,23,2,500,38,0
744,21,2,500,52,0
745,23,3,750,62,0
746,39,1,250,39,0


# Change the column name if necessary (Gereken Sutun Isimlerini Degistirme)

In [3]:
new_column_names = {
    'Recency (months)': 'Recency',
    'Frequency (times)': 'Frequency',
    'Monetary (c.c. blood)': 'Monetary',
    'Time (months)': 'Time',
    'whether he/she donated blood in March 2007': 'Target'
                   }
            
df.rename(columns=new_column_names, inplace=True)

# Get the first 5 lines (ilk 5 satir )

In [4]:
df.head(5)

Unnamed: 0,Recency,Frequency,Monetary,Time,Target
0,2,50,12500,98,1
1,0,13,3250,28,1
2,1,16,4000,35,1
3,2,20,5000,45,1
4,1,24,6000,77,0



Görseldeki veriyi inceleyerek yorumlayalım:

Tablo 5 sütun ve 5 satırdan oluşuyor. Sütun isimleri ve anlamları şöyle:

Recency: En son satın alma üzerinden geçen gün sayısı.
Frequency: Satın alma sayısı.
Monetary: Toplam harcama miktarı (muhtemelen birim cinsinden).
Time: Müşterinin müşteri olduğu toplam gün sayısı.
Target: Hedef sınıfı, 1 ise hedef müşteri, 0 ise değil.



Verinin Satırları:

1-İlk satırda, en son 2 gün önce alışveriş yapmış, 50 kez alışveriş yapmış, toplamda 12500 birim harcamış, 98 gündür müşteri olan ve hedef müşteri sınıfında (Target = 1) olan bir müşteri bulunuyor.<br>

2-İkinci satırda, en son alışverişi 0 gün önce (bugün) olan, 13 kez alışveriş yapmış, toplamda 3250 birim harcamış, 28 gündür müşteri olan ve hedef müşteri sınıfında (Target = 1) olan bir müşteri var.<br>

3- Üçüncü satırda, en son 1 gün önce alışveriş yapmış, 16 kez alışveriş yapmış, toplamda 4000 birim harcamış, 35 gündür müşteri olan ve hedef müşteri sınıfında (Target = 1) olan bir müşteri yer alıyor.<br>

4 -Dördüncü satırda, en son 2 gün önce alışveriş yapmış, 20 kez alışveriş yapmış, toplamda 5000 birim harcamış, 45 gündür müşteri olan ve hedef müşteri sınıfında (Target = 1) olan bir müşteri bulunuyor.<br>

5- Beşinci satırda, en son 1 gün önce alışveriş yapmış, 24 kez alışveriş yapmış, toplamda 6000 birim harcamış, 77 gündür müşteri olan ve hedef müşteri sınıfında (Target = 0) olan bir müşteri var.<br>


**Bu veri, müşterilerin alışveriş alışkanlıklarını ve hedef müşteri olma durumlarını incelemek için kullanılabilir. Bu tür bir veri analizi, müşteri segmentasyonu ve pazarlama stratejilerinin belirlenmesi için faydalıdır.**

# Look at the general information

In [5]:
df.info() #  data hk.genel bilgi

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   Recency    748 non-null    int64
 1   Frequency  748 non-null    int64
 2   Monetary   748 non-null    int64
 3   Time       748 non-null    int64
 4   Target     748 non-null    int64
dtypes: int64(5)
memory usage: 29.3 KB


# Look at the shape

In [6]:
df.shape # datanin olcusu 

(748, 5)

## Check for missing values

In [7]:
df.isnull()  kayip veri var mi

SyntaxError: invalid syntax (2900729954.py, line 1)

In [None]:
df.isnull().sum() # toplam bos data sayisini 

## Check for duplicated values

In [None]:
df.duplicated().sum() # tekrar eden satirlar 

## Check the dtype

In [None]:
df.dtypes


## Calculate the basic statistical values

In [None]:
df.describe()

In [None]:
df.describe().T

* ortalama(mean) ve standart sapmasi birebirine yakin olan verilerde outlier  olmasini bekleriz.<br>

* standart sapma diger degerlerin ortalamadan olan uzakliklari ile ilgili degerdir.Standart sapma ne kadar buyukse  ortlamadan o kadar buyuk daginik veri var demektir.<br>

## Check unique values

In [None]:
df.Recency.unique() # recency son bagistan bugune ne kadar sure gectigini bize soyler

** unique degerler daha cok object datalarda isimize yarar.

In [None]:
df.Recency.nunique()# recency icin unique lerin sayisini verir.Sayisal olarak boyle bakiyoruz

In [None]:
df.Target.unique()

In [None]:
df.Target.nunique()

## Calculate the average of 'Recency'

In [None]:
# recency ortalamasini bulalim # mean 

df.Recency.mean()

## Find the highest value in 'Frequency'

In [None]:
# frekansin en yuksek degerini bulalim

df.Frequency.max()

## Calculate the median of 'Time'

In [None]:
# median ortanca demektir.
#time ortanca degerini median 

df.Time.median()

## Calculate the standard deviation of 'Monetary'

In [None]:
df.Monetary.std()

## Count the number of unique values in 'Time'

In [None]:
# time  feature daki unuque values leri kac tane oldugunu 
df.Time.nunique()

## Calculate the ratio of donors in March 2007 (Target=1) to total donors

In [None]:
# Mart 2007 deki  

df.Target

In [None]:
df.Target.value_counts() # target feature daki unuque olan degerlerin sayisini gosterdik

In [None]:
# bir sutun icindeki oranlar istenirse 

df.Target.value_counts(normalize=True)

## Filter donors with 'Recency' less than 10 months

In [None]:
#'Geçerlilik Süresi' 10 aydan az olan bağışçıları filtrele

df[df['Recency'] < 10 ]

In [None]:
# sayisini gormek istersek


In [None]:
len(df[df['Recency'] < 10 ])

## Select donors who donated at least 5 times

In [None]:
#En az 5 kez bağış yapan-kabn veren  bağışçıları seçin 

df[df['Frequency'] >= 5]

In [None]:
len(df[df['Frequency'] >= 5])

## Create a new column giving the time between the first donation and the last donation

In [None]:
# bagiscinin  ilk bagisindan son bagisina kadar olan olan sureyi bulun ve yeni bir sutun olusturun.

df['Donation_Period'] = df.Time - df.Recency 
df['Donation_Period'] # 

In [None]:
df

## Outlier Analysis for 'Monetary'


* outlier datamizdaki uc noktadaki verilerdir.Uc noktalarda veriler ML algoritmalarinin  egitimini olumsuz yonde etkiler.<br>
* Yani 100 araba dusunelim bu 99 arabanin km si 20.000 km ile 30.000 km arasinda, arada bir arabanin km si 300.000 km de.<br>
* 

In [8]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Recency,748.0,9.506684,8.095396,0.0,2.75,7.0,14.0,74.0
Frequency,748.0,5.514706,5.839307,1.0,2.0,4.0,7.0,50.0
Monetary,748.0,1378.676471,1459.826781,250.0,500.0,1000.0,1750.0,12500.0
Time,748.0,34.282086,24.376714,2.0,16.0,28.0,50.0,98.0
Target,748.0,0.237968,0.426124,0.0,0.0,0.0,0.0,1.0


In [10]:
q_1 =df.Monetary.quantile(0.25)
q_1

500.0

In [11]:
q_3=df.Monetary.quantile(0.75)
q_3

1750.0

In [12]:
iqr_1= q_3 -q_1
iqr_1

1250.0

## Outlier Analysis for 'Frequency'

In [None]:
df.describe().T

In [None]:
# 
q1 =df.Frequency.quantile(0.25)
q1

In [None]:
q3 = df.Frequency.quantile(0.75)
q3

In [None]:
iqr = q3 -q1
iqr

In [13]:
df[df['Frequency'] > 22]

Unnamed: 0,Recency,Frequency,Monetary,Time,Target
0,2,50,12500,98,1
4,1,24,6000,77,0
9,5,46,11500,98,1
10,4,23,5750,58,0
115,11,24,6000,64,0
341,23,38,9500,98,0
500,2,43,10750,86,1
502,2,34,8500,77,1
503,2,44,11000,98,0
504,0,26,6500,76,1


In [14]:
len(df[df['Frequency'] > 22])

13

## Create a simple scoring model based on 'Recency' and 'Frequency'

In [15]:
# Receny ve Frequency arasinda basit  skor(puanlama) elde edin 

df.head() # burada recent ve frequency bakalim
           # recency-->  son kan bagisindan bu zamana kadar gecen vakit 
          # freguency -->  


Unnamed: 0,Recency,Frequency,Monetary,Time,Target
0,2,50,12500,98,1
1,0,13,3250,28,1
2,1,16,4000,35,1
3,2,20,5000,45,1
4,1,24,6000,77,0


In [23]:
df['Donation_Score'] = (1/ df.Recency + df.Frequency)
df['Donation_Score'] 

0      50.500000
1            inf
2      17.000000
3      20.500000
4      25.000000
         ...    
743     2.043478
744     2.047619
745     3.043478
746     1.025641
747     1.013889
Name: Donation_Score, Length: 748, dtype: float64

In [24]:
df.head()

Unnamed: 0,Recency,Frequency,Monetary,Time,Target,Donation_Score
0,2,50,12500,98,1,50.5
1,0,13,3250,28,1,inf
2,1,16,4000,35,1,17.0
3,2,20,5000,45,1,20.5
4,1,24,6000,77,0,25.0


In [25]:
df['Donation_Score1'] =np.where(df['Recency'] == 0, df.Frequency, (1/df.Recency) + df.Frequency)# inf  silmek 
df['Donation_Score1']

0      50.500000
1      13.000000
2      17.000000
3      20.500000
4      25.000000
         ...    
743     2.043478
744     2.047619
745     3.043478
746     1.025641
747     1.013889
Name: Donation_Score1, Length: 748, dtype: float64

In [26]:
df.head()

Unnamed: 0,Recency,Frequency,Monetary,Time,Target,Donation_Score,Donation_Score1
0,2,50,12500,98,1,50.5,50.5
1,0,13,3250,28,1,inf,13.0
2,1,16,4000,35,1,17.0,17.0
3,2,20,5000,45,1,20.5,20.5
4,1,24,6000,77,0,25.0,25.0


## Convert Time to Years and Months (Time Series Transformation)

In [31]:
# Zamani yillara ve aylara donusturme 
df.Time // 12

0      8
1      2
2      2
3      3
4      6
      ..
743    3
744    4
745    5
746    3
747    6
Name: Time, Length: 748, dtype: int64

In [32]:
df['Years'] =df.Time // 12
df['Years']

0      8
1      2
2      2
3      3
4      6
      ..
743    3
744    4
745    5
746    3
747    6
Name: Years, Length: 748, dtype: int64

In [33]:
df.Time % 12

0       2
1       4
2      11
3       9
4       5
       ..
743     2
744     4
745     2
746     3
747     0
Name: Time, Length: 748, dtype: int64

In [34]:
df["Months"] = df.Time % 12
df["Months"]

0       2
1       4
2      11
3       9
4       5
       ..
743     2
744     4
745     2
746     3
747     0
Name: Months, Length: 748, dtype: int64

In [35]:
df.head()

Unnamed: 0,Recency,Frequency,Monetary,Time,Target,Donation_Score,Donation_Score1,Years,Months
0,2,50,12500,98,1,50.5,50.5,8,2
1,0,13,3250,28,1,inf,13.0,2,4
2,1,16,4000,35,1,17.0,17.0,2,11
3,2,20,5000,45,1,20.5,20.5,3,9
4,1,24,6000,77,0,25.0,25.0,6,5


## Calculate the correlation of 'Target' with other features (Correlation Analysis)

In [27]:
# Korelasyon Analizi 
# corelasyon --> bir feature diger featureyi ne kadar etkiledigini bize gosterir

df.corr()['Target']


Recency           -0.279869
Frequency          0.218633
Monetary           0.218633
Time              -0.035854
Target             1.000000
Donation_Score     0.216745
Donation_Score1    0.225380
Name: Target, dtype: float64

In [36]:
df.corr()['Target'].sort_values(ascending= False) # buyukten kucuge siraladik


Target             1.000000
Donation_Score1    0.225380
Monetary           0.218633
Frequency          0.218633
Donation_Score     0.216745
Months            -0.021089
Years             -0.032680
Time              -0.035854
Recency           -0.279869
Name: Target, dtype: float64

In [37]:
df.head()

Unnamed: 0,Recency,Frequency,Monetary,Time,Target,Donation_Score,Donation_Score1,Years,Months
0,2,50,12500,98,1,50.5,50.5,8,2
1,0,13,3250,28,1,inf,13.0,2,4
2,1,16,4000,35,1,17.0,17.0,2,11
3,2,20,5000,45,1,20.5,20.5,3,9
4,1,24,6000,77,0,25.0,25.0,6,5


## Create donor groups based on 'Frequency' (Grouping and Aggregation)

In [38]:
# 'Frekans' temelinde bağışçı grupları oluşturun (Gruplama ve Toplama)
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Recency,748.0,9.506684,8.095396,0.0,2.75,7.0,14.0,74.0
Frequency,748.0,5.514706,5.839307,1.0,2.0,4.0,7.0,50.0
Monetary,748.0,1378.676471,1459.826781,250.0,500.0,1000.0,1750.0,12500.0
Time,748.0,34.282086,24.376714,2.0,16.0,28.0,50.0,98.0
Target,748.0,0.237968,0.426124,0.0,0.0,0.0,0.0,1.0
Donation_Score,748.0,inf,,1.013514,2.071429,4.071429,7.25,inf
Donation_Score1,748.0,5.739404,5.87564,1.013514,2.071429,4.071429,7.25,50.5
Years,748.0,2.394385,2.038011,0.0,1.0,2.0,4.0,8.0
Months,748.0,5.549465,3.546058,0.0,2.0,4.0,9.0,11.0


In [39]:
# pandasta gruplama
bins = [0, 4, 14, 50 ]

group_names = ["Low", "Medium", "High"]


df["Frequency_Group"] = pd.cut(df.Frequency, bins, labels= group_names)


df["Frequency_Group"]

0        High
1      Medium
2        High
3        High
4        High
        ...  
743       Low
744       Low
745       Low
746       Low
747       Low
Name: Frequency_Group, Length: 748, dtype: category
Categories (3, object): ['Low' < 'Medium' < 'High']

In [40]:
df.sample(10)

Unnamed: 0,Recency,Frequency,Monetary,Time,Target,Donation_Score,Donation_Score1,Years,Months,Frequency_Group
483,23,1,250,23,0,1.043478,1.043478,1,11,Low
45,4,9,2250,28,1,9.25,9.25,2,4,Medium
401,23,5,1250,33,0,5.043478,5.043478,2,9,Medium
398,16,8,2000,76,0,8.0625,8.0625,6,4,Medium
378,14,1,250,14,0,1.071429,1.071429,1,2,Low
319,11,5,1250,41,0,5.090909,5.090909,3,5,Medium
533,2,4,1000,14,0,4.5,4.5,1,2,Low
472,23,3,750,41,0,3.043478,3.043478,3,5,Low
64,2,3,750,9,1,3.5,3.5,0,9,Low
617,4,1,250,4,0,1.25,1.25,0,4,Low


## Create a new categorical variable based on 'Recency'

In [41]:
# 
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Recency,748.0,9.506684,8.095396,0.0,2.75,7.0,14.0,74.0
Frequency,748.0,5.514706,5.839307,1.0,2.0,4.0,7.0,50.0
Monetary,748.0,1378.676471,1459.826781,250.0,500.0,1000.0,1750.0,12500.0
Time,748.0,34.282086,24.376714,2.0,16.0,28.0,50.0,98.0
Target,748.0,0.237968,0.426124,0.0,0.0,0.0,0.0,1.0
Donation_Score,748.0,inf,,1.013514,2.071429,4.071429,7.25,inf
Donation_Score1,748.0,5.739404,5.87564,1.013514,2.071429,4.071429,7.25,50.5
Years,748.0,2.394385,2.038011,0.0,1.0,2.0,4.0,8.0
Months,748.0,5.549465,3.546058,0.0,2.0,4.0,9.0,11.0


In [42]:
bins = [-1, 12, 24, 36, 75 ]

group_names = ["0-12 Months", "13-24 Months", "25-36 Months", "37-74 Months"]


df["Recency_Group"] = pd.cut(df.Recency, bins, labels= group_names)


df["Recency_Group"]

0       0-12 Months
1       0-12 Months
2       0-12 Months
3       0-12 Months
4       0-12 Months
           ...     
743    13-24 Months
744    13-24 Months
745    13-24 Months
746    37-74 Months
747    37-74 Months
Name: Recency_Group, Length: 748, dtype: category
Categories (4, object): ['0-12 Months' < '13-24 Months' < '25-36 Months' < '37-74 Months']

In [43]:
df.head()

Unnamed: 0,Recency,Frequency,Monetary,Time,Target,Donation_Score,Donation_Score1,Years,Months,Frequency_Group,Recency_Group
0,2,50,12500,98,1,50.5,50.5,8,2,High,0-12 Months
1,0,13,3250,28,1,inf,13.0,2,4,Medium,0-12 Months
2,1,16,4000,35,1,17.0,17.0,2,11,High,0-12 Months
3,2,20,5000,45,1,20.5,20.5,3,9,High,0-12 Months
4,1,24,6000,77,0,25.0,25.0,6,5,High,0-12 Months


## Check the distribution of the 'Target' variable

In [44]:
# 'Hedef' değişkeninin dağılımını kontrol edin

df.Target.value_counts(normalize=True)

Target
0    0.762032
1    0.237968
Name: proportion, dtype: float64

In [45]:
df.Frequency_Group.value_counts()

Frequency_Group
Low       419
Medium    284
High       45
Name: count, dtype: int64

In [46]:
df.Frequency_Group.value_counts(normalize=True)

Frequency_Group
Low       0.560160
Medium    0.379679
High      0.060160
Name: proportion, dtype: float64

In [47]:
df.Frequency_Group.unique()

['High', 'Medium', 'Low']
Categories (3, object): ['Low' < 'Medium' < 'High']

In [48]:
df.Frequency_Group.nunique()

3

# BONUS

## Feature Analysis

In [49]:
#  Özellik Analizi


output_data = []

for col in df.columns:
    
    # If the number of unique values in the column is less than or equal to 5
    if df.loc[:, col].nunique() <= 5:
        # Get the unique values in the column
        unique_values = df.loc[:, col].unique()
        # Append the column name, number of unique values, unique values, and data type to the output data
        output_data.append([col, df.loc[:, col].nunique(), unique_values, df.loc[:, col].dtype])
    else:
        # Otherwise, append only the column name, number of unique values, and data type to the output data
        output_data.append([col, df.loc[:, col].nunique(),"-", df.loc[:, col].dtype])

output_df = pd.DataFrame(output_data, columns=['Column Name', 'Number of Unique Values', ' Unique Values ', 'Data Type'])

output_df

Unnamed: 0,Column Name,Number of Unique Values,Unique Values,Data Type
0,Recency,31,-,int64
1,Frequency,33,-,int64
2,Monetary,33,-,int64
3,Time,78,-,int64
4,Target,2,"[1, 0]",int64
5,Donation_Score,184,-,float64
6,Donation_Score1,186,-,float64
7,Years,9,-,int64
8,Months,12,-,int64
9,Frequency_Group,3,"['High', 'Medium', 'Low'] Categories (3, objec...",category


## Classify DataFrame Columns into Categorical and Numeric Types

In [51]:
# DataFrame Sütunlarını Kategorik ve Sayısal Türlere Sınıflandırma 


def grab_col_names(dataframe, cat_th=10):

    # cat_cols
    cat_cols = [col for col in dataframe.columns if dataframe[col].dtypes == "O"]
    num_but_cat = [col for col in dataframe.columns if dataframe[col].nunique() < cat_th and
                   dataframe[col].dtypes != "O"]    
    cat_cols = cat_cols + num_but_cat
    

    # num_cols
    num_cols = [col for col in dataframe.columns if dataframe[col].dtypes != "O"]
    num_cols = [col for col in num_cols if col not in cat_cols]

    print(f"Features: {dataframe.shape[1]}")
    print(f'Number of Categorical Features: {len(cat_cols)}')
    print(f'Number of Numeric Features: {len(num_cols)}')
    print(f"Categorical Features: {cat_cols}") 
    print(f"Numeric Features: {num_cols}")
    
    return cat_cols, num_cols

In [52]:
cat_cols, num_cols = grab_col_names(df)

Features: 11
Number of Categorical Features: 4
Number of Numeric Features: 7
Categorical Features: ['Target', 'Years', 'Frequency_Group', 'Recency_Group']
Numeric Features: ['Recency', 'Frequency', 'Monetary', 'Time', 'Donation_Score', 'Donation_Score1', 'Months']


## DataFrame Summary Statistics

In [60]:
# DataFrame Özet İstatistikleri

def summary(df, pred=None):
    obs = df.shape[0]
    Types = df.dtypes
    Counts = df.apply(lambda x: x.count())
    Min = df.min()
    Max = df.max()
    Uniques = df.apply(lambda x: x.unique().shape[0])
    Nulls = df.apply(lambda x: x.isnull().sum())
    print('Data shape:', df.shape)

    if pred is None:
        cols = ['Types', 'Counts', 'Uniques', 'Nulls', 'Min', 'Max']
        str = pd.concat([Types, Counts, Uniques, Nulls, Min, Max], axis = 1, sort=True)

    str.columns = cols
    print('___________________________\nData Types:')
    print(str.Types.value_counts())
    print('___________________________')
    return str

summary(df)

Data shape: (533, 11)
___________________________
Data Types:
Types
int64       7
float64     2
category    1
category    1
Name: count, dtype: int64
___________________________


Unnamed: 0,Types,Counts,Uniques,Nulls,Min,Max
Donation_Score,float64,533,184,0,1.013514,inf
Donation_Score1,float64,533,186,0,1.013514,50.5
Frequency,int64,533,33,0,1,50
Frequency_Group,category,533,3,0,Low,High
Monetary,int64,533,33,0,250,12500
Months,int64,533,12,0,0,11
Recency,int64,533,31,0,0,74
Recency_Group,category,533,4,0,0-12 Months,37-74 Months
Target,int64,533,2,0,0,1
Time,int64,533,78,0,2,98


## Check and Remove Duplicate Rows

In [54]:
# Yinelenen Satırları Kontrol Etme ve Kaldırma

def duplicate_values(df):
    print("Duplicate check...")
    num_duplicates = df.duplicated(subset=None, keep='first').sum()
    if num_duplicates > 0:
        print("There are", num_duplicates, "duplicated observations in the dataset.")
        df.drop_duplicates(keep='first', inplace=True)
        print(num_duplicates, "duplicates were dropped!")
        print('*' * 100)
    else:
        print("There are no duplicated observations in the dataset.")

In [55]:
duplicate_values(df)

Duplicate check...
There are 215 duplicated observations in the dataset.
215 duplicates were dropped!
****************************************************************************************************


## Missing Value Analysis in DataFrame

In [56]:
# DataFrame'de Eksik Değer Analizi

def missing_values(df):
    missing_number = df.isnull().sum().sort_values(ascending = False)
    missing_percent = (df.isnull().sum() / df.isnull().count()).sort_values(ascending = False)
    missing_values = pd.concat([missing_number, missing_percent], axis = 1, keys = ['Missing_Number', 'Missing_Percent'])
    return missing_values[missing_values['Missing_Number'] > 0]


In [57]:
missing_values(df)

Unnamed: 0,Missing_Number,Missing_Percent


## Column Value Distribution Analysis

In [58]:
# Kolon Değer Dağılımı Analizi

def value_cnt(df, column_name):
    vc = df[column_name].value_counts()
    vc_norm = df[column_name].value_counts(normalize=True).round(3)

    vc = vc.rename_axis('workclass').reset_index(name='counts')
    vc_norm = vc_norm.rename_axis('workclass').reset_index(name='norm_counts')

    df_result = pd.concat([vc['workclass'], vc['counts'], vc_norm['norm_counts']], axis=1)
    
    return df_result

In [59]:
# Target görülme sıklığı, bir veri kümesindeki her bir Target değerin vaka sayısı olarak tanımlanır.
# Yani Target sütunda kaç tane 1'e karşılık kaç tane 0 var? 
# Target insidansı bize veri setimizin ne kadar dengeli (veya dengesiz) olduğuna dair bir fikir verir.

value_cnt(df, 'Target')

Unnamed: 0,workclass,counts,norm_counts
0,0,384,0.72
1,1,149,0.28
