# Naive Bayes Formula

The Naive Bayes formula is given by:

$$
P(Ck | x) = \frac{P(C_k) \cdot P(x | C_k)}{P(x)}
$$

Where:
- $ P(C_k | x) $ is the posterior probability of class $ C_k $ given the feature vector $ x $.
- $ P(C_k) $ is the prior probability of class $ C_k $.
- $ P(x | C_k) $ is the likelihood of the feature vector $ x $ given class $ C_k $.
- $ P(x) $ is the marginal probability of the feature vector $ x $.

# Naive Bayes Classifier

Aşağıda cinsiyete göre insanların promosyonlara olan istekliliklerini gösteren bir data paylaşılmıştır.

In [46]:
import pandas as pd


# Initialize an empty DataFrame
promotion_df = pd.DataFrame()

# Add data to the DataFrame
promotion_df['Magazine Promotion'] = ['Yes', 'Yes', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes']
promotion_df['Watch Promotion'] = ['No', 'Yes', 'No', 'Yes', 'No', 'No', 'Yes', 'No', 'No', 'Yes']
promotion_df['Life Insurance Promotion'] = ['No', 'Yes', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'No', 'Yes']
promotion_df['Credit Card Insurance'] = ['No', 'Yes', 'No', 'Yes', 'No', 'No', 'Yes', 'No', 'No', 'No']
promotion_df['Sex'] = ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Male', 'Male', 'Male', 'Female']

promotion_df

Unnamed: 0,Magazine Promotion,Watch Promotion,Life Insurance Promotion,Credit Card Insurance,Sex
0,Yes,No,No,No,Male
1,Yes,Yes,Yes,Yes,Female
2,No,No,No,No,Male
3,Yes,Yes,Yes,Yes,Male
4,Yes,No,Yes,No,Female
5,No,No,No,No,Female
6,Yes,Yes,Yes,Yes,Male
7,No,No,No,No,Male
8,Yes,No,No,No,Male
9,Yes,Yes,Yes,No,Female


Yukarıdaki datayı baz alarak yeni gelen bir kişinin promosyonlara verdiği cevaba bağlı olarak cinsiyetini tahmin eden bir Naive Bayes Classifier modeli oluşturacağız. Yeni gelen kişi aşağıdaki gibi bir cevap vermiştir:
* Magazine Promotion: Yes
* Watch Promotion: Yes
* Life Insurence Promotion: No
* Credit Card Insurance: No

Bu bilgilere göre kişinin cinsiyeti nedir?

# Cevap
* Burada yeni gelen örneğin cinsiyetine karar verebilmek için veri setinde bulunan sample ların cinsiyetlerine göre olasılıklarını hesaplayacağız. Daha sonra bu olasılıkları kullanarak yeni gelen örneğin cinsiyetini tahmin edeceğiz.
* Bunun için genelleştirilmiş aşağıdaki fonksiyon ile hesaplamalar yapılabilir.

In [49]:
from IPython.display import display

# Calculate the probability of each promotion type
def calculate_probability(promotion_df, target_colunm_name, column_name, expected_column_value):
    
    num_of_samples = promotion_df.shape[0]
    print(f"Total number of samples: {num_of_samples}")

    # get distinct values in the target column
    target_values = promotion_df[target_colunm_name].unique()
    # print(target_values)

    print(f"Probability to be calculated for '{column_name} --> {expected_column_value}', one of the target columns: {target_values}")
    print()

    count_series = promotion_df[column_name].groupby(promotion_df[target_colunm_name]).value_counts()
    print(f"Number of {target_values} counts in '{column_name}':")
    print(count_series)
    print()
    
    # print(count_series.index)
    # print(type(count_series))

    # Get each probability values of interest
    series_to_be_returned_dict = {}
    for target_value in target_values:
        counts_of_interest = count_series[(target_value, expected_column_value)]
        total_counts = count_series[target_value].sum()
        series_to_be_returned_dict[(target_value, expected_column_value)] = counts_of_interest / total_counts

        print(f"Total counts of '{target_value}': {total_counts}")
        print(f"Probability of '{column_name} --> {expected_column_value}' for '{target_value}': {counts_of_interest} / {total_counts} = {series_to_be_returned_dict[(target_value, expected_column_value)]}")
        print()

    return series_to_be_returned_dict

# Magazine Promotion --> Yes

In [48]:
magazine_promotion_prob_dict = calculate_probability(promotion_df, 'Sex', 'Magazine Promotion', 'Yes')

Total number of samples: 10
Probability to be calculated for 'Magazine Promotion --> Yes', one of the target columns: ['Male' 'Female']

Number of ['Male' 'Female'] counts in 'Magazine Promotion':
Sex     Magazine Promotion
Female  Yes                   3
        No                    1
Male    Yes                   4
        No                    2
Name: count, dtype: int64

Total counts of 'Male': 6
Probability of 'Magazine Promotion --> Yes' for 'Male': 4 / 6 = 0.6666666666666666

Total counts of 'Female': 4
Probability of 'Magazine Promotion --> Yes' for 'Female': 3 / 4 = 0.75



# Watch Promotion --> Yes

In [50]:
watch_promotion_prob_dict = calculate_probability(promotion_df, 'Sex', 'Watch Promotion', 'Yes')

Total number of samples: 10
Probability to be calculated for 'Watch Promotion --> Yes', one of the target columns: ['Male' 'Female']

Number of ['Male' 'Female'] counts in 'Watch Promotion':
Sex     Watch Promotion
Female  No                 2
        Yes                2
Male    No                 4
        Yes                2
Name: count, dtype: int64

Total counts of 'Male': 6
Probability of 'Watch Promotion --> Yes' for 'Male': 2 / 6 = 0.3333333333333333

Total counts of 'Female': 4
Probability of 'Watch Promotion --> Yes' for 'Female': 2 / 4 = 0.5



# Life Insurence Promotion --> No

In [51]:
life_insurance_promotion_prob_dict = calculate_probability(promotion_df, 'Sex', 'Life Insurance Promotion', 'No')

Total number of samples: 10
Probability to be calculated for 'Life Insurance Promotion --> No', one of the target columns: ['Male' 'Female']

Number of ['Male' 'Female'] counts in 'Life Insurance Promotion':
Sex     Life Insurance Promotion
Female  Yes                         3
        No                          1
Male    No                          4
        Yes                         2
Name: count, dtype: int64

Total counts of 'Male': 6
Probability of 'Life Insurance Promotion --> No' for 'Male': 4 / 6 = 0.6666666666666666

Total counts of 'Female': 4
Probability of 'Life Insurance Promotion --> No' for 'Female': 1 / 4 = 0.25



# Credit Card Promotion --> No

In [52]:
credit_card_insurance_prob_dict = calculate_probability(promotion_df, 'Sex', 'Credit Card Insurance', 'No')

Total number of samples: 10
Probability to be calculated for 'Credit Card Insurance --> No', one of the target columns: ['Male' 'Female']

Number of ['Male' 'Female'] counts in 'Credit Card Insurance':
Sex     Credit Card Insurance
Female  No                       3
        Yes                      1
Male    No                       4
        Yes                      2
Name: count, dtype: int64

Total counts of 'Male': 6
Probability of 'Credit Card Insurance --> No' for 'Male': 4 / 6 = 0.6666666666666666

Total counts of 'Female': 4
Probability of 'Credit Card Insurance --> No' for 'Female': 3 / 4 = 0.75



# Sonuç

Sample'lar incelendiğinde cinsiyetlerin olasılıkları aşağıdaki gibi hesaplanabilir.
* Erkek Olma Olasılığı: 6 / 10 = 0.6
* Kadın Olma Olasılığı: 4 / 10 = 0.4

Yukarıdaki olaslıklarla, her bir promotion tipi için yes verme olasılıklarını çarparsak, nihai olarak erkeklerin ve kadınların olasılıklarını bulabiliriz.

Total counts of 'Male': 6  
Total counts of 'Female': 4  


Probability of 'Magazine Promotion --> Yes' for 'Male': 4 / 6 = 0.6666666666666666  
Probability of 'Watch Promotion --> Yes' for 'Male': 2 / 6 = 0.3333333333333333  
Probability of 'Life Insurance Promotion --> No' for 'Male': 4 / 6 = 0.6666666666666666  
Probability of 'Credit Card Insurance --> No' for 'Male': 4 / 6 = 0.6666666666666666  

Total Probability of Mele:  
0.6666666666666666 * 0.3333333333333333 * 0.6666666666666666 * 0.6666666666666666 = 0.09876543209876543  

Probability of 'Magazine Promotion --> Yes' for 'Female': 3 / 4 = 0.75  
Probability of 'Watch Promotion --> Yes' for 'Female': 2 / 4 = 0.5  
Probability of 'Life Insurance Promotion --> No' for 'Female': 1 / 4 = 0.25  
Probability of 'Credit Card Insurance --> No' for 'Female': 3 / 4 = 0.75  

Total Probability of Female:  
0.75 * 0.5 * 0.25 * 0.75 = 0.0703125  

* Erkek olma olasılığı: 0.09876543209876543 * 0.6 = 0.05925925925925926
* Kadın olma olasılığı: 0.0703125 * 0.4 = 0.028125

Yukarıdaki 2 olasılıktan erkek olma olasılığı daha yüksek olduğu için, yeni gelen kişinin cinsiyeti erkek olarak tahmin edilir. Genel olarak navie bayes classifier bu şekilde çalışır.