# Purpose
研究婚外情的數據

(1) 該位外遇的可能性有多大？ 
(2) 影響外遇的原因是什麼？ 
(3) 可以根據分析結果說明如何降低外遇的發生嗎？

# 數據說明

* 婚外情數據即著名的“Fair’s Affairs”，取自於1969年《今日心理》（Psychology Today）所做的一個代表性調查
* 該數據從601個參與者身上收集了9個變量
* 變數包括一年來婚外情的頻率以及參與者性別、年齡、婚齡、是否有小孩、宗教信仰程度、學歷、職業，還有對婚姻的自我評分

#### affairs 受訪者在過去一年中進行外遇的頻率         
0 = 無         
1 = 一次       
2 = 兩次         
3 = 三次        
7 = 4 - 10 次         
12 = 每月或更多         

#### gender          
0 = 女性         
1 = 男性         

#### age         
17.5 = 20 歲以下         
22.0 = 20 - 24         
27.0 = 25 - 29         
32.0 = 30 - 34         
37.0 = 35 - 39         
42.0 = 40 - 44         
47.0 = 45 - 49         
52.0 = 50 - 54         
57.0 = 55 或以上         

#### yearsmarried  婚姻時間                  
0.125 = 3 個月或更短         
0.417 = 4 - 6 個月         
0.750 = 6 個月 - 1 年         
1.500 = 1 - 2 年         
4.000 = 3 - 5 年         
7.000 = 6 - 8 年         
10.00 = 9 - 11 年         
15.00 = 12 年或更長時間         

#### children 孩子人數                  
0 = 無         
1 = 一個或多個         
         
#### religiousness 婚內的宗教信仰         
1 = 反宗教         
2 = 完全沒有         
3 = 輕微         
4 = 有點         
5 = 非常         

#### education 教育程度         
9.0 = 小學         
12.0 = 高中畢業         
14.0 = 一些大學         
16.0 = 大學畢業生         
17.0 = 一些畢業作品         
18.0 = 碩士學位         
20.0 = 博士、醫學博士或其他高級學位 

#### occupation 詳見data-descriptions.pdf

#### rating 對婚姻的自我評分 (5分制，1表示非常不幸福，5表示非常幸福）         

# 1. import data

In [None]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd

In [None]:
df = pd.read_csv('Affairs.csv')
df.head()

### <span style="color:#3498DB">Point: 請先將affairs變數轉為二值型因子'ynaffair'，外遇0次為0，外遇一次以上為1</span>

In [None]:
new=df['affairs'] > 0
df['yaffairs'] = new.astype(int)




In [None]:
df.describe()

In [None]:
df.isnull().sum()

In [None]:
#Standard libraries for data analysis:  
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy.stats import norm, skew
from scipy import stats
import statsmodels.api as sm

import seaborn as sns # For creating plots
sns.set_style('darkgrid')

In [None]:
from sklearn import svm, tree, linear_model, neighbors
from sklearn import naive_bayes, ensemble, discriminant_analysis, gaussian_process
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score 
from sklearn.metrics import f1_score, precision_score, recall_score, fbeta_score
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import KFold
from sklearn import feature_selection
from sklearn import model_selection
from sklearn import metrics
from sklearn.metrics import classification_report, precision_recall_curve
from sklearn.metrics import auc, roc_auc_score, roc_curve
from sklearn.metrics import make_scorer, recall_score, log_loss
from sklearn.metrics import average_precision_score

In [None]:
import seaborn as sn
from matplotlib import pyplot
import matplotlib.pyplot as plt
import matplotlib.pylab as pylab
import matplotlib 
%matplotlib inline
color = sn.color_palette()

import matplotlib.ticker as mtick
from IPython.display import display
pd.options.display.max_columns = None
from pandas.plotting import scatter_matrix
from sklearn.metrics import roc_curve

In [None]:
import random
import os
import re
import sys
import timeit
import string
import time
from datetime import datetime
from time import time
from dateutil.parser import parse
import joblib

In [None]:
import matplotlib.ticker as mtick
import matplotlib.pyplot as plt

affair_pct = df.groupby('children')['yaffairs'].value_counts(normalize=True).unstack() * 100
print(affair_pct)

In [None]:

affair_pct = df.groupby('gender')['yaffairs'].value_counts(normalize=True).unstack() * 100
print(affair_pct)

In [None]:
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei'] # 修正中文亂碼問題

# 建立圖表
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='children', hue='yaffairs', palette='viridis')

# 加上標題與標籤
plt.title('是否有小孩外遇行為次數分布圖', fontsize=15)
plt.xlabel('是否有小孩 ', fontsize=12)
plt.ylabel('人數 (Count)', fontsize=12)
plt.legend(title='是否有外遇')

plt.show()

In [None]:
import matplotlib.ticker as mtick
import matplotlib.pyplot as plt

affair_pct = df.groupby('gender')['yaffairs'].value_counts(normalize=True).unstack() * 100
print(affair_pct)

In [None]:
# sns.set(style="whitegrid", font_as_parent=True)
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei'] # 修正中文亂碼問題

# 建立圖表
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='gender', hue='yaffairs', palette='viridis')

# 加上標題與標籤
plt.title('男女外遇行為次數分布圖', fontsize=15)
plt.xlabel('性別 (Gender)', fontsize=12)
plt.ylabel('人數 (Count)', fontsize=12)
plt.legend(title='是否有外遇')

plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# 2. 計算各個婚姻分數 (Rating) 的外遇比例
rating_affair = df.groupby('rating')['yaffairs'].mean().reset_index()
rating_affair['yaffairs'] *= 100  # 轉為百分比

# 3. 計算各個職業 (Occupation) 的外遇比例
occ_affair = df.groupby('occupation')['yaffairs'].mean().reset_index()
occ_affair['yaffairs'] *= 100

In [None]:
# 2. 繪製婚姻分數的人數統計圖
plt.figure(figsize=(10, 6))
ax = sns.countplot(data=df, x='rating', hue='yaffairs', palette='Set2')

# 加上標題與標籤
plt.title('各婚姻評分下的人數分布 (有/無外遇)', fontsize=15)
plt.xlabel('婚姻評分 (1:不快樂 -> 5:快樂)', fontsize=12)
plt.ylabel('人數', fontsize=12)
plt.legend(title='是否有外遇')

# 在長條圖上方自動標註人數
for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha = 'center', va = 'center', 
                xytext = (0, 9), 
                textcoords = 'offset points')

plt.show()


plt.figure(figsize=(10, 5))
sns.barplot(data=rating_affair, x='rating', y='yaffairs', palette='Reds_r')

plt.title('婚姻評分與外遇比例關係圖', fontsize=14)
plt.xlabel('婚姻評分 (1:非常不快樂 -> 5:非常快樂)', fontsize=12)
plt.ylabel('外遇比例 (%)', fontsize=12)
plt.ylim(0, 100)
for i, val in enumerate(rating_affair['yaffairs']):
    plt.text(i, val + 2, f'{val:.1f}%', ha='center')

plt.show()

In [None]:
plt.figure(figsize=(10, 6))
ax = sns.countplot(data=df, x='occupation', hue='yaffairs', palette='Set2')

# 加上標題與標籤
plt.title('不同職業類別的外遇 (有/無外遇)', fontsize=15)
plt.xlabel('職業代碼', fontsize=12)
plt.ylabel('人數', fontsize=12)
plt.legend(title='是否有外遇')

# 在長條圖上方自動標註人數
for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha = 'center', va = 'center', 
                xytext = (0, 9), 
                textcoords = 'offset points')

plt.show()



plt.figure(figsize=(10, 5))
# 將職業排序以利觀察
occ_affair = occ_affair.sort_values('yaffairs', ascending=False)
sns.barplot(data=occ_affair, x='occupation', y='yaffairs', palette='Blues_d')

plt.title('不同職業類別的外遇比例', fontsize=14)
plt.xlabel('職業代碼', fontsize=12)
plt.ylabel('外遇比例 (%)', fontsize=12)
plt.ylim(0, 100)
for i, val in enumerate(occ_affair['yaffairs']):
    plt.text(i, val + 2, f'{val:.1f}%', ha='center')

plt.show()

In [None]:
plt.figure(figsize=(10, 6))
ax = sns.countplot(data=df, x='yearsmarried', hue='yaffairs', palette='Set2')

# 加上標題與標籤
plt.title('婚姻長度 (有/無外遇)', fontsize=15)
plt.xlabel('婚姻長度', fontsize=12)
plt.ylabel('人數', fontsize=12)
plt.legend(title='是否有外遇')

# 在長條圖上方自動標註人數
for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha = 'center', va = 'center', 
                xytext = (0, 9), 
                textcoords = 'offset points')

plt.show()

In [None]:
## 2-2 清整數據並轉dummy variable

In [None]:
df.head()
df.describe()

In [None]:
total_ratio = df['yaffairs'].mean()
print(f"全體樣本的外遇比例為: {total_ratio:.2%}")

In [None]:
#Remove customer IDs from the data set
# df = df.iloc[:,1:]

#Convertin the predictor variable in a binary numeric variable
df['gender'].replace(to_replace='male', value=0, inplace=True)
df['gender'].replace(to_replace='female',  value=1, inplace=True)
df['children'].replace(to_replace='no', value=0, inplace=True)
df['children'].replace(to_replace='yes',  value=1, inplace=True)
#Let's convert all the categorical variables into dummy variables
# df_dummies = pd.get_dummies(df)
# df_dummies.head()

In [None]:
pre_df = pd.get_dummies(df, columns=['occupation'], drop_first=True)


In [None]:
pre_df.head()

In [None]:
# We will use the data frame where we had created dummy variables
X = pre_df.drop(columns = ['yaffairs','affairs']) #x變數
y = pre_df['yaffairs'].values #y

# Scaling all the variables to a range of 0 to 1
from sklearn.preprocessing import MinMaxScaler
features = X.columns.values
#scaler.fit(X)：準備尺規
scaler = MinMaxScaler(feature_range = (0,1))
scaler.fit(X) #找出每一欄特徵的 最大值 (Max) 和 最小值 (Min)。,為了之後能用這組最大最小值，把原始數據（例如年齡 20-80）壓縮到 0 到 1 之間。
X = pd.DataFrame(scaler.transform(X))
X.columns = features

In [None]:
# Create Train & Test Data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=101)
#數據量比較少 80% 數量夠多 70% (train)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

## 3-1 Logistic Regression (PPT 2.1)

In [None]:
# Running logistic regression model
from sklearn.linear_model import LogisticRegression
#在宣告模型時加上 class_weight='balanced'。這會讓模型更加重視數量較少的類別。
model_log = LogisticRegression(class_weight='balanced') 
result = model_log.fit(X_train, y_train)

In [None]:
from sklearn import metrics
y_test_pred_log = model_log.predict(X_test)

print (metrics.accuracy_score(y_test, y_test_pred_log))
#正在計算模型的 「準確率」（Accuracy），也就是：「在測試集中，模型預測正確的比例是多少

In [None]:
model_log.predict_proba(X_test)

# 對測試集 (X_test) 中的每一筆資料，計算出「不外遇」與「有外遇」的機率。

In [None]:
y_test_pred_log

In [None]:
# Create the Confusion matrix
#作用：計算混淆矩陣。它會比對真實答案（y_test）與預測結果
cm = confusion_matrix(y_test, y_test_pred_log) 
#將 NumPy 陣列格式的 cm 轉換成 Pandas 的 DataFrame 格式。
df_cm = pd.DataFrame(cm, index = (0, 1), columns = (0, 1))
plt.figure(figsize = (28,20))

fig, ax = plt.subplots()
sn.set(font_scale=1.4)
#繪製熱圖 (Heatmap)
sn.heatmap(df_cm, annot=True, fmt='g')

class_names=[0,1]
tick_marks = np.arange(len(class_names))
plt.tight_layout()
plt.title('Confusion matrix\n', y=1.1)
plt.xticks(tick_marks, class_names)
plt.yticks(tick_marks, class_names)
ax.xaxis.set_label_position("top")
#標註「實際值（Actual label）」與「預測值（Predicted label）」。
plt.ylabel('Actual label\n')
plt.xlabel('Predicted label\n')

In [None]:
TP = 18  # 有外遇實際上也有外遇 (True Positive) 
TN = 61 # 沒有外遇實際上也沒有外遇 (True Negative)
FP = 35 # 有外遇，但實際上沒外遇 (False Positive) 誤報
FN = 7 # 沒外遇，但實際上是有外遇(False Negative)

In [None]:

 #在所有判斷中，模型「猜對」的比例（包含猜對有和猜對沒有）。 模型判斷正確的機率
print(f'Accuracy : {round((TP + TN) / (TP + FP + TN + FN), 3)}')

#模型只要說有外遇，他真的有外遇的機率有多少，模型的準確性。
print(f'Precision : {round((TP) / (TP + FP), 3)}') 

#真的有外遇的人裡面，模型抓到了多少比例。數值越高，漏抓的情況越少。
print(f'Recall/Sensitivity : {round((TP) / (TP + FN), 3)}') 

#模型正確判斷出他們沒外遇的比例。
print(f'Specificity : {round((TN) / (TN + FP), 3)}')

In [None]:
from sklearn.metrics import RocCurveDisplay
ax = plt.gca()
log_disp = RocCurveDisplay.from_estimator(model_log, X_test, y_test, ax=ax, alpha=0.8)
plt.show()
#AUC (Area Under Curve) 是曲線下的面積，數值介於 0 到 1 之間：

# 0.5： 像在猜銅板，完全沒有預測能力。

# 0.7 - 0.8： 屬於**可接受（Acceptable）**或中等水平。

# 0.8 - 0.9： 表現優秀。

# 0.9 以上： 表現極佳。

### <span style="color:#3498DB">Question: 什麼樣的因素與有外遇呈現明顯的正向影響與負向影響 </span>

In [None]:
# To get the weights of all the variables
weights = pd.Series(model_log.coef_[0], index=X.columns.values)
positive_weights = weights[weights > 0].sort_values(ascending=False)
print(positive_weights.plot(kind='bar'))

In [None]:
weights = pd.Series(model_log.coef_[0], index=X.columns.values)
native_weights = weights[weights < 0].sort_values(ascending=False)
print(native_weights.plot(kind='bar'))