# Preprocessing

## Import necessary libraries

In [30]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy as sp
import seaborn as sns
from scipy.stats import pearsonr

In [31]:
import  warnings
warnings.filterwarnings("ignore")

## Read labeled data

In [32]:
data = pd.read_csv('Divorce_Data.csv')
pd.set_option('display.max_columns', None)

## Feature selection

In [33]:
# Choosing unnecessary columns to be dropped 
counter = 0
for col in data.columns: 
    print(f"{col} : {counter}")
    counter += 1

Unnamed: 0 : 0
تاریخ پذیرش : 1
نوع درخواست طلاق : 2
ایا برای طلاق یکی از زوجین وکالت نامه رسمی دارد؟ : 3
تابعیت زوج : 4
تابعیت زوجه : 5
کد اقامت زوج : 6
کد اقامت زوجه : 7
تاریخ تولد زوج : 8
تاریخ تولد زوجه  : 9
محل تولد زوج  : 10
محل تولد زوجه  : 11
نوع آدرس زوج : 12
نوع آدرس زوجه  : 13
نام روستا زوج : 14
نام روستا زوجه : 15
تحصیلات زوج  : 16
تحصیلات زوجه : 17
وضعیت محل سکونت زوج : 18
وضعیت محل سکونت زوجه : 19
بعد خانوار زوج  : 20
بعد خانوار زوجه : 21
نحوه ارجاع زوج : 22
نحوه ارجاع زوجه : 23
مراجعه کننده به مرکز : 24
وضعیت مسکن زوجین : 25
نوع طلاق : 26
متقاضی طلاق توافقی : 27
تاریخ ازدواج : 28
سن زوج هنگام ازدواج : 29
سن زوجه هنگام ازدواج : 30
تعداد سال زندگی مشترک : 31
تعداد ماه زندگی مشترک : 32
وضعیت فعلی زندگی مشترک : 33
سابقه آشنایی قبلی : 34
نوع آشنایی : 35
وضعیت مهاجرت زوج : 36
وضعیت مهاجرت زوجه : 37
نوع ازدواج زوج : 38
نوع ازدواج زوجه : 39
وضعیت رضایت والدین زوج : 40
آیا ادامه دارد : 41
وضعیت رضایت والدین زوجه : 42
آیا ادامه دارد؟ : 43
میزان دخالت فرزندان بر روابط زناشویی زوجین:

In [34]:
# Unnecessary columns to be removed

unnecesary_columns = data.columns[[0, 1, 6, 7, 8, 9, 10, 11, 14, 
                                   15, 32, 33, 41, 43, 49, 50, 51,
                                   63, 64, 66, 67, 83, 84, 85, 86,
                                   93, 94, 118, 119, 122, 124
                                   ]]

data.drop(unnecesary_columns, axis=1, inplace=True)

## Take care of missing values

In [35]:
# Remove columns Wtih more than 9870 NaN values

nans = data.isnull().sum()
nan_columns = nans[nans>9870].index

data.drop(nan_columns, axis=1, inplace=True)

In [36]:
# Remove rows with NaN target variables

nan_targets = data[data["نتیجه"].isna()].index
data.drop(nan_targets, axis=0, inplace=True)

## Drop all NaN rows

In [37]:
data.dropna(inplace=True)
data.reset_index(drop=True, inplace=True)

In [38]:
# Droping undefined targets
undefined_targets = data[data["نتیجه"] == "در جريان"].index
data.drop(undefined_targets, axis=0, inplace=True)
data.reset_index(drop=True, inplace=True)

In [39]:
# Droping undefined targets
undefined_targets2 = data[data["نتیجه"] == "ساير"].index
data.drop(undefined_targets2, axis=0, inplace=True)
data.reset_index(drop=True, inplace=True)

## Encoding catergorical data

In [40]:
# Observing categorical data uniques
for col_name in data:
    if data[col_name].dtype == "O":
        print(f"{col_name} : ", data[col_name].nunique())
    else:
        pass

نوع درخواست طلاق :  3
ایا برای طلاق یکی از زوجین وکالت نامه رسمی دارد؟ :  2
تابعیت زوج :  1
تابعیت زوجه :  1
نوع آدرس زوج :  2
نوع آدرس زوجه  :  2
تحصیلات زوج  :  8
تحصیلات زوجه :  8
وضعیت محل سکونت زوج :  7
وضعیت محل سکونت زوجه :  7
نحوه ارجاع زوج :  3
نحوه ارجاع زوجه :  3
مراجعه کننده به مرکز :  4
وضعیت مسکن زوجین :  4
نوع طلاق :  3
متقاضی طلاق توافقی :  3
تاریخ ازدواج :  2453
سابقه آشنایی قبلی :  2
وضعیت مهاجرت زوج :  3
وضعیت مهاجرت زوجه :  3
نوع ازدواج زوج :  2
نوع ازدواج زوجه :  2
وضعیت رضایت والدین زوج :  2
وضعیت رضایت والدین زوجه :  2
از زمان شروع مشکل چقدر گذشته است ؟ :  4
سابقه طلاق در زوج :  2
سابقه طلاق در زوجه :  2
سابقه ازدواج قبلی در زوج :  2
سابقه ازدواج قبلی در زوجه :  2
سابقه طلاق در خانواده زوج :  2
میزان پایبندی زوج به مسائل مذهبی :  5
میزان پایبندی زوجه به مسائل مذهبی :  5
آیا از بعد مذهبی زوجین با یکدیگر سنخیت دارند؟ :  3
وضعیت شغلی زوج :  6
وضعیت شغلی زوجه :  6
نحوه تامین هزینه های زندگی :  4
مسئولیت پذیری مالی زوج :  2
مسئولیت پذیری مالی زوجه :  2
ایا تا کنون ورش

In [41]:
# # Encoding target
data.replace("عدم سازش مشاوره", 0, inplace=True)
data.replace("سازش مشاوره", 1, inplace=True)

In [42]:
# Onehot encoding all the Object type columns

for col in data.columns:
    if data[col].dtype == 'O':
        data = pd.concat([data, pd.get_dummies(data[col], prefix=col)], axis=1)
        data = data.drop(col, axis=1)

## Balance the Target

In [43]:
import random

num_rows_sazeh = (data['نتیجه'] == 1).sum()
num_rows_nasazaeh = (data['نتیجه'] == 0).sum()

# solve the imbalanced target problem 
rows_to_drop = data[data['نتیجه'] == 0].index.tolist()
random.shuffle(rows_to_drop)
rows_to_drop = rows_to_drop[:len(rows_to_drop) - num_rows_sazeh]

data.drop(rows_to_drop, inplace=True)


In [44]:
print( (data['نتیجه'] == 1).sum())
print( (data['نتیجه'] == 0).sum())

472
472


## collecting unseen data from all data

In [45]:
random_rows = data.sample(n=100)
index_values = random_rows.index.values

# Create new dataframe with only the randomly selected rows
new_data = pd.DataFrame(random_rows)
data = data.drop(index_values)

## Train/Test split

In [46]:
from imblearn.over_sampling import SMOTE, ADASYN, SVMSMOTE, BorderlineSMOTE
from imblearn.under_sampling import RandomUnderSampler
from sklearn.model_selection import StratifiedShuffleSplit, train_test_split

In [47]:
# Defining x & y variables
x = data.drop('نتیجه', axis=1).values
y = data[["نتیجه"]].values

In [48]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, stratify=y )

## Over sampling

In [49]:
# Instantiate the SMOTE class
# smote = ADASYN()
# Fit the SMOTE class to the training data and oversample the minority class
# x_train, y_train = smote.fit_resample(x_train, y_train)

# Processing

In [50]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

## Logistic Regression

In [51]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(class_weight='balanced')

lr.fit(x_train, y_train)
lr_pred = lr.predict(x_test)
print("Accuracy : ",  accuracy_score(y_test, lr_pred))
print()
print(classification_report(y_test, lr_pred))
print()
print(confusion_matrix(y_test, lr_pred))

Accuracy :  0.611764705882353

              precision    recall  f1-score   support

           0       0.61      0.60      0.60        42
           1       0.61      0.63      0.62        43

    accuracy                           0.61        85
   macro avg       0.61      0.61      0.61        85
weighted avg       0.61      0.61      0.61        85


[[25 17]
 [16 27]]


## SVM

In [52]:
from sklearn.svm import SVC
svm =SVC (kernel='linear', C=1)
svm.fit(x_train, y_train)
naive_y_pred = svm.predict(x_test)
print("Accuracy : ",  accuracy_score(y_test, naive_y_pred))
print()
print(classification_report(y_test, naive_y_pred))
print()
print(confusion_matrix(y_test, naive_y_pred))

Accuracy :  0.6705882352941176

              precision    recall  f1-score   support

           0       0.67      0.67      0.67        42
           1       0.67      0.67      0.67        43

    accuracy                           0.67        85
   macro avg       0.67      0.67      0.67        85
weighted avg       0.67      0.67      0.67        85


[[28 14]
 [14 29]]


## Save the models ( vs , lr )

In [53]:
import pickle
with open('logistic_model.pkl', 'wb') as f:
    pickle.dump(lr, f)

In [54]:
with open('svm_model.pkl', 'wb') as f:
    pickle.dump(svm, f)

## Test the models on unseen data

In [55]:
from imblearn.over_sampling import SMOTE, ADASYN, SVMSMOTE, BorderlineSMOTE
from imblearn.under_sampling import RandomUnderSampler
from sklearn.model_selection import StratifiedShuffleSplit, train_test_split


# Defining x & y variables
x = new_data.drop('نتیجه', axis=1).values
y = new_data[["نتیجه"]].values

In [56]:
with open('logistic_model.pkl', 'rb') as f:
    logistic_model = pickle.load(f)

    # logistic_model.fit(x_train, y_train)
y_pred = logistic_model.predict(x)

print(classification_report(y, y_pred))

              precision    recall  f1-score   support

           0       0.70      0.64      0.67        55
           1       0.60      0.67      0.63        45

    accuracy                           0.65       100
   macro avg       0.65      0.65      0.65       100
weighted avg       0.66      0.65      0.65       100



In [57]:
with open('svm_model.pkl', 'rb') as f:
    svm_model = pickle.load(f)


# logistic_model.fit(x_train, y_train)
y_pred = svm_model.predict(x)

print(classification_report(y, y_pred))

              precision    recall  f1-score   support

           0       0.65      0.62      0.64        55
           1       0.56      0.60      0.58        45

    accuracy                           0.61       100
   macro avg       0.61      0.61      0.61       100
weighted avg       0.61      0.61      0.61       100

