In [1]:
import pandas as pd
import pickle as pk
from loans import LoanData, PredictionPipeline

In [2]:
# Load and clean the data
data_full = LoanData('../data/data.csv')

FILLING IN MISSING DATA AS FOLLOWS:
Missing data in ApplicantIncome replaced with 3812.5
Missing data in CoapplicantIncome replaced with 1188.5
Missing data in LoanAmount replaced with 128.0
Missing data in LoanAmountTerm replaced with 360.0
Missing data in Dependents replaced with 0
Missing data in SelfEmployed replaced with No
Missing data in CreditHistory replaced with 0
Missing data in Gender replaced with Unknown
Missing data in Married replaced with Unknown

REMOVING OUTLIERS:
Initial range of ApplicantIncome: 150.0 - 81000.0
Initial range of CoapplicantIncome: 0.0 - 41667.0
Initial range of LoanAmount: 9.0 - 700.0
Filtered range of ApplicantIncome: 150.0 - 10139.0
Filtered range of CoapplicantIncome: 0.0 - 5701.0
Filtered range of LoanAmount: 9.0 - 260.0


In [3]:
# Get a subset of the data that is split 50:50 between approved and unapproved loans for a more balanced dataset
approved = data_full.cleaned[data_full.cleaned.LoanStatus == 1]
unapproved = data_full.cleaned[data_full.cleaned.LoanStatus == 0]
data_even = pd.concat([approved.sample(len(unapproved)),unapproved]).sample(frac=1)
data_even

Unnamed: 0_level_0,Gender_Female,Gender_Male,Gender_Unknown,Married_No,Married_Unknown,Married_Yes,Rural,Semiurban,Urban,Dependents,Graduate,SelfEmployed,ApplicantIncome,CoapplicantIncome,LoanAmount,LoanAmountTerm,CreditHistory,LoanStatus
LoanID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
LP001570,0,1,0,0,0,1,1,0,0,2,1,0,4167.0,1447.0,158.0,360.0,1.0,1
LP001263,0,1,0,0,0,1,0,1,0,3,1,0,3167.0,4000.0,180.0,300.0,0.0,0
LP002898,0,1,0,0,0,1,1,0,0,1,1,0,1880.0,0.0,61.0,360.0,0.0,0
LP001241,1,0,0,1,0,0,0,1,0,0,1,0,4300.0,0.0,136.0,360.0,0.0,0
LP002625,0,0,1,1,0,0,0,0,1,0,1,0,3583.0,0.0,96.0,360.0,1.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
LP001491,0,1,0,0,0,1,0,0,1,2,1,1,3316.0,3500.0,88.0,360.0,1.0,1
LP002530,0,0,1,0,0,1,0,1,0,2,1,0,2873.0,1872.0,132.0,360.0,0.0,0
LP001245,0,1,0,0,0,1,0,1,0,2,0,1,1875.0,1875.0,97.0,360.0,1.0,1
LP002237,0,1,0,1,0,0,0,0,1,1,1,0,3667.0,0.0,113.0,180.0,1.0,1


In [4]:
# Set up two pipelines, one for each dataset
pipe_on_full, pipe_on_even = PredictionPipeline(), PredictionPipeline()

In [5]:
# Fit the scalers for each dataset
pipe_on_full.fit_scaler(data_full)
pipe_on_even.fit_scaler(data_even)

In [None]:
# Test and fit the logistic regression for the full dataset
pipe_on_full.test_and_fit_estimator(data_full)

In [None]:
# Test and fit the logistic regression for the full dataset
pipe_on_even.test_and_fit_estimator(data_even)

In [None]:
# Check predictions for all four methods

In [8]:
pipe_on_full.predict(data_full)

Accuracy (overall): 77.76%
Accuracy (y=0): 49.08%
Accuracy (y=1): 90.32%


array([1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 0., 0., 1., 1.,
       0., 0., 0., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 0., 1., 1.,
       1., 1., 0., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 0., 0., 0., 1., 0., 1., 0., 1., 1., 1., 0., 1., 1.,
       1., 1., 0., 0., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 0.,
       1., 1., 1., 0., 1., 1., 1., 1., 1., 0., 1., 0., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 0., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 0., 0., 1., 1., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1.,
       1., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1.,
       1., 1., 0., 1., 0.

In [9]:
pipe_on_even.predict(data_full)

Accuracy (overall): 74.58%
Accuracy (y=0): 66.87%
Accuracy (y=1): 77.96%


array([1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 0., 0., 0., 1.,
       0., 0., 0., 0., 1., 1., 1., 1., 1., 0., 1., 0., 1., 1., 0., 1., 1.,
       1., 1., 0., 1., 1., 0., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 0., 0., 0., 1., 0., 0., 0., 1., 1., 1., 0., 1., 1.,
       1., 1., 0., 0., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 1., 1., 1., 0.,
       1., 1., 1., 0., 1., 1., 1., 1., 1., 0., 1., 0., 1., 1., 1., 1., 0.,
       1., 0., 1., 1., 1., 1., 1., 1., 0., 1., 0., 1., 1., 0., 1., 0., 1.,
       1., 1., 1., 0., 1., 1., 1., 0., 1., 0., 1., 1., 0., 1., 1., 1., 1.,
       1., 0., 0., 1., 1., 0., 0., 1., 1., 0., 1., 1., 0., 1., 1., 0., 0.,
       1., 0., 1., 1., 1., 1., 0., 0., 1., 1., 1., 0., 1., 0., 1., 1., 1.,
       1., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 0., 1.,
       1., 0., 0., 0., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 0., 0.,
       0., 0., 0., 1., 0.

In [11]:
# Store both the models
pipe_on_full.save('PipeOnFull')
pipe_on_even.save('PipeOnEven')

In [12]:
new_full = PredictionPipeline()
new_full.load('PipeOnFull')