In [47]:
import numpy as np
import pandas as pd
from sklearn import preprocessing

# Get data

In [48]:
data_path = "data/"
data_untouched = np.loadtxt(data_path+"divorce.csv", delimiter=';',skiprows=1)
data_untouched

array([[2., 2., 4., ..., 2., 1., 1.],
       [4., 4., 4., ..., 2., 2., 1.],
       [2., 2., 2., ..., 2., 2., 1.],
       ...,
       [1., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 3., 1., 0.],
       [0., 0., 0., ..., 3., 1., 0.]])

In [49]:
data = data_untouched.copy()
data

array([[2., 2., 4., ..., 2., 1., 1.],
       [4., 4., 4., ..., 2., 2., 1.],
       [2., 2., 2., ..., 2., 2., 1.],
       ...,
       [1., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 3., 1., 0.],
       [0., 0., 0., ..., 3., 1., 0.]])

In [50]:
inputs_all = data[:,:-1] # All rows, every column except last
targets_all = data[:,-1] # All rows, last column

In [51]:
inputs_all

array([[2., 2., 4., ..., 3., 2., 1.],
       [4., 4., 4., ..., 4., 2., 2.],
       [2., 2., 2., ..., 2., 2., 2.],
       ...,
       [1., 1., 0., ..., 3., 0., 0.],
       [0., 0., 0., ..., 4., 3., 1.],
       [0., 0., 0., ..., 3., 3., 1.]])

In [52]:
targets_all

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

# Shuffle Data

In [53]:
shuffled_indices = np.arange(inputs_all.shape[0]) # holds indices for # of rows
np.random.shuffle(shuffled_indices)

# Shuffle inputs and targets
shuffled_inputs_all = inputs_all[shuffled_indices]
shuffled_targets_all = targets_all[shuffled_indices]

In [54]:
shuffled_targets_all

array([1., 1., 1., 1., 0., 1., 0., 0., 0., 0., 1., 0., 1., 0., 1., 1., 1.,
       0., 0., 0., 0., 1., 1., 1., 0., 0., 1., 1., 1., 0., 0., 0., 1., 1.,
       1., 0., 1., 0., 0., 1., 0., 0., 1., 0., 0., 0., 1., 1., 0., 0., 1.,
       0., 1., 0., 1., 1., 1., 0., 0., 1., 1., 0., 0., 1., 0., 0., 0., 0.,
       1., 0., 1., 0., 0., 0., 1., 1., 0., 1., 0., 1., 0., 1., 0., 1., 0.,
       1., 1., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1.,
       1., 0., 0., 0., 0., 1., 1., 0., 1., 1., 1., 0., 0., 1., 1., 1., 1.,
       1., 0., 1., 1., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       1., 1., 0., 0., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 1., 0.])

# Check Balance

In [55]:
np.sum(shuffled_targets_all)/shuffled_targets_all.shape[0] # Ratio of 1's to 0's

0.49411764705882355

# Split Dataset

In [56]:
samples_count = shuffled_inputs_all.shape[0] # Number of rows

# Will keep train and validation together for preprocessing, will use k fold cross validation for the algorithm
train_validation_samples_count = int(0.9 * samples_count)                 # 90% of data for train/validate
train_validation_inputs = shuffled_inputs_all[:train_validation_samples_count]
train_validation_targets = shuffled_targets_all[:train_validation_samples_count]

# Get 10% of total data as TEST data 
# Test data
test_inputs = shuffled_inputs_all[train_validation_samples_count:] # take first 10% of data for test dataset
test_targets = shuffled_targets_all[train_validation_samples_count:]


In [57]:
print("Train/Validate Inputs:",np.shape(train_validation_inputs))
print("Train/Validate Targets:",np.shape(train_validation_targets))
print("Test Inputs:",np.shape(test_inputs))
print("Test Targets:",np.shape(test_targets))

Train/Validate Inputs: (153, 54)
Train/Validate Targets: (153,)
Test Inputs: (17, 54)
Test Targets: (17,)


In [58]:
np.savez(data_path+"train_validation_data", inputs=train_validation_inputs, targets=train_validation_targets)
np.savez(data_path+"test_data", inputs=test_inputs, targets=test_targets)