##### import pandas as pd
import os
import numpy as np
import sklearn
import matplotlib.pyplot as plt
import joblib
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=DeprecationWarning)
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import GridSearchCV

#Initialise repositories
_projroot = os.path.abspath('.')
_datadir = os.path.join(_projroot,'data')
_preprocesseddir = os.path.join(_datadir,'preprocesseddata')
_rawdir = os.path.join(_datadir,'rawdata')
_WCC_tot = os.path.join(_preprocesseddir,'WCC_tot')
_WCC_mob = os.path.join(_preprocesseddir,'WCC_mob')
_Ofcom = os.path.join(_preprocesseddir,'Ofcom')
_splitdata = os.path.join(_WCC_tot,'splitdata')

In [61]:
#Read in data
WCC1 = pd.read_csv(os.path.join(_splitdata,'WCC_tot-1.csv')) 
target = WCC1['Target']
features = WCC1.drop('Target', axis = 1)

In [62]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imp = IterativeImputer(max_iter=10, random_state=0)
X = imp.fit_transform(features)

In [63]:
def print_results(results):
    print('BEST PARAMS:{}\n'.format(results.best_params_))
    means = results.cv_results_['mean_test_score']
    stds = results.cv_results_['std_test_score']
    for mean, std, params in zip(means,stds, results.cv_results_['params']):
        print('{} (+/-{}) for {}'.format(round(mean, 3), round(std*2, 3),params))

In [66]:
lr = LogisticRegressionCV(solver = 'saga',penalty = 'elasticnet', tol = 0.1, max_iter=100)
parameters = {
    'Cs' : [0.001*np.ones(len(target)),0.01*np.ones(len(target)),0.1*np.ones(len(target)),1*np.ones(len(target)),10*np.ones(len(target)),100*np.ones(len(target)),1000*np.ones(len(target))],
    'l1_ratios' : [0.1*np.ones(len(target)),0.2*np.ones(len(target)),0.3*np.ones(len(target)),0.4*np.ones(len(target)),0.5*np.ones(len(target)),0.6*np.ones(len(target)),0.7*np.ones(len(target)), 0.8*np.ones(len(target)), 0.9*np.ones(len(target)),np.ones(len(target))]
}
cv = GridSearchCV(lr, parameters, cv = 5)
cv.fit(X, target)
print_results(cv)

BEST PARAMS:{'Cs': array([1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
       1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000., 1000.,
 

In [68]:
#Read in data
WCC1 = pd.read_csv(os.path.join(_splitdata,'WCC_tot-2.csv')) 
target = WCC1['Target']
features = WCC1.drop('Target', axis = 1)

In [69]:
lr = LogisticRegressionCV(solver = 'saga',penalty = 'elasticnet', tol = 0.1, max_iter=100)
parameters = {
    'Cs' : [0.001*np.ones(len(target)),0.01*np.ones(len(target)),0.1*np.ones(len(target)),1*np.ones(len(target)),10*np.ones(len(target)),100*np.ones(len(target)),1000*np.ones(len(target))],
    'l1_ratios' : [0.1*np.ones(len(target)),0.2*np.ones(len(target)),0.3*np.ones(len(target)),0.4*np.ones(len(target)),0.5*np.ones(len(target)),0.6*np.ones(len(target)),0.7*np.ones(len(target)), 0.8*np.ones(len(target)), 0.9*np.ones(len(target)),np.ones(len(target))]
}
cv = GridSearchCV(lr, parameters, cv = 5)
cv.fit(X, target)
print_results(cv)

BEST PARAMS:{'Cs': array([10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10.

In [70]:
#Read in data
WCC1 = pd.read_csv(os.path.join(_splitdata,'WCC_tot-3.csv')) 
target = WCC1['Target']
features = WCC1.drop('Target', axis = 1)

In [71]:
lr = LogisticRegressionCV(solver = 'saga',penalty = 'elasticnet', tol = 0.1, max_iter=100)
parameters = {
    'Cs' : [0.001*np.ones(len(target)),0.01*np.ones(len(target)),0.1*np.ones(len(target)),1*np.ones(len(target)),10*np.ones(len(target)),100*np.ones(len(target)),1000*np.ones(len(target))],
    'l1_ratios' : [0.1*np.ones(len(target)),0.2*np.ones(len(target)),0.3*np.ones(len(target)),0.4*np.ones(len(target)),0.5*np.ones(len(target)),0.6*np.ones(len(target)),0.7*np.ones(len(target)), 0.8*np.ones(len(target)), 0.9*np.ones(len(target)),np.ones(len(target))]
}
cv = GridSearchCV(lr, parameters, cv = 5)
cv.fit(X, target)
print_results(cv)

BEST PARAMS:{'Cs': array([10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10., 10.,
       10., 10., 10., 10., 10., 10., 10., 10.

In [72]:
#Read in data
WCC1 = pd.read_csv(os.path.join(_splitdata,'WCC_tot-4.csv')) 
target = WCC1['Target']
features = WCC1.drop('Target', axis = 1)

In [73]:
lr = LogisticRegressionCV(solver = 'saga',penalty = 'elasticnet', tol = 0.1, max_iter=100)
parameters = {
    'Cs' : [0.001*np.ones(len(target)),0.01*np.ones(len(target)),0.1*np.ones(len(target)),1*np.ones(len(target)),10*np.ones(len(target)),100*np.ones(len(target)),1000*np.ones(len(target))],
    'l1_ratios' : [0.1*np.ones(len(target)),0.2*np.ones(len(target)),0.3*np.ones(len(target)),0.4*np.ones(len(target)),0.5*np.ones(len(target)),0.6*np.ones(len(target)),0.7*np.ones(len(target)), 0.8*np.ones(len(target)), 0.9*np.ones(len(target)),np.ones(len(target))]
}
cv = GridSearchCV(lr, parameters, cv = 5)
cv.fit(X, target)
print_results(cv)

BEST PARAMS:{'Cs': array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]), 'l1_ratios': array([0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5,
       0.5