In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('dataset/Feature_vectors_by_customerID_and_month.tsv', sep='\t')
df.head()

Unnamed: 0,CustomerID,Month,No_planned_visits,No_executed_visits,No_not_executed_visits,No_adhoc_visits,Day_maximum_difference,Day_maximum_sape,Day_minimum_sape,Day_validation,...,Mean_SAPE,Std_dev_SAPE,Mean_APE,Squared_error_SAPE_APE,Mean_FPE,Std_dev_FPE,No_ok_validations,No_not_ok_validations,Percent_ok,Percent_not_ok
0,100000136,5,7,7,0,0,8.0,4.0,4.0,12.0,...,90.987,1.421085e-14,79.498,131.997121,90.987,1.421085e-14,1,0,1.0,0.0
1,100000136,6,8,8,0,0,15.0,15.0,29.0,,...,92.6325,1.744089,,,92.633,1.421085e-14,0,0,0.0,0.0
2,100000136,7,4,4,0,0,24.0,24.0,3.0,,...,95.375,0.625,,,95.375,0.0,0,0,0.0,0.0
3,100000136,8,8,8,0,0,3.0,31.0,31.0,,...,96.0,0.0,,,96.0,0.0,0,0,0.0,0.0
4,100000136,9,9,9,0,0,4.0,31.0,31.0,,...,96.0,0.0,,,96.0,0.0,0,0,0.0,0.0


In [34]:
no_records_wno_validation = len(df[df.No_validations == 0])
print(no_records_wno_validation)

30254


За 30254 записи не постои валидација, односно атрибутот No_validations има вредност 0. Бидејќи не постои валидација, ова повлекува дека и атрибутите Mean_APE, Squared_error_SAPE_APE и Day_validation ќе имаат np.nan вредности.
Nan вредностите на овие атрибути ќе бидат заменети со -1. 

In [31]:
mean_ape_no_nan = np.zeros(len(df))
sqrd_err_no_nan = np.zeros(len(df))
day_of_validation_no_nan = np.zeros(len(df))
    
for i in range(len(df)):
    mean_ape = df['Mean_APE'][i]
    sqrd_err = df['Squared_error_SAPE_APE'][i]
    day_of_validation = df['Day_validation'][i]
    
    mean_ape_no_nan[i] = -1 if np.isnan(mean_ape) else mean_ape
    sqrd_err_no_nan[i] = -1 if np.isnan(sqrd_err) else sqrd_err
    day_of_validation_no_nan[i] = -1 if np.isnan(day_of_validation) else day_of_validation

df.Mean_APE = pd.Series(mean_ape_no_nan, dtype=float)
df.Squared_error_SAPE_APE = pd.Series(sqrd_err_no_nan, dtype=float)
df.Day_validation = pd.Series(day_of_validation_no_nan, dtype=int)

In [48]:
df[(df.No_executed_visits == 0) & (df.No_adhoc_visits == 0) & (~np.isnan(df.Mean_SAPE))]

Unnamed: 0,CustomerID,Month,No_planned_visits,No_executed_visits,No_not_executed_visits,No_adhoc_visits,Day_maximum_difference,Day_maximum_sape,Day_minimum_sape,Day_validation,...,Mean_SAPE,Std_dev_SAPE,Mean_APE,Squared_error_SAPE_APE,Mean_FPE,Std_dev_FPE,No_ok_validations,No_not_ok_validations,Percent_ok,Percent_not_ok
18007,100007200,7,0,0,0,0,2.0,2.0,2.0,-1,...,33.903,0.0,-1.0,-1.0,33.903,0.0,0,0,0.0,0.0
32473,100023111,7,1,0,1,0,2.0,2.0,2.0,-1,...,71.181,0.0,-1.0,-1.0,71.181,0.0,0,0,0.0,0.0


In [49]:
df[(df.No_executed_visits == 0) & (df.No_adhoc_visits == 0) & (~np.isnan(df.Mean_FPE))]

Unnamed: 0,CustomerID,Month,No_planned_visits,No_executed_visits,No_not_executed_visits,No_adhoc_visits,Day_maximum_difference,Day_maximum_sape,Day_minimum_sape,Day_validation,...,Mean_SAPE,Std_dev_SAPE,Mean_APE,Squared_error_SAPE_APE,Mean_FPE,Std_dev_FPE,No_ok_validations,No_not_ok_validations,Percent_ok,Percent_not_ok
18007,100007200,7,0,0,0,0,2.0,2.0,2.0,-1,...,33.903,0.0,-1.0,-1.0,33.903,0.0,0,0,0.0,0.0
32473,100023111,7,1,0,1,0,2.0,2.0,2.0,-1,...,71.181,0.0,-1.0,-1.0,71.181,0.0,0,0,0.0,0.0


Отстранување на редиците за кои што атрибутите No_executed_visits и No_adhoc_visits имаат вредност 0. Ова значи дека во даден објект (CustomerID), за даден месец (Month) не е извршена ниту планирана, ниту адхок посета. 

Постојат само 2 записи за кои што овие два атрибути имаат вредност 0, а вредноста на Mean_SAPE или Mean_FPE е различна од np.nan.
Овие записи се најверојатно грешка, бидејќи во тој месец во објектот не е направена никаква посета од страна на комерцијалист, а постојат коефициенти за евалуација на анкета.

По ова чистење, може да се отстрани и атрибутот No_validations (вредности 0 и 1), бидејќи секогаш кога овој атрибут има вредност 0, Day_validation има вредност -1, а секогаш кога овој атрибут има вредност 1, Day_validation е позитивен цел број. 

In [59]:
df = df.drop(df.index[(df.No_executed_visits == 0) & (df.No_adhoc_visits == 0)], axis=0)
df = df.drop(['No_validations'], axis=1)

In [106]:
strange_customers = df[(df.No_executed_visits > 0) & (np.isnan(df.Mean_SAPE))]
strange_customers.to_csv('subsets/Customers_w_executed_visits_and_no_sape.tsv', sep='\t', index=None)
len(strange_customers)

65

Претходните записи се неконзистентни. За даден објект и месец, забележано е дека посета (или повеќе посети) од страна на комерцијалист е извршена, но не е забележан никаков SAPE коефициент.

Претходните 65 записи ќе бидат отстранети бидејќи немаат никакво значење.

In [108]:
df = df.drop(df.index[(df.No_executed_visits > 0) & (np.isnan(df.Mean_SAPE))], axis=0)
len(df)

32197

In [110]:
not all(map(np.isnan, df.Mean_FPE))  # нема ниту еден запис со MEAN_FPE = np.nan

True

In [111]:
not all(map(np.isnan, df.Mean_SAPE)) # нема ниту еден запис со MEAN_SAPE = np.nan

True

In [109]:
df.to_csv('dataset/Feature_vectors_customer_month_cleaned.tsv', sep='\t', index=None)