## About

Analysis of dataset provided within the competition called [ML Boot Camp III](http://mlbootcamp.ru/championship/10/) organized by MailRu Group in 2017.

### Links

* [ML Boot Camp](http://mlbootcamp.ru/championship/10/)


### Description

#### Task (in Russian)

Задача называется "Выход из он-лайн игры". В этой задаче необходимо научиться предсказывать, остается ли участник в он-лайн игре или уходит из нее. Уходом считается отсутствие его в игре в течение недели.

#### Dataset Information  (in Russian)

Всего используется 12 признаков, вычисленных за 2 предыдущие недели:

* maxPlayerLevel - максимальный уровень игры, который прошел игрок
* numberOfAttemptedLevels - количество уровней, которые попытался пройти игрок
* attemptsOnTheHighestLevel - число попыток, сделанных на самом высоком уровне
* totalNumOfAttempts - общее число попыток
* averageNumOfTurnsPerCompletedLevel - среднее количество ходов, выполненных на успешно пройденных уровнях
* doReturnOnLowerLevels - делал ли игрок возвраты к игре на уже пройденных уровнях
* numberOfBoostersUsed - количество использованных бустеров
* fractionOfUsefullBoosters - количество бустеров, использованных во время успешных попыток (игрок прошел уровнь)
* totalScore - общее количество набранных очков
* totalBonusScore - общее количество набранных бонусных очков
* totalStarsCount - общее количество набранных звезд
* numberOfDaysActuallyPlayed - количество дней, когда пользователь играл в игру

Все предоставленные для задачи данные разбиты на две части: обучающую (x_train.csv и y_train.csv) и тестовую (x_test.csv). Каждая строка файлов x_train.csv и x_test.csv соответствует одному пользователю. Данные в строке разделены точкой с запятой. Первая строка содержит имена признаков. Файл y_train.csv содержит значения 1 или 0 в зависимости от того, остался пользователь в игре или вышел из нее соответственно.

Как обучающая (x_train.csv и y_train.csv), так и тестовая (x_test.csv) выборки содержат информацию о **25289** пользователях.

### Submission (in Russian)

В качестве ответа для данной задачи принимается текстовый файл, каждая строка которого соответствует строке в файле x_test.csv и содержит значение от 0 до 1 (вероятность того, что пользователь останется в игре). В качестве критерия качества решения задачи используется [логарифмическая функция потерь](https://www.kaggle.com/wiki/LogarithmicLoss).

Количество посылок ограничено пятью в сутки.

Тестовая выборка случайным образом разбита на две части в соотношении 40/60. Результат на первых 40% будет определять положение участников в рейтинговой таблице на всем протяжении конкурса. Результат на оставшихся 60% станет известен после окончания конкурса и именно он определит финальную расстановку участников.


### Loading Data

The first step is always a data loading. Before loading data was converted from original Excel file into CSV.

In [None]:
%matplotlib inline

import pandas as pd
import numpy as np
import collections
import matplotlib.pyplot as plt

#plt.style.use('fivethirtyeight')
plt.style.use('ggplot')

dataset = pd.read_csv('data/ENB2012-data-uci.csv', sep=';')
columns = ['X1 Relative Compactness',
           'X2 Surface Area',
           'X3 Wall Area',
           'X4 Roof Area',
           'X5 Overall Height',
           'X6 Orientation',
           'X7 Glazing Area',
           'X8 Glazing Area Distribution',
           'y1 Heating Load',
           'y2 Cooling Load']

mapping = {'X1' : columns[0], 
           'X2' : columns[1],
           'X3' : columns[2],
           'X4' : columns[3],
           'X5' : columns[4],
           'X6' : columns[5],
           'X7' : columns[6],
           'X8' : columns[7],
           'Y1' : columns[8],
           'Y2' : columns[9]}

mapping = collections.OrderedDict(sorted(mapping.items()))
target_columns = [mapping[x] for x in mapping if x[0] != 'Y']
#print (target_columns)

dataset.columns = columns
dataset.head(5)

### Data Description

In [None]:
dataset.describe()

### Histograms

In [None]:
dataset[[mapping["X1"], mapping["X2"]]].hist(bins=10, figsize = (10,5))
dataset[[mapping["X3"], mapping["X4"]]].hist(bins=10, figsize = (10,5))
dataset[[mapping["X5"], mapping["X6"]]].hist(bins=10, figsize = (10,5))
dataset[[mapping["X7"], mapping["X8"]]].hist(bins=10, figsize = (10,5))

In [None]:
# try all styles
# for style in plt.style.available:
#     plt.style.use(style)
#     print (style)
#     dataset[[mapping["X1"], mapping["X2"]]].hist(bins=10, figsize = (10,5))

In [None]:
# different view of histograms
#dataset[["X1", "X2", "X3", "X4", "X5", "X6", "X7", "X8"]].hist(bins=10, figsize = (10,10) , normed=1)
dataset.hist(bins=10, figsize = (20,20), normed=1)

Plotting target/output variables in form of histogram

In [None]:
dataset[[mapping["Y1"], mapping["Y2"]]].hist(bins=10, figsize = (10,5))

In [None]:
# normalized
dataset[[mapping["Y1"], mapping["Y2"]]].hist(bins=10, figsize = (10,5), normed=1)

### Data Preprocessing

#### Normalizing Data in Dataset - Multiple Approaches

In [None]:
def normalize_sklearn(dataset):
    """normalization of an input dataset"""
    from sklearn import preprocessing
    x = dataset.values #returns a numpy array
    min_max_scaler = preprocessing.MinMaxScaler()
    x_scaled = min_max_scaler.fit_transform(x)
    df_norm = pd.DataFrame(x_scaled)
    return df_norm

def normalize_manually(df):
    result = df.copy()
    for feature_name in df.columns:
        max_value = df[feature_name].max()
        min_value = df[feature_name].min()
        result[feature_name] = (df[feature_name] - min_value) / (max_value - min_value)
    return result

df_norm_v1 = normalize_sklearn(dataset)
df_norm_v2 = normalize_manually(dataset)
df_norm = df_norm_v2

In [None]:
df_norm_v1.head(5)
#df_norm_v1.tail(15)

In [None]:
df_norm_v2.head(5)
#df_norm_v2.tail(15)

#### Comparing Normalization Approaches

Replacing all values that are smaller then particular epsilon (my own choice) with zeros and counting total amount of zeros in each collumn.

In [None]:
#from pandas.util.testing import assert_frame_equal
#assert_frame_equal(df_norm, df_norm_v2)

def compare_normalization_approaches(df_norm_v1, df_norm_v2):
    """Replacing all values that are smaller then particular epsilon (my own choice) 
       with zeros and counting total amount of zeros in each collumn.
    """
    EPSILON = 0.000000000000001
    comparison_array = df_norm_v1.values - df_norm_v2.values
    comparison_array[comparison_array < EPSILON] = 0
    print ('Total number of zeros in earch row (in each should be 768)')
    print ((comparison_array == 0).astype(int).sum(axis=0))
    
compare_normalization_approaches(df_norm_v1, df_norm_v2)

In [None]:
# df_norm_v1.hist(bins=10, figsize = (15,15))

### Boxplot

Making plots with boxplot.

In [None]:
def plot_multiple_boxplots():
    
    for key in mapping:
        if key[0] != 'Y':
            dataset[[mapping[key]]].plot.box(figsize = (5,5))
            
# plot_multiple_boxplots()

In [None]:
dataset[target_columns].plot.box(figsize = (15,10), vert=False)

In [None]:
df_norm[target_columns].plot.box(figsize = (15,10), vert=False)

#### Scatter Plot

Making scatter plot that compares normalized values of input with normalized values of output.

In [None]:
from pandas.tools.plotting import scatter_matrix
scatter_matrix(df_norm[target_columns], alpha=0.2, figsize=(25, 25))

In [None]:
def plot_scatter(df, target_output):
    """ Making scatter plot for input/output comparison """
    
    if target_output not in ('Y1', 'Y2'):
        print ('Wrong target output variable for plotting')
        return None
    
    for key in mapping:
        if key[0] != 'Y':
            df.plot.scatter(x=mapping[key], y=mapping[target_output], figsize = (3,3))

#plot_scatter(df_norm, 'Y1') 
#plot_scatter(df_norm, 'Y2')

Comparing all input values with output **'y1 Heating Load'** and **'y2 Cooling Load'**

In [None]:
for key in mapping:
    
    if key[0] != 'Y':
        fig, (ax1, ax2) = plt.subplots(ncols=2, sharey=False, figsize = (12,6))
        df_norm.plot.scatter(x=mapping[key], y=mapping["Y1"], ax=ax1, grid=True)
        df_norm.plot.scatter(x=mapping[key], y=mapping["Y2"], ax=ax2, grid=True)

### Correlations

After plotting data in form of scatter and histogram, it's make sense to prove correlation between input variables and output onces.

In [None]:
print ('{feature}\t\t\t\t{correlation_with_Y1}\t{correlation_with_Y2}'.format(feature='Key', 
                                                                       correlation_with_Y1='correlation_with_Y1', 
                                                                       correlation_with_Y2='cor_spearman_y2'))
for key in mapping:
    if key[0] != 'Y':
        cor_spearman_y1 = df_norm[mapping[key]].corr(df_norm[mapping["Y1"]], method='spearman')
        cor_spearman_y2 = df_norm[mapping[key]].corr(df_norm[mapping["Y2"]], method='spearman')
        print ('{feature}\t\t\t{correlation_with_Y1}\t\t{correlation_with_Y2}'.format(feature=mapping[key], 
                                                                               correlation_with_Y1=cor_spearman_y1, 
                                                                               correlation_with_Y2=cor_spearman_y2))

Looking at the correlation between input variables.

In [None]:
df_norm[target_columns].corr(method='spearman')

## Training Machine Learning Model

#### Random Forest Classification

In [None]:
def random_forest_dataset_pima_diabetes():
    """ Sample usage of Random Forest taken from following URL:
        - http://machinelearningmastery.com/ensemble-machine-learning-algorithms-python-scikit-learn/
        
        Dataset:
            Number of Instances: 768

            For Each Attribute: (all numeric-valued)
               1. Number of times pregnant
               2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
               3. Diastolic blood pressure (mm Hg)
               4. Triceps skin fold thickness (mm)
               5. 2-Hour serum insulin (mu U/ml)
               6. Body mass index (weight in kg/(height in m)^2)
               7. Diabetes pedigree function
               8. Age (years)
   
    """
    
    import pandas as pd
    import sklearn
    from sklearn import model_selection
    from sklearn.ensemble import RandomForestClassifier

    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
    names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
    dataframe = pd.read_csv(url, names=names)
    print(dataframe.describe())
    
#     # visualization
#     import matplotlib.pyplot as plt
#     plt.style.use('default')
#     dataframe.hist(figsize = (15,10))
    
    array = dataframe.values
    X = array[:, 0:8]
    Y = array[:, 8]
    seed = 7
    num_trees = 100
    max_features = 8
    kfold = model_selection.KFold(n_splits=10, random_state=seed)
    model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
    results = model_selection.cross_val_score(model, X, Y, cv=kfold)
    print('\nRF results: {0}'.format(results.mean()))

# for value in range(10):
#     random_forest_dataset_pima_diabetes()

random_forest_dataset_pima_diabetes()