# 필사
## 링크
https://www.kaggle.com/code/arthurtok/interactive-porto-insights-a-plot-ly-tutorial/notebook
## 내용정리
https://goodfingers.notion.site/data_preparation_and_exploration-7d82a7292f0f48b3a1d72169851cbdd2

# Loading packages

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectFromModel
from sklearn.utils import shuffle
from sklearn.ensemble import RandomForestClassifier

pd.set_option('display.max_columns', 100)

# Loading data

In [None]:
train = pd.read_csv('../input/porto-seguro-safe-driver-prediction/train.csv')
test = pd.read_csv('../input/porto-seguro-safe-driver-prediction/test.csv')

## Data at first sight

In [None]:
train.head()

In [None]:
train.tail()

- 모든 데이터가 `integer` or `float`
- `-1` 이 null을 의미

In [None]:
train.shape

In [None]:
train.drop_duplicates(inplace=True)
train.shape

train데이터에 중복값 존재 x

In [None]:
test.shape

In [None]:
train.info()

null 값이 -1로 처리되었기 때문에 info()문으로는 null값이 없는 것으로 나온다.

## Metadata

meta 데이터를 만들어두면 데이터 관리를 용이하게 할 수 있다.

meta 데이터에 포함시킬 기본정보는 다음과 같다.

- role: 데이터 셋의 역할 (input, id, target
- level: 데이터 종류 (nominal, interval, ordinal, binary)
- keep: 훈련에 사용할지 여부
- dtype: 데이터 타입 (int, float, str ... )

In [None]:
data = []
for f in train.columns:
    # Defining the role
    if f == 'target':
        role = 'target'
    elif f == 'id':
        role = 'id'
    else:
        role = 'input'
         
    # Defining the level
    if 'bin' in f or f == 'target':
        level = 'binary'
    elif 'cat' in f or f == 'id':
        level = 'nominal'
    elif train[f].dtype == float:
        level = 'interval'
    elif train[f].dtype == int:
        level = 'ordinal'
        
    # Initialize keep to True for all variables except for id
    keep = True
    if f == 'id':
        keep = False
    
    # Defining the data type 
    dtype = train[f].dtype
    
    # Creating a Dict that contains all the metadata for the variable
    f_dict = {
        'varname': f,
        'role': role,
        'level': level,
        'keep': keep,
        'dtype': dtype
    }
    data.append(f_dict)
    
meta = pd.DataFrame(data, columns=['varname', 'role', 'level', 'keep', 'dtype'])
meta.set_index('varname', inplace=True)

In [None]:
meta

# Descriptive statistics

## interval variables

meta 데이터를 이용하면 아래와 같이 필요한 데이터를 간편하게 추출할 수 있다.

In [None]:
v = meta[(meta.level == 'interval') & (meta.keep)].index
train[v].describe()

**reg variable**
- 03 데이터만 결측치를 가지고 있다.
- 각 reg 마다 범위가 다르므로 추후에 scaling을 진행해줄 수 있다.    
  
**car variable**
- 12와 14데이터가 결측치를 가지고 있다.
- reg와 마찬가지로 열마다 range가 다르므로 scaling을 진행해줄 수 있다.     
  
**calc variable**
- 결측치가 존재하지 않는다.
- 최대 값이 0.9로 맞추어져 있다.
- 4분위 값이 모두 같으며 분포가 모두 비슷한 것을 확인할 수 있다.

**overall**
전체적으로 값의 범위가 크지 않고, 데이터 분포가 비슷한 특징들을 통해 사전에 데이터 가공이 이루어진 것 같음.

## Ordinal variables

In [None]:
v = meta[(meta.level == 'ordinal') & (meta.keep)].index
train[v].describe()

- ps_car_11 특징만 결측치를 가지고 있다.     
- 다른 range에 대해서는 scaling을 통해 조절 가능하다.

## Binaray variables

In [None]:
v = meta[(meta.level == 'binary') & (meta.keep)].index
train[v].describe()

- train 데이터의 3.645%만 postive한 target value를 가지고 있다.
  => strongly imbalanced 되어 있는 것을 알 수 있다.
- 평균 값으로부터 대부분의 binary 데이터 값이 0 값을 갖는 것을 알 수 있다.

# Handling imbalanced classes

target==1 의 샘플 수가 target==0에 비해 매우 작으므로 그대로 사용할 경우 model의 성능이 좋지 않을 것이다.     
이를 해결하기 위해
- target == 1의 샘플을 oversampling 하고
- target == 0의 샘플을 downsampling 한다.

In [None]:
desired_apriori=0.10

# Get the indices per target value
idx_0 = train[train.target == 0].index
idx_1 = train[train.target == 1].index

# Get original number of records per target value
nb_0 = len(train.loc[idx_0])
nb_1 = len(train.loc[idx_1])

# Calculate the undersampling rate and resulting number of records with target=0
undersampling_rate = ((1-desired_apriori)*nb_1)/(nb_0*desired_apriori)
undersampled_nb_0 = int(undersampling_rate*nb_0)
print('Rate to undersample records with target=0: {}'.format(undersampling_rate))
print('Number of records with target=0 after undersampling: {}'.format(undersampled_nb_0))

# Randomly select records with target=0 to get at the desired a priori
undersampled_idx = shuffle(idx_0, random_state=37, n_samples=undersampled_nb_0)

# Construct list with remaining indices
idx_list = list(undersampled_idx) + list(idx_1)

# Return undersample data frame
train = train.loc[idx_list].reset_index(drop=True)

In [None]:
v = meta[(meta.level == 'binary') & (meta.keep)].index
train[v].describe()

# Data quality checks

## checking missing values

Missings are represented as -1

In [None]:
vars_with_missing = []

for f in train.columns:
    missings = train[train[f] == -1][f].count()
    if missings > 0:
        vars_with_missing.append(f)
        missings_perc = missings/train.shape[0]
        
        print('Variable {} has {} records ({:.2%}) with missing values'.format(f, missings, missings_perc))
        
print('In total, there are {} variables with missing values'.format(len(vars_with_missing)))

- ps_car_03_cat & ps_car_05_cat: 결측치가 매우 큰 비율을 차지하므로 사용하지 않는다.
- 다른 categorical 특징들의 결측치는 -1 그대로 사용한다.
- ps_reg_03 (continuous) 데이터는 18%의 결측치를 가지고 있다. 평균값으로 채운다.
- ps_car_11 (ordinal) 데이터는 5개의 결측치를 가지고 있다. mode를 이용하여 채운다.
- ps_car_12 (continuous)는 1개의 missing value를 가지고 있다. 평균을 이용하여 채운다.
- ps_car_14 (continuous)는 7%의 결측치를 가지고 있다. 평균을 이용하여 채운다.

In [None]:
# Dropping the variables with too many missing values
vars_to_drop = ['ps_car_03_cat', 'ps_car_05_cat']
train.drop(vars_to_drop, inplace=True, axis=1)
meta.loc[(vars_to_drop),'keep'] = False  # Updating the meta

In [None]:
# Imputing with the mean or mode
mean_imp = SimpleImputer(missing_values=-1, strategy='mean')
mode_imp = SimpleImputer(missing_values=-1, strategy='most_frequent')
train['ps_reg_03'] = mean_imp.fit_transform(train[['ps_reg_03']]).ravel()
train['ps_car_12'] = mean_imp.fit_transform(train[['ps_car_12']]).ravel()
train['ps_car_14'] = mean_imp.fit_transform(train[['ps_car_14']]).ravel()
train['ps_car_11'] = mode_imp.fit_transform(train[['ps_car_11']]).ravel()

## Checking the cardinality of the categorical variables

categorical data를 다룰 때 얼마나 많은 개별 카테고리를 갖느냐에 따라 dummy variable의 개수가 바뀌게 된다.    
따라서 개별 카테고리의 수에 따라 데이터를 다르게 처리해주어야 하므로 개별 데이터의 수를 나타내는 cardinality를 사전에 체크한다.

In [None]:
v = meta[(meta.level == 'nominal') & (meta.keep)].index

for f in v:
    dist_values = train[f].value_counts().shape[0]
    print('Variable {} has {} distinct values'.format(f, dist_values))

ps_car_11_cat만 많은 distinct values를 가지고 있다.    

In [None]:
# Script by https://www.kaggle.com/ogrellier
# Code: https://www.kaggle.com/ogrellier/python-target-encoding-for-categorical-features
def add_noise(series, noise_level):
    return series * (1 + noise_level * np.random.randn(len(series)))

def target_encode(trn_series=None, 
                  tst_series=None, 
                  target=None, 
                  min_samples_leaf=1, 
                  smoothing=1,
                  noise_level=0):
    """
    Smoothing is computed like in the following paper by Daniele Micci-Barreca
    https://kaggle2.blob.core.windows.net/forum-message-attachments/225952/7441/high%20cardinality%20categoricals.pdf
    trn_series : training categorical feature as a pd.Series
    tst_series : test categorical feature as a pd.Series
    target : target data as a pd.Series
    min_samples_leaf (int) : minimum samples to take category average into account
    smoothing (int) : smoothing effect to balance categorical average vs prior  
    """ 
    assert len(trn_series) == len(target)
    assert trn_series.name == tst_series.name
    temp = pd.concat([trn_series, target], axis=1)
    # Compute target mean 
    averages = temp.groupby(by=trn_series.name)[target.name].agg(["mean", "count"])
    # Compute smoothing
    smoothing = 1 / (1 + np.exp(-(averages["count"] - min_samples_leaf) / smoothing))
    # Apply average function to all target data
    prior = target.mean()
    # The bigger the count the less full_avg is taken into account
    averages[target.name] = prior * (1 - smoothing) + averages["mean"] * smoothing
    averages.drop(["mean", "count"], axis=1, inplace=True)
    # Apply averages to trn and tst series
    ft_trn_series = pd.merge(
        trn_series.to_frame(trn_series.name),
        averages.reset_index().rename(columns={'index': target.name, target.name: 'average'}),
        on=trn_series.name,
        how='left')['average'].rename(trn_series.name + '_mean').fillna(prior)
    # pd.merge does not keep the index so restore it
    ft_trn_series.index = trn_series.index 
    ft_tst_series = pd.merge(
        tst_series.to_frame(tst_series.name),
        averages.reset_index().rename(columns={'index': target.name, target.name: 'average'}),
        on=tst_series.name,
        how='left')['average'].rename(trn_series.name + '_mean').fillna(prior)
    # pd.merge does not keep the index so restore it
    ft_tst_series.index = tst_series.index
    return add_noise(ft_trn_series, noise_level), add_noise(ft_tst_series, noise_level)

In [None]:
train_encoded, test_encoded = target_encode(train["ps_car_11_cat"], 
                             test["ps_car_11_cat"], 
                             target=train.target, 
                             min_samples_leaf=100,
                             smoothing=10,
                             noise_level=0.01)
    
train['ps_car_11_cat_te'] = train_encoded
train.drop('ps_car_11_cat', axis=1, inplace=True)
meta.loc['ps_car_11_cat','keep'] = False  # Updating the meta
test['ps_car_11_cat_te'] = test_encoded
test.drop('ps_car_11_cat', axis=1, inplace=True)

# Exploratory data visualization

## Categorical variables

In [None]:
v = meta[(meta.level == 'nominal') & (meta.keep)].index

for f in v:
    plt.figure()
    fig, ax = plt.subplots(figsize=(20,10))
    # Calculate the percentage of target=1 per category value
    cat_perc = train[[f, 'target']].groupby([f],as_index=False).mean()
    cat_perc.sort_values(by='target', ascending=False, inplace=True)
    # Bar plot
    # Order the bars descending on target mean
    sns.barplot(ax=ax, x=f, y='target', data=cat_perc, order=cat_perc[f])
    plt.ylabel('% target', fontsize=18)
    plt.xlabel(f, fontsize=18)
    plt.tick_params(axis='both', which='major', labelsize=18)
    plt.show();

missing value가 존재하는 카테고리에서 target==1 데이터가 많은 것을 확인할 수 있다.
=> missing value를 따로 변환하는 것보다 그대로 사용하느 것도 좋을 것 같다.

## interval variables

In [None]:
def corr_heatmap(v):
    correlations = train[v].corr()

    # Create color map ranging between two colors
    cmap = sns.diverging_palette(220, 10, as_cmap=True)

    fig, ax = plt.subplots(figsize=(10,10))
    sns.heatmap(correlations, cmap=cmap, vmax=1.0, center=0, fmt='.2f',
                square=True, linewidths=.5, annot=True, cbar_kws={"shrink": .75})
    plt.show();
    
v = meta[(meta.level == 'interval') & (meta.keep)].index
corr_heatmap(v)

높은 상관관계를 갖는 특징들은 아래와 같다.
- ps_reg_02 and ps_reg_03 (0.7)
- ps_car_12 and ps_car13 (0.67)
- ps_car_12 and ps_car14 (0.58)
- ps_car_13 and ps_car15 (0.67)

In [None]:
s = train.sample(frac=0.1)

### ps_reg_02 and ps_reg_03

In [None]:
sns.lmplot(x='ps_reg_02', y='ps_reg_03', data=s, hue='target', palette='Set1', scatter_kws={'alpha':0.3})
plt.show()

### ps_car_12 and ps_car_13

In [None]:
sns.lmplot(x='ps_car_12', y='ps_car_13', data=s, hue='target', palette='Set1', scatter_kws={'alpha':0.3})
plt.show()

### ps_car_12 and ps_car_14

In [None]:
sns.lmplot(x='ps_car_12', y='ps_car_14', data=s, hue='target', palette='Set1', scatter_kws={'alpha':0.3})
plt.show()

### ps_car_13 and ps_car_15

In [None]:
sns.lmplot(x='ps_car_15', y='ps_car_13', data=s, hue='target', palette='Set1', scatter_kws={'alpha':0.3})
plt.show()

## Checking the correlations between ordinal variables

In [None]:
v = meta[(meta.level == 'ordinal') & (meta.keep)].index
corr_heatmap(v)

# Feature engineering

## Creating dummy variables

카테고리 변수의 값은 크기에 대한 어떠한 정보다 가지고 있지 않기 때문에 increment한 정보를 모델이 잘못 학습하지 않도록 dummmy variable로 대체한다.

In [None]:
v = meta[(meta.level == 'nominal') & (meta.keep)].index
print('Before dummification we have {} variables in train'.format(train.shape[1]))
train = pd.get_dummies(train, columns=v, drop_first=True)
print('After dummification we have {} variables in train'.format(train.shape[1]))

## Creating interaction variables

In [None]:
v = meta[(meta.level == 'interval') & (meta.keep)].index
poly = PolynomialFeatures(degree=2, interaction_only=False, include_bias=False)
interactions = pd.DataFrame(data=poly.fit_transform(train[v]), columns=poly.get_feature_names(v))
interactions.drop(v, axis=1, inplace=True)  # Remove the original columns
# Concat the interaction variables to the train data
print('Before creating interactions we have {} variables in train'.format(train.shape[1]))
train = pd.concat([train, interactions], axis=1)
print('After creating interactions we have {} variables in train'.format(train.shape[1]))

In [None]:
v = meta[(meta.level == 'interval') & (meta.keep)].index
poly = PolynomialFeatures(degree=2, interaction_only=False, include_bias=False)
interactions = pd.DataFrame(data=poly.fit_transform(train[v]), columns=poly.get_feature_names(v))
interactions.drop(v, axis=1, inplace=True)  # Remove the original columns 중복을 피하기 위해 삭제
# Concat the interaction variables to the train data
print('Before creating interactions we have {} variables in train'.format(train.shape[1]))
train = pd.concat([train, interactions], axis=1)
print('After creating interactions we have {} variables in train'.format(train.shape[1]))

# Feature selection

## Removing features with low or zero variance

모델이 학습 과정에서 특징을 선택하도록 놔두는 것도 좋지만 variance가 기준치 보다 낮은 특징들을 사전에 없애는 것은 유용하게 사용될 수 있다.

In [None]:
selector = VarianceThreshold(threshold=.01)
selector.fit(train.drop(['id', 'target'], axis=1)) # Fit to train without id and target variables

f = np.vectorize(lambda x : not x) # Function to toggle boolean array elements

v = train.drop(['id', 'target'], axis=1).columns[f(selector.get_support())]
print('{} variables have too low variance.'.format(len(v)))
print('These variables are {}'.format(list(v)))

### Selecting features with a Random Forest and SelectFromModel

이번 문제에서는 특징의 수가 그렇게 많은 편이 아니므로 사전에 제거하기 보다 모델이 선택하도록 하는 방법을 사용한다.       
sklearn의 selectFromModel 매서드를 사용하면 편리하게 구현할 수 있다.

In [None]:
X_train = train.drop(['id', 'target'], axis=1)
y_train = train['target']

feat_labels = X_train.columns

rf = RandomForestClassifier(n_estimators=1000, random_state=0, n_jobs=-1)

rf.fit(X_train, y_train)
importances = rf.feature_importances_

indices = np.argsort(rf.feature_importances_)[::-1]

for f in range(X_train.shape[1]):
    print("%2d) %-*s %f" % (f + 1, 30,feat_labels[indices[f]], importances[indices[f]]))

In [None]:
sfm = SelectFromModel(rf, threshold='median', prefit=True)
print('Number of features before selection: {}'.format(X_train.shape[1]))
n_features = sfm.transform(X_train).shape[1]
print('Number of features after selection: {}'.format(n_features))
selected_vars = list(feat_labels[sfm.get_support()])

In [None]:
sfm.get_support()

In [None]:
n_features

In [None]:
train = train[selected_vars + ['target']]