# 1. IEEE-CIS Fraud Detection Overview
![Fraud](https://blogs.sas.com/content/saskorea/files/2019/03/%EC%82%AC%EA%B8%B01.jpg)

- Can you detect **'fraud'** from customer transactions? 
- **IEEE-CIS?** IEEE Computational Intelligence Society
- If you want to know 'Fraud Detection' more.. [Click here](https://searchsecurity.techtarget.com/definition/fraud-detection)
***
- 고객 거래에서 '**이상 금융거래**'를 탐지할 수 있을까?
- **IEEE-CIS란?** 전산 정보 관련 학회
- '이상 금융거래 탐지'에 대해서 더 알고 싶으시면.. [클릭](http://www.bloter.net/archives/296444)

## 1) Official Description Summary
- The cashier announces that your card has been declined.
- You receive a text message from your bank **"Press 1 if you really tried to spend $500 on cheddar cheese."**
- This **fraud prevention system** is actually saving consumers millions of dollars per year. 
- In this competition, you'll benchmark **machine learning models** on a challenging large-scale dataset. The data comes from Vesta's real-world e-commerce transactions. 
***
- 카드 결제가 거부되었다고 합니다.
- 잠시 후 은행으로부터 다음과 같은 문자가 왔습니다. **"체다 치즈에 500 달러를 정말로 쓰시려면 1번을 눌러주세요."**
- 이러한 **사기 방지 시스템**이 실제로 소비자들의 연간 수백만 달러를 절약하고 있습니다.
- 이번 대회는 Vesta사의 실제 전자상거래 데이터를 이용하여 사기를 탐지하는 **머신러닝 모델**을 만드는 대회입니다.

## 2) Official Data Description
### 1. Transaction Table
- **TransactionDT**: timedelta from a given reference datetime (not an actual timestamp)
- **TransactionAMT**: transaction payment amount in USD
- **ProductCD**: product code, the product for each transaction **(categorical)**
- **card1 - card6**: payment card information, such as card type, card category, issue bank, country, etc. **(categorical)**
- **addr**: address **(categorical)**
- **dist**: distance
- **P_ and (R__) emaildomain**: purchaser and recipient email domain **(categorical)**
- **C1-C14**: counting, such as how many addresses are found to be associated with the payment card, etc. The actual meaning is masked.
- **D1-D15**: timedelta, such as days between previous transaction, etc.
- **M1-M9**: match, such as names on card and address, etc. **(categorical)**
- **Vxxx**: Vesta engineered rich features, including ranking, counting, and other entity relations.

***

### 1. 거래 정보 테이블
- **TransactionDT**: 주어진 reference datetime으로부터의 timedelta 값 (실제 timestamp가 아님)
> timedelta 값이란? date, time 또는 datetime 인스턴스 간의 차이를 마이크로초로 나타낸 값
- **TransactionAMT**: 결제 금액 (단위: 달러)
- **ProductCD**: 제품 코드 **(범주형 변수)**
- **card1 - card6**: 결제 카드 정보 (예를 들어, 카드 유형, 발행 은행, 국가 등등) **(범주형 변수)**
- **addr**: 주소 **(범주형 변수)**
- **dist**: 거리
- **P_ and (R__) emaildomain**: 구매자와 수취인의 이메일 도메인 **(범주형 변수)**
- **C1-C14**: 카운팅 정보 (예를 들어, 결제 카드와 관련 있는 주소의 수 등등) -> 실제 의미는 숨겨져 있음
- **D1-D15**: timedelta 값 (예를 들어, 이전 거래한 날짜와의 차이)
- **M1-M9**: 일치 정보 (예를 들어, 카드에 적힌 이름 일치하는지, 주소가 일치하는지 등등) **(범주형 변수)**
- **Vxxx**: Vesta사에서 만들어낸 변수 (랭킹, 카운팅, 관계 등등)

### 2. Identity Table
- Variables in this table are **identity information** associated with transactions
- 1) **network connection information** (IP, ISP, Proxy, etc)
- 2) **digital signature** (UA/browser/os/version, etc) . 
- They're collected by Vesta’s fraud protection system and digital security partners.
- The field names are masked and pairwise dictionary will **not be provided** for privacy protection and contract agreement
- **Categorical Features**: DeviceType, DeviceInfo, id12 - id38

***

### 2. 식별 정보 테이블
- 거래와 관련된 **식별 정보**
- 1) **네트워크 연결 정보** (IP, ISP, Proxy 등등)
- 2) **디지털 서명 정보** (UA/browser/os/version 등등) 
- Vesta사의 사기 방지 시스템 및 디지털 보안 협력업체에서 수집
- 개인 정보 보호 및 계약 동의로 인해 **상세한 내용은 제공되지 않음**
- **범주형 변수**: DeviceType, DeviceInfo, id12 - id38

# 2. EDA (Exploratory Data Analysis)

In [None]:
## Library-loading (라이브러리 불러오기)
import numpy as np # linear algebra (선형대수)
import pandas as pd # data processing, CSV file I/O (데이터 처리, CSV파일 입출력)
import matplotlib.pyplot as plt # data visualization (데이터 시각화)
import seaborn as sns # data visualization (데이터 시각화)

## Check the list of files (파일 목록 확인하기)
import os
print(os.listdir("../input"))

In [None]:
## Data-loading (데이터 불러오기)

# Transaction data (거래 데이터)
train_transaction = pd.read_csv('../input/train_transaction.csv', index_col='TransactionID')
test_transaction = pd.read_csv('../input/test_transaction.csv', index_col='TransactionID')

# Identity (식별 데이터)
train_identity = pd.read_csv('../input/train_identity.csv', index_col='TransactionID')
test_identity = pd.read_csv('../input/test_identity.csv', index_col='TransactionID') 

# Sample of submission file (제출 파일 샘플)
sample_submission = pd.read_csv('../input/sample_submission.csv', index_col='TransactionID')

In [None]:
# Data-checking (데이터 확인하기)
def data_check(df):
    print('rows:', df.shape[0], '/ columns:', df.shape[1])

data_check(train_transaction)
data_check(test_transaction)
data_check(train_identity)
data_check(test_identity)
data_check(sample_submission)

In [None]:
## Data-merging (데이터 합차기)

# train = train_transaction + train_identity
train = train_transaction.merge(train_identity, how='left', left_index=True, right_index=True)

# test = test_transaction + test_identity
test = test_transaction.merge(test_identity, how='left', left_index=True, right_index=True)

In [None]:
## Data-checking (데이터 확인하기)
train.head()

In [None]:
## Data-checking (데이터 확인하기)
train.info()

#### Types of the columns (변수 타입)
- The number of 'float64': 399 (연속형 변수 - 실수) 
- The number of 'int64': 3  (연속형 변수 - 정수)
- The number of 'object': 31 (범주형 변수)

In [None]:
## Missing-checking (결측치 확인하기)

# Count the number of missing values (결측치 카운팅)
missing_df = train.isnull().sum().reset_index()
missing_df.columns = ['column', 'count']

# Calculate the missing ratio (결측치 비율 계산)
missing_df['ratio'] = missing_df['count'] / train.shape[0]
missing_df.head(10)

In [None]:
## Missing-checking (결측치 확인하기)

# Visualize the missing ratio (결측치 비율 시각화)
missing_df['ratio'].sort_values().plot(kind='bar');

In [None]:
## Missing-checking (결측치 확인하기)

# The columns with the missing_ratio of 0 (결측치 비율이 0인 컬럼)
missing_df[missing_df['ratio']==0]

#### The list of columns without the missingness (결측치가 없는 컬럼 리스트)
- isFraud
- TransactionAmt
- ProductCD
- card1
- C1~C14

##### Total: 19

In [None]:
## Missing-checking (결측치 확인하기)

# Visualize the missing ratio of 0 ~ 0.2 (결측치 비율이 0 ~ 0.2인 부분 시각화)
missing_df[(missing_df['ratio']>0) & (missing_df['ratio']<=0.2)]['ratio'].sort_values().plot(kind='bar');

In [None]:
## Missing-checking (결측치 확인하기)

# Visualize the missing ratio of 0 ~ 0.02 (결측치 비율이 0 ~ 0.02인 부분 시각화)
missing_df[(missing_df['ratio']>0) & (missing_df['ratio']<=0.02)]['ratio'].sort_values().plot(kind='bar');

In [None]:
missing_df[(missing_df['ratio']>0) & (missing_df['ratio']<=0.2)]

In [None]:
missing_df[(missing_df['ratio']>0) & (missing_df['ratio']<=0.02)]

In [None]:
missing_df.groupby('count').count()[missing_df.groupby('count').count()['column'] > 1].sort_values(['column'], ascending=[False])

In [None]:
missing_df[missing_df['count']==12].sort_index()

In [None]:
missing_df[missing_df['count']==314].sort_index()

In [None]:
missing_df[missing_df['count']==460110].sort_index()

In [None]:
## Missing-checking (결측치 확인하기)

columns_full = missing_df[missing_df['ratio']==0]['column'].tolist()
columns_00_02 = missing_df[(missing_df['ratio']>0) & (missing_df['ratio']<=0.2)]['column'].tolist()
columns_20_40 = missing_df[(missing_df['ratio']>0.2) & (missing_df['ratio']<=0.4)]['column'].tolist()
columns_40_60 = missing_df[(missing_df['ratio']>0.4) & (missing_df['ratio']<=0.6)]['column'].tolist()
columns_60_80 = missing_df[(missing_df['ratio']>0.6) & (missing_df['ratio']<=0.8)]['column'].tolist()
columns_80_100 = missing_df[(missing_df['ratio']>0.8) & (missing_df['ratio']<=1.0)]['column'].tolist()

In [None]:
print(len(columns_full))
print(len(columns_00_02))
print(len(columns_20_40))
print(len(columns_40_60))
print(len(columns_60_80))
print(len(columns_80_100))

In [None]:
columns_20_40

In [None]:
train['isFraud'].value_counts()

In [None]:
# from sklearn import preprocessing
# import xgboost as xgb

In [None]:


# print(train.shape)
# print(test.shape)

# y_train = train['isFraud'].copy()

# # Drop target, fill in NaNs
# X_train = train.drop('isFraud', axis=1)
# X_test = test.copy()
# X_train = X_train.fillna(-999)
# X_test = X_test.fillna(-999)

In [None]:
# del train, test, train_transaction, train_identity, test_transaction, test_identity

In [None]:
# # Label Encoding
# for f in X_train.columns:
#     if X_train[f].dtype=='object' or X_test[f].dtype=='object': 
#         lbl = preprocessing.LabelEncoder()
#         lbl.fit(list(X_train[f].values) + list(X_test[f].values))
#         X_train[f] = lbl.transform(list(X_train[f].values))
#         X_test[f] = lbl.transform(list(X_test[f].values))   

In [None]:
# clf = xgb.XGBClassifier(n_estimators=500,
#                         n_jobs=4,
#                         max_depth=9,
#                         learning_rate=0.05,
#                         subsample=0.9,
#                         colsample_bytree=0.9,
#                         missing=-999)

# clf.fit(X_train, y_train)

In [None]:
# sample_submission['isFraud'] = clf.predict_proba(X_test)[:,1]
# sample_submission.to_csv('simple_xgboost.csv')