### 讀取資料
首先，我們用 pandas 讀取最主要的資料 application_train.csv (記得到 https://www.kaggle.com/c/home-credit-default-risk/data 下載)

Note: `data/application_train.csv` 表示 `application_train.csv` 與該 `.ipynb` 的資料夾結構關係如下
```
data
    /application_train.csv
Day_004_first_EDA.ipynb
```

# [教學目標]
- 初步熟悉以 Python 為主的資料讀取與簡單操作

# [範例重點]
- 如何使用 pandas.read_csv 讀取資料 (In[3], Out[3])
- 如何簡單瀏覽 pandas 所讀進的資料 (In[5], Out[5])

In [10]:
import os
import numpy as np
import pandas as pd

In [11]:
# 設定 data_path
dir_data = './Data/'

#### 用 pd.read_csv 來讀取資料

In [7]:
f_app = os.path.join(dir_data, 'application_train.csv')
print('Path of read in data: %s' % (f_app))
app_train = pd.read_csv(f_app) # 用 pandas 中的 read_csv 來讀取檔案

Path of read in data: ./Data/application_train.csv


#### Note: 在 jupyter notebook 中，可以使用 `?` 來調查函數的定義

In [6]:
# for example
?pd.read_csv

#### 接下來我們可以用 .head() 這個函數來觀察前 5 row 資料

In [5]:
app_train.head()

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR
0,100002,1,Cash loans,M,N,Y,0,202500.0,406597.5,24700.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,1.0
1,100003,0,Cash loans,F,N,N,0,270000.0,1293502.5,35698.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
2,100004,0,Revolving loans,M,Y,Y,0,67500.0,135000.0,6750.0,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,100006,0,Cash loans,F,N,Y,0,135000.0,312682.5,29686.5,...,0,0,0,0,,,,,,
4,100007,0,Cash loans,M,N,Y,0,121500.0,513000.0,21865.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0


## 練習時間
資料的操作有很多，接下來的馬拉松中我們會介紹常被使用到的操作，參加者不妨先自行想像一下，第一次看到資料，我們一般會想知道什麼訊息？

#### Ex: 如何知道資料的 row 數以及 column 數、有什麼欄位、多少欄位、如何截取部分的資料等等

有了對資料的好奇之後，我們又怎麼通過程式碼來達成我們的目的呢？

#### 可參考該[基礎教材](https://bookdata.readthedocs.io/en/latest/base/01_pandas.html#DataFrame-%E5%85%A5%E9%97%A8)或自行 google

In [33]:
type(app_train) # 查看 class 為 Dataframe

pandas.core.frame.DataFrame

In [42]:
#print(app_train.head(5)) # 查看前五個 row
#print(app_train.tail(5)) # 查看後五個 row
print(app_train.iloc[:3,:3]) #查看前 3 筆 data 的前 3 個欄位
print(type(app_train.iloc[:3,:3])) #還是 data frame
print(app_train.iloc[:,:1].describe())

   SK_ID_CURR  TARGET NAME_CONTRACT_TYPE
0      100002       1         Cash loans
1      100003       0         Cash loans
2      100004       0    Revolving loans
<class 'pandas.core.frame.DataFrame'>
          SK_ID_CURR
count  307511.000000
mean   278180.518577
std    102790.175348
min    100002.000000
25%    189145.500000
50%    278202.000000
75%    367142.500000
max    456255.000000


In [45]:
app_train.axes # axes information

[RangeIndex(start=0, stop=307511, step=1),
 Index(['SK_ID_CURR', 'TARGET', 'NAME_CONTRACT_TYPE', 'CODE_GENDER',
        'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL',
        'AMT_CREDIT', 'AMT_ANNUITY',
        ...
        'FLAG_DOCUMENT_18', 'FLAG_DOCUMENT_19', 'FLAG_DOCUMENT_20',
        'FLAG_DOCUMENT_21', 'AMT_REQ_CREDIT_BUREAU_HOUR',
        'AMT_REQ_CREDIT_BUREAU_DAY', 'AMT_REQ_CREDIT_BUREAU_WEEK',
        'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_QRT',
        'AMT_REQ_CREDIT_BUREAU_YEAR'],
       dtype='object', length=122)]

In [47]:
app_train.dtypes # columns data type

SK_ID_CURR                      int64
TARGET                          int64
NAME_CONTRACT_TYPE             object
CODE_GENDER                    object
FLAG_OWN_CAR                   object
                               ...   
AMT_REQ_CREDIT_BUREAU_DAY     float64
AMT_REQ_CREDIT_BUREAU_WEEK    float64
AMT_REQ_CREDIT_BUREAU_MON     float64
AMT_REQ_CREDIT_BUREAU_QRT     float64
AMT_REQ_CREDIT_BUREAU_YEAR    float64
Length: 122, dtype: object

In [48]:
app_train.ndim #dimension

2

In [49]:
app_train.shape # size

(307511, 122)

In [50]:
app_train.empty # check whether dataframe is empty

False

In [52]:
app_train.size # col x row (total sample )

37516342

In [54]:
app_train.values # 非常重要的一個屬性，我們可以從 values 得到該筆資料的 numpy !

numpy.ndarray

# Data frame 擷取 data 的方法 1 : 中括號

In [113]:
part_app = app_train.iloc[:3,:3]
print(type(part_app['TARGET'])) # 單個 中括號 回傳的結果是 series 
print(type(part_app[['TARGET']])) # 雙個 中括號 回傳的結果是 dataframe
part_app[0:3] # 選取所有的 rows
part_app[[True,True,False]] # 可以採用 F/T 的方式來塞選 index

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE
0,100002,1,Cash loans
1,100003,0,Cash loans


採用中括號的方式來擷取資料，我們可以直接在 [ ] 中輸入 column name 來選定特定的 column,
也可以使用 : 的方式來節選出特定的 rows ，而使用 [ ] 擷取 column 時要特別注意擷取的資料型態是啥。
但使用中括號來擷取資料最大的問題在於我們沒辦法同時決定 row 跟 col

# Data frame 擷取 data 的方法 2 : loc (label-based)

In [104]:
print(part_app.loc[[0,1,2],'TARGET']) # 採用 label 的方式來擷取 data ，第一個位置為 row 第二個為col
part_app.loc[[True,True,False],'TARGET']

0    1
1    0
2    0
Name: TARGET, dtype: int64


0    1
1    0
Name: TARGET, dtype: int64

# Data frame 擷取 data 的方法 3 : iloc (index-based)

In [165]:
part_app.iloc[[True,True,False],:] # 可以用 T/F 來擷取 data
print(part_app.iloc[:,0],end='\n\n') # 和 loc 不同的是 iloc 採用 index 的方式來擷取 data

print(part_app.iloc[0:2,2])
print(part_app.iloc[[0,2],2]) # series ("只有 col 在 [ ] 中") 
part_app.iloc[[0,2],[2]] # dataframe (col 跟 row 都在 [ ] 中)

# [1:5] (x)  在 R 中這個用法太習慣!!
# list(range(1:5)) (v) 

0    100002
1    100003
2    100004
Name: SK_ID_CURR, dtype: int64

0    Cash loans
1    Cash loans
Name: NAME_CONTRACT_TYPE, dtype: object
0         Cash loans
2    Revolving loans
Name: NAME_CONTRACT_TYPE, dtype: object


Unnamed: 0,NAME_CONTRACT_TYPE
0,Cash loans
2,Revolving loans
