## 練習時間
資料的操作有很多，接下來的馬拉松中我們會介紹常被使用到的操作，參加者不妨先自行想像一下，第一次看到資料，我們一般會想知道什麼訊息？

#### Ex: 如何知道資料的 row 數以及 column 數、有什麼欄位、多少欄位、如何截取部分的資料等等

有了對資料的好奇之後，我們又怎麼通過程式碼來達成我們的目的呢？

#### 可參考該[基礎教材](https://bookdata.readthedocs.io/en/latest/base/01_pandas.html#DataFrame-%E5%85%A5%E9%97%A8)或自行 google

In [1]:
import os
import numpy as np
import pandas as pd

In [2]:
# 設定 data_path
dir_data = './data/'

In [3]:
f_app = os.path.join(dir_data, 'application_train.csv')
print('Path of read in data: %s' % (f_app))
app_train = pd.read_csv(f_app)

Path of read in data: ./data/application_train.csv


### 如果沒有想法，可以先嘗試找出剛剛例子中提到的問題的答案
#### 資料的 row 數以及 column 數

In [4]:
print('行數有：', app_train.shape[1], '行')
print('列數有：', app_train.shape[0], '列')

行數有： 122 行
列數有： 307511 列


#### 列出所有欄位

In [5]:
print('查看欄位')
print(app_train.columns)

查看欄位
Index(['SK_ID_CURR', 'TARGET', 'NAME_CONTRACT_TYPE', 'CODE_GENDER',
       'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL',
       'AMT_CREDIT', 'AMT_ANNUITY',
       ...
       'FLAG_DOCUMENT_18', 'FLAG_DOCUMENT_19', 'FLAG_DOCUMENT_20',
       'FLAG_DOCUMENT_21', 'AMT_REQ_CREDIT_BUREAU_HOUR',
       'AMT_REQ_CREDIT_BUREAU_DAY', 'AMT_REQ_CREDIT_BUREAU_WEEK',
       'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_QRT',
       'AMT_REQ_CREDIT_BUREAU_YEAR'],
      dtype='object', length=122)


#### 截取部分資料

In [6]:
# 只看前五筆的SK_ID_CURR及TARGET
print(app_train[['SK_ID_CURR','TARGET']].head(5))

   SK_ID_CURR  TARGET
0      100002       1
1      100003       0
2      100004       0
3      100006       0
4      100007       0


#### 還有各種數之不盡的資料操作，重點還是取決於實務中遇到的狀況和你想問的問題，在馬拉松中我們也會陸續提到更多例子

In [7]:
# 查看資訊
print(app_train.info())
print(app_train.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307511 entries, 0 to 307510
Columns: 122 entries, SK_ID_CURR to AMT_REQ_CREDIT_BUREAU_YEAR
dtypes: float64(65), int64(41), object(16)
memory usage: 286.2+ MB
None
          SK_ID_CURR         TARGET   CNT_CHILDREN  AMT_INCOME_TOTAL  \
count  307511.000000  307511.000000  307511.000000      3.075110e+05   
mean   278180.518577       0.080729       0.417052      1.687979e+05   
std    102790.175348       0.272419       0.722121      2.371231e+05   
min    100002.000000       0.000000       0.000000      2.565000e+04   
25%    189145.500000       0.000000       0.000000      1.125000e+05   
50%    278202.000000       0.000000       0.000000      1.471500e+05   
75%    367142.500000       0.000000       1.000000      2.025000e+05   
max    456255.000000       1.000000      19.000000      1.170000e+08   

         AMT_CREDIT    AMT_ANNUITY  AMT_GOODS_PRICE  \
count  3.075110e+05  307499.000000     3.072330e+05   
mean   5.990260e+05   27108.

In [8]:
# 以CNT_CHILDREN做排序，抓前五，秀SK_ID_CURR、及CNT_CHILDREN
print(app_train[['SK_ID_CURR','CNT_CHILDREN']].sort_values(by = 'CNT_CHILDREN').head(5))

# 以CNT_CHILDREN做反向排序，抓前五，秀SK_ID_CURR、及CNT_CHILDREN
print(app_train[['SK_ID_CURR','CNT_CHILDREN']].sort_values(by = 'CNT_CHILDREN', ascending=False).head(5))

        SK_ID_CURR  CNT_CHILDREN
0           100002             0
186892      316658             0
186893      316660             0
186894      316661             0
186895      316662             0
        SK_ID_CURR  CNT_CHILDREN
265784      407877            19
155369      280108            19
267998      410527            14
183878      313127            14
176011      303956            14


In [9]:
#將NaN值改成該欄所有平均值
app_train['AMT_ANNUITY'].fillna(value=app_train['AMT_ANNUITY'].mean())

0         24700.5
1         35698.5
2          6750.0
3         29686.5
4         21865.5
5         27517.5
6         41301.0
7         42075.0
8         33826.5
9         20250.0
10        21177.0
11        10678.5
12         5881.5
13        28966.5
14        32778.0
15        20160.0
16        26149.5
17        13500.0
18         7875.0
19        17563.5
20        21375.0
21        37561.5
22        32521.5
23        23850.0
24        12703.5
25        11074.5
26        27076.5
27        23827.5
28        57676.5
29         9000.0
           ...   
307481    19975.5
307482    34969.5
307483    16479.0
307484    35617.5
307485     9000.0
307486    18283.5
307487    31473.0
307488    13351.5
307489    23089.5
307490     9148.5
307491    31522.5
307492    43443.0
307493    37678.5
307494    46858.5
307495    23773.5
307496    16875.0
307497    12028.5
307498    52168.5
307499    12694.5
307500    35982.0
307501    11871.0
307502    10620.0
307503    17770.5
307504    16096.5
307505    

In [10]:
# group by FLAG_DOCUMENT_21種類中，CNT_CHILDREN欄位數值總和及平均
print(app_train[['CNT_CHILDREN', 'FLAG_DOCUMENT_21']].groupby(by = 'FLAG_DOCUMENT_21').sum())
print(app_train[['CNT_CHILDREN', 'FLAG_DOCUMENT_21']].groupby(by = 'FLAG_DOCUMENT_21').mean())

                  CNT_CHILDREN
FLAG_DOCUMENT_21              
0                       128215
1                           33
                  CNT_CHILDREN
FLAG_DOCUMENT_21              
0                     0.417084
1                     0.320388


In [11]:
# 欄位中最大及最小值
print(app_train['CNT_CHILDREN'].max())
print(app_train['CNT_CHILDREN'].min())

19
0
