## 練習時間
資料的操作有很多，接下來的馬拉松中我們會介紹常被使用到的操作，參加者不妨先自行想像一下，第一次看到資料，我們一般會想知道什麼訊息？

#### Ex: 如何知道資料的 row 數以及 column 數、有什麼欄位、多少欄位、如何截取部分的資料等等

有了對資料的好奇之後，我們又怎麼通過程式碼來達成我們的目的呢？

#### 可參考該[基礎教材](https://bookdata.readthedocs.io/en/latest/base/01_pandas.html#DataFrame-%E5%85%A5%E9%97%A8)或自行 google

# [作業目標]
- 熟悉更多的 Python 資料操作

# [作業重點]
- 列出資料的大小 (In[4], Hint : shape)
- 列出所有欄位 (In[5], 有多種寫法)
- 擷取部分資料 (In[6], Hint : loc 或 iloc)

## Pandas 介紹
- Pandas 基於兩種數據類型，series 和dataframe。
- series是一種一維的數據類型，其中的每個元素都有各自的標籤。你可以把它當作一個由帶標籤的元素組成的numpy數組。標籤可以是數字或者字符。

- dataframe 是一個二維的、表格型的數據結構。Pandas 的dataframe 可以儲存許多不同類型的數據，並且每個軸都有標籤。你可以把它當作一個 series 的字典。

## 甚麼是 dataframe
- data frame 是一種將 **數據存儲在表格中的方法**
- Pandas DataFrame 由三個主要組件組成：數據、索引和列。
- DataFrame 可以包含數據有
    1. Pandas 的DataFrame
    2. Pandas 的Series：保存帶有索引的任何數據類型的一維標記數組。
    3. NumPy 的ndarray
    4. 二維ndarray
    5. 一維ndarray、列表、字典或 Series
        - 注意 np.ndarray和np.array()之間的區別，前者是實際數據類型，而後者是從其他數據結構生成數組的函數。

In [1]:
import os
import numpy as np
import pandas as pd

In [2]:
# 設定 data_path
dir_data = './data/'

In [3]:
f_app = os.path.join(dir_data, 'application_train.csv')
print('Path of read in data: %s' % (f_app))
app_train = pd.read_csv(f_app)

Path of read in data: ./data/application_train.csv


### 如果沒有想法，可以先嘗試找出剛剛例子中提到的問題的答案
#### 資料的 row 數以及 column 數

In [18]:
app_train.info()   
len(app_train)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307511 entries, 0 to 307510
Columns: 122 entries, SK_ID_CURR to AMT_REQ_CREDIT_BUREAU_YEAR
dtypes: float64(65), int64(41), object(16)
memory usage: 286.2+ MB


307511

#### 列出所有欄位

In [16]:
app_train.columns

Index(['SK_ID_CURR', 'TARGET', 'NAME_CONTRACT_TYPE', 'CODE_GENDER',
       'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL',
       'AMT_CREDIT', 'AMT_ANNUITY',
       ...
       'FLAG_DOCUMENT_18', 'FLAG_DOCUMENT_19', 'FLAG_DOCUMENT_20',
       'FLAG_DOCUMENT_21', 'AMT_REQ_CREDIT_BUREAU_HOUR',
       'AMT_REQ_CREDIT_BUREAU_DAY', 'AMT_REQ_CREDIT_BUREAU_WEEK',
       'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_QRT',
       'AMT_REQ_CREDIT_BUREAU_YEAR'],
      dtype='object', length=122)

#### 截取部分資料

In [19]:
# slice
app_train[0:3] # 取得索引值 0-2 的資料，注意區間是左閉右開， 3 的部分是沒被包含進去的。

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR
0,100002,1,Cash loans,M,N,Y,0,202500.0,406597.5,24700.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,1.0
1,100003,0,Cash loans,F,N,N,0,270000.0,1293502.5,35698.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
2,100004,0,Revolving loans,M,Y,Y,0,67500.0,135000.0,6750.0,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0


In [5]:
# 使用 iloc 來取得資料
# iloc 是 index based 取資料的方式。它可以使用底下的方式來取得資料。
# 使用單一個整數來取得資料，例如 iloc[5]。(取得series)
# student.iloc[[0]] 單一整數，取得一個 DataFrame
# 使用一串整數來取得資料，例如 iloc[[1,3,5]]。 (取得多個row)
# 使用 slice 來取得資料，例如 iloc[1:3]

app_train.iloc[1]

SK_ID_CURR                               100003
TARGET                                        0
NAME_CONTRACT_TYPE                   Cash loans
CODE_GENDER                                   F
FLAG_OWN_CAR                                  N
FLAG_OWN_REALTY                               N
CNT_CHILDREN                                  0
AMT_INCOME_TOTAL                         270000
AMT_CREDIT                           1.2935e+06
AMT_ANNUITY                             35698.5
AMT_GOODS_PRICE                      1.1295e+06
NAME_TYPE_SUITE                          Family
NAME_INCOME_TYPE                  State servant
NAME_EDUCATION_TYPE            Higher education
NAME_FAMILY_STATUS                      Married
NAME_HOUSING_TYPE             House / apartment
REGION_POPULATION_RELATIVE             0.003541
DAYS_BIRTH                               -16765
DAYS_EMPLOYED                             -1188
DAYS_REGISTRATION                         -1186
DAYS_ID_PUBLISH                         

#### 還有各種數之不盡的資料操作，重點還是取決於實務中遇到的狀況和你想問的問題，在馬拉松中我們也會陸續提到更多例子

- df.head(10)  #顯示出前10筆資料，預設值為5筆資料
- df.tail(10)  #顯示倒數10筆資料
- len(df)      #顯示資料總筆數
- df.dtypes    #顯示資料類型
- df.describe()#顯示統計數字(最大、最小、平均......等)
- df.rename(columns={'舊欄位名稱': '新欄位名稱'}) #修改欄位名稱
- df.columns                        #顯示有哪些欄位
- df.columns = ['XXX','XXX', 'XXX'] #新增欄位
- df.T         #行與列互換，等同於df.transpose()

- df.info()    #顯示資料的狀態與資訊
- df.info(memory_usage='deep') #顯示記憶體使用狀況
- df.query('A < 0.5 and B < 0.5')      #查詢A<0.5且B<0.5的資料
- df.duplicated()     #顯示重複的資料
- df.drop_duplicates()#刪除重複的資料
- df.drop_duplicates(['Name']) #刪除Name欄位重複的資料
- df.value_counts()  #查看有哪些不同的值，並計算每個值有多少個重複值