### 說明

1. DataFrame 是一種表格的型態，可使用 `loc` 透過 row、column 名稱訪問成員，或使用 `iloc` 透過索引訪問成員。

2. 順利訪問成員便可以進行相關操作。

透過 iloc 取出列與欄 _索引_ 範圍的值

In [7]:
import pandas as pd

# 建立字典
data = {
    'data2': [13, 22, 43, 18, 66],
    'data1': [33, 27, 65, 29, 1],
    'data3': [11, 9, 13, 63, 5],
    'data4': [12, 4, 3, 17, 38],
    'data5': [31, 44, 23, 4, 51]
}

# 轉換
data = pd.DataFrame(data)
print('原始資料：')
print(data, '\n')

# 選取範圍：列 0-3、欄 1－3
print('選取範圍：列 0-3、欄 1-3：')
data_select = data.iloc[:4, 1:4]
print(data_select)

原始資料：
   data2  data1  data3  data4  data5
0     13     33     11     12     31
1     22     27      9      4     44
2     43     65     13      3     23
3     18     29     63     17      4
4     66      1      5     38     51 

選取範圍：列 0-3、欄 1-3：
   data1  data3  data4
0     33     11     12
1     27      9      4
2     65     13      3
3     29     63     17


透過 loc 取出指定索引的值

In [11]:
import pandas as pd

# 建立字典
data = {
    'data2': [13, 22, 43, 18, 66],
    'data1': [33, 27, 65, 29, 1],
    'data3': [11, 9, 13, 63, 5],
    'data4': [12, 4, 3, 17, 38],
    'data5': [31, 44, 23, 4, 51]
}

# 轉換
data = pd.DataFrame(data)
print('原始資料：')
print(data, '\n')

# 取出每個欄位指定列索引的值
print('取出每個欄位指定列索引的值：')
value_1 = data.loc[2]
print(value_1, '\n')

# 取值並作判斷
print('取出每個欄位指定列索引的值並作布林判斷：')
value_2 = data.loc[2] > 13
print(value_2)

原始資料：
   data2  data1  data3  data4  data5
0     13     33     11     12     31
1     22     27      9      4     44
2     43     65     13      3     23
3     18     29     63     17      4
4     66      1      5     38     51 

取出每個欄位指定列索引的值：
data2    43
data1    65
data3    13
data4     3
data5    23
Name: 2, dtype: int64 

取出每個欄位指定列索引的值並作布林判斷：
data2     True
data1     True
data3    False
data4    False
data5     True
Name: 2, dtype: bool


透過索引列表取值

In [13]:
import pandas as pd

# 建立字典
data = {
    'data2': [13, 22, 43, 18, 66],
    'data1': [33, 27, 65, 29, 1],
    'data3': [11, 9, 13, 63, 5],
    'data4': [12, 4, 3, 17, 38],
    'data5': [31, 44, 23, 4, 51]
}

# 轉換
data = pd.DataFrame(data)
print('原始資料：')
print(data, '\n')

# 透過 iloc 取出範圍索引的值
print('透過 iloc 取出範圍索引的值：')
data1 = data.iloc[0:3, :]
print(data1, '\n')

# 透過傳入索引列表取值
print('透過傳入索引列表取值：')
data2 = data.loc[[0, 2, 4], ['data1', 'data2', 'data5']]
print(data2)

原始資料：
   data2  data1  data3  data4  data5
0     13     33     11     12     31
1     22     27      9      4     44
2     43     65     13      3     23
3     18     29     63     17      4
4     66      1      5     38     51 

透過 iloc 取出範圍索引的值：
   data2  data1  data3  data4  data5
0     13     33     11     12     31
1     22     27      9      4     44
2     43     65     13      3     23 

透過傳入索引列表取值：
   data1  data2  data5
0     33     13     31
2     65     43     23
4      1     66     51


# 透過 isna() 方法判斷是否有遺漏值

In [8]:
import pandas as pd

# 建立包含 None 成員的 DataFrame
df = pd.DataFrame({
    'A': [1, 2, None,3, 0],
    'B': [4, 5, 6, None, 0],
    'C': [None, 7, 8, 9, 0],
    'D': [10, 11, 12, 13, 0],
    'E': [14, 15, 16, 17, 0]
})

# 輸出原始 DataFrame
print('輸出原始 DataFrame：')
print(df, '\n')

# 計算缺失值的「數量」
print('計算缺失值的「數量」:')
print(df.isnull().sum(), '\n')

# 判斷成員是否為 NaN
print('判斷成員是否為 NaN：')
print(df.isna(), '\n')

# 移除包含至少一個 NaN 的列或欄
print('移除包含至少一個 NaN 的列：')
df_1 = df.dropna(axis=0)
print(df_1, '\n')

# 移除包含至少一個 NaN 的列或欄
print('移除包含至少一個 NaN 的欄：')
df_2 = df.dropna(axis=1)
print(df_2, '\n')

# 移除包含至少一個 NaN 的列或欄
print('移除包含至少一個 NaN 的列或欄：')
df_3 = df.dropna()
print(df_3, '\n')

輸出原始 DataFrame：
     A    B    C   D   E
0  1.0  4.0  NaN  10  14
1  2.0  5.0  7.0  11  15
2  NaN  6.0  8.0  12  16
3  3.0  NaN  9.0  13  17
4  0.0  0.0  0.0   0   0 

計算缺失值的「數量」:
A    1
B    1
C    1
D    0
E    0
dtype: int64 

判斷成員是否為 NaN：
       A      B      C      D      E
0  False  False   True  False  False
1  False  False  False  False  False
2   True  False  False  False  False
3  False   True  False  False  False
4  False  False  False  False  False 

移除包含至少一個 NaN 的列：
     A    B    C   D   E
1  2.0  5.0  7.0  11  15
4  0.0  0.0  0.0   0   0 

移除包含至少一個 NaN 的欄：
    D   E
0  10  14
1  11  15
2  12  16
3  13  17
4   0   0 

移除包含至少一個 NaN 的列或欄：
     A    B    C   D   E
1  2.0  5.0  7.0  11  15
4  0.0  0.0  0.0   0   0 



# 填補遺漏值

_fillna()_

In [11]:
import pandas as pd

# 建立包含 None 成員的 DataFrame
df = pd.DataFrame({
    'A': [1, 2, None,3, 0],
    'B': [4, 5, 6, None, 0],
    'C': [None, 7, 8, 9, 0],
    'D': [10, 11, 12, 13, 0],
    'E': [14, 15, 16, 17, 0]
})

# 輸出原始 DataFrame
print('輸出原始 DataFrame：')
print(df, '\n')

# 將遺漏值填補為 `0`
print('將遺漏值填補為 `0`：')
df_0 = df.fillna(0)
print(df_0, '\n')

# 將遺漏值填補為 `平均數`
print('將遺漏值填補為 `平均數`：')
df_mean = df.fillna(df.mean())
print(df_mean, '\n')

輸出原始 DataFrame：
     A    B    C   D   E
0  1.0  4.0  NaN  10  14
1  2.0  5.0  7.0  11  15
2  NaN  6.0  8.0  12  16
3  3.0  NaN  9.0  13  17
4  0.0  0.0  0.0   0   0 

將遺漏值填補為 `0`：
     A    B    C   D   E
0  1.0  4.0  0.0  10  14
1  2.0  5.0  7.0  11  15
2  0.0  6.0  8.0  12  16
3  3.0  0.0  9.0  13  17
4  0.0  0.0  0.0   0   0
將遺漏值填補為 `平均數`：
     A     B    C   D   E
0  1.0  4.00  6.0  10  14
1  2.0  5.00  7.0  11  15
2  1.5  6.00  8.0  12  16
3  3.0  3.75  9.0  13  17
4  0.0  0.00  0.0   0   0
