# 將列表轉換為 DataFrame

In [113]:
import pandas as pd

# 建立一個列表
_list = [["a", 1], ["b", 2], ["c", 3], ["d", 4], ["e", 5]]
# 將列表轉換為 DataFrame，此時每個成員會是一個列（row）
df = pd.DataFrame(_list, columns=["name", "age"])
type(df), df

(pandas.core.frame.DataFrame,
   name  age
 0    a    1
 1    b    2
 2    c    3
 3    d    4
 4    e    5)

# 查詢維度、列欄數、總成員數、資料型別

In [114]:
# 維度、列欄數、總成員數、資料型別
print(df.ndim)
print(df.shape)
print(df.size)
print(df.dtypes)

2
(5, 2)
10
name    object
age      int64
dtype: object


# 將字典轉換為 DataFrame

In [115]:
import pandas as pd

# 建立一個字典
_dict = {"a": [1, 2, 3], "b": [4, 5, 6], "c": [7, 8, 9]}
# 將字典轉換為 DataFrame，此時 key 會成為欄（column）
df = pd.DataFrame(_dict)
type(df), df

(pandas.core.frame.DataFrame,
    a  b  c
 0  1  4  7
 1  2  5  8
 2  3  6  9)

# 查詢維度、列欄數、總成員數、資料型別

In [116]:
# 維度、列欄數、總成員數、資料型別
print(df.ndim)
print(df.shape)
print(df.size)
print(df.dtypes)

2
(3, 3)
9
a    int64
b    int64
c    int64
dtype: object


# 用成員是字典的列表建立 DataFrame

In [117]:
# 建立內容是字典的列表
import pandas as pd

_list = [
    {"name": "TOM", "age": 20},
    {"name": "ROSE", "age": 18},
    {"name": "JACK", "age": 22},
]
# 轉換為 DataFrame
df = pd.DataFrame(_list)
type(df), df

(pandas.core.frame.DataFrame,
    name  age
 0   TOM   20
 1  ROSE   18
 2  JACK   22)

# 兩種訪問方式

In [118]:
print('使用索引的方式訪問：')
print(df['name'], '\n')

print('使用屬性的方式訪問：')
print(df.name, '\n')

使用索引的方式訪問：
0     TOM
1    ROSE
2    JACK
Name: name, dtype: object 

使用屬性的方式訪問：
0     TOM
1    ROSE
2    JACK
Name: name, dtype: object 



# 查看欄位詳細資訊

In [119]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes


# 觀察欄位的敘述統計

_僅針對可以計算的部分，不可計算的欄位並不會報錯_

In [120]:
df.describe()

Unnamed: 0,age
count,3.0
mean,20.0
std,2.0
min,18.0
25%,19.0
50%,20.0
75%,21.0
max,22.0


# 使用字串列表建立 DataFrame 的索引

In [121]:
import pandas as pd

# 建立一個列表
list1 = [1, 2, 3, 4, 5]
# 將列表轉換為 Dataframe，並設置index及dtype
df = pd.DataFrame(list1, index=["a", "b", "c", "d", "e"], dtype=float)
# 查看 df 的型態與內容
type(df), df

(pandas.core.frame.DataFrame,
      0
 a  1.0
 b  2.0
 c  3.0
 d  4.0
 e  5.0)

# 添加欄位

In [122]:
import pandas as pd

# 建立一個字典，兩組字典都是整數列表
_dict = {"第一組": [1, 2, 3], "第二組": [4, 5, 6]}
# 轉換為 df
df = pd.DataFrame(_dict)
# 先輸出查看一次
print(df, "\n")
# 加總 df 中的欄位
df["合計"] = df["第一組"] + df["第二組"]
# 再次輸出
print(df)

   第一組  第二組
0    1    4
1    2    5
2    3    6 

   第一組  第二組  合計
0    1    4   5
1    2    5   7
2    3    6   9


# 插入欄位：使用 insert 會修改資料內容

In [123]:
import pandas as pd

# 建立一個字典，兩組字典都是整數列表
_dict = {"第一組": [1, 2, 3], "第二組": [4, 5, 6]}
# 轉換為 df
df = pd.DataFrame(_dict)
# 先輸出查看一次
print(df, "\n")
# 使用 insert 插入「合計」欄位
_data = df.insert(2, "合計", df.sum(axis=1))
# 輸出結果
print(df, "\n")
# 特別注意，透過 insert 並無回傳值
print(f"_data = {_data}")

   第一組  第二組
0    1    4
1    2    5
2    3    6 

   第一組  第二組  合計
0    1    4   5
1    2    5   7
2    3    6   9 

_data = None


# 透過 reindex() 排序或篩選資料

In [124]:
import pandas as pd

# 建立一個字典
data = {
    "name": ["Tom", "Jack", "Steve", "Ricky"],
    "age": [28, 34, 29, 42]
}
# 轉換為 df
df = pd.DataFrame(data)
# 輸出
print(df, "\n")
# 透過 reindex 排序
df = df.reindex([0, 2, 3, 1])
# 再次輸出
print(df, "\n")

# 透過 reindex 進行篩選
df = df.reindex([0, 2, 3])
# 再次輸出
print(df)

    name  age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42 

    name  age
0    Tom   28
2  Steve   29
3  Ricky   42
1   Jack   34 

    name  age
0    Tom   28
2  Steve   29
3  Ricky   42


# 檢查重複資料

In [142]:
import pandas as pd

# 建立帶有重複資料的 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 3, 5, 5, 3],
    'B': [2, 2, 4, 4, 5, 5, 4],
    'C': [1, 2, 3, 4, 5, 5, 3],
    'D': [1, 2, 4, 5, 5, 5, 4],
    'E': [2, 2, 4, 4, 5, 5, 4]
})
# 輸出原始資料
print('輸出原始資料：')
print(df, '\n')

# 判斷列 row 是否重複
# 指的當前的列是否出已經現過
print('判斷列 row 是否重複：')
df_d1 = df.duplicated()
print(df_d1, '\n')

# 針對指定欄位判斷是否有重複的列
print('針對指定欄位判斷是否有重複的列：')
df_d2 = df.duplicated(subset='A')
print(df_d2, '\n')

輸出原始資料：
   A  B  C  D  E
0  1  2  1  1  2
1  2  2  2  2  2
2  3  4  3  4  4
3  3  4  4  5  4
4  5  5  5  5  5
5  5  5  5  5  5
6  3  4  3  4  4 

判斷列 row 是否重複：
0    False
1    False
2    False
3    False
4    False
5     True
6     True
dtype: bool 

判斷某個欄位是否有重複的列：
0    False
1    False
2    False
3     True
4    False
5     True
6     True
dtype: bool 



# 刪除重複資料

建立資料

In [126]:
import pandas as pd

# 建立帶有重複資料的列表
list1 = [1, 2, 3, 4, 1, 4, 3, 2, 3, 5]
# 轉換為 df
list1 = pd.DataFrame(list1)
# 透過 drop 刪除重複資料
list2 = list1.drop_duplicates()
#
print(list2)

   0
0  1
1  2
2  3
3  4
9  5


刪除資料

In [127]:
import pandas as pd

# 建立字典
data = {
    "name": ["Tom", "Jack", "Lucy", "Tom"],
    "sex": ["M", "M", "F", "M"],
    "height": [175, 180, 165, 176],
    "age": [20, 21, 22, 21],
}
# 轉換為 df
df = pd.DataFrame(data)
# 去除重複欄位，透過 keep 參數保留新的資料
# keep 使用 'first' 或 'last' 時要加上引號
df_new = df.drop_duplicates(subset=["name"], keep="last", inplace=False)
# 輸出原始資料
print(df, end="\n\n")
# 輸出新資料
print(df_new)

   name sex  height  age
0   Tom   M     175   20
1  Jack   M     180   21
2  Lucy   F     165   22
3   Tom   M     176   21

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22
3   Tom   M     176   21


刪除所有重複的資料


In [14]:
import pandas as pd

# 建立字典
data = {
    "name": ["Tom", "Jack", "Lucy", "Tom"],
    "sex": ["M", "M", "F", "M"],
    "height": [175, 180, 165, 176],
    "age": [20, 21, 22, 21],
}
# 轉換為 df
df = pd.DataFrame(data)

# 輸出原始資料
print('輸出原始資料：')
print(df, end="\n\n")

# 刪除所有重複欄位，並保留新的資料
# keep 表示是否保留重複的成員，可傳入參數：'first'、'last'、False
df_new = df.drop_duplicates("name", keep=False, inplace=True)
# 輸出
print(df, end="\n\n")

# 特別注意，inplace=True 時無回傳值
print('inplace=True 時無回傳值，所以會傳出 None：')
print(df_new)

輸出原始資料：
   name sex  height  age
0   Tom   M     175   20
1  Jack   M     180   21
2  Lucy   F     165   22
3   Tom   M     176   21

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22

inplace=True 時無回傳值，所以會傳出 None：
None


重置索引 reset_index


In [15]:
import pandas as pd

# 建立字典
data = {
    "name": ["Tom", "Jack", "Lucy", "Tom"],
    "sex": ["M", "M", "F", "M"],
    "height": [175, 180, 165, 176],
    "age": [20, 21, 22, 21],
}
# 轉換為 df
df = pd.DataFrame(data)

# 輸出原始資料
print('輸出原始資料：')
print(df, end="\n\n")

# 刪除所有重複欄位，並保留新的資料
df.drop_duplicates(subset=["name"], keep=False, inplace=True)
# 輸出刪除結果
print(df, end="\n\n")

# 重置索引，並透過 drop 參數刪除原有索引
df_new = df.reset_index(drop=True)

# 輸出原始資料
print(df, end="\n\n")

# 輸出新資料
print(df_new)

輸出原始資料：
   name sex  height  age
0   Tom   M     175   20
1  Jack   M     180   21
2  Lucy   F     165   22
3   Tom   M     176   21

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22

   name sex  height  age
0  Jack   M     180   21
1  Lucy   F     165   22


排序


In [20]:
import pandas as pd

# 建立擁有兩組數值列表的字典
dict_data = {
    "第一組": [1, 3, 7, 4, 5, 2, 9],
    "第二組": [22, 14, 6, 4, 1, 11, 2]
}

# 轉換為 df
df = pd.DataFrame(dict_data)

# 指定排序索引為降序，預設會是升序
df = df.sort_index(ascending=False)
print(df, "\n")

# 透過參數 index 指定序號
df = pd.DataFrame(dict_data, index=[1, 0, 3, 2, 6, 5, 4])
print(df, "\n")
# 重新排列
df = df.sort_index(ascending=True)
print(df)

   第一組  第二組
6    9    2
5    2   11
4    5    1
3    4    4
2    7    6
1    3   14
0    1   22 

   第一組  第二組
1    1   22
0    3   14
3    7    6
2    4    4
6    5    1
5    2   11
4    9    2 

   第一組  第二組
0    3   14
1    1   22
2    4    4
3    7    6
4    9    2
5    2   11
6    5    1


指定多級（層）資料索引的升序與降序

In [131]:
import pandas as pd

# 建立擁有兩組數值列表的字典
dict_data = {
    "第一組": [1, 3, 7, 4, 5, 2, 9],
    "第二組": [22, 14, 6, 4, 1, 11, 2]
}

# 轉換為 DataFrame 並指定自訂索引
df = pd.DataFrame(
    dict_data,
    index=pd.MultiIndex.from_tuples(
        [("A", 1), ("A", 2), ("A", 3), ("B", 1), ("B", 2), ("B", 3), ("C", 1)],
        names=["外層索引", "內層索引"],
    ),
)

print("原始 DataFrame：")
print(df, "\n")

# 按多重索引進行排序，外層索引升序，內層索引降序
# ascending=[True, False] 中 True 代表外層索引升序，False 代表內層索引降序
df_sorted_1 = df.sort_index(ascending=[True, False])
print("外層升序，內層降序：")
print(df_sorted_1, "\n")

# ascending=[False, True] 中 False 代表外層索引降序，True 代表內層索引升序
df_sorted_2 = df.sort_index(ascending=[False, True])
print("外層降序，內層升序：")
print(df_sorted_2, "\n")

# 只傳入一個排序參數
df_sorted_3 = df.sort_index(ascending=False)
print("內外都降序：")
print(df_sorted_3)

# 只傳入一個排序參數
df_sorted_4 = df.sort_index(ascending=True)
print("內外都升序：")
print(df_sorted_4)

原始 DataFrame：
           第一組  第二組
外層索引 內層索引          
A    1       1   22
     2       3   14
     3       7    6
B    1       4    4
     2       5    1
     3       2   11
C    1       9    2 

外層升序，內層降序：
           第一組  第二組
外層索引 內層索引          
A    3       7    6
     2       3   14
     1       1   22
B    3       2   11
     2       5    1
     1       4    4
C    1       9    2 

外層降序，內層升序：
           第一組  第二組
外層索引 內層索引          
C    1       9    2
B    1       4    4
     2       5    1
     3       2   11
A    1       1   22
     2       3   14
     3       7    6 

內外都降序：
           第一組  第二組
外層索引 內層索引          
C    1       9    2
B    3       2   11
     2       5    1
     1       4    4
A    3       7    6
     2       3   14
     1       1   22
內外都升序：
           第一組  第二組
外層索引 內層索引          
A    1       1   22
     2       3   14
     3       7    6
B    1       4    4
     2       5    1
     3       2   11
C    1       9    2


透過參數 axis 分別針對列或欄作為參考排序

In [21]:
import pandas as pd

# 建立一個字典，值都是列表
data = {
    'data2': [15, 32, 17, 21, 6],
    'data3': [32, 22, 1, 13, 5],
    'data1': [11, 21, 3, 42, 32]
}

# 轉換為 pd
df = pd.DataFrame(data, index=[3, 1, 4, 0, 2])
print('原始資料的排序：')
print(df, '\n')

# 針對列進行排序(3、1、4、0、2)
df1 = df.sort_index(axis=0)

# 針對欄位 data2、data3、data1 進行排序
df2 = df.sort_index(axis=1)

print('針對列 3、1、4、0、2 進行排序：')
print(df1, '\n')

print('針對列 3、1、4、0、2 進行降序排序：')
print(df1.sort_index(axis=0, ascending=False), '\n')

print('針對欄位 data2、data3、data1 進行排序：')
print(df2, '\n')

print('針對欄位 data2、data3、data1 進行降序排序：')
print(df2.sort_index(axis=1, ascending=False))

原始資料的排序：
   data2  data3  data1
3     15     32     11
1     32     22     21
4     17      1      3
0     21     13     42
2      6      5     32 

針對列 3、1、4、0、2 進行排序：
   data2  data3  data1
0     21     13     42
1     32     22     21
2      6      5     32
3     15     32     11
4     17      1      3 

針對列 3、1、4、0、2 進行降序排序：
   data2  data3  data1
4     17      1      3
3     15     32     11
2      6      5     32
1     32     22     21
0     21     13     42 

針對欄位 data2、data3、data1 進行排序：
   data1  data2  data3
3     11     15     32
1     21     32     22
4      3     17      1
0     42     21     13
2     32      6      5 

針對欄位 data2、data3、data1 進行降序排序：
   data3  data2  data1
3     32     15     11
1     22     32     21
4      1     17      3
0     13     21     42
2      5      6     32


透過 sort_value() 以 _值_ 作為參考排序

In [23]:
import pandas as pd

# 建立字典
data = {
    'data2': [13, 22, 43, 18, 66, 13],
    'data1': [33, 27, 65, 29, 1, 22],
    'data3': [11, 9, 13, 63, 5, 31]
}

# 轉換
df = pd.DataFrame(data)
# 輸出原始資料
print('原始資料：')
print(df, end='\n\n')

# 以 data1 進行排序
df1 = df.sort_values(by='data1')

# 以 data2 進行排序
df2 = df.sort_values(by='data2')

# 先排序 data2，再排序 data1
# 未指定且有重複時，會預設使用 index 進行升序排序
df3 = df.sort_values(by=['data2', 'data1'])

# 輸出結果
print('以 data1 進行排序：')
print(df1, end='\n\n')

print('以 data2 進行排序：')
print(df2, end='\n\n')

# 因為 data2 的值沒有重複的，所以排序 data1 不會有任何改變
print('先排序 data2，再排序 data1：')
print(df3)

原始資料：
   data2  data1  data3
0     13     33     11
1     22     27      9
2     43     65     13
3     18     29     63
4     66      1      5
5     13     22     31

以 data1 進行排序：
   data2  data1  data3
4     66      1      5
5     13     22     31
1     22     27      9
3     18     29     63
0     13     33     11
2     43     65     13

以 data2 進行排序：
   data2  data1  data3
0     13     33     11
5     13     22     31
3     18     29     63
1     22     27      9
2     43     65     13
4     66      1      5

先排序 data2，再排序 data1：
   data2  data1  data3
0     13     33     11
5     13     22     31
3     18     29     63
1     22     27      9
2     43     65     13
4     66      1      5
