In [11]:
import pandas as pd
# 建立一個列表
_list = [
    ['a', 1],
    ['b', 2],
    ['c', 3],
    ['d', 4],
    ['e', 5]
]
# 將列表轉換為 DataFrame，此時每個成員會是一個列（row）
df = pd.DataFrame(_list, columns=['name', 'age'])
type(df), df

(pandas.core.frame.DataFrame,
   name  age
 0    a    1
 1    b    2
 2    c    3
 3    d    4
 4    e    5)

In [9]:
import pandas as pd
# 建立一個字典
_list = {
    'a': [1, 2, 3],
    'b': [4, 5, 6],
    'c': [7, 8, 9]
}
# 將字典轉換為 DataFrame，此時 key 會成為欄（column）
df = pd.DataFrame(_list)
type(df), df

(pandas.core.frame.DataFrame,
    a  b  c
 0  1  4  7
 1  2  5  8
 2  3  6  9)

In [15]:
# 建立內容是字典的列表
import pandas as pd
_list = [
    {'name': 'TOM', 'age': 20},
    {'name': 'ROSE', 'age': 18},
    {'name': 'JACK', 'age': 22}
]
# 轉換為 DataFrame
df = pd.DataFrame(_list)
type(df), df


(pandas.core.frame.DataFrame,
    name  age
 0   TOM   20
 1  ROSE   18
 2  JACK   22)

In [14]:
import pandas as pd
# 建立一個列表
list1 = [1, 2, 3, 4, 5]
# 將列表轉換為 Dataframe，並設置index及dtype
df = pd.DataFrame(
    list1, 
    index=['a', 'b', 'c', 'd', 'e'], 
    dtype=float
)
# 查看 df 的型態與內容
type(df), df

(pandas.core.frame.DataFrame,
      0
 a  1.0
 b  2.0
 c  3.0
 d  4.0
 e  5.0)

添加欄位

In [22]:
import pandas as pd
# 建立一個字典，兩組字典都是整數列表
_dict = {
    '第一組':[1,2,3],
    '第二組':[4,5,6]
}
# 轉換為 df
df = pd.DataFrame(_dict)
# 先輸出查看一次
print(df, '\n')
# 加總 df 中的欄位
df['合計'] = df['第一組'] + df['第二組']
# 再次輸出
print(df)


   第一組  第二組
0    1    4
1    2    5
2    3    6 

   第一組  第二組  合計
0    1    4   5
1    2    5   7
2    3    6   9


插入欄位：使用 insert 會修改資料內容

In [31]:
import pandas as pd

# 建立一個字典，兩組字典都是整數列表
_dict = {"第一組": [1, 2, 3], "第二組": [4, 5, 6]}
# 轉換為 df
df = pd.DataFrame(_dict)
# 先輸出查看一次
print(df, "\n")
# 使用 insert 插入「合計」欄位
_data = df.insert(
    2,
    '合計',
    df.sum(axis=1)
)
# 輸出結果
print(df, "\n")
# 特別注意，透過 insert 並無回傳值
print(f"_data = {_data}")

   第一組  第二組
0    1    4
1    2    5
2    3    6 

   第一組  第二組  合計
0    1    4   5
1    2    5   7
2    3    6   9 

_data = None


透過 reindex() 排序或篩選資料

In [34]:
import pandas as pd
# 建立一個字典
data = {
    'name':['Tom','Jack','Steve','Ricky'],
    'age':[28,34,29,42]
}
# 轉換為 df
df = pd.DataFrame(data)
# 輸出
print(df, '\n')
# 透過 reindex 排序
df = df.reindex([0,2,3,1])
# 再次輸出
print(df, '\n')

# 透過 reindex 進行篩選
df = df.reindex([0, 2, 3])
# 再次輸出
print(df)


    name  age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42 

    name  age
0    Tom   28
2  Steve   29
3  Ricky   42
1   Jack   34 

    name  age
0    Tom   28
2  Steve   29
3  Ricky   42


刪除重複資料

In [36]:
import pandas as pd
# 建立帶有重複資料的列表
list1 = [1, 2, 3, 4, 1, 4, 3, 2, 3, 5]
# 轉換為 df
list1 = pd.DataFrame(list1)
# 透過 drop 刪除重複資料
list2 = list1.drop_duplicates()
#
print(list2)

   0
0  1
1  2
2  3
3  4
9  5


In [38]:
import pandas as pd
# 建立字典
data = {
    'name':['Tom', 'Jack', 'Lucy', 'Tom'],
    'sex':['M', 'M', 'F', 'M'],
    'height':[175, 180, 165, 176],
    'age':[20, 21, 22, 21]
}
# 轉換為 df
df = pd.DataFrame(data)
# 去除重複欄位，透過 keep 參數保留新的資料
# keep 使用 'first' 或 'last' 時要加上引號
df_new = df.drop_duplicates(
    subset=['name'],
    keep='last',
    inplace=False
)
# 輸出原始資料
print(df, end='\n\n')
# 輸出新資料
print(df_new)

   name sex  height  age
0   Tom   M     175   20
1  Jack   M     180   21
2  Lucy   F     165   22
3   Tom   M     176   21

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22
3   Tom   M     176   21


刪除所有重複的資料

In [44]:
import pandas as pd
# 建立字典
data = {
    'name':['Tom', 'Jack', 'Lucy', 'Tom'],
    'sex':['M', 'M', 'F', 'M'],
    'height':[175, 180, 165, 176],
    'age':[20, 21, 22, 21]
}
# 轉換為 df
df = pd.DataFrame(data)
# 刪除所有重複欄位，並保留新的資料
df_new = df.drop_duplicates(
    subset=['name'],
    keep=False,
    inplace=True
)
# 輸出原始資料
print(df, end='\n\n')
# 特別注意，inplace=True 時無回傳值
print(df_new)

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22

None


重置索引 reset_index

In [48]:
import pandas as pd
# 建立字典
data = {
    'name':['Tom', 'Jack', 'Lucy', 'Tom'],
    'sex':['M', 'M', 'F', 'M'],
    'height':[175, 180, 165, 176],
    'age':[20, 21, 22, 21]
}
# 轉換為 df
df = pd.DataFrame(data)
# 刪除所有重複欄位，並保留新的資料
df.drop_duplicates(
    subset=['name'],
    keep=False,
    inplace=True
)
# 輸出原始資料
print(df, end='\n\n')
# 重置索引，並透過 drop 參數刪除原有索引
df_new = df.reset_index(drop=True)
# 輸出原始資料
print(df, end='\n\n')
# 輸出新資料
print(df_new)

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22

   name sex  height  age
1  Jack   M     180   21
2  Lucy   F     165   22

   name sex  height  age
0  Jack   M     180   21
1  Lucy   F     165   22


排序

In [53]:
import pandas as pd
# 建立擁有兩組數值列表的字典
dict_data = {
    '第一組': [1, 3, 7, 4, 5, 2, 9],
    '第二組': [22, 14, 6, 4, 1, 11, 2]
}
# 轉換為 df
df = pd.DataFrame(dict_data)
# 指定排序索引
df = df.sort_index(ascending=True)
print(df, '\n')
# 透過參數 index 指定排序
df = pd.DataFrame(
    dict_data,
    index=[1, 0, 3, 2, 6, 5, 4]
)
print(df, '\n')
# 重新排列
df = df.sort_index(ascending=True)
print(df)


   第一組  第二組
0    1   22
1    3   14
2    7    6
3    4    4
4    5    1
5    2   11
6    9    2 

   第一組  第二組
1    1   22
0    3   14
3    7    6
2    4    4
6    5    1
5    2   11
4    9    2 

   第一組  第二組
0    3   14
1    1   22
2    4    4
3    7    6
4    9    2
5    2   11
6    5    1


指定多級（層）資料索引的升冪與降冪

In [54]:
import pandas as pd

# 建立擁有兩組數值列表的字典
dict_data = {
    '第一組': [1, 3, 7, 4, 5, 2, 9],
    '第二組': [22, 14, 6, 4, 1, 11, 2]
}

# 轉換為 DataFrame 並指定自訂索引
df = pd.DataFrame(
    dict_data,
    index=pd.MultiIndex.from_tuples([
        ('A', 1), ('A', 2), ('A', 3), ('B', 1), ('B', 2), ('B', 3), ('C', 1)
    ], names=['外層索引', '內層索引'])
)

print("原始 DataFrame：")
print(df, '\n')

# 按多重索引進行排序，外層索引升序，內層索引降序
# ascending=[True, False] 中 True 代表外層索引升序，False 代表內層索引降序
df_sorted = df.sort_index(ascending=[True, False])

print("排序後的 DataFrame：")
print(df_sorted)


原始 DataFrame：
           第一組  第二組
外層索引 內層索引          
A    1       1   22
     2       3   14
     3       7    6
B    1       4    4
     2       5    1
     3       2   11
C    1       9    2 

排序後的 DataFrame：
           第一組  第二組
外層索引 內層索引          
A    3       7    6
     2       3   14
     1       1   22
B    3       2   11
     2       5    1
     1       4    4
C    1       9    2
