In [1]:
#載入pandas模組
import pandas as pd
#資料索引: pd.DataFrame(字典, index=索引列表)
data = pd.DataFrame({
    "name":["May", "Lin", "Bob"],
    "salary":[30000, 60000, 50000] 
})
print(data)

  name  salary
0  May   30000
1  Lin   60000
2  Bob   50000


In [2]:
#資料索引(自訂): pd.DataFrame(字典, index=索引列表)
data = pd.DataFrame({
    "name":["May", "Lin", "Bob"],
    "salary":[30000, 60000, 50000] 
}, index=["a","b","c"])
print(data)

  name  salary
a  May   30000
b  Lin   60000
c  Bob   50000


In [3]:
#觀察資料 
print("資料數量:", data.size)
print("資料形狀(列, 欄):", data.shape)
print("資料索引:", data.index)  #series type

資料數量: 6
資料形狀(列, 欄): (3, 2)
資料索引: Index(['a', 'b', 'c'], dtype='object')


In [4]:
#取得列（Row/橫向）的Series資料：根據順序、根據索引 
print(data,"\n===========")
print("取得第二列", data.iloc[1], sep="\n")   #key:iloc

  name  salary
a  May   30000
b  Lin   60000
c  Bob   50000 
取得第二列
name        Lin
salary    60000
Name: b, dtype: object


In [5]:
print(data,"\n===========")
print("取得第c列", data.loc["c"], sep="\n")  #key:loc

  name  salary
a  May   30000
b  Lin   60000
c  Bob   50000 
取得第c列
name        Bob
salary    50000
Name: c, dtype: object


In [6]:
#取得欄（Column/直向）的Series資料：根據欄位的名稱 
print(data,"\n===========")
print("取得name欄位", data["name"], sep="\n")

  name  salary
a  May   30000
b  Lin   60000
c  Bob   50000 
取得name欄位
a    May
b    Lin
c    Bob
Name: name, dtype: object


In [7]:
name = data["name"]
print("把name全部轉大寫", name.str.upper(), sep="\n")

把name全部轉大寫
a    MAY
b    LIN
c    BOB
Name: name, dtype: object


In [8]:
salaries = data["salary"]
print("薪水的平均值", salaries.mean())

薪水的平均值 46666.666666666664


In [5]:
#建立新的欄位 
#data[新欄位的名稱]=列表
print(data,"\n===========")
data["revenue"] = [500000, 400000, 300000] 
print(data)

  name  salary  rank
a  May   30000     3
b  Lin   60000     6
c  Bob   50000     1 
  name  salary  rank  revenue
a  May   30000     3   500000
b  Lin   60000     6   400000
c  Bob   50000     1   300000


In [6]:
#data[新欄位的名稱]=Series的資料
print(data,"\n===========")
data["rank"]=pd.Series([3,6,1], index=["a","b","c"])
data["cp"]=data["revenue"]/data["salary"]   #產值/薪水 = cp值
print(data)

  name  salary  rank  revenue
a  May   30000     3   500000
b  Lin   60000     6   400000
c  Bob   50000     1   300000 
  name  salary  rank  revenue         cp
a  May   30000     3   500000  16.666667
b  Lin   60000     6   400000   6.666667
c  Bob   50000     1   300000   6.000000


In [7]:
#建立DataFrame  -自訂資料索引
products = {"分類": ["居家","居家","娛樂","娛樂","科技","科技"],
"商店": ["家樂福","大潤發","家樂福","全聯超","大潤發","家樂福"],
            "價格": [11.42,23.50,19.99,15.95,55.75,111.55]}    #字典:order
ordinals =["A", "B", "C", "D", "E", "F"]
df = pd.DataFrame(products, index=ordinals) 
print(df)

   分類   商店      價格
A  居家  家樂福   11.42
B  居家  大潤發   23.50
C  娛樂  家樂福   19.99
D  娛樂  全聯超   15.95
E  科技  大潤發   55.75
F  科技  家樂福  111.55


In [8]:
#建立DataFrame - 重新指定DataFrame物件的欄位順序
df = pd.DataFrame(products, 
                  columns = ["分類", "價格", "商店"],
                  index=ordinals) 
print(df)

   分類      價格   商店
A  居家   11.42  家樂福
B  居家   23.50  大潤發
C  娛樂   19.99  家樂福
D  娛樂   15.95  全聯超
E  科技   55.75  大潤發
F  科技  111.55  家樂福


In [17]:
#匯出CSV格式檔案  -->csv, json, html, excel, sql
df.to_csv("products.csv", encoding="utf8",  index=False)  #純匯出可用utf16
df.to_csv("products1.csv", encoding="utf16",  index=True)

In [16]:
#使用存在的欄位作為索引標籤
df = pd.DataFrame(products, 
                  columns = ["商店", "價格"],
                  index = products["分類"]) 
print(df)

     商店      價格
居家  家樂福   11.42
居家  大潤發   23.50
娛樂  家樂福   19.99
娛樂  全聯超   15.95
科技  大潤發   55.75
科技  家樂福  111.55


In [22]:
#匯入CSV檔案
df = pd.read_csv("products.csv", encoding="utf16")
print(df)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

In [17]:
#轉置DataFrame物件
print(df.T)

       居家    居家     娛樂     娛樂     科技      科技
商店    家樂福   大潤發    家樂福    全聯超    大潤發     家樂福
價格  11.42  23.5  19.99  15.95  55.75  111.55


In [18]:
#顯示前幾筆記錄
print(df.head())#顯示前5筆記錄 
print("==============") 
print(df.head(3))

     商店     價格
居家  家樂福  11.42
居家  大潤發  23.50
娛樂  家樂福  19.99
娛樂  全聯超  15.95
科技  大潤發  55.75
     商店     價格
居家  家樂福  11.42
居家  大潤發  23.50
娛樂  家樂福  19.99


In [19]:
#顯示最後幾筆記錄
print(df.tail())#顯示最後5筆記錄
print("==============") 
print(df.tail(3))

     商店      價格
居家  大潤發   23.50
娛樂  家樂福   19.99
娛樂  全聯超   15.95
科技  大潤發   55.75
科技  家樂福  111.55
     商店      價格
娛樂  全聯超   15.95
科技  大潤發   55.75
科技  家樂福  111.55


In [20]:
#自訂的欄位標籤: 從中文標籤改為英文標籤
df.columns = ["type", "price", "name"]
print(df.head(3))

ValueError: Length mismatch: Expected axis has 2 elements, new values have 3 elements

In [10]:
#取得DataFrame物件的索引、欄位和資料
print("df.index:",df.index)
print("df.columns:",df.columns)
print("df.values:",df.values, sep="\n")

df.index: Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
df.columns: Index(['分類', '價格', '商店'], dtype='object')
df.values:
[['居家' 11.42 '家樂福']
 ['居家' 23.5 '大潤發']
 ['娛樂' 19.99 '家樂福']
 ['娛樂' 15.95 '全聯超']
 ['科技' 55.75 '大潤發']
 ['科技' 111.55 '家樂福']]


In [11]:
#顯示DataFrame物件的摘要資訊
print("資料筆數= ", len(df))
print("形狀= ", df.shape)  

資料筆數=  6
形狀=  (6, 3)


In [12]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, A to F
Data columns (total 3 columns):
分類    6 non-null object
價格    6 non-null float64
商店    6 non-null object
dtypes: float64(1), object(2)
memory usage: 192.0+ bytes


In [13]:
#使用iterrows()函數走訪DataFrame物件
df.columns = ["分類", "價格", "商店"]
for index, row in df.iterrows() :
    print(index, row["分類"], row["商店"], row["價格"])

A 居家 家樂福 11.42
B 居家 大潤發 23.5
C 娛樂 家樂福 19.99
D 娛樂 全聯超 15.95
E 科技 大潤發 55.75
F 科技 家樂福 111.55


In [14]:
#指定索引的欄位
df2 = df.set_index("分類")
print(df2.head())

       價格   商店
分類            
居家  11.42  家樂福
居家  23.50  大潤發
娛樂  19.99  家樂福
娛樂  15.95  全聯超
科技  55.75  大潤發


In [15]:
#重設索引的欄位
df3 = df2.reset_index()
print(df3.head())

   分類     價格   商店
0  居家  11.42  家樂福
1  居家  23.50  大潤發
2  娛樂  19.99  家樂福
3  娛樂  15.95  全聯超
4  科技  55.75  大潤發


In [16]:
#指定多欄位複合索引
df2 = df.set_index(["分類", "商店"])
print(df2)
df2.sort_index(ascending=False, inplace=True)   #排序完是否取代
print(df2)

            價格
分類 商店         
居家 家樂福   11.42
   大潤發   23.50
娛樂 家樂福   19.99
   全聯超   15.95
科技 大潤發   55.75
   家樂福  111.55
            價格
分類 商店         
科技 家樂福  111.55
   大潤發   55.75
居家 家樂福   11.42
   大潤發   23.50
娛樂 家樂福   19.99
   全聯超   15.95
