Pandas 資料分析重要的工具之一

課本的第八章

第七章Numpy 通常會用在矩陣計算、深度學習ANN

Pandas 類似於表格、Excel

In [2]:
# 微積分sequence：一維資料
# series 物件是一維資料

# 給pasdas別名pd
import pandas as pd

s = pd.Series([12, 29, 72, 4, 8, 10])
print(s)

s[0]

0    12
1    29
2    72
3     4
4     8
5    10
dtype: int64


12

In [16]:
# Series物件自訂索引

# 一個一維資料是索引
fruits = ['蘋果', '橘子', '水梨', '櫻桃']

# 對應索引的一維資料
quantities = [15, 33, 45, 55]

s = pd.Series(quantities, index=fruits)
print(s)
print(s.index)
print(s.values)


蘋果    15
橘子    33
水梨    45
櫻桃    55
dtype: int64
Index(['蘋果', '橘子', '水梨', '櫻桃'], dtype='object')
[15 33 45 55]


In [8]:
# 相同索引Series物件相加

# 一個一維資料是索引
fruits = ['蘋果', '橘子', '水梨', '櫻桃']

# 對應索引的一維資料
quantities = [15, 33, 45, 55]
s = pd.Series(quantities, index=fruits)

p = pd.Series([11, 16, 21, 32], index=fruits)

print(s+p)

s+p

print('總和為', sum(s+p))

蘋果    26
橘子    49
水梨    66
櫻桃    87
dtype: int64
總和為 228


In [15]:
# 取出自訂索引Series物件元素
# 一個一維資料是索引
fruits = ['蘋果', '橘子', '水梨', '櫻桃']

# 對應索引的一維資料
quantities = [15, 33, 45, 55]

s = pd.Series(quantities, index=fruits)

print(f'橘子有{s["橘子"]}顆')

# 使用索引取出多個資料：機器學習特徵選取有關
print(s[['橘子']]) # print(s['橘子']) 不一樣
print(s[['橘子', '水梨', '櫻桃']])

橘子有33顆
橘子    33
dtype: int64
橘子    33
水梨    45
櫻桃    55
dtype: int64


In [None]:
# Series 物件的各種運算

print((s+2)*3)

# Numpy.apply()
# 使用三角函數時，數字看成是弧度
import numpy as np
print(s.apply(np.sin))

In [37]:
# 建立二維資料DataFrame
# 列索引、欄索引
# 字典建立DataFrame，key是DataFrame的column、DataFrame的row是紀錄
import pandas as pd

# 二維資料
dists = {'name':['中正區', '北屯區', '鳳山區'],
         'population':[159598, 275207, 359125],
         'city':['台北市', '台中市', '高雄市']}

# 將二維資料轉成DataFrame
df = pd.DataFrame(dists)

print(df)

# 習慣上輸出DataFrame
df

# 假設有粉多筆記錄，只想秀出前幾筆
df.head(2) #前兩筆 

# 排板不是問題
df.to_html('20240418.html')

# 自訂DataFrame物件的列索引
ordinals = ['1st', '2nd', '3rd']
df2 = pd.DataFrame(dists, index=ordinals)
df2

# 自訂欄位順序
columns = ['city', 'name', 'population']
df3 = pd.DataFrame(dists, columns=columns, index=ordinals) 
df3

# 欄位名字更換
df2.columns=columns
df2

# 存在欄位作為列索引
df4 = pd.DataFrame(dists, columns=['name', 'population'], index=dists['city'])
df4


  name  population city
0  中正區      159598  台北市
1  北屯區      275207  台中市
2  鳳山區      359125  高雄市


Unnamed: 0,name,population
台北市,中正區,159598
台中市,北屯區,275207
高雄市,鳳山區,359125


## 如何處理超大型csv檔？  

Pandas是需要將資料放到記憶體(in-memory)，才能使用資料的工具。

建議記憶體容量是DataFrame大小的3到10倍，以提供足夠空間執行運算。

nrows 限制載入的資料量。

info()查看佔用的記憶體空間。

Pandas會自動補上預設的資料型別。整數資料沒有缺失值的資料型別為int64、數值資料不只有整數，或者有缺失值，則該欄位的資料型別為float64。

dtype改變數值欄位的精度，以節省記憶體。

describ()檢查新資料集和原始資料集的統計數據，確保精度的修改不會對資料內容造成太大的變動。

如果csv文件欄位內容不是數值資料，Pandas會將型別轉換為object，並將值視為字串。字串會佔用大量記憶體，轉換為類別型別(categorial data type)，可以節省記憶體空間。

value_count()檢視object型別欄位的相異資料數。如果相異資料數不多，轉換為類別欄位可節省更多記憶體。

如果只想載入特定欄位，使用usecols參數指定。

如果使用前面方法後，DataFrame依舊佔了過多的記憶體空間。假設適合一次處理一部分資料時，並且不需要在記憶體儲存所有資料，可以使用chunksize參數。

memory_usage()查詢DataFrame或Series佔多少位元組(byte)，包括索引需要的記憶體空間。

查詢object型別資料佔用的記憶體空間，需將deep參數指定為True，因為字串內容儲存在額外的記憶體中。

資料儲存為包含欄位型別資訊的二進位格式，例如Feather格式（Pandas利用pyarrow函式庫）。此格式最佳化資料以in-memory方式在不同程式語言間傳輸，同時無需再型別調整。

Parquet格式儲存二進位資料。Feather優化記憶體結構（in-memoey structure）；Parquet優化硬碟中格式（on-disk format）。許多大數據產品使用Parquet。

In [None]:
diamonds = pd.read_csv('diamonds.csv', nrows=1000) # nrows 限制載入的資料量

diamonds

In [None]:
# info()查看佔用的記憶體空間。

diamonds.info()

# 1000列資料大約佔78.2KB，如果有10億列就需要78GB的記憶體

In [None]:
# dtype改變數值欄位的精度(float64=>float32；int64=>int16)，以節省記憶體。
import numpy as np
diamonds2 = pd.read_csv('diamonds.csv', nrows=1000,
                        dtype={'carat': np.float32, 'depth': np.float32,
                               'table': np.float32, 'x': np.float32,
                               'y': np.float32, 'z': np.float32,
                               'price': np.int16})

diamonds2.info()

# 佔用的記憶體從78.2KB降到49KB左右

In [None]:
# describ()檢查新資料集和原始資料集的統計數據，確保精度的修改不會對資料內容造成太大的變動。

diamonds.describe()

In [None]:
diamonds2.describe()

In [None]:
# value_count()檢視object型別欄位的相異資料數
diamonds2.cut.value_counts()

# cut欄位中僅有5種相異資料

In [None]:
diamonds2.color.value_counts()

# color欄位中有7種相異資料

In [None]:
diamonds2.clarity.value_counts()

# clarity欄位中有8種相異資料

In [None]:
# obejct型別欄位相異資料數不多，將轉換為類別欄位是明智選擇

diamonds3 = pd.read_csv('diamonds.csv', nrows=1000,
                        dtype={'carat': np.float32, 'depth': np.float32,
                               'table': np.float32, 'x': np.float32,
                               'y': np.float32, 'z': np.float32,
                               'price': np.int16,
                               'cut': 'category', 'color': 'category',
                               'clarity': 'category'})

diamonds3.info()

# 29.4KB佔原來78KB的37%左右

In [None]:
# 如果只想載入特定欄位，使用usecols參數指定
# 建立一個除了x,y,z欄位名稱串列
cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds4 = pd.read_csv('diamonds.csv', nrows=1000,
                        dtype={'carat': np.float32, 'depth': np.float32,
                               'table': np.float32, 'price': np.int16,
                               'cut': 'category', 'color': 'category',
                               'clarity': 'category'},
                        usecols=cols)

diamonds4.info()

# 目前使用的記憶體是原始大小的21%左右

In [None]:
cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds_iter = pd.read_csv('diamonds.csv', nrows=1000,
                            dtype={'carat': np.float32, 'depth': np.float32,
                                   'table': np.float32, 'price': np.int16,
                                   'cut': 'category', 'color': 'category',
                                   'clarity': 'category'},
                            usecols=cols,
                            chunksize=200) # 一次處理200列的資料

def process(df):
    return f'processed {df.size} items'

for chunk in diamonds_iter: # 分多次處理
    process(chunk)

In [None]:
# 如果把price欄位資料型別設為int8，將會資訊遺失

# 列出int8可儲存的資料範圍

print(np.iinfo(np.int8))

print(diamonds4['price'].min()) # 最小值

print(diamonds4['price'].max()) # 最大值

# price資料範圍326到2898，超過int8可表示的範圍

In [None]:
# 如果想知道浮點數型別資訊，使用finfo()

np.finfo(np.float16)

In [None]:
# 原始的price欄位的記憶體佔用空間

diamonds.price.memory_usage()

In [None]:
# 除去索引後，少了28KB

diamonds.price.memory_usage(index=False)

In [None]:
# 查詢object型別資料佔的記憶體空間

diamonds.cut.memory_usage(deep=True)

In [None]:
%pip install pyarrow

In [None]:
diamonds4.to_feather('d.arr')
diamonds5 = pd.read_feather('d.arr') # 使用read_feather讀取Feather格式資料

In [None]:
diamonds4.to_parquet('d.pqt')

即使不知道檔案名稱，我們也可以將資料夾中的特定檔案讀到DataFrame中。

gas prices資料夾包含了5 個不同的CSV文件，分別存有2007年起，各種等級天然氣的每週價格。
在每個CSV 檔案中只有兩個欄位：當週的起始日期與價格。

glob模組中的glob()函式可接受檔案所在的路徑（以字串表示）。
若想取得資料夾中的所有CSV 檔案，可使用『*』來完成。
在底下範例中，『*.csv』會傳回資料夾中以『.csv』結尾的所有檔案。
glob()函式所產生的結果為一串列（存有檔名字串），可以直接傳入read_csv()函式：

In [None]:
import glob
df_list = []
for filename in glob.glob('gas prices/*.csv'): # 走訪該路徑下，所有CSV 檔案的名稱
    df_list.append(pd.read_csv(filename, index_col='Week',
                               parse_dates=['Week'])) # 讀入CSV 檔案的資料（會存成DataFrame），並放進df_list 串列中
gas = pd.concat(df_list, axis='columns') # 將df_list 中的DataFrame 以水平方式連接
gas