# Pandas module
- Pandas是Python語言的一個高效簡易的資料處理和分析工具，類似於Excel的程式版本
- 提供資料結構 (Series, DataFrame) 和運算操作，因此可以用Python來操作試算表內的資料。


![pandas dataframe and series](https://www.altexsoft.com/static/blog-post/2024/2/a2b6d6bd-898e-424f-98a8-50b3bdf775eb.webp)

# Import library

In [3]:
import numpy as np
import pandas as pd
import matplotlib
from matplotlib.font_manager import fontManager

# 建立Series

- Series 是一個一維的資料結構, 只有一個索引
- pd.Series(資料 [, index = 索引])
  - 資料可用 List, Dict, Tuple, Numpy
  - 索引可選填，預設為整數List

In [None]:
#用串列建立Series物件
foo = ['a', 'c', 'x', 'y']
my_ser = pd.Series(foo)
my_ser           #顯示Series
my_ser.values    #顯示值
my_ser.index     #顯示索引

In [None]:
#用串列建立Series物件並自訂索引
company = ['聯電', '台積電', '聯發科']
stock_price = [42, 510, 694]
stock = pd.Series(stock_price, index=company)
stock
stock.values
stock.index

In [None]:
# 用Dict建立Series
dict1 = {'Taiwan': '台北', 'US': 'New York', 'Japan': 'Tokyo'}
city = pd.Series(dict1)
city

# 讀取Series

In [None]:
city['Taiwan']
city.iloc[0]
city.loc['US']
city.index[2]

# Lab series

(1) 根據下列表格資料，創建一個 Series (city_revenues), 回答下列問題
city | revenues
-----|---------
Amsterdam|4200
Toronto|8000
Tokyo|6500

- Toronto 的 revenues 是多少
- 第零筆資料的 revenues 是多少
- 最後一筆資料的 revenues 是多少
- 求 revenues 的 sum

(2) 根據下列表格資料，創建一個 Series (city_employee_count),回答下列問題
city | employee_count
-----|----------------
Amsterdam|5
Tokyo|8

Tokyo 是否在 city_employee_count 中

(3) 合併 city_revenues 和 city_employee_count 來產生一個 DataFrame (city_data), 回答下列問題
- 查詢 Amsterdam 的列資料
- 查詢第零橫列的列資料
- 查詢 Amsterdam 到 Tokyo的 revenue 資料



In [None]:
import pandas as pd

city_revenues = pd.Series([4200, 8000, 6500], \
                          index=['Amsterdam', 'Toronto', 'Tokyo'])
print(city_revenues['Toronto'])
print(city_revenues.iloc[0])
print(city_revenues.iloc[-1])
print(city_revenues.sum())

city_employee_count = pd.Series([5, 8], index=['Amsterdam', 'Tokyo'])
print('Tokyo' in city_employee_count.index)

city_data = pd.DataFrame({'revenues': city_revenues,
                           'employee_count':city_employee_count})
city_data.loc['Amsterdam']
city_data.iloc[0]
city_data.loc['Amsterdam':'Tokyo']

# 建立DataFrame

- DataFrame 是一個二維的資料結構, 有橫列索引 (row index) 和直欄標籤 (column label)
- DataFrame 中的每一個直行可以被視為一個 Series
- pd.DataFrame(資料 [, index = 橫列索引, columns = 直欄標籤])
- 資料可用 List, Dict, Numpy, Tuple, Series.
- 橫列索引是列號，可選填，預設為整數List
- 直欄標籤是欄位名稱

### 用List建立DataFrame

In [17]:
foo=  [[65,92,78,83,70],
       [90,72,76,93,56],
       [81,85,91,89,77],
       [79,53,47,94,80],
       ]
df = pd.DataFrame(foo)
df
# print(df.values)
# print(df.index)
# 缺row index 跟column label

Unnamed: 0,0,1,2,3,4
0,65,92,78,83,70
1,90,72,76,93,56
2,81,85,91,89,77
3,79,53,47,94,80


In [18]:
# 設定row index 跟column label
df = pd.DataFrame(foo,
                   index=['王小明','李小美','陳大同','林小玉'],
                   columns=['國文','英文','數學','自然','社會'])
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


### 用Dict建立DataFrame

In [23]:
# 以column為基礎的dict
scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':77,'林小玉':80}}
df = pd.DataFrame(scores)
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


## 了解DataFrame的結構

In [64]:
df.shape
df.dtypes
df.describe()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 王小明 to 林小玉
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   國文      4 non-null      int64
 1   英文      4 non-null      int64
 2   數學      4 non-null      int64
 3   自然      4 non-null      int64
 4   社會      4 non-null      int64
dtypes: int64(5)
memory usage: 364.0+ bytes


## 合併兩個DataFrame

In [28]:
scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':77,'林小玉':80}}
df1 = pd.DataFrame(scores)
scores_others = {'體育':{'王小明':90,'李小美':93,'陳大同':95,'林小玉':80},
          '家政':{'王小明':70,'李小美':80,'陳大同':75,'林小玉':90},}

df2 = pd.DataFrame(scores_others)
df_all = pd.concat([df1, df2], axis=1)
df_all

Unnamed: 0,國文,英文,數學,自然,社會,體育,家政
王小明,65,92,78,83,70,90,70
李小美,90,72,76,93,56,93,80
陳大同,81,85,91,89,77,95,75
林小玉,79,53,47,94,80,80,90


# 讀取DataFrame資料

## 以欄位取值 df[column]

In [32]:
scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':77,'林小玉':80}}
df = pd.DataFrame(scores)
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


In [33]:
df["自然"] #讀一個欄位
df[['國文','英文','數學']] #讀多個欄位


Unnamed: 0,國文,英文,數學
王小明,65,92,78
李小美,90,72,76
陳大同,81,85,91
林小玉,79,53,47


## 以index label及column name取值：df.loc()

In [4]:
scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':77,'林小玉':80}}
df = pd.DataFrame(scores)
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


In [36]:
df.loc["林小玉", "社會"] # int

np.int64(80)

In [38]:
df.loc["王小明", ["國文","社會"]] # Series

國文    65
社會    70
Name: 王小明, dtype: int64

In [39]:
df.loc[["王小明", "李小美"], ["數學", "自然"]] # DataFrame

Unnamed: 0,數學,自然
王小明,78,83
李小美,76,93


In [40]:
df.loc["王小明":"陳大同", "數學":"社會"] # DataFrame

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56
陳大同,91,89,77


In [41]:
df.loc["陳大同", :] # Series

國文    81
英文    85
數學    91
自然    89
社會    77
Name: 陳大同, dtype: int64

In [42]:
df.loc[:"李小美", "數學":"社會"] # DataFrame

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56


In [43]:
df.loc["李小美":, "數學":"社會"]

Unnamed: 0,數學,自然,社會
李小美,76,93,56
陳大同,91,89,77
林小玉,47,94,80


## 以index ID及column ID取值：df.iloc()

In [44]:
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


In [45]:
df.iloc[3, 4]

np.int64(80)

In [46]:
df.iloc[0, [0, 4]] # Series

國文    65
社會    70
Name: 王小明, dtype: int64

In [5]:
df.iloc[[0, 1], [2, 3]] # DataFrame

Unnamed: 0,數學,自然
王小明,78,83
李小美,76,93


In [6]:
df.iloc[0:3, 2:5]

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56
陳大同,91,89,77


In [None]:
df.iloc[2, :]

In [None]:
df.iloc[:2, 2:5]

In [None]:
df.iloc[1:, 2:5]

## 最前或最後幾列資料

In [None]:
df.head(3)

In [None]:
df.tail(2)

## 資料排序

In [7]:
df.sort_values(by="國文", ascending=False, inplace=True)
df

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80
王小明,65,92,78,83,70


## 條件取值

In [13]:
df
df['數學'] < 60
df[df['數學'] < 60]

Unnamed: 0,國文,英文,數學,自然,社會
林小玉,79,53,47,94,80


In [14]:
#指定欄位以條件式判斷取值
#boolean indexing: Using boolean array (series) to index select rows

df["數學"] < 60
df[df["數學"] < 60]
df[(df["國文"] >= 80) & (df["國文"] < 90)]
df['國文'] >= 80                #series
df[df['國文'] >= 80]            # dataframe

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
陳大同,81,85,91,89,77


## 只要取所有的值

In [None]:
df.values # Get all values, ndarray
df.index # Get all index labels
df.columns # Get all column labels

pandas.core.indexes.base.Index

# 修改DataFrame資料

In [161]:
name_list = ['王小明','李小美','陳大同','林小玉']
subject_list = ['國文','英文','數學','自然','社會']
score_list = [[65, 92, 78, 83, 70],
               [90, 72, 76, 93, 56],
               [81, 85, 91, 89, 77],
               [79, 53, 47, 94, 80],]

df = pd.DataFrame(score_list, index=name_list, columns=subject_list)

In [84]:
# modify data values
df.loc["陳大同", "社會"] = 96  # 修改cell資料
df.loc["王小明", :] = 80  # 修改row資料
df.loc['林小玉'] = [70, 50, 40, 40, 50] # 修改row資料
df['數學'] = [60, 70, 80, 90]  # 修改column資料

In [162]:
# modify data types
df.info()
df["國文"] = df["國文"].astype('int8')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 王小明 to 林小玉
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   國文      4 non-null      int64
 1   英文      4 non-null      int64
 2   數學      4 non-null      int64
 3   自然      4 non-null      int64
 4   社會      4 non-null      int64
dtypes: int64(5)
memory usage: 192.0+ bytes
<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 王小明 to 林小玉
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   國文      4 non-null      int8 
 1   英文      4 non-null      int64
 2   數學      4 non-null      int64
 3   自然      4 non-null      int64
 4   社會      4 non-null      int64
dtypes: int64(4), int8(1)
memory usage: 164.0+ bytes


In [71]:
# modify column name
df.rename(columns = {"英文":"外語"}, inplace=True)

# 新增DataFrame資料

In [85]:
name_list = ['王小明','李小美','陳大同','林小玉']
subject_list = ['國文','英文','數學','自然','社會']
score_list = [[65, 92, 78, 83, 70],
               [90, 72, 76, 93, 56],
               [81, 85, 91, 89, 77],
               [79, 53, 47, 94, 80],]

df = pd.DataFrame(score_list, index=name_list, columns=subject_list)

In [88]:
# add columns
df["總分"] = df["國文"] + df["英文"] + df["數學"] + df["自然"] + df["社會"] # with calculation
df["班級"] = ["甲班", "甲班", "乙班", "乙班"] # with list
df['備註'] = '吃營養午餐'  # with string
df

Unnamed: 0,國文,英文,數學,自然,社會,總分,班級,備註
王小明,65,92,78,83,70,388,甲班,吃營養午餐
李小美,90,72,76,93,56,387,甲班,吃營養午餐
陳大同,81,85,91,89,77,423,乙班,吃營養午餐
林小玉,79,53,47,94,80,353,乙班,吃營養午餐


In [92]:
# df.loc['陳彼得'] = [30, 35, 40, 45, 50]    # 少給數個欄位值
df.loc['陳彼得'] = [30, 35, 40, 45, 50, 200, '丙班', '不吃午餐'] # 新增一列資料

# 刪除 DataFrame 資料

In [98]:
name_list = ['王小明','李小美','陳大同','林小玉']
subject_list = ['國文','英文','數學','自然','社會']
score_list = [[65, 92, 78, 83, 70],
               [90, 72, 76, 93, 56],
               [81, 85, 91, 89, 77],
               [79, 53, 47, 94, 80],]

df = pd.DataFrame(score_list, index=name_list, columns=subject_list)

In [99]:
df.drop("王小明", axis = 0, inplace=True)          #CRUD Create, Read, Update, Delete
df

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


In [100]:
df.drop("數學", axis=1, inplace=True)
df

Unnamed: 0,國文,英文,自然,社會
李小美,90,72,93,56
陳大同,81,85,89,77
林小玉,79,53,94,80


# 讀寫外部檔案

In [102]:
# 寫到CSV檔案
from pathlib import Path
target_csv_path = Path.cwd() / '..' / 'files' / 'csv' / 'scores.csv'
df.to_csv(target_csv_path, encoding='utf-8-sig')

# 資料清洗 (Customer.csv)

## 查詢空值：isnull()


In [164]:
import pandas as pd
from pathlib import Path

source_csv_path = Path.cwd() / '..' / 'files' / 'csv' / 'customer.csv'
# 讀取資料
df = pd.read_csv(source_csv_path)
df.head()

Unnamed: 0,id,name,gender,age,area,job
0,1700001,李國發,Male,21.0,新北市三重區,金融業 和房地產
1,1700002,吳俊諺,,,臺北市文山區,金融業和房地產
2,1700003,蔡俊毅,,,臺北市文山區,教育體育 文化
3,1700004,姚鈺迪,Female,34.0,基隆市中正區,住宿 和 餐飲業
4,1700004,姚鈺迪,Female,34.0,基隆市中正區,住宿和餐飲業


In [135]:
# 空值的處理 (How good data looks like)
# df.isnull() # True:空值 False:非空值
# df.isnull().sum() # 每個欄位有多少空值數
print('有空值的 column 有幾個:', df.isnull().any(axis=0).sum())
print('有空值的 row 有幾個:', df.isnull().any(axis=1).sum())
df[df['age'].isnull()] # 顯示age欄有空值的row

有空值的 column 有幾個: 3
有空值的 row 有幾個: 8


Unnamed: 0,id,name,gender,age,area,job
1,1700002,吳俊諺,,,臺北市文山區,金融業和房地產
2,1700003,蔡俊毅,,,臺北市文山區,教育體育 文化
6,1700006,蔡登意,,,,金融業和房地產


## 空欄填值：fillna()

In [None]:
# 將age的空值填入0
dfcopy = df.copy()
dfcopy['age'] = dfcopy['age'].fillna(value=0)
dfcopy.head()

In [None]:
# 將age的空值填入平均值
dfcopy = df.copy()
dfcopy['age'] = dfcopy['age'].fillna(value = dfcopy['age'].mean())
dfcopy.head()

In [151]:
# 以前一個值往下填ffill或後一個值往上填bfill
dfcopy = df.copy()
dfcopy['gender'] = dfcopy['gender'].ffill()
dfcopy['area'] = dfcopy['area'].bfill()

In [None]:
# 刪除不完整的資料
dfcopy = df.copy()
dfcopy.dropna(inplace=True)

Unnamed: 0,id,name,gender,age,area,job
0,1700001,李國發,Male,21.0,新北市三重區,金融業 和房地產
3,1700004,姚鈺迪,Female,34.0,基隆市中正區,住宿 和 餐飲業
4,1700004,姚鈺迪,Female,34.0,基隆市中正區,住宿和餐飲業
5,1700005,袁劭彥,Male,42.0,臺北市文山區,金融業和房地產
11,1700011,許合蓉,Female,61.0,新北市三重區,住宿和餐飲業
12,1700012,武家豪,Male,53.0,新北市三重區,農林牧漁業
14,1700014,周聿綠,Female,57.0,基隆市中正區,金融業和房地產


## 去除重複資料

In [153]:
# 去除重複的記錄
dfcopy = df.copy()
dfcopy.drop_duplicates(subset='id', keep='first', inplace=True)

## 資料內容的置換

In [156]:
# 去除欄位中的空白
dfcopy = df.copy()
dfcopy['job'] = dfcopy['job'].str.strip() # 取出字串字面值, 去除前後空白
dfcopy['job'] = dfcopy['job'].str.replace(' ', '')

## 調整資料的格式

In [165]:
# 轉換值的格式
dfcopy = df.copy()
print(dfcopy.info())
dfcopy['age'] = dfcopy['age'].fillna(value=0).astype('int8') # 先填入0再轉型
print(dfcopy.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      15 non-null     int64  
 1   name    15 non-null     object 
 2   gender  7 non-null      object 
 3   age     12 non-null     float64
 4   area    12 non-null     object 
 5   job     15 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 852.0+ bytes
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      15 non-null     int64 
 1   name    15 non-null     object
 2   gender  7 non-null      object
 3   age     15 non-null     int8  
 4   area    12 non-null     object
 5   job     15 non-null     object
dtypes: int64(1), int8(1), object(4)
memory usage: 747.0+ bytes
None


# 資料篩選

In [None]:
# 篩選女性的資料
df_sample = df.copy()
df_female = df_sample[(df_sample['gender'] == 'Female')]
df_female

In [None]:
# 篩選男性且大於50歲的資料
# print(df_sample[(df_sample['gender'] == 'Male') & (df_sample['age'] > 50)])

# 篩選住在新北市三重區或基隆市中正區的資料
df_sample = df.copy()
print(df_sample[(df_sample['area'] == '新北市三重區') | (df_sample['area'] == '基隆市中正區')])

In [None]:
df

In [None]:
df['area'].unique()

In [None]:
df.value_counts('area')

In [None]:
df_sample = df.copy()
def get_last_name(full_name):
    return full_name[0]
df_sample['last_name'] = df_sample['name'].apply(get_last_name)
df_sample

# 資料分組運算: groupby, agg

In [None]:
#客戶中男女生的平均年齡
df_sample = df.copy()
print('mean of all ages:', df_sample['age'].mean())
print('mean of age by gender:\n', df_sample.groupby('gender')['age'].mean())

In [None]:
#客戶中住各區的人數
df_sample.groupby('area')['id'].count()

In [None]:
#彙總統計：agg(), 客戶中男女生的平均年齡、最年長及最年輕的年齡
df_sample.groupby('gender')['age'].agg(['mean', 'max', 'min'])
# print(df_sample.groupby('gender')['age'].mean())
# print(df_sample.groupby('gender')['age'].max())
# print(df_sample.groupby('gender')['age'].min())



# 繪圖應用 (年度銷售)

## 設定Matplotlib的中文顯示

## 繪製長條圖、橫條圖、堆疊圖


In [None]:
df

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
# 設定中文字型 Heiti TC
plt.rcParams['font.sans-serif']=['Heiti TC']
df = pd.DataFrame([[250,320,300,312,280],
							[280,300,280,290,310],
							[220,280,250,305,250]],
							index=['北部','中部','南部'],
							columns=[2015,2016,2017,2018,2019])

# g1 = df.plot(kind='bar', title='長條圖', figsize=[10,5])
# g2 = df.plot(kind='barh', title='橫條圖', figsize=[10,5])
# g3 = df.plot(kind='bar', stacked=True, title='堆疊圖', figsize=[10,5])

## 繪製折線圖

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
# 設定中文字型 Heiti TC
plt.rcParams['font.sans-serif']=['Heiti TC']

df = pd.DataFrame([[250,320,300,312,280],
							[280,300,280,290,310],
							[220,280,250,305,250]],
							index=['北部','中部','南部'],
							columns=[2015,2016,2017,2018,2019])

g1 = df.iloc[0].plot(kind='line', legend=True,
							  xticks=range(2015,2020),
							  title='公司分區年度銷售表',
							  figsize=[10,5])
g1 = df.iloc[1].plot(kind='line',
							  legend=True,
							   xticks=range(2015,2020))
g1 = df.iloc[2].plot(kind='line',
									  legend=True,
									  xticks=range(2015,2020))

## 繪製圓餅圖

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
# 設定中文字型 Heiti TC
plt.rcParams['font.sans-serif']=['Heiti TC']

df = pd.DataFrame([[250,320,300,312,280],
                   [280,300,280,290,310],
                   [220,280,250,305,250]],
                  index=['北部','中部','南部'],
                  columns=[2015,2016,2017,2018,2019])
df.plot(kind='pie', subplots=True, figsize=[20,20])