# Pandas Series的建立與取值

## 建立Series

### 使用串列建立Series物件

In [None]:
import pandas as pd

se = pd.Series([1,2,3,4])
print(se)           #顯示Series
print(se.values)    #顯示值
print(se.index)     #顯示索引

### 自訂索引

In [None]:
stocks = ['聯電', '台積電', '聯發科', '大力光', '鴻海']
price = [42, 510, 694, 2115, 109]
se2 = pd.Series(price, index=stocks)

# print(se2['台積電'], se2[1])  # 自用、送禮兩相宜！

se2

### 使用字典建立Series

In [None]:
import pandas as pd

dict1 = {'Taipei': '台北', 'Taichung': '台中', 'Kaohsiung': '高雄'}
se = pd.Series(dict1)

print(se)           #顯示Series
print(se.values)    #顯示值
print(se.index)     #顯示索引

# print(se[])  #  系統預設(系統送的)還可以用！

## Series資料取值

### 以索引取值

In [None]:
import pandas as pd

se = pd.Series([1,2,3,4,5])
se[2]

### 自訂索引及取值

In [None]:
import pandas as pd

se = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])
se['b']
# se[1]

# Pandas DataFrame 的建立

## 建立DataFrame

### 新增DataFrame

In [None]:
import pandas as pd

# pandas會保留二維的形式:
df = pd.DataFrame([[65,92,78,83,70], 
                   [90,72,76,93,56], 
                   [81,85,91,89,77], 
                   [79,53,47,94,80]])
df

### 設定index與columns

In [None]:
import pandas as pd

df = pd.DataFrame([[65,92,78,83,70], 
                   [90,72,76,93,56], 
                   [81,85,91,89,77], 
                   [79,53,47,94,80]],
                   index=['王小明','李小美','陳大同','林小玉'],
                   columns=['國文','英文','數學','自然','社會'])
df

## 利用字典建立DataFrame

In [None]:
import pandas as pd

scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':77,'林小玉':80}}
df = pd.DataFrame(scores)
df

## 利用Series建立DataFrame


### 利用Series物件組合成字典

In [None]:
import pandas as pd

se1 = pd.Series({'王小明':65,'李小美':90,'陳大同':81,'林小玉':79})
se2 = pd.Series({'王小明':92,'李小美':72,'陳大同':85,'林小玉':53})
se3 = pd.Series({'王小明':78,'李小美':76,'陳大同':91,'林小玉':47})
se4 = pd.Series({'王小明':83,'李小美':93,'陳大同':89,'林小玉':94})
se5 = pd.Series({'王小明':70,'李小美':56,'陳大同':77,'林小玉':80})
print(se5)

df = pd.DataFrame({'國文':se1,'英文':se2,'數學':se3,'自然':se4,
				   '社會':se5} )
df

### 使用concat函數合併Series物件

In [None]:
import pandas as pd

se1 = pd.Series({'王小明':65,'李小美':90,'陳大同':81,'林小玉':79})
se2 = pd.Series({'王小明':92,'李小美':72,'陳大同':85,'林小玉':53})
se3 = pd.Series({'王小明':78,'李小美':76,'陳大同':91,'林小玉':47})
se4 = pd.Series({'王小明':83,'李小美':93,'陳大同':89,'林小玉':94})
se5 = pd.Series({'王小明':70,'李小美':56,'陳大同':77,'林小玉':80})

df = pd.concat([se1,se2,se3,se4,se5], axis=1)  # axis=1 => 橫向的意思！
print(se1)

df.columns=['國文','英文','數學','自然','社會']
df

# DataFrame資料取值

## DataFrame基本取值

In [None]:
# print(df)  # 較難看！

df["自然"]  # df["欄位名稱"]，給一個欄位名稱(值)。

# df

In [None]:
df[["國文", "數學", "自然"]]  # 想像只能給一個值，所以有多個欄位要顯示時，需要使用"串列"將他們括住。

# df[["自然", "國文", "數學"]]  # 也可以更改順序。


In [None]:
df[df["國文"] >= 80]  # 先算出條件測試的結果，再把測試為True的項列出來。

In [None]:
df.values

In [None]:
df.values[1]  # 先列後行！

In [None]:
df.values[1][2]  # 給列行的索引！

# print(type(df.values))
# Q: 請顯示 89 所在的索引。


## 以索引及欄位名稱取得資料：df.loc()

In [None]:
# 列行要同時給，可以寫在一起，也可以分開寫。
df.loc["林小玉", "社會"]  # 先索引，再欄位！ 或是 先列後行！

# df.loc["林小玉"]["社會"]  # 先索引，再欄位！ 或是 先列後行！

# print(type(df.loc["林小玉", "社會"]))
# Q: 順序反過來可以嗎? df.loc["社會", "林小玉"]


In [None]:
df.loc["王小明", ["國文","社會"]]  # 一列多行！

# print(type(df.loc["王小明", ["國文","社會"]]))

In [None]:
df.loc[["王小明", "李小美"], ["數學", "自然"]]  # 多列多行！

In [None]:
df.loc["王小明":"陳大同", "數學":"社會"]  # 使用 索引 range 來表示範圍。

In [None]:
df.loc["陳大同", :]

In [None]:
df.loc[:"李小美", "數學":"社會"]

In [None]:
df.loc["李小美":, "數學":"社會"]

## 以索引及欄位編號取得資料：df.iloc()

In [None]:
df.iloc[3, 4]  # 列行要同時給！
# df.iloc[3][4]  # 分開寫也可以！


In [None]:
df

In [None]:
df.iloc[0, [0, 4]]

In [None]:
df.iloc[[0, 1], [2, 3]]

In [None]:
df.iloc[0:3, 2:5]

In [None]:
df.iloc[2, :]

In [None]:
df.iloc[:2, 2:5]

In [None]:
df.iloc[1:, 2:5]

## 取得最前或最後幾列資料

In [None]:
df.head(2)  # defaultly, first 5 items

In [None]:
df.tail(2)  # defaultly, last 5 items

## DataFrame資料排序

In [None]:
df.sort_values(by="數學", ascending=False)

In [None]:
dfcopy = df.copy()
dfcopy.values[2][2] = 78

dfcopy.sort_values(by=["數學", "英文"], ascending=False)  # 只會針對第一項！

In [None]:
df

In [None]:
df.sort_index(axis=0)

## 複製原始資料

In [None]:
dfcopy = df.copy()


## DataFrame資料修改

In [None]:
df.loc["王小明"]["數學"] = 90
df


In [None]:
df.loc["王小明", :] = 80
df


## 還原 DataFrame 資料

In [None]:
df = dfcopy
df


## 刪除 DataFrame 資料

In [None]:
df.drop("王小明")  # 會把整列消去！

In [None]:
df.drop("數學", axis=1)

In [None]:
df.drop(["數學", "自然"], axis=1)

In [None]:
df.drop(df.index[1:4])

In [None]:
df.drop(df.columns[1:4], axis=1)

# Pandas 資料存取

## 讀取CSV檔案

In [None]:
import pandas as pd

# df = pd.read_csv("covid19.csv")

df = pd.read_csv("https://stats.moe.gov.tw/files/detail/112/112_student.csv")
print(df.values[0])

# df = pd.read_csv("covid19.csv", thousands=",")  # 將貨幣的三位分隔逗點移除！
df2 = df["30 臺北市" == df['縣市名稱']]
df2 = df2.groupby('學校名稱')
print(df2)

df2 = df2[['學年度', '學校名稱', '總計', '縣市名稱']]
# df2 = df[['學年度', '學校名稱', '總計', '男生計', '女生計', '縣市名稱']]
df2.head(10)
result = df2.sort_values(by='總計', ascending=False)
result.head(10)

## 讀取JSON檔案

In [None]:
import pandas as pd

df = pd.read_json('covid19.json')

# df = pd.read_json('112_student.json', encoding='utf-8-sig')

# for utf-8 with BOM, adding encoding='utf-8-sig'.
# df = pd.read_json('https://stats.moe.gov.tw/files/detail/112/112_student.json', encoding='utf-8-sig')  # for BOM UTF-8

# df['cases'] = df['cases'].str.replace(',', '').astype(int)  # 沒有 thousands 參數。

df

## 讀取Excel試算表檔案

In [None]:
import pandas as pd

df = pd.read_excel('covid19.xlsx')
df
# help(pd.read_excel)

## 讀取html網頁檔案

In [None]:
import pandas as pd

url = 'https://www.tiobe.com/tiobe-index/'
tables = pd.read_html(url, keep_default_na=False)  # 會幫我們抓回所有的 table。

tables[0].head(10)

print(tables[0])
print(type(tables[0]))
print(tables[0].iloc[0])

# for k in range(len(tables)):
#     print( tables[k].head(10) )

## 使用Pandas儲存資料

In [None]:
import pandas as pd
scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':77,'林小玉':80}}
df = pd.DataFrame(scores)
df.to_csv('scores2.csv')

# Pandas模組：繪圖應用

## 在Colab設定Matplotlib的中文顯示

In [None]:
# 下載翰字鑄造-台北黑體
!wget --content-disposition https://drive.google.com/uc?id=1eGAsTN1HBpJAkeVM57_C7ccp7hbgSz3_&export=download

## 繪製長條圖、橫條圖、堆疊圖


In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
from matplotlib.font_manager import fontManager

'''
# 加入中文字型設定：翰字鑄造-台北黑體
fontManager.addfont('TaipeiSansTCBeta-Regular.ttf')
matplotlib.rc('font', family='Taipei Sans TC Beta')
#'''

#'''
plt.rcParams["font.sans-serif"] = "DFKai-SB"  #["Microsoft JhengHei"]  # 微軟正黑體
plt.rcParams["axes.unicode_minus"] = False
#'''

df = pd.DataFrame([[250,320,300,312,280],
					[280,300,280,290,310],
					[220,280,250,305,250]], 
					index=['北部','中部','南部'], 
					columns=[2015,2016,2017,2018,2019])

g1 = df.plot(kind='bar', title='長條圖', figsize=[10,5])
g2 = df.plot(kind='barh', title='橫條圖', figsize=[10,5])
g3 = df.plot(kind='bar', stacked=True, title='堆疊圖', figsize=[10,5])

## 繪製折線圖

In [None]:
import pandas as pd
import matplotlib
from matplotlib.font_manager import fontManager

'''
# 加入中文字型設定：翰字鑄造-台北黑體
fontManager.addfont('TaipeiSansTCBeta-Regular.ttf')
matplotlib.rc('font', family='Taipei Sans TC Beta')
#'''

#'''
plt.rcParams["font.sans-serif"] = "DFKai-SB"  #["Microsoft JhengHei"]  # 微軟正黑體
plt.rcParams["axes.unicode_minus"] = False
#'''

df = pd.DataFrame([[250,320,300,312,280],
                    [280,300,280,290,310],
                    [220,280,250,305,250]], 
                    index=['北部','中部','南部'], 
                    columns=[2015,2016,2017,2018,2019])

g1 = df.iloc[0].plot(kind='line', legend=True, 
					 xticks=range(2015,2020), 
					 title='公司分區年度銷售表', 
					 figsize=[10,5])
g1 = df.iloc[1].plot(kind='line', 
					 legend=True,
					 xticks=range(2015,2020))
g1 = df.iloc[2].plot(kind='line',
					 legend=True,
					 xticks=range(2015,2019))

## 繪製圓餅圖

In [None]:
import pandas as pd
import matplotlib
from matplotlib.font_manager import fontManager

'''
# 加入中文字型設定：翰字鑄造-台北黑體
fontManager.addfont('TaipeiSansTCBeta-Regular.ttf')
matplotlib.rc('font', family='Taipei Sans TC Beta')
#'''

#'''
plt.rcParams["font.sans-serif"] = "DFKai-SB"  #["Microsoft JhengHei"]  # 微軟正黑體
plt.rcParams["axes.unicode_minus"] = False
#'''

df = pd.DataFrame([[250,320,300,312,280],
                   [280,300,280,290,310],
                   [220,280,250,305,250]],
                  index=['北部','中部','南部'],
                  columns=[2015,2016,2017,2018,2019])

df.plot(kind='pie', subplots=True, figsize=[20,20])

# Pandas資料清洗

## 查詢空值：isnull()


In [None]:
import pandas as pd
# 讀取資料
df = pd.read_csv('customer.csv')
# 空值的處理
print('各個欄位有空值的狀況:')
print(df.isnull().sum())
print('有空值的記錄筆數:', df.isnull().any(axis=1).sum())
print('有空值的欄位數:', df.isnull().any(axis=0).sum())
print('age欄有空值的記錄:')
print(df[df['age'].isnull()])

## 空欄填值：fillna()

### 填入0

In [None]:
# 將age的空值填入0
df_sample = df.copy()
df_sample['age'] = df_sample['age'].fillna(value=0)
df_sample.head()

### 填入平均值

In [None]:
# 將age的空值填入平均值
df_sample = df.copy()
df_sample['age'] = df_sample['age'].fillna(
                    value=df_sample['age'].mean())
df_sample.head()

### 前值往下填或後值往前填

In [None]:
# 以前一個值往下填ffill或後一個值往上填bfill
df_sample['gender'] = df_sample['gender'].fillna(method='ffill')
df_sample['area'] = df_sample['area'].fillna(method='ffill')
df_sample.head()

### 刪除空值資料：dropna()

In [None]:
# 刪除不完整的資料
df.dropna()

## 去除重複資料

In [None]:
# 去除重複的記錄
df_sample.drop_duplicates(subset='id', keep='first', inplace=True)
df_sample.head()

## 資料內容的置換

In [None]:
# 去除欄位中的空白
df_sample['job'] = df_sample['job'].str.strip()
df_sample['job'] = df_sample['job'].str.replace(' ', '')
df_sample.head()

## 調整資料的格式

In [None]:
# 轉換值的格式
df_sample['age'] = df_sample['age'].astype('int32')
df_sample.head()

# Pandas資料篩選、分組運算

## Pandas資料篩選

### 設定欄位條件式

In [None]:
# 篩選女性的資料
df_sample[(df_sample['gender'] == 'Female')]

### 設定多個條件式

In [None]:
# 篩選男性且大於50歲的資料
print(df_sample[(df_sample['gender'] == 'Male')
		& (df_sample['age'] > 50)])

# 篩選住在新北市三重區或基隆市中正區的資料
print(df_sample[(df_sample['area'] == '新北市三重區')
		| (df_sample['area'] == '基隆市中正區')])

## Pandas資料分組運算

### 分組運算：groupby()

In [None]:
#客戶中男女生的平均年齡
df_sample.groupby('gender')['age'].mean()

In [None]:
#客戶中住各區的人數
df_sample.groupby('area')['id'].count()

### 彙總統計：agg()

In [None]:
#客戶中男女生的平均年齡、最年長及最年輕的年齡
df_sample.groupby('gender')['age'].agg(['mean', 'max', 'min'])