# 香蕉交易價格
- 了解香蕉主要交易市場為哪幾個地方

In [1]:
import pandas as pd
import re

In [2]:
df_price = pd.read_csv("../data/farmproduct_banana_crawler.csv",  encoding="utf8", usecols=[0,1,2,3,4,5,6,8])
df_price.head()

Unnamed: 0,日期,市場,產品,上價,中價,下價,平均價(元/公斤),交易量(公斤)
0,100/01/01,104 台北二,A1 香蕉,35.0,32.1,25.6,31.4,9645
1,100/01/02,104 台北二,A1 香蕉,35.1,33.1,25.8,32.0,12230
2,100/01/04,104 台北二,A1 香蕉,35.8,33.1,27.0,32.4,11976
3,100/01/05,104 台北二,A1 香蕉,36.5,33.9,27.8,33.2,7520
4,100/01/06,104 台北二,A1 香蕉,38.2,35.5,28.9,34.7,8160


### 資料基本情報

In [3]:
df_price["市場"].unique()

array(['104 台北二  ', '109 台北一  ', '220 板橋區', '241 三重區', '260 宜蘭市',
       '338 桃\u3000農', '400 台中市  ', '420 豐原區', '423 東勢區', '600 嘉義市',
       '800 高雄市', '830 鳳山區', '930 台東市', 'A1 香蕉  '], dtype=object)

In [4]:
df_price.dtypes

日期            object
市場            object
產品            object
上價           float64
中價           float64
下價           float64
平均價(元/公斤)     object
交易量(公斤)       object
dtype: object

In [5]:
df_price.columns

Index(['日期', '市場', '產品', '上價', '中價', '下價', '平均價(元/公斤)', '交易量(公斤)'], dtype='object')

### 修正＆刪去不必要資料

In [6]:
#df_price.drop(columns=["Unnamed: 0"], inplace=True)
df_price = df_price.loc[~(df_price["市場"] == "A1 香蕉  ")] # 髒資料 => 排除市場為香蕉的異常row

In [7]:
# 欄位去除空白值
target_cols = ['市場', '產品', '平均價(元/公斤)', '交易量(公斤)']
df_price[target_cols] = df_price[target_cols].apply(lambda x: x.str.strip(" "))

In [8]:
df_price.loc[(df_price["市場"] == "338 桃\u3000農"), "市場"] = "338 桃農"

### 轉換資料型態

In [9]:
df_price

Unnamed: 0,日期,市場,產品,上價,中價,下價,平均價(元/公斤),交易量(公斤)
0,100/01/01,104 台北二,A1 香蕉,35.0,32.1,25.6,31.4,9645
1,100/01/02,104 台北二,A1 香蕉,35.1,33.1,25.8,32,12230
2,100/01/04,104 台北二,A1 香蕉,35.8,33.1,27.0,32.4,11976
3,100/01/05,104 台北二,A1 香蕉,36.5,33.9,27.8,33.2,7520
4,100/01/06,104 台北二,A1 香蕉,38.2,35.5,28.9,34.7,8160
...,...,...,...,...,...,...,...,...
31689,110/06/08,930 台東市,A1 香蕉,28.0,18.3,12.0,20.7,3115
31690,110/06/09,930 台東市,A1 香蕉,28.0,18.3,12.0,21.2,2885
31691,110/06/10,930 台東市,A1 香蕉,24.0,16.8,11.0,18.7,3885
31692,110/06/11,930 台東市,A1 香蕉,26.0,18.3,13.0,20.7,4522


In [10]:
df_price.dtypes

日期            object
市場            object
產品            object
上價           float64
中價           float64
下價           float64
平均價(元/公斤)     object
交易量(公斤)       object
dtype: object

In [11]:
# 民國轉成西元
df_price["日期"] = df_price["日期"].apply(lambda x: re.sub("\d{3}", "{}".format((int(x.split("/")[0]) + 1911)), x))

In [13]:
# object -> numeric
target_cols = ['平均價(元/公斤)', '交易量(公斤)']
df_price[target_cols] = df_price[target_cols].apply(pd.to_numeric)

In [14]:
# object -> datetime
df_price["日期"] = df_price["日期"].astype("datetime64")

In [15]:
df_price.dtypes

日期           datetime64[ns]
市場                   object
產品                   object
上價                  float64
中價                  float64
下價                  float64
平均價(元/公斤)           float64
交易量(公斤)               int64
dtype: object

In [16]:
# 清理完後放入，cleaned data區
df_price.to_csv("cleaned data/價格_全國香蕉交易資料(初步清洗).csv", index=False)

### 觀察哪個市場交易量最大，最具參考性 => 台中

In [17]:
# 粗淺地groupy各市場歷年交易量總和 => 發現台中市獨佔鰲頭
df_price.groupby("市場").agg({"交易量(公斤)":"sum"}).sort_values("交易量(公斤)", ascending=False)

Unnamed: 0_level_0,交易量(公斤)
市場,Unnamed: 1_level_1
400 台中市,98946562
109 台北一,64851863
241 三重區,58371868
104 台北二,41543316
830 鳳山區,27701450
420 豐原區,15670654
800 高雄市,11969933
220 板橋區,10649034
600 嘉義市,6568129
260 宜蘭市,4708040


In [18]:
# 進一步分析每年每個市場總量，由此可知，台中都是交易量最大的市場
df_price["Year"] = df_price["日期"].dt.year                   # 創建一個Year欄位來當groupby鍵值
df_price.groupby(["Year", "市場"]).agg({"交易量(公斤)":"sum"}) # to_csv -> 可轉成csv檔進一步了解

Unnamed: 0_level_0,Unnamed: 1_level_0,交易量(公斤)
Year,市場,Unnamed: 2_level_1
2011,104 台北二,3579867
2011,109 台北一,6342297
2011,241 三重區,5499918
2011,400 台中市,10111923
2011,423 東勢區,634
...,...,...
2021,423 東勢區,810
2021,600 嘉義市,482200
2021,800 高雄市,549969
2021,830 鳳山區,1869650


In [19]:
# 2020年
df_2020 = df_price.loc[df_price["Year"] == 2020]
df_2020.groupby("市場").agg({"交易量(公斤)":sum}).sort_values(by="交易量(公斤)", ascending=False)

Unnamed: 0_level_0,交易量(公斤)
市場,Unnamed: 1_level_1
400 台中市,9019166
109 台北一,5690500
241 三重區,5621448
104 台北二,3343499
220 板橋區,2613040
420 豐原區,2442040
830 鳳山區,1547130
800 高雄市,1291457
600 嘉義市,1058800
260 宜蘭市,701700


In [20]:
df_2020.sum()["交易量(公斤)"]

33903674