In [1]:
#引入套件
import pandas as pd

In [2]:
#讀取並檢視107年的資料
year_107 = pd.read_excel("y0sg-00000.xls", sheet_name="107", header=None)

In [3]:
year_107

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,各縣市人口結婚和離婚對數及結婚和離婚率按性別及結婚次數分,,,,,,,,,,,,,,
1,,,,,,,中 華 民 國 107 年,,,,,,,,
2,,,,,,按發生日期統計,,,,,,,,單位：對；‰；人,
3,,結 婚,,,,,,,,,,離 婚,,,
4,區 域 別,結婚對數,粗結婚率,初婚人 數,,初婚率,,再 婚 人 數,,再婚率,,離婚對數,粗離婚率,每千有偶人口離婚率,
5,,,（‰）,男,女,男,女,男,女,男,女,,（‰）,男,女
6,總 計,135322,5.74,113343,112474,29.61,34.82,21979,22848,20.49,11.34,54402,2.31,10.42,10.57
7,新 北 市,23925,5.99,20051,20014,29.9,34.2,3874,3911,22.14,11.55,9763,2.45,11.46,11.15
8,臺 北 市,15152,5.66,13034,13298,33.83,34.46,2118,1854,22.02,8.72,5554,2.08,9.17,8.91
9,桃 園 市,14544,6.6,12019,11821,34.39,41.46,2525,2723,26.92,15.38,5976,2.71,12.45,12.3


檢視107年的資料後，我們有以下幾點發現：
1. 表頭和表尾充滿NaN值
2. 刪除含有NaN值的資料列，並不會影響統計值
3. 欄位名稱沒有對齊欄位

因此接下來我們會針對上列3個問題進行處理

In [4]:
#先定義欄位名稱
column_names = ["區域別","結婚對數","粗結婚率","男初婚人數","女初婚人數","男初婚率","女初婚率","男再婚人數","女再婚人數","男再婚率","女再婚率","離婚對數","粗離婚率","每千有偶人口男離婚率","每千有偶人口女離婚率"]

In [5]:
combined = pd.DataFrame() #建立空的Dataframe，用於整併所有年份的資料

for year in range(96, 108): #資料包含民國96年至107年的統計值
    marriage_by_year = pd.read_excel("y0sg-00000.xls", sheet_name=str(year)) #分別讀取個年份的資料
    marriage_by_year.dropna(inplace=True) #刪除含有NaN值的列
    marriage_by_year.columns = column_names #調整欄位名稱
    marriage_by_year['年份'] = year #新增年份欄位，以識別資料來源
    combined = combined.append(marriage_by_year, sort=False) #將整理好的資料合併到combined

In [6]:
#檢視combined
combined

Unnamed: 0,區域別,結婚對數,粗結婚率,男初婚人數,女初婚人數,男初婚率,女初婚率,男再婚人數,女再婚人數,男再婚率,女再婚率,離婚對數,粗離婚率,每千有偶人口男離婚率,每千有偶人口女離婚率,年份
4,總 計,131851,5.8,110508,115121,31,39.3,21343,16730,27.1,11.2,58410,2.5,11.4,11.8,96
5,臺灣地區,131363,5.8,110128,114696,31,39.3,21235,16667,27.1,11.2,58282,2.6,11.4,11.8,96
6,臺 灣 省,107958,5.8,90750,94241,31.2,40.6,17208,13717,26.6,11.4,47822,2.6,11.4,11.9,96
7,臺北縣,23450,6.2,19749,20555,31.7,38.9,3701,2895,30.3,12.5,10681,2.8,13.3,13.1,96
8,宜蘭縣,2406,5.2,1995,2064,28.5,37.7,411,342,24.5,10.6,1104,2.4,10.3,11.2,96
9,桃園縣,12161,6.3,9904,10428,34.5,45.5,2257,1733,36.5,15.2,5961,3.1,14.2,14.4,96
10,新竹縣,3262,6.6,2760,2807,40.9,55.4,502,455,30.3,15.9,1263,2.6,10.8,11.6,96
11,苗栗縣,3174,5.7,2638,2782,31.2,43.6,536,392,26,10.9,1325,2.4,9.9,11.1,96
12,臺中縣,8979,5.8,7728,7980,31.7,41.1,1251,999,27,11.6,3659,2.4,10.7,11,96
13,彰化縣,7240,5.5,6350,6555,31.4,41.4,890,685,23.5,9,2421,1.8,7.8,8.4,96


檢視完合併的資料集，我們發現「區域別」欄位包含不恰當的值，需要進一步檢視

In [7]:
#統計各區越的出現次數
combined["區域別"].value_counts().sort_index()

南  投  縣       9
南投縣           3
嘉  義  市       9
嘉  義  縣       9
嘉義市           3
嘉義縣           3
基  隆  市       9
基隆市           3
宜  蘭  縣       9
宜蘭縣           3
屏  東  縣       9
屏東縣           3
彰  化  縣       9
彰化縣           3
新  北  市       9
新  竹  市       9
新  竹  縣       9
新竹市           3
新竹縣           3
桃  園  市       5
桃  園  縣       4
桃園縣           3
澎  湖  縣       9
澎湖縣           3
福  建  省       9
福 建 省         3
總       計     3
總　 　計         9
臺  中  市       9
臺  北  市       9
臺  南  市       9
臺  東  縣       9
臺  灣  省      12
臺 北 市         3
臺中市           3
臺中縣           3
臺北縣           3
臺南市           3
臺南縣           3
臺東縣           3
臺灣地區          3
花  蓮  縣       9
花蓮縣           3
苗  栗  縣       9
苗栗縣           3
連  江  縣       9
連江縣           3
金  門  縣       9
金門縣           3
雲  林  縣       9
雲林縣           3
高  雄  市       9
高 雄 市         3
高雄縣           3
Name: 區域別, dtype: int64

首先，我們發現區域名稱包含空白，因此我們先刪除名稱中的空白

In [8]:
combined["區域別"] = combined["區域別"].str.replace(" ", "")
combined["區域別"].value_counts().sort_index()

南投縣     12
嘉義市     12
嘉義縣     12
基隆市     12
宜蘭縣     12
屏東縣     12
彰化縣     12
新北市      9
新竹市     12
新竹縣     12
桃園市      5
桃園縣      7
澎湖縣     12
福建省     12
總　　計     9
總計       3
臺中市     12
臺中縣      3
臺北市     12
臺北縣      3
臺南市     12
臺南縣      3
臺東縣     12
臺灣地區     3
臺灣省     12
花蓮縣     12
苗栗縣     12
連江縣     12
金門縣     12
雲林縣     12
高雄市     12
高雄縣      3
Name: 區域別, dtype: int64

接著，我們發現3個問題：
1. 臺北縣和桃園縣已經升格為市，所以應該調整名稱
2. 「總  計」中間的空白尚未刪除
3. 部分行政區域已經廢止，應該予以排除

那麼我們就分別上列3個問題進行處理

In [9]:
#調整名稱
combined["區域別"] = combined["區域別"].str.replace("臺北縣","新北市")
combined["區域別"] = combined["區域別"].str.replace("桃園縣","桃園市")

#清除空白
combined["區域別"] = combined["區域別"].str.replace("總　　計","總計")

#篩選掉已經廢止行政區域
combined = combined[~combined["區域別"].isin(["高雄縣","臺灣地區","臺南縣","臺中縣", "臺灣省"])]

#再次印出各區域的出現次數
combined["區域別"].value_counts().sort_index()

南投縣    12
嘉義市    12
嘉義縣    12
基隆市    12
宜蘭縣    12
屏東縣    12
彰化縣    12
新北市    12
新竹市    12
新竹縣    12
桃園市    12
澎湖縣    12
福建省    12
總計     12
臺中市    12
臺北市    12
臺南市    12
臺東縣    12
花蓮縣    12
苗栗縣    12
連江縣    12
金門縣    12
雲林縣    12
高雄市    12
Name: 區域別, dtype: int64

In [10]:
#顯示資料筆數，確定比數正確(24個行政區域 * 12年份資料 = 288筆資料)
combined.shape

(288, 16)

接著我們來檢視資料型態

In [11]:
combined.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 288 entries, 4 to 29
Data columns (total 16 columns):
區域別           288 non-null object
結婚對數          288 non-null object
粗結婚率          288 non-null object
男初婚人數         288 non-null object
女初婚人數         288 non-null object
男初婚率          288 non-null object
女初婚率          288 non-null object
男再婚人數         288 non-null object
女再婚人數         288 non-null object
男再婚率          288 non-null object
女再婚率          288 non-null object
離婚對數          288 non-null object
粗離婚率          288 non-null object
每千有偶人口男離婚率    288 non-null object
每千有偶人口女離婚率    288 non-null object
年份            288 non-null int64
dtypes: int64(1), object(15)
memory usage: 38.2+ KB


我們發現許多欄位應該為數值型態，目前卻是文字型態，需要進行調整

In [12]:
#依資料分成整數及小數組
integer_columns = ["結婚對數", "男初婚人數", "女初婚人數", "男再婚人數", "女再婚人數", "離婚對數", "年份"]
float_columns = ["粗結婚率","男初婚率","女初婚率","男再婚率","女再婚率","粗離婚率","每千有偶人口男離婚率","每千有偶人口女離婚率"]

#調整為整數型態
for column in integer_columns:
    combined[column] = combined[column].astype("int")

#調整為小數型態
for column in float_columns:
    combined[column] = combined[column].astype("float")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # This is added back by InteractiveShellApp.init_path()


In [13]:
#再次印出欄位的資料型態
combined.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 288 entries, 4 to 29
Data columns (total 16 columns):
區域別           288 non-null object
結婚對數          288 non-null int32
粗結婚率          288 non-null float64
男初婚人數         288 non-null int32
女初婚人數         288 non-null int32
男初婚率          288 non-null float64
女初婚率          288 non-null float64
男再婚人數         288 non-null int32
女再婚人數         288 non-null int32
男再婚率          288 non-null float64
女再婚率          288 non-null float64
離婚對數          288 non-null int32
粗離婚率          288 non-null float64
每千有偶人口男離婚率    288 non-null float64
每千有偶人口女離婚率    288 non-null float64
年份            288 non-null int32
dtypes: float64(8), int32(7), object(1)
memory usage: 30.4+ KB


In [14]:
#顯示各欄位的簡單統計值
combined.describe()

Unnamed: 0,結婚對數,粗結婚率,男初婚人數,女初婚人數,男初婚率,女初婚率,男再婚人數,女再婚人數,男再婚率,女再婚率,離婚對數,粗離婚率,每千有偶人口男離婚率,每千有偶人口女離婚率,年份
count,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0,288.0
mean,11683.850694,5.738507,9837.208333,9948.635417,29.8325,37.844097,1846.642361,1735.215278,23.347604,11.727569,4533.409722,2.246875,9.966146,10.545799,101.5
std,28274.984625,0.8068,23845.079878,24108.298773,5.510717,6.263711,4439.717946,4191.430357,5.210318,2.258879,10945.420736,0.43431,2.465367,2.268988,3.458061
min,43.0,3.66,28.0,37.0,17.7,27.3,7.0,5.0,12.44,7.2,8.0,0.8,2.8,4.3,96.0
25%,1676.25,5.22,1391.5,1386.25,25.7975,33.525,353.5,296.75,19.4975,10.145,811.5,2.075,8.63,9.5225,98.75
50%,3053.5,5.66,2590.0,2601.5,28.87,37.0,489.0,473.5,22.665,11.395,1250.0,2.3,10.235,10.665,101.5
75%,10452.75,6.245,8713.5,8707.25,33.3075,41.485,1529.75,1591.75,27.0,12.975,4086.5,2.5,11.7125,11.64,104.25
max,165305.0,8.5,141072.0,142819.0,50.67,62.2,24233.0,23594.0,38.2,19.18,58410.0,3.1,14.84,15.93,107.0


到此，這個資料集已經整理完成，可以開始分析了。但本專案專注在資料整理上，因此先告一段落<br>
以下提出幾個可以進一步釐清的疑點：
1. 女生初婚人數和比率為什麼比男生多?
2. 男生再婚人數和比率為什麼又比女生多?
3. 究竟哪個縣市的結/離婚率最高/低?