In [1]:
#Series運用
'''Series為Pandas的一維資料結構，有index；而DataFrame為為Pandas的二維資料結構，有index和columns。
若多個Series有相同的index時就可組成DataFrame，也可以說DataFrame是由多個Series組成的。
Series: One-dimensional ndarray with axis labels (including time series).
透過pd.Series()可建立一新Series。其中參數可加入data資料來源，可為array-like, iterable(可重複讀取/可用for迴圈一筆一筆抓的，如list), dict或scalar value；
參數index可為array-like或index(一維)，可指定index的值，預設為從0開始的整數值。注意：該參數的長度需與Series的資料長度相同。'''

##建立Series
import pandas as pd

series1 = pd.Series([4.5,7.2,-5.3,3.6])  #建立Series
display(series1)  #index從0開始
display(series1[0])  #利用subscript[index]取值

series2 = pd.Series([4.5,7.2,-5.3,3.6], index = ['d','b','a','c'])  #建立Series；指定index值
display(series2)
display(series2['d'])  #利用subscript[index]取值，注意：此Series有指定index，則要用該指定index來取值，而不能用預設的整數值來取值
display(series2['d':'c'])  ##利用subscript[slice]取值，注意：含起始值以及結束值


0    4.5
1    7.2
2   -5.3
3    3.6
dtype: float64

4.5

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

4.5

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [20]:
##重新排序
'''可透過Series物件名稱.reindex()來重新排序資料獲選取特定資料，為一method。
Series.reindex(): Conform Series to new index with optional filling logic. 其中可加入參數index來指定重新排序的順序。
注意：此方法為將index和其data一起重新排序，而非僅重新排序index，而使index的data值有所改變。
注意：此方法為產生一全新的Series，而非改變原本的Series，故要用變數去接收較為恰當。
另外，Series中的data值是由Numpy陣列(ndarray)所組成的，該陣列本身並無索引(index)及欄位(column)，而是被Series包裹之後才有index。
因此，可對Series中的data值進行ndarray適用的function, method, attribute及propoerty等。
如可透過Series物件名稱.values該ndarray取值方式來取Series裡面的data值，為一property，會回傳一ndarray或ndarray-like；
Series物件名稱.to_list()唯一method，可將Series的data值轉為list，會回傳一ndarray或ndarray-like等。'''

display(series2)
display(series2.reindex(['a','b','c','d']))  #重新排序後的結果index以及其原對應的值不會改變
display(series2.reindex(['a','b']))  #選取想要的index和其data值
display(series2.values)  #取data值(依序)，執行結果為array([...])，由此可知data值為ndarray。注意：reindex為傳回一全新的Series，故series2的index順序依舊是原本的dbac
display(series2)  #原Series不變
display(series2.to_list())  #將Series的data值轉為list

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

a   -5.3
b    7.2
c    3.6
d    4.5
dtype: float64

a   -5.3
b    7.2
dtype: float64

array([ 4.5,  7.2, -5.3,  3.6])

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

[4.5, 7.2, -5.3, 3.6]

In [1]:
##ndarray與Series運用
'''可透過np.arange(stop)來建立一新ndarray，為一function，其中也可加入參數start及step來指定起始值及間隔值。
np.arange(stop): Return evenly spaced values within a given interval.
可透過np.reshape(欲改變的array, newshape)來改變該array的維度(row及column數)，為一method，其中參數newshape可為int或tuple of ints。
np.reshape(欲改變的array,newshape): Gives a new shape to an array without changing its data.
注意：指定的newshape長度需與data長度相同。'''

import numpy as np
import pandas as pd

series3 = np.arange(9)  #建立ndarray，會產生一0到8的一維ndarray實體(沒有索引沒有欄位)
display(series3)
display(series3.reshape(3,3))  #改變series3中data值的shape至二維(沒有索引沒有欄位)
dataFrame1 = pd.DataFrame(series3.reshape(3,3), index = ['a','b','c'], columns = ["台北","台中","高雄"])  
#透過給定index和columns結合上面的ndarray來產生一新DataFrame，如此就可為ndarray建立索引及欄位了。注意：index和columns值的長度須符合該ndarray的shape
display(dataFrame1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Unnamed: 0,台北,台中,高雄
a,0,1,2
b,3,4,5
c,6,7,8


In [2]:
##利用subscript[]取值
'''DataFrame可透過subscript[]來取值，注意：該方法取出來的質為整欄的值，故[]裡面放的索引值須為column名。
注意：若只取一欄的值，可直接將該column名寫進[]來取值，會回傳一Series；若想取多欄的值，可在[]加入list[]，即可寫入多個columns，會回傳DataFrame。
若是想取一列row的值，則可用DataFrame物件名稱.iloc[]/loc[]該property來取值，
其中.iloc[]是透過索引編號來取值，故[]內要寫入索引編號；而.loc[]是透過index值來取值，故[]內要寫入index值。
注意：此兩種方法取一列和多列的方式和上面取column值的方法相同。'''

display(dataFrame1["台北"])  #回傳Series
display(dataFrame1[["台北","台中"]])  #回傳DataFrame
display(dataFrame1.iloc[0])  #回傳Series
display(dataFrame1.loc['a'])  #回傳Series
display(dataFrame1.loc[['a','b']])  #回傳DataFrame

a    0
b    3
c    6
Name: 台北, dtype: int64

Unnamed: 0,台北,台中
a,0,1
b,3,4
c,6,7


台北    0
台中    1
高雄    2
Name: a, dtype: int64

台北    0
台中    1
高雄    2
Name: a, dtype: int64

Unnamed: 0,台北,台中,高雄
a,0,1,2
b,3,4,5


In [4]:
#資料處理--index及columns
##將csv檔轉為DataFrame
'''若原始資料為csv檔，可透過pd.read_csv(filepath_or_buffer)該function來將csv檔直接轉為DataFrame，
而不用像以前一樣先將csv檔的資料讀取出來轉為python的二維list，再將其轉為DataFrame。
其中參數filepath_or_buffer可為str, path object or file-like object。
pandas.read_csv(filepath_or_buffer): Read a comma-separated values (csv) file into DataFrame.'''

import pandas as pd

dataFrame2 = pd.read_csv("各鄉鎮市區人口密度.csv", skiprows = 1)  
#將csv檔轉為DataFrame；忽略第一列(skiprows: int, list of int or Callable 可指定要忽略第幾行)。系統會自動將(忽略第一列後的)第一列設為欄位名稱
display(dataFrame2)
display(dataFrame2.index)  #為一property，可查詢該DataFrame的index
display(dataFrame2.columns)  #為一property，可查詢該DataFrame的column

Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度
0,106.0,新北市板橋區,551480,23.1373,23835
1,106.0,新北市三重區,387484,16.3170,23747
2,106.0,新北市中和區,413590,20.1440,20532
3,106.0,新北市永和區,222585,5.7138,38956
4,106.0,新北市新莊區,416524,19.7383,21102
...,...,...,...,...,...
370,,,,,
371,,說明：1.人口密度係指每單位土地面積內之人口數。,,,
372,,2.96年12月起，我國土地面積增列東沙群島(2.38平方公里)及南沙群島(0.4896平方公里),,,
373,,，由高雄市代管；原金門縣烏坵鄉面積，因重測由2.6平方公里修正為1.2平方公里。,,,


RangeIndex(start=0, stop=375, step=1)

Index(['統計年', '區域別', '年底人口數', '土地面積', '人口密度'], dtype='object')

In [6]:
##過濾資料
'''可透過DataFrame物件名稱.drop()來刪除特定的欄或列，唯一method，
其中可加入參數index: single label or list-like = .../columns: single label or list-like = ...來指定刪除的列/欄，其中...可為index或sequence。
pandas.DataFrame.drop(): Drop specified labels from rows or columns.
Remove rows or columns by specifying label names and corresponding axis, or by directly specifying index or column names. 
When using a multi-index, labels on different levels can be removed by specifying the level
可透過DataFrame物件名稱.reindex()來選取特定的欄或列，唯一method，
可加入參數index = .../columns = ...來指定選取的列/欄，其中...可為array-like。
注意：此兩種方法為產生一全新的DataFrame，而非改變原本的DataFrame，故要用變數去接收較為恰當。'''

dataFrame3 = dataFrame2.drop(index = [370,371,372,373,374])  #透過索引編號刪除指定的列
display(dataFrame3)
dataFrame4 = dataFrame3.reindex(columns = ["區域別","年底人口數","土地面積","人口密度"])  #選取特定欄位
display(dataFrame4)

Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度
0,106.0,新北市板橋區,551480,23.1373,23835
1,106.0,新北市三重區,387484,16.3170,23747
2,106.0,新北市中和區,413590,20.1440,20532
3,106.0,新北市永和區,222585,5.7138,38956
4,106.0,新北市新莊區,416524,19.7383,21102
...,...,...,...,...,...
365,106.0,連江縣北竿鄉,2360,9.9000,238
366,106.0,連江縣莒光鄉,1624,4.7000,346
367,106.0,連江縣東引鄉,1352,3.8000,356
368,106.0,東沙群島,…,2.3800,…


Unnamed: 0,區域別,年底人口數,土地面積,人口密度
0,新北市板橋區,551480,23.1373,23835
1,新北市三重區,387484,16.3170,23747
2,新北市中和區,413590,20.1440,20532
3,新北市永和區,222585,5.7138,38956
4,新北市新莊區,416524,19.7383,21102
...,...,...,...,...
365,連江縣北竿鄉,2360,9.9000,238
366,連江縣莒光鄉,1624,4.7000,346
367,連江縣東引鄉,1352,3.8000,356
368,東沙群島,…,2.3800,…


In [8]:
##資料處理
dataFrame4.index = dataFrame4["區域別"]  
#pandas.DataFrame.index --> pandas.Index(the index labels of the DataFrame): The index (row labels) of the DataFrame. 改變index值(將index值指定給index)
dataFrame5 = dataFrame4.drop(columns = "區域別")
display(dataFrame5)
dataFrame5.loc[["新北市中和區","新北市永和區","新北市新莊區"]]  #以row取值

Unnamed: 0_level_0,年底人口數,土地面積,人口密度
區域別,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
新北市板橋區,551480,23.1373,23835
新北市三重區,387484,16.3170,23747
新北市中和區,413590,20.1440,20532
新北市永和區,222585,5.7138,38956
新北市新莊區,416524,19.7383,21102
...,...,...,...
連江縣北竿鄉,2360,9.9000,238
連江縣莒光鄉,1624,4.7000,346
連江縣東引鄉,1352,3.8000,356
東沙群島,…,2.3800,…


Unnamed: 0_level_0,年底人口數,土地面積,人口密度
區域別,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
新北市中和區,413590,20.144,20532
新北市永和區,222585,5.7138,38956
新北市新莊區,416524,19.7383,21102


In [9]:
#資料處理--data值
'''可先透過DataFrame物件名稱.info()該method來查詢該DataFrame有關index和column的資訊。
DataFrame.info(): Print a concise summary of a DataFrame. This method prints information about a DataFrame
including the index dtype and columns, non-null values and memory usage.
查詢結果中若要進行運算之data值的dtype為object則無法進行數學運算，
故需將這些欄/列的data值轉為可運算的數值型態，並要同時處理缺失值(NaN或...)。
可透過Series.map(arg)該method來執行以上操作，map該方法可對Series進行逐元素的操作，不論是用dict或function進行映射，
map方法都是把對應的數據逐個當作參數傳入到dict或function中，得到映射後的值，會回傳Series。
其中參數arg: Mapping correspondence. 可為function, collections.abc.Mapping subclass or Series。
Series.map(arg) --> Series: Map values of Series according to an input mapping or function. Used for substituting each value 
in a Series with another value, that may be derived from a function, a dict or a Series.
另外DataFrame也有類似的method可用。pandas.DataFrame.map(func) --> DataFrame: Apply a function to a Dataframe elementwise.
This method applies a function that accepts and returns a scalar to every element of a DataFrame. 
其中參數func須為callable: Python function, returns a single value from a single value. '''

def toEval(value:str) -> int|float:  #自訂一將object型態的值轉換為數值型態的function
    try:
        newValue = eval(value)
    except:
        newValue = 0
    return newValue

dataFrame3.info()
dataFrame3["年底人口數"] = dataFrame3["年底人口數"].map(toEval)  #注意：此處的toEval作用為註冊(執行該function)而非呼叫，故不需要加()
dataFrame3["人口密度"] = dataFrame3["人口密度"].map(toEval)
display(dataFrame3)
dataFrame3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 370 entries, 0 to 369
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   統計年     370 non-null    float64
 1   區域別     370 non-null    object 
 2   年底人口數   370 non-null    object 
 3   土地面積    370 non-null    float64
 4   人口密度    370 non-null    object 
dtypes: float64(2), object(3)
memory usage: 14.6+ KB


Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度
0,106.0,新北市板橋區,551480,23.1373,23835
1,106.0,新北市三重區,387484,16.3170,23747
2,106.0,新北市中和區,413590,20.1440,20532
3,106.0,新北市永和區,222585,5.7138,38956
4,106.0,新北市新莊區,416524,19.7383,21102
...,...,...,...,...,...
365,106.0,連江縣北竿鄉,2360,9.9000,238
366,106.0,連江縣莒光鄉,1624,4.7000,346
367,106.0,連江縣東引鄉,1352,3.8000,356
368,106.0,東沙群島,0,2.3800,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 370 entries, 0 to 369
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   統計年     370 non-null    float64
 1   區域別     370 non-null    object 
 2   年底人口數   370 non-null    int64  
 3   土地面積    370 non-null    float64
 4   人口密度    370 non-null    int64  
dtypes: float64(2), int64(2), object(1)
memory usage: 14.6+ KB


In [31]:
##取值
dataFrame4 = dataFrame3.iloc[:5]  #以row取值
display(dataFrame4)
display(dataFrame4[[True,True,False,True,False]])  #用bool取值(只輸出True的資料值)
display(dataFrame4["年底人口數"] > 400000)  #用比較運算子查詢，會回傳bool，注意：若沒有將object轉為可運算的數值則無法進行比較
dataFrame4[dataFrame4["年底人口數"] > 400000]  #用比較運算子取值(為True即可取值)，注意：若沒有將object轉為可運算的數值則無法進行比較

Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度,縣市
0,106.0,新北市板橋區,551480,23.1373,23835,新北市
1,106.0,新北市三重區,387484,16.317,23747,新北市
2,106.0,新北市中和區,413590,20.144,20532,新北市
3,106.0,新北市永和區,222585,5.7138,38956,新北市
4,106.0,新北市新莊區,416524,19.7383,21102,新北市


Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度,縣市
0,106.0,新北市板橋區,551480,23.1373,23835,新北市
1,106.0,新北市三重區,387484,16.317,23747,新北市
3,106.0,新北市永和區,222585,5.7138,38956,新北市


0     True
1    False
2     True
3    False
4     True
Name: 年底人口數, dtype: bool

Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度,縣市
0,106.0,新北市板橋區,551480,23.1373,23835,新北市
2,106.0,新北市中和區,413590,20.144,20532,新北市
4,106.0,新北市新莊區,416524,19.7383,21102,新北市


In [28]:
##Series的統計運用
'''Pandas.Series中提供了許多統計計算的method，如Series.max()/.min()/.mean()可查詢該Series的最大值/最小值/平均值等。'''

display(dataFrame3["年底人口數"].max())
display(dataFrame3["年底人口數"].min())
display(dataFrame3["年底人口數"].mean())

551480

0

63706.01891891892

In [32]:
##新增column
def getCity(value:str) -> str:
    if len(value) > 4:
        return value[:3]
    else:
        return value

display(dataFrame3["區域別"])
display(dataFrame3["區域別"].map(getCity))
dataFrame3["縣市"] = dataFrame3["區域別"].map(getCity)
display(dataFrame3)

0      新北市板橋區
1      新北市三重區
2      新北市中和區
3      新北市永和區
4      新北市新莊區
        ...  
365    連江縣北竿鄉
366    連江縣莒光鄉
367    連江縣東引鄉
368      東沙群島
369      南沙群島
Name: 區域別, Length: 370, dtype: object

0       新北市
1       新北市
2       新北市
3       新北市
4       新北市
       ... 
365     連江縣
366     連江縣
367     連江縣
368    東沙群島
369    南沙群島
Name: 區域別, Length: 370, dtype: object

Unnamed: 0,統計年,區域別,年底人口數,土地面積,人口密度,縣市
0,106.0,新北市板橋區,551480,23.1373,23835,新北市
1,106.0,新北市三重區,387484,16.3170,23747,新北市
2,106.0,新北市中和區,413590,20.1440,20532,新北市
3,106.0,新北市永和區,222585,5.7138,38956,新北市
4,106.0,新北市新莊區,416524,19.7383,21102,新北市
...,...,...,...,...,...,...
365,106.0,連江縣北竿鄉,2360,9.9000,238,連江縣
366,106.0,連江縣莒光鄉,1624,4.7000,346,連江縣
367,106.0,連江縣東引鄉,1352,3.8000,356,連江縣
368,106.0,東沙群島,0,2.3800,0,東沙群島


In [30]:
#作業
import pandas as pd

dataFrame1 = pd.read_csv("上市公司資料.csv")
dataFrame2 = dataFrame1.reindex(columns = ["產業別","營業收入-當月營收","營業收入-上月營收"])
dataFrame2.columns = ["產業別","當月營收","上月營收"]
# dataFrame2.index = dataFrame1["公司名稱"]
display(dataFrame2)

Unnamed: 0,產業別,當月營收,上月營收
0,水泥工業,7069221,7864622
1,水泥工業,390053,326691
2,水泥工業,478276,557403
3,水泥工業,176935,134470
4,食品工業,38696,29503
...,...,...,...
834,其他,352730,349111
835,觀光事業,212912,197756
836,其他,179660,231139
837,其他,81881,85625
