
## Series

Series是一種一維的陣列資料結構,在這個陣列內可以存放整數、浮點數、字串、Python物件(例如:字串list、字典dist…)、Numpy的ndarray,約量,…等。雖然是一維陣列資料,可是看起來卻好像是二維陣列資料,因為一個是索引(index)或稱標籤(label),另一個是實際的資料。

Series結構與 Python的list類似,不過程式設計師可以為Series的每個元素自行命名索引。可以使用pandas.Series()建立Series物件,語法如下:
```
pandas.Series(data=None, index=None, dtype=None, name=None, options, ... )
```

下列章節實例,因為用下列指令導入pandas:
```
import pasdas as pd
```

所以可用pd.Series()取代上述的pandas.Series()。

In [9]:
import pandas as pd

s1 = pd.Series([11, 22, 33, 44, 55])
print(s1)
s1[1] = 20
print(f"修改後 s1={s1}")

0    11
1    22
2    33
3    44
4    55
dtype: int64
修改後 s1=0    11
1    20
2    33
3    44
4    55
dtype: int64


In [10]:
import pandas as pd

s = pd.Series([30, 50, 40], index=['Orange', 'Apple', 'Grape'])
print(f"{s.values}")
print(f"{s.index}")

[30 50 40]
Index(['Orange', 'Apple', 'Grape'], dtype='object')


In [8]:
import pandas as pd

s6 = pd.Series(9, index=[1, 2, 3])
print(f"{s6}")

1    9
2    9
3    9
dtype: int64


### 使用 Python字典 dict 建立 Series物件

如果我們使用Python的字典建立Series物件時,字典的鍵(key)就會被視為Series物件的索引,字典鍵的值(value)就會被視為Series物件的值。


In [4]:
import pandas as pd

mydict = {'北京':'Beijing', '東京':'Tokyo'}
s2 = pd.Series(mydict)
print(f"{s2}")

北京    Beijing
東京      Tokyo
dtype: object


### 使用Numpy的ndarray 建立 Series物件

In [5]:
import pandas as pd
import numpy as np

s3 = pd.Series(np.arange(0, 7, 2))
print(f"{s3}")

0    0
1    2
2    4
3    6
dtype: int32


### 自訂索引

In [6]:
import pandas as pd

myindex = [3, 5, 7]
price = [100, 200, 300]
s4 = pd.Series(price, index=myindex)
print(f"{s4}")

3    100
5    200
7    300
dtype: int64


In [18]:
fruits = ['Orange', 'Apple', 'Grape']
price = [30, 50, 40]
s5 = pd.Series(price, index=fruits)
print(f"{s5}")
print(f"{s5['Orange']}")


Orange    30
Apple     50
Grape     40
dtype: int64
30


### Series運算

In [17]:
import pandas as pd

s = pd.Series([0, 1, 2, 3, 4, 5])
# 切片
# print(f"s[2:4] = \n{s[2:4]}")
# print(f"s[:3] = \n{s[:3]}")
# print(f"s[2:] = \n{s[2:]}")
# print(f"s[-1:] = \n{s[-1:]}")

# 物件相加
x = pd.Series([1, 2])
y = pd.Series([3, 4])
print("物件相加")
print(f"{x + y}")

print("物件相乘")
print(f"{x * y}")

print("邏輯運算")
x = pd.Series([1, 5, 9])
y = pd.Series([2, 4, 8])
print(f"{x > y}")

物件相加
0    4
1    6
dtype: int64
物件相乘
0    3
1    8
dtype: int64
邏輯運算
0    False
1     True
2     True
dtype: bool


## DataFrame 
DataFrame 是一種二維的陣列資料結構,邏輯上而言可以視為是類似Excel的工作表,在這個二維陣列內可以存放整數、浮點數、字串、Python物件(例如:字串list、字典dist…)、Numpy的ndarray,純量,…等。

可以使用 DataFrame()建立DataFrame物件,語法如下:
```
pandas.DataFrame(data=None,index=None,dtype=None,name=None)
```



我們可以使用組合Series物件成為二維陣列的DataFrame。組合的方式是使用pancas.concat([Series1, Series2, ... ], axis=0) .預設axis是0

- axis=0 是直的
- axis=1 是橫的


In [19]:
import pandas as pd
years = range(2020, 2023)
beijing = pd.Series([20, 21, 19], index = years)
hongkong = pd.Series([25, 26, 27], index = years)
singapore = pd.Series([30, 29, 31], index = years)
citydf = pd.concat([beijing, hongkong, singapore])  # 預設axis=0
print(type(citydf))
print(citydf)

<class 'pandas.core.series.Series'>
2020    20
2021    21
2022    19
2020    25
2021    26
2022    27
2020    30
2021    29
2022    31
dtype: int64


In [20]:
import pandas as pd
years = range(2020, 2023)
beijing = pd.Series([20, 21, 19], index = years)
hongkong = pd.Series([25, 26, 27], index = years)
singapore = pd.Series([30, 29, 31], index = years)
citydf = pd.concat([beijing, hongkong, singapore], axis=1)  # 預設axis=0
print(type(citydf))
print(citydf)

<class 'pandas.core.frame.DataFrame'>
       0   1   2
2020  20  25  30
2021  21  26  29
2022  19  27  31


### col屬性(直的)

In [21]:
import pandas as pd
years = range(2020, 2023)
beijing = pd.Series([20, 21, 19], index = years)
hongkong = pd.Series([25, 26, 27], index = years)
singapore = pd.Series([30, 29, 31], index = years)
citydf = pd.concat([beijing,hongkong,singapore],axis=1)  # axis=1
cities = ["Beijing", "HongKong", "Singapore"]
citydf.columns = cities
print(citydf)

      Beijing  HongKong  Singapore
2020       20        25         30
2021       21        26         29
2022       19        27         31


Series物件有name屬性,我們可以在建立物件時,在Series()內建立此屬性,也可以物件建立好了後再設定此屬性,如果有name屬性,在列印Series物件時就可以看到此屬性。

In [22]:
import pandas as pd

beijing = pd.Series([20, 21, 19], name='Beijing')
print(beijing)

0    20
1    21
2    19
Name: Beijing, dtype: int64


In [23]:
import pandas as pd
years = range(2020, 2023)
beijing = pd.Series([20, 21, 19], index = years)
hongkong = pd.Series([25, 26, 27], index = years)
singapore = pd.Series([30, 29, 31], index = years)
beijing.name = "Beijing"
hongkong.name = "HongKong"
singapore.name = "Singapore"
citydf = pd.concat([beijing, hongkong, singapore],axis=1)  
print(citydf)

      Beijing  HongKong  Singapore
2020       20        25         30
2021       21        26         29
2022       19        27         31


### 使用字典建立dataFrame

In [24]:
import pandas as pd
cities = {'country':['China','Japan','Singapore'],
          'town':['Beijing','Tokyo','Singapore'],
          'population':[2000, 1600, 600]}
citydf = pd.DataFrame(cities)
print(citydf)


     country       town  population
0      China    Beijing        2000
1      Japan      Tokyo        1600
2  Singapore  Singapore         600


### 更改index屬性

In [25]:
import pandas as pd
cities = {'country':['China','Japan','Singapore'],
          'town':['Beijing','Tokyo','Singapore'],
          'population':[2000, 1600, 600]}
rowindex = ['first', 'second', 'third']
citydf = pd.DataFrame(cities, index=rowindex)
print(citydf)

          country       town  population
first       China    Beijing        2000
second      Japan      Tokyo        1600
third   Singapore  Singapore         600


In [26]:
import pandas as pd
cities = {'country':['China', 'Japan', 'Singapore'],
          'town':['Beijing','Tokyo','Singapore'],
          'population':[2000, 1600, 600]}
citydf = pd.DataFrame(cities,columns=["town","population"],
                      index=cities["country"])
print(citydf)

                town  population
China        Beijing        2000
Japan          Tokyo        1600
Singapore  Singapore         600


## 基本Pandas 資料分析與處理

Series和DataFrame 物件建立完成後,下一步就是執行資料分析與處理,Pandas提供許多函數或方法,使用者可以針對此執行許多資料分析與處理

In [28]:
import pandas as pd
cities = {'Country':['Taiwan','Taiwan','Thailand','Japan','Singapore'],
          'Town':['Taipei','Tainan','Bangkok','Tokyo','Singapore'],
          'Population':[2000, 2300, 900, 1600, 600]}
df = pd.DataFrame(cities, columns=["Town","Population"],
                  index=cities["Country"])
print(df)


                Town  Population
Taiwan        Taipei        2000
Taiwan        Tainan        2300
Thailand     Bangkok         900
Japan          Tokyo        1600
Singapore  Singapore         600


### 索引取值

In [37]:
import pandas as pd
cities = {'Country':['Taiwan','Taiwan','Thailand','Japan','Singapore'],
          'Town':['Taipei','Tainan','Bangkok','Tokyo','Singapore'],
          'Population':[2000, 2300, 900, 1600, 600]}
df = pd.DataFrame(cities, columns=["Town","Population"],
                  index=cities["Country"])
print(df["Town"])
print()
print(df["Town"]["Thailand"])
print()
print(df["Population"]>1000)

Taiwan          Taipei
Taiwan          Tainan
Thailand       Bangkok
Japan            Tokyo
Singapore    Singapore
Name: Town, dtype: object

Bangkok

Taiwan        True
Taiwan        True
Thailand     False
Japan         True
Singapore    False
Name: Population, dtype: bool


### 四則運算方法

下列是適用Pandas的四則運算方法。
```
add():加法運算。
sub():減法運算。
mul():乘法運算。
div():除法運算。
```

In [41]:
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
x = s1.add(s2)
print(x)

y = s1.sub(s2)
print(y)

data1 = [{'a':10, 'b':20}, {'a':30, 'b':40}]
df1 = pd.DataFrame(data1)
data2 = [{'a':1, 'b':2}, {'a':3, 'b':4}]
df2 = pd.DataFrame(data2)                            
print(df1.mul(df2))
print(df1.div(df2))


0    5
1    7
2    9
dtype: int64
0   -3
1   -3
2   -3
dtype: int64
    a    b
0  10   40
1  90  160
      a     b
0  10.0  10.0
1  10.0  10.0


### 邏輯運算方法

下列是適用Pandas的邏輯運算方法。

- gt()、It():大於、小於運算。
- ge()、le():大於或等於、小於或等於運算。
- eq()、ne():等於、不等於運算。

In [42]:
import pandas as pd

s1 = pd.Series([1, 5, 9])
s2 = pd.Series([2, 4, 8])
x = s1.gt(s2)
print(x)

y = s1.eq(s2)
print(y)

0    False
1     True
2     True
dtype: bool
0    False
1    False
2    False
dtype: bool


### numpy應用在pandas

In [43]:
import pandas as pd
import numpy as np

s = pd.Series([1, 2, 3])
x = np.square(s)
print(x)


0    1
1    4
2    9
dtype: int64


In [44]:
import pandas as pd
import numpy as np
name = ['Frank', 'Peter', 'John']
score = ['first', 'second', 'final']
df = pd.DataFrame(np.random.randint(60,100,size=(3,3)),
                  columns=name,
                  index=score)
print(df)

        Frank  Peter  John
first      80     96    98
second     65     81    88
final      75     93    84



## NaN 相關的運算

在大數據的資料收集中常常因為執行者疏忽,漏了收集某一時間的資料,這些可用NaN代替。在先前四則運算我們沒有對NaN的值做運算實例,其實凡與NaN做運算,所獲得的結果也是 NaN。

In [45]:
import pandas as pd
import numpy as np

s1 = pd.Series([1, np.nan, 5])
s2 = pd.Series([np.nan, 6, 8])
x = s1.add(s2)
print(x)


0     NaN
1     NaN
2    13.0
dtype: float64


### 處理NaN

- dropna():將NaN刪除,然後傳回新的Series或DataFrame物件。
- fillna(value):將NaN由特定value值取代,然後傳回新的Series或DataFrame物件。
- isna():判斷是否為NaN,如果是傳回True,如果否傳回False。
- notna():判斷是否為NaN,如果是傳回False,如果否傳回True。

In [46]:
# isna()跟notna()應用
import pandas as pd
import numpy as np

df = pd.DataFrame([[1, 2, 3],[4, np.nan, 6],[7, 8, np.nan]])
print(df)
print("-"*70)
x = df.isna()
print(x)
print("-"*70)
y = df.notna()
print(y)

   0    1    2
0  1  2.0  3.0
1  4  NaN  6.0
2  7  8.0  NaN
----------------------------------------------------------------------
       0      1      2
0  False  False  False
1  False   True  False
2  False  False   True
----------------------------------------------------------------------
      0      1      2
0  True   True   True
1  True  False   True
2  True   True  False


In [48]:
# 在NaN填0
import pandas as pd
import numpy as np

df = pd.DataFrame([[1, 2, 3],[4, np.nan, 6],[7, 8, np.nan]])
z = df.fillna(0)
print(z)


   0    1    2
0  1  2.0  3.0
1  4  0.0  6.0
2  7  8.0  0.0


In [57]:
# 刪除NaN的row
import pandas as pd
import numpy as np

df = pd.DataFrame([[1, 2, 3],[4, np.nan, 6],[7, 8, np.nan]])
x = df.dropna(axis=0)
print(x)


   0    1    2
0  1  2.0  3.0


In [56]:
# 刪除NaN的col
import pandas as pd
import numpy as np

df = pd.DataFrame([[1, 2, 3],[4, np.nan, 6],[7, 8, np.nan]])
x = df.dropna(axis=1)
print(x)

   0
0  1
1  4
2  7


## 幾個簡單的統計函數

- cummax(axis=None):傳回指定軸累積的最大值。
- cummin(axis=None):傳回指定軸累積的最小值,
- cumsum(axis=None):傳回指定轴累積的總和。
- max(axis=None):傳回指定軸的最大值。
- min(axis=None):傳回指定軸的最小值。
- sum(axis=None):傳回指定軸的總和。
- mean(axis=None):傳回指定軸的平均數。
- median(axis=None):傳回指定朝的中位數。
- std(axis=None):傳回指定軸的標準差。



In [19]:
import pandas as pd
cities = {'Country':['China','China','Thailand','Japan','Singapore'],
          'Town':['Beijing','Shanghai','Bangkok','Tokyo','Singapore'],
          'Population':[2000, 2300, 900, 1600, 600]}
df = pd.DataFrame(cities, columns=["Town","Population"],
                  index=cities["Country"])
print(df)
print()


print('人口總計 ', df['Population'].sum())
print('最多人口數 ', df['Population'].max())
print('最少人口數 ', df['Population'].min())
print()

df['累積人口總計'] = df['Population'].cumsum()
print(df)


                Town  Population
China        Beijing        2000
China       Shanghai        2300
Thailand     Bangkok         900
Japan          Tokyo        1600
Singapore  Singapore         600

人口總計  7400
最多人口數  2300
最少人口數  600

                Town  Population  累積人口總計
China        Beijing        2000    2000
China       Shanghai        2300    4300
Thailand     Bangkok         900    5200
Japan          Tokyo        1600    6800
Singapore  Singapore         600    7400


In [35]:
import pandas as pd

course = ['Chinese','English','Math','Natural','Society']
name = ["A", "B", "C", "D", "E"]
chinese = [14, 12, 13, 10, 13]
eng = [13, 14, 11, 10, 15]
math = [15, 9, 12, 8, 15]
nature = [15, 10, 13, 10, 15]
social = [12, 11, 14, 9, 14]

df = pd.DataFrame([chinese, eng, math, nature, social],
                  columns = course,
                  index = name
                )

print(df)
print()

# 計算一個 DataFrame (df) 中前五行每一行的總和
total = [df.iloc[i].sum() for i in range(0, 5)]
df["總和"]= total

# 計算平均
ave = df.mean()
df.loc['Average'] = ave
# df.loc['Total'] = total # 將總和加入到 DataFrame 中
print(df)

# 如果要刪除index
df = df.drop(index='Average')
df = df.drop(columns="總和")
print(df)




   Chinese  English  Math  Natural  Society
A       14       12    13       10       13
B       13       14    11       10       15
C       15        9    12        8       15
D       15       10    13       10       15
E       12       11    14        9       14

         Chinese  English  Math  Natural  Society    總和
A           14.0     12.0  13.0     10.0     13.0  62.0
B           13.0     14.0  11.0     10.0     15.0  63.0
C           15.0      9.0  12.0      8.0     15.0  59.0
D           15.0     10.0  13.0     10.0     15.0  63.0
E           12.0     11.0  14.0      9.0     14.0  60.0
Average     13.8     11.2  12.6      9.4     14.4  61.4
   Chinese  English  Math  Natural  Society
A     14.0     12.0  13.0     10.0     13.0
B     13.0     14.0  11.0     10.0     15.0
C     15.0      9.0  12.0      8.0     15.0
D     15.0     10.0  13.0     10.0     15.0
E     12.0     11.0  14.0      9.0     14.0


## 處裡排序

In [37]:
import pandas as pd

course = ['Chinese','English','Math','Natural','Society']
chinese = [14, 12, 13, 10, 13]
eng = [13, 14, 11, 10, 15]
math = [15, 9, 12, 8, 15]
nature = [15, 10, 13, 10, 15]
social = [12, 11, 14, 9, 14]

df = pd.DataFrame([chinese, eng, math, nature, social],
                  columns = course,
                  index = range(1,6))
total = [df.iloc[i].sum() for i in range(0, 5)]
df['Total'] = total

# 依據總分排序
df = df.sort_values(by='Total', ascending=False)
df["排名"] = range(1,6)
print(df)

   Chinese  English  Math  Natural  Society  Total  排名
2       13       14    11       10       15     63   1
4       15       10    13       10       15     63   2
1       14       12    13       10       13     62   3
5       12       11    14        9       14     60   4
3       15        9    12        8       15     59   5


In [41]:
import pandas as pd

course = ['Chinese','English','Math','Natural','Society']
chinese = [14, 12, 13, 10, 13]
eng = [13, 14, 11, 10, 15]
math = [15, 9, 12, 8, 15]
nature = [15, 10, 13, 10, 15]
social = [12, 11, 14, 9, 14]

df = pd.DataFrame([chinese, eng, math, nature, social],
                  columns = course,
                  index = range(1,6))
total = [df.iloc[i].sum() for i in range(0, 5)]
df['Total'] = total

df = df.sort_values(by='Total', ascending=False)
df = df.sort_index() # 依據index排序

rank = range(1, 6)
df['Ranking'] = rank
print(df)


   Chinese  English  Math  Natural  Society  Total  Ranking
1       14       12    13       10       13     62        1
2       13       14    11       10       15     63        2
3       15        9    12        8       15     59        3
4       15       10    13       10       15     63        4
5       12       11    14        9       14     60        5


## 讀取與輸出excel檔案

Pandas可以使用to_excel()將DataFrame物件寫入Excel檔案,它的語法如下:
```
to_excel(path=None, header=True, index=True, encoding=None,startrow=n, startcol=n,...)
```
- path:檔案路徑(名稱)。
- header:是否保留columns,預設是True。
- index:是否保留index,預設是True。
- encoding:檔案編碼方式。
- startrow:起始列。
- startcol:起始欄。

In [2]:
import pandas as pd

items = ['軟體','書籍','國際證照']
Jan = [200, 150, 80]
Feb = [220, 180, 100]
March = [160, 200, 110]
April = [100, 120, 150]
df = pd.DataFrame([Jan, Feb, March, April],
                  columns = items,
                  index = range(1,5))

print(df)
df.to_excel("./output file/pandas輸出.xlsx")
# df.to_excel("./output file/pandas輸出.xlsx", header=False, index=False)

    軟體   書籍  國際證照
1  200  150    80
2  220  180   100
3  160  200   110
4  100  120   150


Pandas可以使用read_excel()讀取Excel檔案,它的語法如下:
```
read_excel(excel_writei=None, sheet_name=None, names=None, header=True,index_col=None, names=None, encoding=None,userows=None, usecols=None, ... )
```
- excel_writer:檔案路徑(名稱)。
- sheet_name:工作表名稱。
- header:設定哪一row為欄位標籤,預設是0。當參數有names時,此為None。如果所讀取的檔案有欄位標籤時,就需設定此header值。
- index_col:指出第幾欄位column是索引,預設是None。
- names:如果header=0時,可以設定欄位標籤。
- encoding:檔案編碼方式。
- nrows:設定讀取前幾row。
- skiprows:跳過幾列。
- usecols:設定讀取那幾欄位,例如:“B:E"。

In [8]:
import pandas as pd

x = pd.read_excel("./input file/pandas讀取示範.xlsx",index_col=0)
print(x)
print("-"*70)



    軟體   書籍  國際證照
1  200  150    80
2  220  180   100
3  160  200   110
4  100  120   150
----------------------------------------------------------------------


In [20]:
import pandas as pd
items = ['軟體','書籍','國際證照11']

y = pd.read_excel("./input file/pandas讀取示範.xlsx",names=items)
print(y) # 會發現說。諄文字沒對其
print("-"*40)

pd.set_option('display.unicode.east_asian_width', True)
y = pd.read_excel("./input file/pandas讀取示範.xlsx",names=items)
print(y) 

   軟體  書籍  國際證照11
1   200   150          80
2   220   180         100
3   160   200         110
4   100   120         150
----------------------------------------
   軟體  書籍  國際證照11
1   200   150          80
2   220   180         100
3   160   200         110
4   100   120         150


## 選擇不同工作表

In [25]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
x = pd.read_excel("./input file/3C連鎖賣場業績表.xlsx",sheet_name="台北店", skiprows=2, usecols="B:F")
print(x)

  3C連鎖賣場業績表 Unnamed: 2 Unnamed: 3 Unnamed: 4 Unnamed: 5
0             產品     第一季     第二季     第三季     第四季
1           iPhone      88000      78000      82000      92000
2             iPad      50000      52000      55000      60000
3           iWatch      50000      55000      53500      58000


## 使用info() 輸出基本資料

In [26]:
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/customer.xlsx",index_col=0)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 150 entries, A1 to A448
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   性別      150 non-null    object
 1   學歷      150 non-null    object
 2   年收入     150 non-null    int64 
 3   年齡      150 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 5.9+ KB
None


## 輸出列術數欄位數

In [28]:
import pandas as pd

df = pd.read_excel("./input file/customer.xlsx",index_col=0)
print(f"(列數, 欄數) = {df.shape}")

(列數, 欄數) = (150, 4)


## 輸出前後資料

In [27]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/customer.xlsx",index_col=0)
print("輸出前 3 筆資料")
print(df.head(3))
print("-"*70)
print("輸出前 5 筆資料")
print(df.head())
print("-"*70)
print("輸出後 5 筆資料")
print(df.tail())

輸出前 3 筆資料
         性別  學歷  年收入  年齡
客戶編號                         
A1         男  大學     120    35
A4         男  碩士      88    28
A7         女  大學      59    29
----------------------------------------------------------------------
輸出前 5 筆資料
         性別  學歷  年收入  年齡
客戶編號                         
A1         男  大學     120    35
A4         男  碩士      88    28
A7         女  大學      59    29
A10        女  大學     105    37
A13        男  高中      65    43
----------------------------------------------------------------------
輸出後 5 筆資料
         性別  學歷  年收入  年齡
客戶編號                         
A436       女  大學      50    32
A439       女  大學      48    30
A442       男  碩士      65    37
A445       女  大學      70    41
A448       女  大學      90    48


## 輸出記數

In [29]:
import pandas as pd

df = pd.read_excel("./input file/customer.xlsx",index_col=0)
print("輸出各學歷人數")
print(df['學歷'].value_counts())
print("輸出各學歷占比")
print(df['學歷'].value_counts(normalize=True))

輸出各學歷人數
學歷
大學    84
碩士    34
高中    16
博士    16
Name: count, dtype: int64
輸出各學歷占比
學歷
大學    0.560000
碩士    0.226667
高中    0.106667
博士    0.106667
Name: proportion, dtype: float64


## 更改列欄所引

In [37]:
import pandas as pd

df = pd.read_excel("./input file/customer.xlsx",index_col=0)
df.columns = ["性別", "學歷", "月收入", "年齡"]
df.index = [i for i in range(1, len(df) + 1)]
print(df)

    性別  學歷  月收入  年齡
1     男  大學     120    35
2     男  碩士      88    28
3     女  大學      59    29
4     女  大學     105    37
5     男  高中      65    43
..   ...   ...     ...   ...
146   女  大學      50    32
147   女  大學      48    30
148   男  碩士      65    37
149   女  大學      70    41
150   女  大學      90    48

[150 rows x 4 columns]


## 缺失值處理

In [31]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/缺失值處理.xlsx",skiprows=2,usecols="B:F")
print(df)
print("-"*70)
print(df.isnull())

# 填入0.0
df1 = df.fillna(0.0)
print(df1)
df1.to_excel(excel_writer="./output file/缺失值處理補0.xlsx",index=False)

# 刪除缺失值


   姓名  一月    二月    三月   總計
0  李偉  4560  5152.0  6014.0  15726
1  張靜  8864     NaN  7842.0  16706
2  王磊  4234  8045.0  7098.0  19377
3  陳麗  7799  5435.0     NaN  13234
4  劉翔  9040  8048.0  5098.0  22186
----------------------------------------------------------------------
    姓名   一月   二月   三月   總計
0  False  False  False  False  False
1  False  False   True  False  False
2  False  False  False  False  False
3  False  False  False   True  False
4  False  False  False  False  False
   姓名  一月    二月    三月   總計
0  李偉  4560  5152.0  6014.0  15726
1  張靜  8864     0.0  7842.0  16706
2  王磊  4234  8045.0  7098.0  19377
3  陳麗  7799  5435.0     0.0  13234
4  劉翔  9040  8048.0  5098.0  22186


In [32]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/缺失值處理.xlsx",skiprows=2,usecols="B:F")
print(df.dropna())

   姓名  一月    二月    三月   總計
0  李偉  4560  5152.0  6014.0  15726
2  王磊  4234  8045.0  7098.0  19377
4  劉翔  9040  8048.0  5098.0  22186


## 處理重複資料
函數 drop_duplicates()可以刪除重複的資料列,此函數語法如下:
```
drop_duplicates(subset=None, keep='first', inplace=False)
```
上述個參數意義如下:
- subset:只考慮處理某些列。
- keep:預設是first,表示保存第一個出現的列項目,其他刪除。
- implace:是否將重複像放在適當位置或是回傳副本。

In [34]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/重複列範例.xlsx",skiprows=2,usecols="B:F")
print(df.drop_duplicates())


     姓名  一月    二月    三月   總計
0    李偉  4560  5152.0  6014.0  15726
1    張靜  9040  8048.0  5098.0  22186
2    王磊  8864     NaN  7842.0  16706
3    陳麗  4560  5152.0  6014.0  15726
4    劉翔  4234  8045.0  7098.0  19377
5  王終生  7799  5435.0     NaN  13234


## 篩選欄列資料

In [47]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/customer.xlsx",
                #    skiprows=2,
                #    usecols="B:H"
                   )

# print(df)
print()
print(df[['性別','學歷']])
print()
print(df.iloc[3:6])
print()
print("設定年齡")
print(df[df['年齡'] > 20])

# 相關應用
# print(df[df['部門'] == '表演組'])
# print(df[df['到職日期'] > datetime.datetime(1993,6,1)])


    性別  學歷
0     男  大學
1     男  碩士
2     女  大學
3     女  大學
4     男  高中
..   ...   ...
145   女  大學
146   女  大學
147   男  碩士
148   女  大學
149   女  大學

[150 rows x 2 columns]

  客戶編號 性別  學歷  年收入  年齡
3      A10   女  大學     105    37
4      A13   男  高中      65    43
5      A16   女  碩士      70    27

設定年齡
    客戶編號 性別  學歷  年收入  年齡
0         A1   男  大學     120    35
1         A4   男  碩士      88    28
2         A7   女  大學      59    29
3        A10   女  大學     105    37
4        A13   男  高中      65    43
..       ...  ...   ...     ...   ...
145     A436   女  大學      50    32
146     A439   女  大學      48    30
147     A442   男  碩士      65    37
148     A445   女  大學      70    41
149     A448   女  大學      90    48

[150 rows x 5 columns]


## pandas相關應用

In [48]:
# 國人旅遊統計查看是否增長
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/國人出國旅遊統計表.xlsx",
                   skiprows=2,usecols="B:E")

df['增長'] = df['2022年'] > df['2021年']
print(df)

     地區   2021年   2022年   增長
0    日本  2005400  2100008   True
1    韓國   860089   900886   True
2    香港  1280231  1120334  False
3  新加坡  1780075  1800931   True


In [49]:
# 正常高血壓定義是收縮壓大於140,舒張壓大於90,這個題目是列出測試者的收縮壓與舒張壓,然後列出是否有高血壓。
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/血壓測試表.xlsx",
                   skiprows=2,usecols="B:E")


data1 = df['收縮壓'] > 140
print(data1)
data2 = df['舒張壓'] > 90
print(data2)
df['高血壓'] = data1 & data2
print(df)

0    False
1    False
2     True
3    False
4     True
Name: 收縮壓, dtype: bool
0    False
1    False
2     True
3    False
4    False
Name: 舒張壓, dtype: bool
  考生姓名  收縮壓  舒張壓  高血壓
0   陳嘉文     120      80   False
1   李欣欣      98      60   False
2   張家宜     150     100    True
3     陳浩     130      90   False
4   王鐵牛     170      85   False


In [51]:
# 業績運算
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/助教業績表.xlsx",
                   skiprows=2,usecols="B:E")

df['總計'] = df['一月'] + df['二月']
df['月平均'] = df['總計'] / 2.0
print(df)

     姓名  一月  二月   總計  月平均
0  李生時  4560  5152   9712  4856.0
1  章藝文  8864  3728  12592  6296.0
2  張鐵橋  4234  8045  12279  6139.5
3  王終生  7799  5435  13234  6617.0
4  周華元  9040  8048  17088  8544.0


In [53]:
# 計算銷售排名
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/百貨公司產品銷售.xlsx",
                   skiprows=2,usecols="B:E")

df = df.sort_values(by='銷售數量',ascending=False)
rank = range(1,7)
df['排名'] = rank
print(df)
print("-"*70)
df = df.sort_index()
print(df)

  產品編號    名稱  銷售數量  排名
1     A003    口紅        72     1
0     A001    香水        56     2
5     D002    領帶        50     3
4     C003  西裝褲        41     4
3     C001    襯衫        32     5
2     B004    皮鞋        27     6
----------------------------------------------------------------------
  產品編號    名稱  銷售數量  排名
0     A001    香水        56     2
1     A003    口紅        72     1
2     B004    皮鞋        27     6
3     C001    襯衫        32     5
4     C003  西裝褲        41     4
5     D002    領帶        50     3


In [54]:
# 累積來客數
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel("./input file/超商來客數.xlsx",
                   skiprows=2,usecols="B:D")

df['累計來客數'] = df['來客數'].cumsum()
print(df)


        日期  來客數  累計來客數
0 2022-01-01     113         113
1 2022-01-02     121         234
2 2022-01-03      98         332
3 2022-01-04     109         441
4 2022-01-05     144         585
