In [2]:
import pandas as pd

## Series 是一維的資料陣列

#### pd.Series(資料[, index=索引])
#### 資料可以是list, tuple, dictionary或numpy的陣列，index參數可選填，預設為整數串列

In [3]:
se = pd.Series([1,2,3,4])
se

0    1
1    2
2    3
3    4
dtype: int64

In [4]:
print(se.values)

[1 2 3 4]


In [5]:
# 從0開始，停在4，每次增加1
print(se.index)

RangeIndex(start=0, stop=4, step=1)


### 使用Dictionary

In [6]:
import pandas as pd

dict1 = {'a':100,'b':200,'c':300}
se = pd.Series(dict1)
print(se)

a    100
b    200
c    300
dtype: int64


In [7]:
print(se.index)

Index(['a', 'b', 'c'], dtype='object')


In [8]:
print(se.values)

[100 200 300]


### Series取值

In [9]:
se = pd.Series([1,2,3,4,5])
print(se[3])

4


In [10]:
# 印出2~4
print(se[1:4])

1    2
2    3
3    4
dtype: int64


### 使用二維串列建立DataFrame

In [11]:
import numpy as np


list1 = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])
list1 = list1.reshape((4,5))

df = pd.DataFrame(list1,
                  index=["小明","小花","小白","小東"],
                  columns=["國文","英文","數學","社會","自然"])
df

Unnamed: 0,國文,英文,數學,社會,自然
小明,1,2,3,4,5
小花,6,7,8,9,10
小白,11,12,13,14,15
小東,16,17,18,19,20


In [12]:
df.values

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20]])

In [13]:
df.index

Index(['小明', '小花', '小白', '小東'], dtype='object')

### =====================================================================

In [17]:
import pandas as pd
scores = {'國文':{'小明':10,'阿花':11,'阿貓':12,'小王':13,'阿狗':14},
          '數學':{'小明':20,'阿花':21,'阿貓':22,'小王':23,"阿狗":24},
          '自然':{'小明':30,'阿花':31,'阿貓':32,'小王':33,"阿狗":34},
          '社會':{'小明':40,'阿花':41,'阿貓':42,'小王':43,"阿狗":44}
          }
print(scores)

{'國文': {'小明': 10, '阿花': 11, '阿貓': 12, '小王': 13, '阿狗': 14}, '數學': {'小明': 20, '阿花': 21, '阿貓': 22, '小王': 23, '阿狗': 24}, '自然': {'小明': 30, '阿花': 31, '阿貓': 32, '小王': 33, '阿狗': 34}, '社會': {'小明': 40, '阿花': 41, '阿貓': 42, '小王': 43, '阿狗': 44}}


In [18]:
df = pd.DataFrame(scores)
df

Unnamed: 0,國文,數學,自然,社會
小明,10,20,30,40
阿花,11,21,31,41
阿貓,12,22,32,42
小王,13,23,33,43
阿狗,14,24,34,44


### 利用Series建立DataFrame

In [25]:
# df4.py
import pandas as pd

#一維
se1 = pd.Series({'王小明':65,'李小美':90,'陳大同':81,'林小玉':79})
se2 = pd.Series({'王小明':92,'李小美':72,'陳大同':85,'林小玉':53})
se3 = pd.Series({'王小明':78,'李小美':76,'陳大同':91,'林小玉':47})
se4 = pd.Series({'王小明':83,'李小美':93,'陳大同':89,'林小玉':94})
se5 = pd.Series({'王小明':70,'李小美':56,'陳大同':94,'林小玉':80})
#二維
df = pd.DataFrame({'國文':se1,'英文':se2,'數學':se3,'自然':se4,'社會':se5})
print(df)

     國文  英文  數學  自然  社會
王小明  65  92  78  83  70
李小美  90  72  76  93  56
陳大同  81  85  91  89  94
林小玉  79  53  47  94  80


### 使用concat函數合併Series物件

In [28]:
# df5.py
import pandas as pd

#一維
se1 = pd.Series({'王小明':65,'李小美':90,'陳大同':81,'林小玉':79})
se2 = pd.Series({'王小明':92,'李小美':72,'陳大同':85,'林小玉':53})
se3 = pd.Series({'王小明':78,'李小美':76,'陳大同':91,'林小玉':47})
se4 = pd.Series({'王小明':83,'李小美':93,'陳大同':89,'林小玉':94})
se5 = pd.Series({'王小明':70,'李小美':56,'陳大同':94,'林小玉':80})
df = pd.concat([se1,se2,se3,se4,se5],axis=1)
print(df)
df.columns=['國文','英文','數學','自然','社會']
print(df)

      0   1   2   3   4
王小明  65  92  78  83  70
李小美  90  72  76  93  56
陳大同  81  85  91  89  94
林小玉  79  53  47  94  80
     國文  英文  數學  自然  社會
王小明  65  92  78  83  70
李小美  90  72  76  93  56
陳大同  81  85  91  89  94
林小玉  79  53  47  94  80


### DataFrame基本取值-以欄位名稱取值

In [29]:
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [30]:
df["自然"]

王小明    83
李小美    93
陳大同    89
林小玉    94
Name: 自然, dtype: int64

In [32]:
# 兩個以上使用串列 ["第一個","第二個",....]
df[["英文","自然"]]

Unnamed: 0,英文,自然
王小明,92,83
李小美,72,93
陳大同,85,89
林小玉,53,94


In [35]:
# 加入條件
df[df["國文"]>= 80]

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
陳大同,81,85,91,89,94


### 以values屬性取得資料

In [36]:
df.values

array([[65, 92, 78, 83, 70],
       [90, 72, 76, 93, 56],
       [81, 85, 91, 89, 94],
       [79, 53, 47, 94, 80]])

In [42]:
df.values[0]

array([65, 92, 78, 83, 70])

In [43]:
df.values[0][1]

92

In [51]:
print(df.values,end='\n\n')
print(df.values[0],end='\n\n')
print(df.values[0][1])

[[65 92 78 83 70]
 [90 72 76 93 56]
 [81 85 91 89 94]
 [79 53 47 94 80]]

[65 92 78 83 70]

92


### 以索引及欄位名稱取得資料：loc
#### 比較數值的索引方便
#### df.loc["索引名稱","欄位名稱"]

In [52]:
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [54]:
df.loc["王小明","數學"]

78

### 取得多個索引名稱或欄位名稱項目的資料
#### 使用串列

In [56]:
df.loc[["王小明","李小美"],["數學","社會"]]

Unnamed: 0,數學,社會
王小明,78,70
李小美,76,56


In [57]:
df.loc[["陳大同"],["國文","數學","社會"]]

Unnamed: 0,國文,數學,社會
陳大同,81,91,94


In [58]:
# 索引與欄位皆可使用:表示範圍
df.loc["王小明":"陳大同","英文":"自然"]

Unnamed: 0,英文,數學,自然
王小明,92,78,83
李小美,72,76,93
陳大同,85,91,89


In [59]:
df.loc[["王小明","陳大同"],"英文":"自然"]

Unnamed: 0,英文,數學,自然
王小明,92,78,83
陳大同,85,91,89


### 以索引及欄位編號取的資料 : iloc
#### 由0開始
df.iloc["索引編號","欄位編號"]

In [60]:
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [63]:
df.iloc[0,[0,4]]

國文    65
社會    70
Name: 王小明, dtype: int64

In [61]:
df.iloc[[0,2],[1,2]]

Unnamed: 0,英文,數學
王小明,92,78
陳大同,85,91


In [62]:
# 範圍
df.iloc[1:3,2:4]

Unnamed: 0,數學,自然
李小美,76,93
陳大同,91,89


In [64]:
df.iloc[0,0:4]

國文    65
英文    92
數學    78
自然    83
Name: 王小明, dtype: int64

### head() & tail()

In [68]:
df.head(2)

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56


In [69]:
df.tail(2)

Unnamed: 0,國文,英文,數學,自然,社會
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


### 資料排序

In [4]:
df = pd.DataFrame({
    '國文':[40,60,98,82,46],
    '數學':[60,67,84,63,89],
    '英文':[30,88,58,52,56],
    '自然':[90,92,71,72,38],
    '社會':[77,42,81,79,63]
})
df.index = ["小明","阿花","阿貓","小王","阿狗"]

In [5]:
df

Unnamed: 0,國文,數學,英文,自然,社會
小明,40,60,30,90,77
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [6]:
df.sort_values("數學")

Unnamed: 0,國文,數學,英文,自然,社會
小明,40,60,30,90,77
小王,82,63,52,72,79
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
阿狗,46,89,56,38,63


In [7]:
df.sort_values(by="數學",ascending=False)

Unnamed: 0,國文,數學,英文,自然,社會
阿狗,46,89,56,38,63
阿貓,98,84,58,71,81
阿花,60,67,88,92,42
小王,82,63,52,72,79
小明,40,60,30,90,77


In [8]:
# 用兩個欄位排序會被最後一個(ex:社會)蓋掉
df.sort_values(by="數學",ascending=False).sort_values(by="社會")

Unnamed: 0,國文,數學,英文,自然,社會
阿花,60,67,88,92,42
阿狗,46,89,56,38,63
小明,40,60,30,90,77
小王,82,63,52,72,79
阿貓,98,84,58,71,81


In [70]:
df.sort_index(axis=0)

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
林小玉,79,53,47,94,80
王小明,65,92,78,83,70
陳大同,81,85,91,89,94


# 英文名字排序

In [10]:
# 依索引排序
scores_e = {
    "Chinese":{'Simon':40, 'Mary':68, 'John':85, 'Helen': 79},
    "English":{'Simon':82, 'Mary':63, 'John':52, 'Helen': 59},
    "Math":{'Simon':65, 'Mary':78, 'John':81, 'Helen': 89},
    "Society":{'Simon':29, 'Mary':50, 'John':73, 'Helen': 49},
    "Nature":{'Simon':65, 'Mary':68, 'John':54, 'Helen': 99},
}
df8 = pd.DataFrame(scores_e)
df8

Unnamed: 0,Chinese,English,Math,Society,Nature
Simon,40,82,65,29,65
Mary,68,63,78,50,68
John,85,52,81,73,54
Helen,79,59,89,49,99


In [11]:
# 排序
print(df8.sort_values(by='Math',ascending=False))
print("-"*50)
# 根據名字排
print(df8.sort_index(axis=0))
print("-"*50)
# 根據科目排
print(df8.sort_index(axis=1))

       Chinese  English  Math  Society  Nature
Helen       79       59    89       49      99
John        85       52    81       73      54
Mary        68       63    78       50      68
Simon       40       82    65       29      65
--------------------------------------------------
       Chinese  English  Math  Society  Nature
Helen       79       59    89       49      99
John        85       52    81       73      54
Mary        68       63    78       50      68
Simon       40       82    65       29      65
--------------------------------------------------
       Chinese  English  Math  Nature  Society
Simon       40       82    65      65       29
Mary        68       63    78      68       50
John        85       52    81      54       73
Helen       79       59    89      99       49


# 資料修改

In [74]:
df9 = df.copy()
df9

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [75]:
df9.loc["小明"]["數學"] = 100
df9

KeyError: '小明'

In [14]:
df9.loc["小明",:] = 80
df9

Unnamed: 0,國文,數學,英文,自然,社會
小明,80,80,80,80,80
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [15]:
df9.loc["小明","數學"] = 100
df9

Unnamed: 0,國文,數學,英文,自然,社會
小明,80,100,80,80,80
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [16]:
# 刪除 drop
df_drop = df9.drop("小明",axis=0)
df_drop

Unnamed: 0,國文,數學,英文,自然,社會
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [17]:
df_drop1 = df9.drop("國文",axis=1)
df_drop1

Unnamed: 0,數學,英文,自然,社會
小明,100,80,80,80
阿花,67,88,92,42
阿貓,84,58,71,81
小王,63,52,72,79
阿狗,89,56,38,63


In [18]:
df9

Unnamed: 0,國文,數學,英文,自然,社會
小明,80,100,80,80,80
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [19]:
# 刪除連續列欄範圍的資料
df_drop_s = df9.drop(df9.index[1:4])
df_drop_s

Unnamed: 0,國文,數學,英文,自然,社會
小明,80,100,80,80,80
阿狗,46,89,56,38,63


In [20]:
df9

Unnamed: 0,國文,數學,英文,自然,社會
小明,80,100,80,80,80
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [73]:
df_drop_s1 = df9.drop(df9.index[1:4])
df_drop_s1

NameError: name 'df9' is not defined

In [21]:
df_drop_s2 = df9.drop(df9.columns[1:4],axis=1)
df_drop_s2

Unnamed: 0,國文,社會
小明,80,80
阿花,60,42
阿貓,98,81
小王,82,79
阿狗,46,63


In [22]:
# Pandas 資料存取
# read_csv (*.csv)
# read_excel(*.xlsx)
# read_sql(*.sqlite)
# read_json(*.json)
# read_html(*.html)
df_cus = pd.read_csv("customer.csv")
df_cus

Unnamed: 0,id,name,gender,age,area,job
0,1700001,李國發,Male,21.0,新北市三重區,金融業 和房地產
1,1700002,吳俊諺,,,臺北市文山區,金融業和房地產
2,1700003,蔡俊毅,,,臺北市文山區,教育體育 文化
3,1700004,姚鈺迪,Female,34.0,基隆市中正區,住宿 和 餐飲業
4,1700004,姚鈺迪,Female,34.0,基隆市中正區,住宿和餐飲業
5,1700005,袁劭彥,Male,42.0,臺北市文山區,金融業和房地產
6,1700006,蔡登意,,,,金融業和房地產
7,1700007,吳景翔,,39.0,,農林牧漁業
8,1700008,邱孝信,,39.0,,金融業和房地產
9,1700009,陳明輝,,57.0,基隆市中正區,金融業和房地產


In [23]:
# 建一個score的csv並且讀入 header(第0列當header) index_col(第0欄當第一欄)
df_score2 = pd.read_csv("score2.csv", header = 0, index_col=0)
df_score2

Unnamed: 0,國文,數學,英文,自然,社會
小明,80,100,80,80,80
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [27]:
# 讀html (https://www.tiobe.com/tiobe-index/)
# keep_default_na： 沒有值的地方不去處理
url = "https://www.tiobe.com/tiobe-index/"
tables = pd.read_html(url, header=0,index_col=0, keep_default_na=False)
print(tables[0])

          Sep 2022 Change Programming Language Programming Language.1 Ratings  \
Sep 2023                                                                        
1                1                                             Python  14.16%   
2                2                                                  C  11.27%   
3                4                                                C++  10.65%   
4                3                                               Java   9.49%   
5                5                                                 C#   7.31%   
6                7                                         JavaScript   3.30%   
7                6                                       Visual Basic   2.22%   
8               10                                                PHP   1.55%   
9                8                                  Assembly language   1.53%   
10               9                                                SQL   1.44%   
11              15          

In [28]:
# to csv檔
df

Unnamed: 0,國文,數學,英文,自然,社會
小明,40,60,30,90,77
阿花,60,67,88,92,42
阿貓,98,84,58,71,81
小王,82,63,52,72,79
阿狗,46,89,56,38,63


In [32]:
df.to_csv("score3_tocsv_practice.csv",encoding="utf-8-sig")