## $\Large{Pandas\; 自學\; }$

Pandas就像python裡的Excel，能幫助使用者在python中做到合併與切割各個表格資料的動作。Pandas具備強大的資料分析能力，結合其他python程式庫如numpy能幫助我們進入資料科學的領域。

### 本章節內容大綱
* [DataFrame物件的建立、讀取、與儲存](#DataFrame物件的建立、讀取、與儲存)
    - [使用list建立dataframe](#使用list建立dataframe)
    - [使用dictionary建立dataframe](#使用dictionary建立dataframe)
    - [將資料儲存成csv檔](#將資料儲存成csv檔)
    - [讀取csv檔為dataframe](#讀取csv檔為dataframe)
* [DataFrame物件的常用屬性與方法](#DataFrame物件的常用屬性和方法)
    - [觀察資料](#觀察資料)
    - [欄位資料型態與描述](#欄位資料型態與描述)
* [DataFrame物件的操作](#DataFrame物件的操作)
    - [使用dataframe的索引](#使用dataframe的索引)
    - [挑選特定欄位的的資料](#挑選特定欄位資料)
    - [篩選資料](#篩選資料)
    - [增加與刪除欄位](#增加與刪除欄位)
    - [合併多個dataframe](合併多個dataframe)

## 載入套件

使用windows+R開啟cmd，並輸入pip install pandas即可於電腦安裝pandas套件。在編譯器編寫程式時則須輸入import pandas as pd，代表匯入pandas並以pd於往後程式碼代稱pandas。

In [2]:
import pandas as pd

## DataFrame物件的建立、讀取、與儲存

使用pandas建立一個表格資料並不困難，我們只需要提供資料內容以及欄位的名稱即可。最常見的是用列表(list)或是字典(dictionary)提供我們的資料給pandas。

- ### 使用list建立dataframe

手動將資料輸入後，用list將其合併再轉換成dataframe型態。

In [3]:
#import pandas, and create my dataframe using list
import pandas as pd

names=['Bob', 'Jessica', 'Mary',' John', 'Mel', 'Jim']
births=[968, 155, 77, 578, 973, 968]

BabyDataSet=list(zip(names, births))

print(BabyDataSet) #output BabyDataSet by list

df=pd.DataFrame(data=BabyDataSet, columns=['names', 'births']) #output BabyDataSet by dataframe
df

[('Bob', 968), ('Jessica', 155), ('Mary', 77), (' John', 578), ('Mel', 973), ('Jim', 968)]


Unnamed: 0,names,births
0,Bob,968
1,Jessica,155
2,Mary,77
3,John,578
4,Mel,973
5,Jim,968


- ### 使用dict建立dataframe

除了使用list外，我們也可以使用dictionary的方式儲存。

In [4]:
#create my dataframe using dictionary
import pandas as pd

BabyDataSet={'names':['Bob', 'Jessica', 'Mary',' John', 'Mel',' Jim'], 'births':[968, 155, 77, 578, 973, 968]}
print(BabyDataSet)

df=pd.DataFrame(data=BabyDataSet)
df

{'names': ['Bob', 'Jessica', 'Mary', ' John', 'Mel', ' Jim'], 'births': [968, 155, 77, 578, 973, 968]}


Unnamed: 0,names,births
0,Bob,968
1,Jessica,155
2,Mary,77
3,John,578
4,Mel,973
5,Jim,968


- ### 將資料儲存成csv檔案

要將資料輸出成csv檔，可以使用to_csv(“檔案路徑”)實現。

In [5]:
df.to_csv("birth_data.csv")

- ### 讀取外部csv檔案為dataframe

使用read_csv可以從外部讀取csv檔並轉成dataframe的型態。

In [6]:
df = pd.read_csv("birth_data.csv", index_col = 0)

In [7]:
df

Unnamed: 0,names,births
0,Bob,968
1,Jessica,155
2,Mary,77
3,John,578
4,Mel,973
5,Jim,968


---
## DataFrame物件的常用屬性和方法

在輸入或讀取完資料後，pandas也提供許多函式方便我們觀察以及了解資料。

- ### 觀察資料

使用.head()可以查看前幾筆的資料，如.head(n=10)可查看前10筆數據，若括號內未輸入數字則預設為前5筆數據。

In [8]:
#upload our data file
df=pd.read_csv("who_suicide_statistics.csv")

In [9]:
#use .head(n=10) to observe the first 10 data
#if the () was left blank and it will be defualt by 5
df.head() 

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0
3,Albania,1985,female,5-14 years,,298300.0
4,Albania,1985,female,55-74 years,,138700.0


使用.sample()可以隨機抽樣指定數量的數據，如.sample(n=6)則是隨機抽樣6筆數據。

In [10]:
#use .semple(n=6) to ramdomly ouput 6 data
#as its ramdomly output, the index order will be ramdom
df.sample(n=6)

Unnamed: 0,country,year,sex,age,suicides_no,population
29902,Poland,1984,male,55-74 years,735.0,2410100.0
15301,Georgia,1996,female,25-34 years,5.0,355300.0
23051,Lithuania,1983,male,75+ years,,59100.0
4949,Belgium,1996,female,75+ years,68.0,436450.0
29952,Poland,1989,female,15-24 years,71.0,2548800.0
32306,Reunion,2014,female,35-54 years,6.0,127206.0


由於是隨機抽樣，所以可以看到輸出的引索值順序是亂的。

- ### 欄位資料型態與描述

.shape可以查看資料筆數與欄位數量，輸出格式為(資料數量, 欄位數量)。

In [11]:
shape=df.shape
print("Shape:", shape)

Shape: (43776, 6)


.columns可以查看資料內欄位名稱。

In [12]:
columns=df.columns
print("Columns:", columns)

Columns: Index(['country', 'year', 'sex', 'age', 'suicides_no', 'population'], dtype='object')


.index會回傳資料內的列引索。

In [13]:
index_=df.index
print("Index:", index_)

Index: RangeIndex(start=0, stop=43776, step=1)


.dtypes可以顯示各個欄位的資料型態。

In [14]:
dtypes=df.dtypes
print("Datatypes:\n", dtypes)

Datatypes:
 country         object
year             int64
sex             object
age             object
suicides_no    float64
population     float64
dtype: object


.info()可以知道各欄位的數量、資料型態以及記憶體配置。

In [15]:
info=df.info()
print("Info:", info)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43776 entries, 0 to 43775
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   country      43776 non-null  object 
 1   year         43776 non-null  int64  
 2   sex          43776 non-null  object 
 3   age          43776 non-null  object 
 4   suicides_no  41520 non-null  float64
 5   population   38316 non-null  float64
dtypes: float64(2), int64(1), object(3)
memory usage: 2.0+ MB
Info: None


---
## DataFrame物件的操作

- ### 使用dataframe的索引

#### .iloc

In [16]:
# 挑選df中第一列第一欄的資料
df.iloc[0, 0]

'Albania'

In [17]:
# 挑選df中第一欄的所有資料
df.iloc[:, 0]

0         Albania
1         Albania
2         Albania
3         Albania
4         Albania
           ...   
43771    Zimbabwe
43772    Zimbabwe
43773    Zimbabwe
43774    Zimbabwe
43775    Zimbabwe
Name: country, Length: 43776, dtype: object

In [18]:
# 挑選df中第二列的所有資料
df.iloc[1]

country            Albania
year                  1985
sex                 female
age            25-34 years
suicides_no            NaN
population        246800.0
Name: 1, dtype: object

####  .loc

In [19]:
# 挑選index=0且欄位為age的資料
df.loc[0, 'age']

'15-24 years'

In [20]:
# 挑選index=0的所有欄位資料-1
df.loc[0, :]

country            Albania
year                  1985
sex                 female
age            15-24 years
suicides_no            NaN
population        277900.0
Name: 0, dtype: object

In [21]:
# 挑選index為0的所有欄位資料，與上面的程式碼結果相同
df.loc[0]

country            Albania
year                  1985
sex                 female
age            15-24 years
suicides_no            NaN
population        277900.0
Name: 0, dtype: object

In [22]:
# 挑選index為2或5且從sex 到suicide_no 的資料
df.loc[[2, 5], 'sex':'suicides_no']

Unnamed: 0,sex,age,suicides_no
2,female,35-54 years,
5,female,75+ years,


- ### 挑選特定欄位之資料

在Pandas內還有最後一種使用中括號的方式，功能是取得資料中的特定欄位資料。以下我們試著使用看看。

In [23]:
#挑選age欄位的資料且回傳series類型-1
df['age']

0        15-24 years
1        25-34 years
2        35-54 years
3         5-14 years
4        55-74 years
            ...     
43771    25-34 years
43772    35-54 years
43773     5-14 years
43774    55-74 years
43775      75+ years
Name: age, Length: 43776, dtype: object

In [24]:
#挑選age欄位資料且回傳series類型-2
df.age

0        15-24 years
1        25-34 years
2        35-54 years
3         5-14 years
4        55-74 years
            ...     
43771    25-34 years
43772    35-54 years
43773     5-14 years
43774    55-74 years
43775      75+ years
Name: age, Length: 43776, dtype: object

In [25]:
#挑選age欄位資料且回傳dataframe類型
df[['age']]

Unnamed: 0,age
0,15-24 years
1,25-34 years
2,35-54 years
3,5-14 years
4,55-74 years
...,...
43771,25-34 years
43772,35-54 years
43773,5-14 years
43774,55-74 years


In [26]:
#挑選age和sex兩欄位資料
df[['age', 'sex']]

Unnamed: 0,age,sex
0,15-24 years,female
1,25-34 years,female
2,35-54 years,female
3,5-14 years,female
4,55-74 years,female
...,...,...
43771,25-34 years,male
43772,35-54 years,male
43773,5-14 years,male
43774,55-74 years,male


- ### 篩選資料

In [32]:

#設定篩選的條件並以布林值輸出
condition=(df.age=='15-24 years')

print(condition.head())

0     True
1    False
2    False
3    False
4    False
Name: age, dtype: bool


In [29]:
#放入loc篩選，且只呈現前十筆
df.loc[condition].head(n=10)

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
6,Albania,1985,male,15-24 years,,301400.0
12,Albania,1986,female,15-24 years,,283900.0
18,Albania,1986,male,15-24 years,,306700.0
24,Albania,1987,female,15-24 years,14.0,289700.0
30,Albania,1987,male,15-24 years,21.0,312900.0
36,Albania,1988,female,15-24 years,8.0,295600.0
42,Albania,1988,male,15-24 years,17.0,319200.0
48,Albania,1989,female,15-24 years,5.0,299900.0
54,Albania,1989,male,15-24 years,12.0,323500.0


In [30]:
#篩選多種條件
print(df.loc[(df.age=='15-24 years')&(df['sex']=='male')].head(n=10))

     country  year   sex          age  suicides_no  population
6    Albania  1985  male  15-24 years          NaN    301400.0
18   Albania  1986  male  15-24 years          NaN    306700.0
30   Albania  1987  male  15-24 years         21.0    312900.0
42   Albania  1988  male  15-24 years         17.0    319200.0
54   Albania  1989  male  15-24 years         12.0    323500.0
66   Albania  1990  male  15-24 years          NaN    325600.0
78   Albania  1991  male  15-24 years          NaN    302200.0
90   Albania  1992  male  15-24 years          9.0    263700.0
102  Albania  1993  male  15-24 years         18.0    243300.0
114  Albania  1994  male  15-24 years          6.0    242200.0


In [31]:
#使用.isin()篩選多種條件
print(df.loc[df.age.isin(['15-24 years', '5-14 years'])].head(n=10))

    country  year     sex          age  suicides_no  population
0   Albania  1985  female  15-24 years          NaN    277900.0
3   Albania  1985  female   5-14 years          NaN    298300.0
6   Albania  1985    male  15-24 years          NaN    301400.0
9   Albania  1985    male   5-14 years          NaN    325800.0
12  Albania  1986  female  15-24 years          NaN    283900.0
15  Albania  1986  female   5-14 years          NaN    304700.0
18  Albania  1986    male  15-24 years          NaN    306700.0
21  Albania  1986    male   5-14 years          NaN    331600.0
24  Albania  1987  female  15-24 years         14.0    289700.0
27  Albania  1987  female   5-14 years          0.0    311000.0


- ### 增加與刪除欄位

我們可以使用下面的方法在一個dataframe中增加或減少欄位。

初始dataframe初始dataframe

In [33]:
df = pd.DataFrame(data={'name':['Abby', 'Bob', 'Chris']})
df

Unnamed: 0,name
0,Abby
1,Bob
2,Chris


In [34]:
#將age增加至原本只有name的dataframe
df['age']=[20, 15, 28]
df

Unnamed: 0,name,age
0,Abby,20
1,Bob,15
2,Chris,28


In [35]:
#新增一欄位判斷age是否大於18歲
df['greater_than_18']=df['age']>18
df

Unnamed: 0,name,age,greater_than_18
0,Abby,20,True
1,Bob,15,False
2,Chris,28,True


In [36]:
#刪除欄位
df.drop(columns='greater_than_18', inplace=True)
df

Unnamed: 0,name,age
0,Abby,20
1,Bob,15
2,Chris,28


- ### 合併多個dataframe

- #### 使用concat合併dataframe

In [37]:
# 產生範例資料，其中df1與df2的欄位名稱皆相同

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])

In [38]:
# 觀察df1資料
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [39]:
# 觀察df2資料
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [40]:
# 沿著列的方向將兩份資料合併，相同名稱的欄位將會被視為同一個欄位
result = pd.concat([df1, df2])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [41]:
# 沿著列的方向將兩份資料合併，並且以keys函數新增index索引
result = pd.concat([df1, df2], keys=['dataframe1', 'dataframe2'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
dataframe1,0,A0,B0,C0,D0
dataframe1,1,A1,B1,C1,D1
dataframe1,2,A2,B2,C2,D2
dataframe1,3,A3,B3,C3,D3
dataframe2,4,A4,B4,C4,D4
dataframe2,5,A5,B5,C5,D5
dataframe2,6,A6,B6,C6,D6
dataframe2,7,A7,B7,C7,D7


In [42]:
# 沿著欄的方向將兩份資料合併，相同的index相會被視為同一筆資料
# 在此由於df1與df2的index數值皆不相同，因此合併後的資料會有八筆
result = pd.concat([df1, df2], axis=1)
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,,,,
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,,,,
4,,,,,A4,B4,C4,D4
5,,,,,A5,B5,C5,D5
6,,,,,A6,B6,C6,D6
7,,,,,A7,B7,C7,D7


#### 使用merge合併dataframe

In [43]:
# 建立兩個datafrmae，後續會依照key1與key2將其合併

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [44]:
result = pd.merge(left, right, on=['key1', 'key2'], how='left')
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
