# 約維安計畫：基礎的資料處理技法

> 第三十六週

![](wrangle.png)

來源：<https://r4ds.had.co.nz/wrangle-intro.html>

## 資料科學的應用場景

根據 Grolemund, G., & Wickham, H. (2017). R for Data Science. O’Reilly Media. 資料科學的應用場景與工具需求包含六個項目，分別是：

1. Import 資料載入。
2. Tidy 資料清理。
3. Transform 資料轉換。
4. Visualize 視覺化。
5. Model 模型。
6. Communicate 溝通。

其中 Import 資料載入、Tidy 資料清理加上 Transform 資料轉換又被合稱為 Data Wrangling，至於何謂 Wrangling？這是一種源自美國拓荒時期，於美國中西部生活的牛仔在圈趕牛羊馬時候所使用的繩索技巧，這也是有一個牛仔褲品牌叫做 Wrangler 的起源，現今多數的讀者可能已經沒有再看過以牛仔生活為主題的好萊塢電影，不過必定看過 DC Comics 極受歡迎的神力女超人（Wonder Woman）使用真理之索（The Lasso of Truth）的英姿，這個動作就是 Wrangle。

![](https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExNzRoOWFtOHN6bGU5b3NobHF5bnNzaDVlY2RqYTJhZHhpbzlkMmt3biZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/MnlZWRFHR4xruE4N2Z/giphy.gif)

來源：<https://giphy.com>

## 基礎的資料處理技法一覽

基礎的資料處理技法就如同結構化查詢語言 SQL 對關聯式資料庫資料表的資料操作保留字，像是：

- 檢視資料。
- SELECT 選擇欄位。
- WHERE 篩選觀測值。
- ORDER BY 排序資料。
- GROUP BY 分組聚合。

為了能夠示範上述這幾項基礎資料處理技法，我們先載入一個儲存在工作目錄中逗號分隔值檔案 movies.csv。

In [1]:
import pandas as pd

movies = pd.read_csv("movies.csv")

## 檢視資料

我們可以使用 DataFrame 類別所建立實例的四個屬性檢視資料：

1. shape 屬性：檢視外型。
2. dtypes 屬性：檢視各欄位的資料類別。
3. index 屬性：檢視每個觀測值對應的列索引（Row-index）。
4. columns 屬性：檢視每個變數對應的欄索引（Column-index）。

In [2]:
print(movies.shape)
print(movies.dtypes)
print(movies.index)
print(movies.columns)

(250, 6)
id                int64
title            object
release_year      int64
runtime           int64
rating          float64
link             object
dtype: object
RangeIndex(start=0, stop=250, step=1)
Index(['id', 'title', 'release_year', 'runtime', 'rating', 'link'], dtype='object')


除了以上述四個屬性檢視資料， 也能夠使用 DataFrame 類別所建立實例的四個方法檢視資料：

1. head() 方法：回傳前 n 列觀測值。
2. tail() 方法：回傳後 n 列觀測值。
3. describe() 方法：回傳數值類別欄位的描述性統計，包含計數、最小值、25 分位數、中位數、平均數、75 分位數與最大值。
4. info() 方法：回傳資料的詳細資訊，包含外型、資料類別與欄位名稱等。

In [3]:
print(movies.head())
print(movies.tail())
print(movies.describe())
print(movies.info())

   id                     title  release_year  runtime  rating  \
0   1  The Shawshank Redemption          1994      142     9.3   
1   2             The Godfather          1972      175     9.2   
2   3           The Dark Knight          2008      152     9.0   
3   4     The Godfather Part II          1974      202     9.0   
4   5              12 Angry Men          1957       96     9.0   

                                     link  
0  https://www.imdb.com//title/tt0111161/  
1  https://www.imdb.com//title/tt0068646/  
2  https://www.imdb.com//title/tt0468569/  
3  https://www.imdb.com//title/tt0071562/  
4  https://www.imdb.com//title/tt0050083/  
      id           title  release_year  runtime  rating  \
245  246  The Iron Giant          1999       86     8.1   
246  247        The Help          2011      146     8.1   
247  248   Life of Brian          1979       94     8.0   
248  249         Aladdin          1992       90     8.0   
249  250        Drishyam          2015      

## 選擇欄位

透過指定欄位名稱從資料中選擇欄位成為一個 Series。

In [4]:
print(type(movies["title"]))
print(movies["title"])

<class 'pandas.core.series.Series'>
0      The Shawshank Redemption
1                 The Godfather
2               The Dark Knight
3         The Godfather Part II
4                  12 Angry Men
                 ...           
245              The Iron Giant
246                    The Help
247               Life of Brian
248                     Aladdin
249                    Drishyam
Name: title, Length: 250, dtype: object


透過以 list 包裝多個欄位名稱從資料中選擇欄位成為一個 DataFrame。

In [5]:
print(type(movies[["title", "release_year", "rating"]]))
print(movies[["title", "release_year", "rating"]])

<class 'pandas.core.frame.DataFrame'>
                        title  release_year  rating
0    The Shawshank Redemption          1994     9.3
1               The Godfather          1972     9.2
2             The Dark Knight          2008     9.0
3       The Godfather Part II          1974     9.0
4                12 Angry Men          1957     9.0
..                        ...           ...     ...
245            The Iron Giant          1999     8.1
246                  The Help          2011     8.1
247             Life of Brian          1979     8.0
248                   Aladdin          1992     8.0
249                  Drishyam          2015     8.2

[250 rows x 3 columns]


## 篩選觀測值

透過關係運算符生成一個由布林值組合而成的 Series。

In [6]:
movies["release_year"] >= 2020

0      False
1      False
2      False
3      False
4      False
       ...  
245    False
246    False
247    False
248    False
249    False
Name: release_year, Length: 250, dtype: bool

再藉由前面生成的 Series 從資料中篩選出對應布林值為 True 的列數。

In [7]:
movies[movies["release_year"] >= 2020]

Unnamed: 0,id,title,release_year,runtime,rating,link
14,15,Spider-Man: Across the Spider-Verse,2023,140,8.9,https://www.imdb.com//title/tt9362722/
22,23,Oppenheimer,2023,180,8.8,https://www.imdb.com//title/tt15398776/
108,109,Hamilton,2020,160,8.3,https://www.imdb.com//title/tt8503618/
126,127,Top Gun: Maverick,2022,130,8.3,https://www.imdb.com//title/tt1745960/
131,132,The Father,2020,97,8.2,https://www.imdb.com//title/tt10272386/
156,157,Spider-Man: No Way Home,2021,148,8.2,https://www.imdb.com//title/tt10872600/
218,219,Jai Bhim,2021,164,8.8,https://www.imdb.com//title/tt15097216/


## 排序資料

使用 DataFrame 類別所建立實例的 sort_values() 方法依據欄位的大小遞增、遞減排序。

In [8]:
movies.sort_values("release_year")

Unnamed: 0,id,title,release_year,runtime,rating,link
129,130,The Kid,1921,68,8.3,https://www.imdb.com//title/tt0012349/
196,197,Sherlock Jr,1924,45,8.2,https://www.imdb.com//title/tt0015324/
180,181,The Gold Rush,1925,95,8.1,https://www.imdb.com//title/tt0015864/
188,189,The General,1926,78,8.1,https://www.imdb.com//title/tt0017925/
116,117,Metropolis,1927,153,8.3,https://www.imdb.com//title/tt0017136/
...,...,...,...,...,...,...
156,157,Spider-Man: No Way Home,2021,148,8.2,https://www.imdb.com//title/tt10872600/
218,219,Jai Bhim,2021,164,8.8,https://www.imdb.com//title/tt15097216/
126,127,Top Gun: Maverick,2022,130,8.3,https://www.imdb.com//title/tt1745960/
22,23,Oppenheimer,2023,180,8.8,https://www.imdb.com//title/tt15398776/


In [9]:
movies.sort_values("release_year", ascending=False)

Unnamed: 0,id,title,release_year,runtime,rating,link
22,23,Oppenheimer,2023,180,8.8,https://www.imdb.com//title/tt15398776/
14,15,Spider-Man: Across the Spider-Verse,2023,140,8.9,https://www.imdb.com//title/tt9362722/
126,127,Top Gun: Maverick,2022,130,8.3,https://www.imdb.com//title/tt1745960/
218,219,Jai Bhim,2021,164,8.8,https://www.imdb.com//title/tt15097216/
156,157,Spider-Man: No Way Home,2021,148,8.2,https://www.imdb.com//title/tt10872600/
...,...,...,...,...,...,...
116,117,Metropolis,1927,153,8.3,https://www.imdb.com//title/tt0017136/
188,189,The General,1926,78,8.1,https://www.imdb.com//title/tt0017925/
180,181,The Gold Rush,1925,95,8.1,https://www.imdb.com//title/tt0015864/
196,197,Sherlock Jr,1924,45,8.2,https://www.imdb.com//title/tt0015324/


使用 DataFrame 類別所建立實例的 sort_index() 方法依據列索引（Row-index）遞增、遞減排序。

In [10]:
movies.sort_index()

Unnamed: 0,id,title,release_year,runtime,rating,link
0,1,The Shawshank Redemption,1994,142,9.3,https://www.imdb.com//title/tt0111161/
1,2,The Godfather,1972,175,9.2,https://www.imdb.com//title/tt0068646/
2,3,The Dark Knight,2008,152,9.0,https://www.imdb.com//title/tt0468569/
3,4,The Godfather Part II,1974,202,9.0,https://www.imdb.com//title/tt0071562/
4,5,12 Angry Men,1957,96,9.0,https://www.imdb.com//title/tt0050083/
...,...,...,...,...,...,...
245,246,The Iron Giant,1999,86,8.1,https://www.imdb.com//title/tt0129167/
246,247,The Help,2011,146,8.1,https://www.imdb.com//title/tt1454029/
247,248,Life of Brian,1979,94,8.0,https://www.imdb.com//title/tt0079470/
248,249,Aladdin,1992,90,8.0,https://www.imdb.com//title/tt0103639/


In [11]:
movies.sort_index(ascending=False)

Unnamed: 0,id,title,release_year,runtime,rating,link
249,250,Drishyam,2015,163,8.2,https://www.imdb.com//title/tt4430212/
248,249,Aladdin,1992,90,8.0,https://www.imdb.com//title/tt0103639/
247,248,Life of Brian,1979,94,8.0,https://www.imdb.com//title/tt0079470/
246,247,The Help,2011,146,8.1,https://www.imdb.com//title/tt1454029/
245,246,The Iron Giant,1999,86,8.1,https://www.imdb.com//title/tt0129167/
...,...,...,...,...,...,...
4,5,12 Angry Men,1957,96,9.0,https://www.imdb.com//title/tt0050083/
3,4,The Godfather Part II,1974,202,9.0,https://www.imdb.com//title/tt0071562/
2,3,The Dark Knight,2008,152,9.0,https://www.imdb.com//title/tt0468569/
1,2,The Godfather,1972,175,9.2,https://www.imdb.com//title/tt0068646/


## 分組聚合

選擇欄位並直接使用 Series 類別所建立實例的聚合方法，例如 sum()、min()、mean()、max() 或 count() 等獲得指定欄位的聚合函數計算結果。

In [12]:
movies["rating"].mean()

8.3096

使用 DataFrame 類別所建立實例的 groupby() 方法對指定欄位取獨一值且排序，然後選擇欄位並使用聚合方法，獲得指定欄位的分組聚合計算結果。

In [13]:
movies.groupby("release_year")["rating"].mean()

release_year
1921    8.30
1924    8.20
1925    8.10
1926    8.10
1927    8.30
        ... 
2019    8.30
2020    8.25
2021    8.50
2022    8.30
2023    8.85
Name: rating, Length: 87, dtype: float64

掌握基礎的資料操作技巧之後，我們就能夠在下次的電子報中介紹進階的資料操作技巧。第三十六週約維安計畫：基礎的資料處理技法 來到尾聲，希望您也和我一樣期待下一篇文章。對於這篇文章有什麼想法呢？喜歡😻、留言🙋‍♂️、訂閱📨或者分享🙌