# 成為初級資料分析師 | R 程式設計與資料科學應用

> 資料視覺化

## 郭耀仁

> The simple graph has brought more information to the data analyst’s mind than any other device.
>
> John Tukey

## 大綱

- 認識範例資料集：`gapminder`
- `ggplot2` 基礎
- `ggplot2` 技巧
- 使用 `plotly` 做一個 `gapminder` replica

## 認識範例資料集：`gapminder`

## 資料視覺化經典案例

- [Napoleon's Russian campaign by Charles Minard](https://en.wikipedia.org/wiki/Charles_Joseph_Minard#/media/File:Minard.png)
- [Gapminder by Hans Rosling](https://youtu.be/jbkSRLYSojo)

## 關於 Gapminder, Hans Rosling 與 Factfulness

- [Gapminder](https://www.gapminder.org/)
- [Hans Rosling](https://en.wikipedia.org/wiki/Hans_Rosling)
- [Factfulness](https://www.youtube.com/watch?v=5uooRe07mYM)

## 獲得 `gapminder` 範例資料集

- 安裝 `gapminder` 套件 
- 載入 `gapminder` 套件

## 安裝 `gapminder` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.pacakges()` 函數

```r
install.packages("gapminder")
```

## 載入 `gapminder` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("gapminder")
```

## 隨堂練習：gapminder 範例資料集有 `m` 列，`n` 欄，請問 `m` =?, `n` =?

In [None]:
library("gapminder")

In [None]:
m <- nrow(gapminder)
n <- ncol(gapminder)
ans <- sprintf("gapminder 範例資料集有 %s 列，%s 欄", m, n)

In [None]:
ans

## 隨堂練習：請顯示 `gapminder` 範例資料集前三列與後三列

In [None]:
first_three <- head(gapminder, 3)
last_three <- tail(gapminder, 3)

In [None]:
first_three

In [None]:
last_three

## 隨堂練習：`gapminder` 範例資料集有幾個國家？幾個洲別？

In [None]:
n_countries <- length(unique(gapminder$country))
n_continents <- length(unique(gapminder$continent))
ans <- sprintf("`gapminder` 範例資料集有 %s 個國家、%s 個洲別", n_countries, n_continents)

In [None]:
ans

## 隨堂練習：`gapminder` 範例資料集有哪些年份？

In [None]:
ans <- unique(gapminder$year)

In [None]:
ans

## 其他檢視 `gapminder` 範例資料集的函數：`summary()` 與 `str()`

In [None]:
summary(gapminder)
str(gapminder)

## `ggplot2` 基礎

## 什麼是 `ggplot2`？

> ggplot2 is a system for declaratively creating graphics, based on The Grammar of Graphics. You provide the data, tell ggplot2 how to map variables to aesthetics, what graphical primitives to use, and it takes care of the details.

## `gg` as in Grammer of Graphics

## 安裝 `ggplot2` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("ggplot2")
```

## 載入 `ggplot2` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("ggplot2")
```

## 基礎視覺化圖形

- 觀察資料相關性的散佈圖（Scatter Plot）
- 觀察類別型資料的長條圖（Bar Plot）
- 觀察資料散佈的直方圖（Histogram）
- 觀察數值變化趨勢的線圖（Line Plot）
- 觀察不同類別資料散佈的盒鬚圖（Boxplot）

## 如何創建一個 `ggplot2` 圖形

- 使用 `ggplot()` 函數做資料映射
- 使用 `geom_()` 函數調整圖形種類
- 使用 `+` 連結不同的函數，堆疊圖層

In [None]:
library("gapminder") # data
library("ggplot2")   # plotting
library("dplyr")     # data manipulations

## 觀察資料相關性的散佈圖（Scatter Plot）

使用 `ggplot(aes(x, y)) + geom_point()`

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap, y = lifeExp)) +
    geom_point()

## 觀察類別型資料的長條圖（Bar Plot）：長條高度為觀測值個數

使用 `ggplot(aes(x)) + geom_bar()`

In [None]:
gapminder %>% 
  filter(year == 2007) %>%
  ggplot(aes(x = continent)) +
    geom_bar()

## 觀察類別型資料的長條圖（Bar Plot）：長條高度為摘要數值

使用 `ggplot(aes(x, y)) + geom_bar(stat = "identity")`

In [None]:
gapminder %>% 
  filter(year == 2007) %>% 
  mutate(pop_numeric = as.numeric(pop)) %>%
  group_by(continent) %>% 
  summarise(ttl_pop = sum(pop_numeric)) %>% 
  ggplot(aes(x = continent, y = ttl_pop)) +
    geom_bar(stat = "identity")

## 觀察資料散佈的直方圖（Histogram）

使用 `ggplot(aes(x)) + geom_histogram()`

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap)) +
    geom_histogram(bins = 40)

## 觀察數值變化趨勢的線圖（Line Plot）

使用 `ggplot(aes(x, y)) + geom_line()`

In [None]:
gapminder %>% 
  filter(country %in% c("Taiwan", "Japan", "China")) %>% 
  ggplot(aes(x = year, y = gdpPercap, color = country)) +
    geom_line()

## 觀察不同類別資料散佈的盒鬚圖（Boxplot）

使用 `ggplot(aes(x, y)) + geom_boxplot()`

In [None]:
gapminder %>% 
  ggplot(aes(x = continent, y = gdpPercap, color = continent)) +
    geom_boxplot()

## `ggplot2` 技巧

## 常用的 ggplot2 技巧

- 加入圖標題與軸標籤
- 加入註釋
- 加入中文字（macOS 使用者會遭遇的問題）
- 調整座標軸
- 在一個畫布上繪製多個子圖形

## 加入圖標題與軸標籤

使用 `ggtitle() + xlab() + ylab()`

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap, y = lifeExp)) +
    geom_point() +
    ggtitle("Wealth vs. Health") +
    xlab("GDP Per Capita") +
    ylab("Life Expectancy")

## 加入註釋

使用 `geom_text()`

In [None]:
n_obs <- gapminder %>% 
  group_by(continent) %>% 
  summarise(nrows = n())

n_obs %>% 
  ggplot(aes(x = continent, y = nrows)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = n_obs$nrows, y = n_obs$nrows), vjust = -1)

## 加入中文字（macOS 使用者會遭遇的問題）

使用 `theme(text = element_text(family = FONTS_SUPPORT_TC))`

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap, y = lifeExp)) +
    geom_point() +
    ggtitle("財富與健康") +
    xlab("人均 GDP") +
    ylab("預期壽命") +
    theme(text = element_text(family = "Heiti TC Light"))

## 調整座標軸

使用 `scale_x_continuous()` 與 `scale_y_continuous()` 調整座標軸上下界與量尺

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap, y = lifeExp)) +
    geom_point() +
    scale_x_continuous(limits = c(0, 50000))

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap, y = lifeExp)) +
    geom_point() +
    scale_x_continuous(trans = "log10")

## 在一個畫布上繪製多個子圖形

使用 `facet_wrap(vars(CATEGORICAL_COLUMN))`

In [None]:
gapminder %>% 
  ggplot(aes(x = gdpPercap, y = lifeExp, color = continent)) +
    geom_point() +
    facet_wrap(vars(continent))

## 使用 `plotly` 做一個 `gapminder` replica

## 關於 `plotly` 套件

幫助 R 語言使用者不需要額外去學習 JavaScript 就能夠建立出互動性、具備 D3.js 及 WebGL 特性的圖表

## 安裝 `plotly` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("plotly")
```

## 載入 `plotly` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("plotly")
```

In [None]:
library("plotly")
library("gapminder")
radius <- sqrt((gapminder$pop)/pi)

p <- gapminder %>%
  plot_ly(
    x = ~gdpPercap, 
    y = ~lifeExp, 
    size = ~pop, 
    color = ~continent, 
    frame = ~year, 
    text = ~country, 
    hoverinfo = "text",
    type = 'scatter',
    mode = 'markers',
    sizes = c(min(radius), max(radius))
  ) %>%
  layout(
    xaxis = list(
      type = "log"
    )
  )

In [None]:
p

## 延伸閱讀

- <https://ggplot2.tidyverse.org>
- <https://plot.ly/r/>