# Chapter 7 데이터 시각화

## 1. 데이터 시각화 이해

### **A. 데이터 시각화**

* 데이터나 정보를 그래프, 차트 등 시각적 형식으로 표현하는 것
* 시각적 이미지는 보다 직관적인 인식을 가능하게 하고 강렬한 인상을 남김
* 다양한 시각화를 통해 데이터에 대한 다층적인 이해 가능
* 빅데이터를 효과적으로 요약하고 전달할 수 있음

### **B. 데이터 유형에 따른 시각화 방법**

|**유형**|**설명**|**예제**|**시각화 방법**|
|:-:|:-|:-:|:-|
|범주형 데이터|- 집단으로 구분되는 데이터 <br>- 기본적으로 숫자로 표현할 수 없음 <br>- 대소비교, 산술연산 불가능|성별, 종교|- 막대 그래프(bar chart) <br>- 원 그래프(pie chart)|
|수치형 데이터|- 수치 값을 가지는 데이터 <br>- 대소비교, 산술연산 가능|키, 몸무게|- 히스토그램(histogram) <br>- 상자 그림(box plot) <br>- 산점도(scatter plot) <br>- 선 그래프(line plot)|

## 2. R base graphics

> 진짜 초보 단계에서 가장 심플하게 할 때 사용. 안씀
>
> 매개변수를 통해 세부적인 그래픽 요소 설정 가능

## 3. ggplot2 패키지

### **A. ggplot2 패키지 소개**

* 범용성, 명료함, 일관성 있는 인터페이스, 미적인 그래픽 결과를 제공하는 패키지
* **독립적인 시각적 구성요소**를 정의하고, **이를 층층히 쌓아올리는 방식**으로 그래프를 생성

1. Data : 데이터 준비
2. Aesthetics : 축에 대한 설정(x축, y축, 크기, 색상, 모양 등)
3. Geometries : 시각화 방법(기하 객체 : 점, 선, 막대 등)
---
4. Facets : 그래프 화면 분할
5. Statistics : 통계량과 함께 표시
6. Coordinates : 그래프의 변형, 회전
7. Theme : 테마

![](https://stat6503.github.io/RP2025/img/fig7-1.png)

### **B. ggplot2 기본 구조**

* 가장 기본적인 구조는 `ggplot()` 함수와 `geom_` 계열 함수로 구성됨
* 각 구성요소는 `+`로 연결되며, 줄바꿈 시에 반드시 `+`는 줄 마지막에 위치해야 함
  * `ggplot()` 함수
    * 좌표 시스템(빈 그래프)을 생성하며, 이후 레이어를 추가하여 그래프를 완성
    * 첫 번째 매개변수는 데이터프레임으로 지정
  * `geom_` 계열 함수
    * 범주형 데이터 시각화 - `geom_bar()`
    * 수치형 데이터 시각화 - `geom_histogram()`, `geom_boxplot()`, `geom_point()`, `geom_line()`

### **C. 막대 그래프(bar chart)**

* 범주형 데이터를 시각화한 것으로, 집단별 빈도를 막대로 나타낸 그래프
* [예제] 다이아몬드 가격 데이터셋 diamonts
    * cut : 컷 품질(Fair, Good, Very Good, Premium, Ideal)
    * color : 다이아몬드 색상(from D(best) to J(worst))
    * clarity : 다이아몬드 투명도(I1(worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF(best))
    > 전부 순서가 있는 범주형 변수

`-` 컷 품질에 따른 막대그래프

```R
## 기본
ggplot(diamonds, aes(x = cut)) + geom_bar() ## x축만 지정, 도수로 표시

## 일괄 색상 설정
ggplot(diamonds, aes(x = cut)) + geom_bar(fill = "orange") ## 유의한 색상일 시 자동으로 텍스트 하이라이트

## 범주 별 색상 설정
ggplot(diamonds, aes(x = cut, fill = cut)) + geom_bar()
```

`-` 두 개의 범주형 변수 `cut, clarity`에 대한 누적형 막대그래프

```R
## 도수 차이를 반영
ggplot(diamonds, aes(x = cut, fill = clarity)) + geom_bar()

## 세부 조정 : 피규어를 변수에 저장
p = ggplot(diamonds, aes(x = cut, fill = clarity))
p + geom_bar() ## 누적 막대 그래프 : stack
p + geom_bar(position = "fill") ## 각 범주의 도수를 1로 하여 상대도수 표시

## 두 개 범주를 각각 그림
p + geom_bar(position = "dodge")

## 상대적으로 도수가 큰 범주만 표시?
p + geom_bar(position = "identity") 
```

> 컷 품질이 좋을수록 투명도가 높은 경향 있음

`-` 데이터 자체가 요약된 통계량일 경우

```R
diamonds %>% count(cut) %>%
  ggplot(aes(x = cut, y = n, fill = cut)) +
  geom_bar(stat = "identity") 
```

`-` 그래프에서 y축에 카테고리를 넣고 싶을 경우

```R
diamonds %>%
  ggplot(aes(y = cut, fill = cut)) + geom_bar()  
```

> 그래프를 이미지로 저장하려면 `Plots`창의 `Export`를 사용하면 됨. 코드 써도 되고...

`-` 인종의 빈도가 큰 순서대로 시각화

```R
### EX5. 인종의 빈도가 큰 순서대로 시각화
gss_cat$race %>% levels ## 네 개 범주, Not applicable은 자료 없음
gss_cat %>%
  mutate(race = fct_infreq(race)) %>%
  ggplot(aes(x = race, fill = race)) +
  geom_bar() +
  scale_x_discrete(drop = FALSE) + ## 데이터 없는 범주 표시(이산형 x축)
  scale_fill_manual(values = c("darkorange", "steelblue", "#66a182", "#d1495b")) + ## 색상 변경
  labs(x = "", y = "Frequency") + ## axis label 변경
  theme(axis.title.y = element_text(size = 15, margin = margin(r = 10)), ## axis title text 속성
        axis.text = element_text(size = 15), ## x축과 y축 틱 텍스트 크기 설정
        legend.position = "none" ## 이미 아래에 있는데 쓰기 싫음
        )
```

* `element_text`

> `size` : 폰트 사이즈
>
> `margin` : `axis`와의 거리

`-` 베이직 컬러 팔레트 사용

```R
library(lubridate)
library(nycflights13)
library(RColorBrewer) ## 팔레트 불러오기

## 예정된 도착 일시, 실제 출발 일시, 실제 도착 일시를 date-time 형식으로 생성
make_datetime_100 <- function(year, month, day, time) {
  make_datetime(year, month, day, time %/% 100, time %% 100)
}

## 결측치 처리 및 dttm으로 변경 후 필요한 데이터만 추출
flights_dt <- flights %>% 
  filter(!is.na(dep_time), !is.na(arr_time)) %>% 
  mutate(dep_time = make_datetime_100(year, month, day, dep_time),
         arr_time = make_datetime_100(year, month, day, arr_time),
         sched_dep_time = make_datetime_100(year, month, day, sched_dep_time),
         sched_arr_time = make_datetime_100(year, month, day, sched_arr_time)) %>% 
  select(origin, dest, ends_with("delay"), ends_with("time"))


flights_dt %>%
  mutate(wday = wday(dep_time, label = TRUE)) %>%
  ggplot(aes(x = wday, fill = wday)) +
  geom_bar() +
  scale_fill_manual(values = brewer.pal(7, "Spectral")) + ## 필요한 색상(범주)의 개수 입력 무조건
  labs(x = "", y = "Frequency") +
  theme(legend.position = "none") +
  theme(axis.title.y = element_text(size = 15, margin = margin(r=10)),
        axis.text.x = element_text(size = 12),
        legend.position = "none")
```

> 연속형 변수의 경우 연속된 색상, 범주형 변수의 경우 구분되는 색상을 사용하는 것이 좋음

### **D. 히스토그램**

* 수치형 데이터를 일정 구간으로 나눈 후, 각 구간별 빈도를 막대로 나타낸 그래프

`-` 파라메터 설정

```R
ggplot(PlantGrowth, aes(x = weight)) +
  geom_histogram(fill = "steelblue", color = "gray", bins = 10) + ## bins 조정 color는 테두리임
  labs(title = "plot title") ## 기본적으로 왼쪽 정렬
```

`-` 커스텀 테마

* `theme_bw()` : 그리드는 남아있음
* `theme_classic()` : 그리드 없앰
* `theme_void()` : 축이나 그리드 다 없앰

`-` 처리 집단에 따른 범주별 히스토그램 분할 : `facet`

```R
ggplot(PlantGrowth, aes(x = weight, fill = group)) +
  geom_histogram(bins = 10) +
  labs(title = "식물의 건조중량 히스토그램", y = "") +
  facet_grid(group~.) + ## x축을 또 다른 변수로 분할할경우 ~뒤에 지정. 아니면 `.`
  theme(plot.title = element_text(size = 25, hjust = 0.5), ## 타이틀 가운데 정렬
        axis.title = element_text(size = 15),
        axis.text = element_text(size = 15),
        strip.text = element_text(size = 20, face = "bold"), ## 분할 텍스트 설정
        legend.position = "none")
```

> 축이 동일한 분할된 그래프가 그려짐

### **E. 상자 그림(box plot)**

* 다섯숫자 요약값에 기반으로 한 그래프
    * 사분위수 - 데이터를 크기 순으로 정렬한 후 사등분하는 값
      * 최소값
      * Q1
      * 중앙값
      * Q3
      * 최대값
      * IQR
* 일반 범위를 벗어난 경우를 이상치로 판단
* 집단별 수치형 데이터의 분포를 비교하는데 유용

```R
## 세워진 상자 그림
penguins %>%
  drop_na() %>%
  ggplot(aes(y = body_mass_g)) +
  geom_boxplot() ## 전체 분포는 오른쪽으로 기울어진 분포 느낌


## 눕힌 상자 그림
penguins %>%
  drop_na() %>%
  ggplot(aes(x = body_mass_g)) +
  geom_boxplot()
```

`-` 품종에 따른 상자 그림

```R
## EX1. 품종에 따른 상자 그림
penguins %>%
  drop_na() %>%
  ggplot(aes(x = species, y = body_mass_g)) +
    geom_boxplot(aes(fill = species), ## 여기서도 aes를 사용할 수 있음
                 width = 0.5) ## 상자의 너비 조절 가능
```

`-` `facet_grid`를 이용하여 n $\times$ m개의 그래프 산출

```R
fig <- penguins %>%
  drop_na() %>%
  ggplot(aes(x = island, y = body_mass_g, fill = island)) +
    geom_boxplot(width = 0.5) +
    facet_grid(sex ~ species) +
    labs(x = "", y = "Weight (g)") +
    theme_bw() +
    theme(axis.title.y = element_text(size = 15, margin = margin(r = 15)),
          axis.text = element_text(size = 12),
          strip.text = element_text(size = 15, face = "bold"), ## 내부 타이틀
          legend.position = "none",
          panel.grid.major.x = element_blank(), ## x 그리드 없앰
          panel.grid.minor = element_blank() ## 자잘한 눈금 없앰
          )

### 상자별 분포 파악하기
fig + geom_point(color = "steelblue", alpha = 0.5)
fig + geom_jitter(color = "steelblue", alpha = 0.5, width = 0.2) ## 지터링
```

### **F. 산점도**

* 두 수치형 데이터의 관측 순서쌍을 이차원 평면 상에 점으로 나타낸 그래프
* 두 변수 간 상관관계를 추정하기 위함
* `pch` - 점 유형
    * 0~14 : 채우기 없음, 테두리 색상만 `color`로 설정
    * 15~20 : 채우기 색상만 `color`로 설정, 테두리 없음
    * 21~24 : 채우기 색상은 `fill`, 테두리는 `color`로 설정

```R
## EX1. 날개 길이와 몸무게 간 산점도
penguins %>%
  drop_na() %>%
  ggplot(aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(size = 4, color = "forestgreen", pch = 17, alpha = 0.5) +
  labs(x = "Flipper Length", y = "Weight (g)",
       title = "펭귄 지느러미 길이와 몸무게 간 산점도") +
  theme_bw() +
  geom_smooth(method = lm, color = "red") + ## 회귀직선 및 신뢰구간 표시
  geom_rug() ## 변수 별 데이터의 단변량 분포를 사이드에 표시
```

```R
## EX2. 날개 길이와 체중에 대한 산점도 + 품종별 색상 및 모양 구분
penguins %>%
  drop_na() %>%
  ggplot(aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(aes(color = species, pch = species), size = 4, alpha = 0.5)
```

```R
## EX3. 날개 길이와 체중에 대한 산점도 + 부리 길이 색상 구분 -> 클수록 부리길이도 김
penguins %>%
  drop_na() %>%
  ggplot(aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(aes(color = bill_length_mm), size = 4, alpha = 0.6) +
  scale_color_gradient(low = "cyan", high = "red") ## 그라데이션 설정
```

```R
## EX4. 날개 길이와 체중에 대한 산점도 + 부리 길이 크기 구분 + 성별 색상 구분
penguins %>%
  drop_na() %>%
  ggplot(aes(x = flipper_length_mm, y = body_mass_g, color = sex, size = bill_length_mm)) +
  geom_point(alpha = 0.6)
```