# 모니터링과 디버깅

## 모니터링 범위
- 스파크 <strong>잡의 어느 지점에서 오류</strong>가 발생했는지 파악하려면 <strong>스파크 잡을 모니터링</strong>해야함

### 모니터링 대상 컴포넌트
#### 스파크 애플리케이션과 잡
- 클러스터에서 사용자 애플리케이션이 실행되는 <strong>상황을 파악하거나 디버깅하려면 가장 먼저 스파크 모니터링 도구를 사용해야함</strong>
- 스파크 모니터링 도구
  - <strong>스파크 UI</strong>
  - <strong>스파크 로그</strong>
- 스파크 UI와 스파크 로그는 실행 중인 애플리케이션의 <strong>RDD와 쿼리 실행 계획 같은 개념적 수준의 정보를 제공함</strong>

<br>

#### JVM
- 스파크는 <strong>모든 익스큐터를 개별 자바 가상 머신(JVM)에서 실행</strong>함
- <strong>저수준 디버깅</strong>이 필요하다면 JVM도구가 스파크 모니터링 도구보다 유용
- JVM 도구
  - jstack: 스택 트레이스 제공
  - jmap: 힙 덤프 생성
  - jstat: 시계열 통계 리포트 제공
  - jconsole: JVM 속성변수를 시각화된 방식으로 탐색 가능하게 함
  - etc.

<br>

#### OS와 머신
- <strong>JVM은 호스트 OS에서 실행되므로 머신의 상태를 모니터링</strong>해서 정상 작동 중인지 확인하는 것은 매우 중요
- <strong>자원(CPU, 네트웤, I/O 등)</strong>에 대한 모니터링도 함께 해야함
- 이러한 모니터링 요소들은 <strong>클러스터 수준 모니터링 솔루션</strong>에서 확인 가능
  - dstat, iostat, iotop 같은 명령을 사용하면 세밀한 모니터링 가능

<br>

#### 클러스터
- <strong>스파크 애플리케이션이 실행되는 클러스터도 모니터링</strong>해야함
- <strong>모니터링 대상: YARN, 메소스, 스탠드얼론 클러스터 매니저</strong>
- 클러스터 모니터링 솔루션을 활용하면 클러스터가 동작하지 않는 상황을 빠르게 알 수 있음
  - Ganglia, Prometheus 등

## 모니터링 대상
- 모니터링 대상은 크게 두 가지로 나눌 수 있음
  - 실행 중인 사용자 애플리케이션의 <strong>프로세스</strong>(CPU, 메모리 사용률 등)
  - <strong>프로세스 내부</strong>에서의 쿼리 실행 과정(ex) 잡과 태스크)

### 드라이버와 익스큐터 프로세스
- 스파크 애플리케이션을 모니터링할 땐 <strong>드라이버</strong>를 유심히 관찰해야함
 - 드라이버에는 모든 애플리케이션의 <strong>상태가 보관</strong>되어 있으며 안정적으로 실행 중인지 확인 가능
- <strong>익스큐터</strong>의 상태를 파악하는 것도 매우 중요
  - 스파크는 수월한 모니터링을 지원하기 위해 <strong>드롭위자드 메트릭 라이브러리 기반의 메트릭 시스템</strong>을 갖추고 있음
    - [드롭위자드](https://www.dropwizard.io/en/latest/)

### 쿼리, 잡, 스테이지, 태스크
- 특정 쿼리에서 무슨 일이 일어나기 위해 다음 각각의 정보를 알아야함
  - 쿼리
  - 잡
  - 스테이지
  - 테스크
  
<img src="https://rtfmplz.github.io/images/posts/what-is-job-stage-task-in-spark/spark-rdd-partitions-job-stage-tasks.png"/>

## 스파크 로그
- 스파크를 <strong>가장 상세하게 모니터링</strong>하는 방법 중 하나는 로그 파일을 살펴보는 것
- 스파크 애플리케이션의 로그나 스파크 자체의 로그에서 발견된 이상한 이벤트는 <strong>잡의 실패 지점이나 원인 파악</strong>을 도움
- 클러스터에서 스파크를 실행한다면 클러스터 매니저로 파일에 로그를 저장할 수 있음

## 스파크 UI
- 스파크 UI는 실행 중인 애플리케이션과 스파크 워크로드에 대한 <strong>평가지표를 모니터링</strong>할 수 있는 화면 제공
- 스파크 UI 탭
  - Jobs: 스파크 잡에 대한 정보 제공
  - Stages: 개별 스테이지(스테이지의 태스크를 포함)와 관련된 정보 제공
  - Storage: 스파크 애플리케이션에 캐싱된 정보와 데이터 정보 제공
  - Environment: 스파크 애플리케이션의 구성과 설정 관련 정보 제공
  - Executors: 애플리케이션에서 사용 중인 익스큐터의 상세 정보 제공
  - SQL: SQL과 DataFrame을 포함한 구조적 API 쿼리 정보 제공

In [0]:
path = '/FileStore/tables/bin/2010-summary.parquet'
df = spark.read.parquet(path)

In [0]:
display(df.limit(10))

DEST_COUNTRY_NAME,ORIGIN_COUNTRY_NAME,count
United States,Romania,1
United States,Ireland,264
United States,India,69
Egypt,United States,24
Equatorial Guinea,United States,1
United States,Singapore,25
United States,Grenada,54
Costa Rica,United States,477
Senegal,United States,29
United States,Marshall Islands,44


In [0]:
df.repartition(2).groupby('dest_country_name').count().explain()

In [0]:
df.repartition(2).groupby('dest_country_name').count().collect()

### 스테이지 확인
- stage 총 3개
  - <strong>stage1: 파일 스캔 + 파티션 재분배</strong>
    - task 1개
  - <strong>stage2: 파티션별 집계 수행</strong>
    - task 2개(파티션이 두 개 이므로)
  - <strong>stage3: 셔플 파티션</strong>
    - task 200개(기본값)
    
- 태스크 상세 정보 확인
  - Summary Metrics: 다양한 메트릭에 관한 요약 통계
    - 값이 균일한지 봐야함 (균일하지 않다면 눈여겨 봐야함)
  - Aggregated Metrics by Executor: 익스큐터별 통계
    - 특정 익스큐터가 워크로드를 처리하는 데 어려움을 겪고 있는지 판단할 때 유용
  - Show Additional Metrics: 더 상세한 메트릭 정보

### 스파크 REST API
- 사용자 정의 리포트 솔루션을 구축할 때 REST API 사용
- 스파크 UI 외에도 REST API로 스파크의 상태와 메트릭 확인 가능
- 대부분의 REST API는 스파크 UI와 동일한 정보를 제공하지만 SQL 관련 정보는 제공X

### 스파크 UI 히스토리 서버
- 스파크 UI는 SparkContext가 실행되는 동안 사용 가능
- 정상적으로 종료되거나 비정상적으로 종료된 애플리케이션의 정보를 확인하려면 스파크 히스토리 서버를 이용해야함
  - 그 전에 특정 경로에 이벤트 로그를 저장하도록 스파크 애플리케이션을 설정해야함

## 디버깅 및 스파크 응급 처치
- 사용자가 자주 경험할 만한 몇몇 문제와 잠재적 대응법에 대해 알아볼 것임

### 1. 스파크 애플리케이션이 시작되지 않는 경우
- 신규 클러스터 매니저나 환경을 사용하는 경우 자주 발생함

#### 징후와 증상
- 스파크 잡이 시작되지 않음
- 스파크 UI가 드라이버 노드를 제외한 클러스터 노드 정보를 전혀 표시하지 않음
- 스파크 UI가 잘못된 정보를 표시함

#### 잠재적 대응법
- 해당 유형의 문제는 주로 클러스터나 사용자 애플리케이션의 실행에 필요한 자원을 적절하게 설정하지 않았을 때 발생
- <strong>드라이버와 익스큐터 간 통신 문제</strong>인지 확인
  - ip를 제대로 입력했는지 확인
  - 설정한 포트로 클러스터 머신 간 통신 가능 여부 체크 
- 익스큐터 자원을 클러스터 매니저의 <strong>유휴 자원 이상으로 요청</strong>했는지 확인
  - 클러스터 매니저의 UI로 유휴 자원을 확인하고 spark-submit 명령에 할당할 메모리 설정

### 2. 스파크 애플리케이션 실행 전에 오류가 발생한 경우
- 새로운 애플리케이션을 개발해 클러스터에서 실행할 때 발생할 수 있음

#### 징후와 증상
- 명령이 전혀 실행되지 않으며 오류 메시지가 출력됨
- 스파크 UI에서 잡, 스테이지, 태스크의 정보를 확인할 수 없음

#### 잠재적 대응법
- 스파크 UI의 <strong>Environment 탭에서 애플리케이션 정보가 올바른지</strong> 확인한 다음 <strong>코드</strong> 검토
- 환경 정보 확인
  - 클러스터의 드라이버, 워커, 그리고 사용하는 저장소 시스템 간의 <strong>네트워크</strong> 연결 상태 점검
  - <strong>라이브러리나 클래스패스</strong> 확인
    - 잘못된 버전의 저장소 접속용 라이브러리를 사용할 수 있음
- 코드 검토
  - <strong>잘못된 입력 파일 경로나 필드명</strong>을 사용했는지
  - 스파크가 반환하는 오류를 살펴보자

### 3. 스파크 애플리케이션 실행 중에 오류가 발생한 경우
- 이미 클러스터를 사용 중이거나 사용자 스파크 애플리케이션을 실행하는 중에 발생함
- 특정 주기로 실행되는 예약 작업이나 일부 대화형 탐색에서 발생할 수도 있음

#### 징후와 증상
- 하나의 스파크 잡이 전체 클러스터에서 성공적으로 실행되지만 다음 잡은 실패
- 여러 단계로 처리되는 쿼리의 특정 단계가 실패
- 어제 정상 동작한 예약 작업이 오늘은 실패
- 오류 메시지를 해석하기 어려움

#### 잠재적 대응법
- <strong>데이터가 존재</strong>하는지 또는 데이터가 <strong>올바른 포맷</strong>인지 확인
  - 포맷이 변경되었거나 일부 처리 과정이 변경되어 사용자 애플리케이션이 의도하지 않은 결과를 초래했을 수 있음
  - <strong>입력 데이터와 데이터 포맷</strong>을 한 번 더 확인
    - 코드를 조금씩 줄이면서 문제의 원인을 찾자
  
- 만약 쿼리 실행 즉시 오류가 발생했다면(태스크 실행 전) <strong>실행 계획을 만드는 단계에서 발생한 분석 오류</strong>일 가능성이 높음
  - 즉, 잘못된 컬럼명, 존재하지 않는 뷰나 테이블은 아닌지 확인해야함
  
  
- <strong>스택 트레이스</strong>를 분석해서 단서를 찾자
  
  
- 잡의 태스크가 잠시 실행되다가 비정상적으로 종료된 경우, 입력 데이터 자체의 문제일 수 있음
  - <strong>스키마</strong>가 올바르게 지정되지 않았거나 특정 로우가 스키마 형태와 일치하지 않는 경우
  
  
- <strong>데이터를 처리하는 코드</strong>에서 오류 발생한 경우
  - 오류 발생 시 <strong>스파크 로그</strong>에 오류 내용이 출력됨
    - 또한 스파크 UI에서 태스크 상태가 'failed'로 표시됨
  - 위 로그 파일을 분석해서 오류 발생 시 어떤 작업이 진행 중이었는지 확인

### 4. 느리거나 뒤쳐진 태스크(낙오자라 부름)
- 태스크가 느리거나 뒤처지는 현상은 애플리케이션을 최적화할 때 매우 흔히 발생
- 머신 간의 작업이 균등하게 분배되지 않았거나 특정 머신이 다른 머신에 비해 처리 속도가 느린 경우에도 발생
- 원인은 다양하지만 주로 DataFrame이나 RDD 파티션에 데이터가 균등하게 분할되지 않은 경우 주로 발생
  - 이 경우, 일부 익스큐터가 다른 익스큐터에 비해 훨씬 더 많은 양의 데이터를 처리함
    - ex) groupby 수행 시 특정 키가 다른 키에 비해 더 많은 양의 데이터를 가진 경우

#### 징후와 증상
- 스파크 스테이지에서 대부분의 태스크가 정상적으로 실행되어 소수의 태스크만 남음 근데 남은 태스크가 오래 실행됨
- 스파크 UI에서 위 증상과 같은 느린 태스크를 확인할 수 있고, 동일한 데이터셋을 다룰 때 항상 발생함
- 스파크 애플리케이션을 실행하는 머신 수를 늘려도 상황이 개선되지 않고 여전히 특정 태스크가 다른 태스크에 비해 훨씬 오래 실행
- 스파크 메트릭을 보면 특정 익스큐터가 훨씬 많은 데이터를 읽거나 쓰고 있음을 알 수 있음

#### 잠재적 대응법
- 파티션별 데이터양을 줄이기 위해 <strong>파티션 수를 증가</strong>
- 다른 컬럼을 조합해 파티션 재분배
  - <strong>데이터 치우침이 심한 ID 컬럼을 파티셔닝</strong>
- 컬럼에서 많은 값이 null이면 <strong>null값을 먼저 필터링</strong>
- 가능하면 <strong>익스큐터 메모리 증가</strong>
- <strong>익스큐터에 문제</strong>가 있는지 모니터링하고 있다면 해당 머신이 <strong>다른 잡에서도 동일한 문제가 발생</strong>하는지 확인
- 클러스터에 <strong>비정상적인 익스큐터나 머신</strong>이 있는지 확인
  - ex) 특정 머신의 디스크가 거의 가득 찼을 수 있음
- <strong>UDF 구현 시 객체 할당이나 로직에 쓸모 없는 부분</strong>이 있는지 확인하고 가능하면 DataFrame 코드로 변환
- UDF나 UDAF(사용자 정의 집계 함수)가 <strong>적당한 데이터</strong>를 사용해 실행되는지 확인
  - 집계 연산은 공통키와 관련된 많은 데이터를 메모리에 적재하므로 집계 연산을 수행하는 익스큐터는 다른 익스큐터에 비해 훨씬 많은 작업 수행
- <strong>Dataset</strong>을 사용한다면 스파크 UI의 <strong>가비지 컬렉션 메트릭이 느린 태스크와 관련</strong> 있는지 확인

### 5. 느린 집계 속도

### 6. 느린 조인 속도

### 7. 느린 읽기와 쓰기 속도

### 8. 드라이버 OutOfMemoryError 또는 응답 없음

### 9. 익스큐터 OutOfMemoryError 또는 응답 없음

### 10. 의도하지 않은 null 값이 있는 결과 데이터

### 11. 디스크 공간 없음 오류

### 12. 직렬화 오류