# Spark SQL 기반 탐색적 데이터 분석 (EDA)

## 학습 목표
1. 데이터 준비 및 테이블 생성
2. 데이터 탐색 및 변환
3. Temporary View 생성 및 활용
4. 데이터 분석 및 시각화
5. 데이터 결합 및 집계

In [None]:
# Colab 환경인지 확인
# Colab이면 /content, 아니면 현재 작업 디렉토리를 BASE로 설정
# SparkSession 생성 (PySpark 애플리케이션의 진입점)

## 1. 데이터 준비 및 테이블 생성

### MovieRatings 테이블
- 사용자가 제출한 2천만 개가 조금 넘는 영화 등급 레코드
- 타임스탬프는 UTC 시간으로 기록된 integer 값

In [None]:
# Colab에서 데이터 다운로드 및 압축 해제

In [None]:
# movieRatings 테이블 생성
# ratings.csv 파일 경로 설정
# 기존 movieRatings 테이블이 있으면 삭제
# 새로운 movieRatings 테이블 생성 및 CSV 데이터 로드

In [None]:
# 테이블 확인

In [None]:
# 전체 레코드 수

## 2. 데이터 탐색 및 변환

### CAST를 사용한 타임스탬프 변환

In [None]:
# timeRecorded를 timestamp 형식으로 변환

## 3. Temporary View 생성 및 활용

### 월별 평균 평점 View

In [None]:
# ratingsByMonth 임시 뷰 생성 (월별 평균 평점 계산)

In [None]:
# 임시 뷰 조회 (평균 평점이 낮은 순서대로 상위 5개월 출력)

## 4. 데이터 분석 및 시각화

### 평점 분포 히스토그램

In [None]:
# 전체 레코드의 1% 무작위 샘플링
# 전체 레코드 수 계산
# 1% 샘플 개수 계산 (정수로 변환)
# 무작위로 1% 샘플 추출

In [None]:
# Spark DataFrame을 Pandas DataFrame으로 변환
# 히스토그램 그리기

## 5. 데이터 결합 및 집계

### OutdoorProducts 테이블 생성

In [None]:
# 새 SparkSession (필요 시)
# spark.stop()
# spark = SparkSession.builder.appName("New EDA Session").getOrCreate()

In [None]:
# outdoorProducts 테이블 생성
# OnlineRetail.csv 파일 경로 설정
# 기존 outdoorProducts 테이블이 있으면 삭제
# 새로운 outdoorProducts 테이블 생성 및 CSV 데이터 로드

### 음수 수량 데이터 탐색

In [None]:
# quantity가 0보다 작은 행의 수 계산
# 음수 수량을 가진 레코드 개수 조회
# 결과 출력 (첫 번째 행의 negative_quantity_count 값 추출)

### Sales View 생성 (quantity > 0, totalAmount 계산)

In [None]:
# sales 임시 뷰 생성 (판매 데이터만 포함, 환불 제외)

In [None]:
# totalAmount 내림차순

In [None]:
# 고유 국가 목록 조회 (중복 제거) - 긴 텍스트를 자르지 않고 전체 표시

### 국가별 총 판매량 View

In [None]:
# salesQuants 임시 뷰 생성 (국가별 총 판매 수량 집계)

### CountryCodes 테이블과 JOIN

In [None]:
# countryCodes 테이블 생성 (국가 코드 매핑 테이블)
# countries_iso3166b.csv 파일 경로 설정
# 기존 countryCodes 테이블이 있으면 삭제
# 새로운 countryCodes 테이블 생성 및 CSV 데이터 로드

In [None]:
# countryCodes 테이블의 스키마(구조) 확인 (컬럼명과 데이터 타입)

### JOIN 및 원형 차트 시각화

In [None]:
# 국가별 판매 수량과 ISO 3166 알파3 코드 조인
# salesQuants와 countryCodes 테이블 조인하여 국가 코드 추가
# 상위 10개 국가만 출력

In [None]:
# Spark DataFrame을 Pandas DataFrame으로 변환
# 파이 차트용 데이터 추출

In [None]:
# 원형 차트 (파이 차트) 생성

### 1% 이하 국가는 "Others"로 합치기

In [None]:
# 작은 조각들을 "Others"로 통합 (전체의 1% 미만 항목)
# 전체 판매량 합계 계산
# 임계값 설정 (전체의 1%)
# 새로운 라벨과 크기를 저장할 리스트 초기화
# "Others"로 통합될 작은 항목들의 합계
# 각 국가별로 판매량 확인
# "Others" 그룹에 항목이 있으면 추가
# 결과 출력 (확인용)

In [None]:
# 분리된 원형 차트 (각 조각이 약간씩 떨어져 있음)
# 각 조각을 중심에서 떨어뜨리는 정도 설정 (모든 조각 0.05만큼 분리)
# 파이 차트 그리기 (wedges: 조각, texts: 라벨, autotexts: 퍼센트 텍스트)
# 라벨 텍스트 크기 조정
# 퍼센트 텍스트 크기 조정