# Data Programming - Spark: 타이타닉 데이터 분석

### 1. 데이터를 위한 Spark SQL 설정

#### Colab에서 환경 설정

### TODO: 아래의 코드를 따라치면서 Colab 환경에서 spark ml을 실행할 준비를 하고 연결을 확인합니다.

In [None]:
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
!tar xf spark-3.2.4-bin-hadoop3.2.tgz
!pip install -q findspark

In [None]:
# findspark를 사용해 Spark 초기화
import findspark
findspark.init("/content/spark-3.2.4-bin-hadoop3.2")

### 2. 데이터 분석을 위한 Spark SQL 설정

#### CSV 파일 읽어 DataFrame 생성

### TODO: 아래의 주석과 참고페이지를 기반으로 빈칸을 채워주세요. 타입과 필드를 정의합니다.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, FloatType

# SparkSession 설정
# 'Titanic Advanced Analysis'라는 이름의 Spark 세션을 생성합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.SparkSession.html
spark = SparkSession.builder.appName("Titanic Advanced Analysis").getOrCreate()

# 스키마 정의
# 데이터 스키마를 명시적으로 정의하여 각 열의 데이터 타입을 지정합니다.
# 이 스키마는 CSV 파일을 읽을 때 적용됩니다.
schema = ___________([
    ___________("PassengerId", ___________(), True),   # 승객 ID (int)
    ___________("Survived", ___________(), True),      # 생존 여부 (0 = 사망, 1 = 생존) (int)
    ___________("Pclass", ___________(), True),        # 승객 등급 (1, 2, 3) (int)
    ___________("Name", ___________(), True),           # 승객 이름 (String)
    ___________("Sex", ___________(), True),            # 성별 (String)
    ___________("Age", ___________(), True),             # 나이 (float)
    ___________("SibSp", ___________(), True),         # 동반한 형제/배우자 수 (int)
    ___________("Parch", ___________(), True),         # 동반한 부모/자녀 수 (int)
    ___________("Ticket", ___________(), True),         # 티켓 번호 (String)
    ___________("Fare", ___________(), True),            # 운임 요금  (float)
    ___________("Cabin", ___________(), True),          # 객실 번호 (String)
    ___________("Embarked", ___________(), True)        # 탑승 항구 (C = Cherbourg, Q = Queenstown, S = Southampton) (String)
])

# CSV 파일 읽기
# 정의된 스키마와 옵션을 사용하여 CSV 파일을 읽어 DataFrame으로 로드합니다.
# header 옵션은 첫 줄을 헤더로 사용할지 여부를 설정하며, delimiter 옵션은 필드 구분자를 지정합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrameReader.csv.html
df = spark.read.schema(schema).format("csv")\
    .option("header", "true")\
    .option("delimiter", ",")\
    .load("../data/titanic.csv")

# 데이터 출력
# show() 메서드를 사용하여 상위 5개 행을 출력하여 데이터를 확인합니다.
df.show(5)


+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| null|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| null|       S|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| null|       S|
+-----------+--------+------+--------------------+------+----+-----+-----+------