# Data Programming - Spark: 타이타닉 데이터 분석

### 1. 데이터를 위한 Spark SQL 설정

#### Colab에서 환경 설정

### TODO: 아래의 코드를 따라치면서 Colab 환경에서 spark ml을 실행할 준비를 하고 연결을 확인합니다.

In [None]:
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
!tar xf spark-3.2.4-bin-hadoop3.2.tgz
!pip install -q findspark

In [None]:
# findspark를 사용해 Spark 초기화
import findspark
findspark.init("/content/spark-3.2.4-bin-hadoop3.2")

In [None]:
# SparkSession을 설정합니다.
from pyspark.sql import SparkSession

# SparkSession 생성
# 'Titanic Data Analysis'이라는 애플리케이션 이름으로 Spark 세션을 초기화합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.SparkSession.html
spark = SparkSession.builder.appName("Titanic Data Analysis").getOrCreate()

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/11/05 03:53:00 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
24/11/05 03:53:01 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


### 2. 데이터 분석을 위한 Spark SQL 설정

#### CSV 파일 읽어 DataFrame 생성

### TODO: 아래의 주석과 참고페이지를 기반으로 빈칸을 채워주세요. 타입과 필드를 정의합니다.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, FloatType

# SparkSession 설정
# 'Titanic Advanced Analysis'라는 이름의 Spark 세션을 생성합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.SparkSession.html
spark = SparkSession.builder.appName("Titanic Advanced Analysis").getOrCreate()

# 스키마 정의
# 데이터 스키마를 명시적으로 정의하여 각 열의 데이터 타입을 지정합니다.
# 이 스키마는 CSV 파일을 읽을 때 적용됩니다.
schema = ___________([
    ___________("PassengerId", ___________(), True),   # 승객 ID (int)
    ___________("Survived", ___________(), True),      # 생존 여부 (0 = 사망, 1 = 생존) (int)
    ___________("Pclass", ___________(), True),        # 승객 등급 (1, 2, 3) (int)
    ___________("Name", ___________(), True),           # 승객 이름 (String)
    ___________("Sex", ___________(), True),            # 성별 (String)
    ___________("Age", ___________(), True),             # 나이 (float)
    ___________("SibSp", ___________(), True),         # 동반한 형제/배우자 수 (int)
    ___________("Parch", ___________(), True),         # 동반한 부모/자녀 수 (int)
    ___________("Ticket", ___________(), True),         # 티켓 번호 (String)
    ___________("Fare", ___________(), True),            # 운임 요금  (float)
    ___________("Cabin", ___________(), True),          # 객실 번호 (String)
    ___________("Embarked", ___________(), True)        # 탑승 항구 (C = Cherbourg, Q = Queenstown, S = Southampton) (String)
])

# CSV 파일 읽기
# 정의된 스키마와 옵션을 사용하여 CSV 파일을 읽어 DataFrame으로 로드합니다.
# header 옵션은 첫 줄을 헤더로 사용할지 여부를 설정하며, delimiter 옵션은 필드 구분자를 지정합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrameReader.csv.html
df = spark.read.schema(schema).format("csv")\
    .option("header", "true")\
    .option("delimiter", ",")\
    .load("../data/titanic.csv")

# 데이터 출력
# show() 메서드를 사용하여 상위 5개 행을 출력하여 데이터를 확인합니다.
df.show(5)


+-----------+--------------------+--------+----+-------+------+------+-----+
|PassengerId|                Name|Survived| Age|   Fare|   Sex|Pclass|Cabin|
+-----------+--------------------+--------+----+-------+------+------+-----+
|          1|Braund, Mr. Owen ...|       0|22.0|   7.25|  male|     3| null|
|          2|Cumings, Mrs. Joh...|       1|38.0|71.2833|female|     1|  C85|
|          3|Heikkinen, Miss. ...|       1|26.0|  7.925|female|     3| null|
|          4|Futrelle, Mrs. Ja...|       1|35.0|   53.1|female|     1| C123|
|          5|Allen, Mr. Willia...|       0|35.0|   8.05|  male|     3| null|
|          6|    Moran, Mr. James|       0|null| 8.4583|  male|     3| null|
|          7|McCarthy, Mr. Tim...|       0|54.0|51.8625|  male|     1|  E46|
|          8|Palsson, Master. ...|       0| 2.0| 21.075|  male|     3| null|
|          9|Johnson, Mrs. Osc...|       1|27.0|11.1333|female|     3| null|
|         10|Nasser, Mrs. Nich...|       1|14.0|30.0708|female|     2| null|

### 3. 데이터 처리를 위한 Spark SQL 활용

#### DataFrame 검사 및 요약

### TODO: 아래의 주석과 참고페이지를 기반으로 빈칸을 채워주세요. 타입과 필드를 정의합니다.

In [None]:
# 스키마 출력
# 데이터프레임의 스키마를 출력하여 각 열의 데이터 타입을 확인합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.printSchema.html
df.___________()

# 요약 통계
# describe() 메서드를 사용하여 숫자형 열에 대한 요약 통계를 계산하고 출력합니다.
# 출력되는 요약 통계는 count, mean, stddev, min, max 등의 값입니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.describe.html
df.describe().show()

root
 |-- PassengerId: integer (nullable = true)
 |-- Name: string (nullable = true)
 |-- Survived: integer (nullable = true)
 |-- Age: float (nullable = true)
 |-- Fare: float (nullable = true)
 |-- Sex: string (nullable = true)
 |-- Pclass: integer (nullable = true)
 |-- Cabin: string (nullable = true)

+-------+-----------------+--------------------+-------------------+------------------+-----------------+------+------------------+-----+
|summary|      PassengerId|                Name|           Survived|               Age|             Fare|   Sex|            Pclass|Cabin|
+-------+-----------------+--------------------+-------------------+------------------+-----------------+------+------------------+-----+
|  count|              891|                 891|                891|               714|              891|   891|               891|  204|
|   mean|            446.0|                null| 0.3838383838383838| 29.69911764704046|32.20420804114722|  null| 2.308641975308642| null|
| s

#### 데이터 정렬 및 중복 제거

In [None]:
# 이름을 기준으로 정렬
# Name 열을 기준으로 오름차순 정렬하여 데이터를 출력합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.sort.html
df.___________("Name").show()

# 중복된 행 제거
# dropDuplicates() 메서드를 사용하여 데이터프레임의 중복된 행을 제거합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.dropDuplicates.html
unique_df = df.___________()

# 중복 제거 후 이름을 기준으로 정렬
# 중복이 제거된 데이터프레임을 Name 열 기준으로 오름차순 정렬하여 출력합니다.
unique_df.___________("Name").show()

+-----------+--------------------+--------+----+-------+------+------+-----+
|PassengerId|                Name|Survived| Age|   Fare|   Sex|Pclass|Cabin|
+-----------+--------------------+--------+----+-------+------+------+-----+
|        147|"Andersson, Mr. A...|       1|27.0| 7.7958|  male|     3| null|
|        519|"Angle, Mrs. Will...|       1|36.0|   26.0|female|     2| null|
|        291|"Barber, Miss. El...|       1|26.0|  78.85|female|     1| null|
|        625|"Bowen, Mr. David...|       0|21.0|   16.1|  male|     3| null|
|        508|"Bradley, Mr. Geo...|       1|null|  26.55|  male|     1| null|
|        346|"Brown, Miss. Ame...|       1|24.0|   13.0|female|     2|  F33|
|        209|"Carr, Miss. Hele...|       1|16.0|   7.75|female|     3| null|
|        205|"Cohen, Mr. Gursh...|       1|18.0|   8.05|  male|     3| null|
|        238|"Collyer, Miss. M...|       1| 8.0|  26.25|female|     2| null|
|        490|"Coutts, Master. ...|       1| 9.0|   15.9|  male|     3| null|

#### 필터링 및 조건부 연산

In [None]:
# 특정 조건을 기준으로 데이터를 필터링합니다.
# filter() 메서드를 사용하여 나이가 25세 이상인 승객만을 필터링합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.filter.html
filtered_df = unique_df.___________(unique_df["Age"] > 25)  # 나이가 25세 이상인 승객만 필터링합니다.

# 나이를 기준으로 정렬하여 출력
# Age 열을 기준으로 오름차순 정렬하여 필터링된 결과를 출력합니다.
filtered_df.sort("Age").show()

# 정규식 및 특정 값 조건
# 조건에 따라 특정 열의 값이 일치하는 행을 필터링하여 출력합니다.

# 성별이 여자인 승객만 필터링
# Sex 열이 "female"인 승객을 필터링합니다.
df[df["Sex"] == "female"].show()

# 1등급 객실에 탄 승객만 필터링
# Pclass 열이 1인 승객을 필터링합니다.
df[df["Pclass"] == 1].show()

+-----------+--------------------+--------+----+-------+------+------+-----+
|PassengerId|                Name|Survived| Age|   Fare|   Sex|Pclass|Cabin|
+-----------+--------------------+--------+----+-------+------+------+-----+
|        163|Bengtsson, Mr. Jo...|       0|26.0|  7.775|  male|     3| null|
|        890|Behr, Mr. Karl Ho...|       1|26.0|   30.0|  male|     1| C148|
|         74|Chronopoulos, Mr....|       0|26.0|14.4542|  male|     3| null|
|        510|      Lang, Mr. Fang|       1|26.0|56.4958|  male|     3| null|
|        313|Lahtinen, Mrs. Wi...|       0|26.0|   26.0|female|     2| null|
|        402|     Adams, Mr. John|       0|26.0|   8.05|  male|     3| null|
|        871|   Balkic, Mr. Cerin|       0|26.0| 7.8958|  male|     3| null|
|        316|Nilsson, Miss. He...|       1|26.0| 7.8542|female|     3| null|
|         94|Dean, Mr. Bertram...|       0|26.0| 20.575|  male|     3| null|
|        291|"Barber, Miss. El...|       1|26.0|  78.85|female|     1| null|

#### 그룹화 및 집계

In [None]:
import pyspark.sql.functions as sf

# 그룹화 및 집계: 객실 등급별 승객 수를 계산합니다.
# groupby()와 agg()를 사용하여 Pclass 열로 그룹화한 뒤, 각 그룹의 행 수를 count로 계산하여 출력합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.groupBy.html
df_group = filtered_df.___________('Pclass').___________(sf.count('*').alias('count')).sort('Pclass')

# 등급별 그룹화 후 카운트를 표시
df_group.show()

+------+-----+
|Pclass|count|
+------+-----+
|     1|  144|
|     2|  108|
|     3|  161|
+------+-----+



### 4. 데이터 처리를 위한 SQL 쿼리 최적화

### TODO: 아래의 주석과 참고페이지를 기반으로 빈칸을 채워주세요.

In [None]:
# DataFrame을 SQL 테이블로 등록합니다.
# createOrReplaceTempView() 메서드를 사용하여 DataFrame을 SQL 테이블로 등록하고, SQL 쿼리를 통해 접근할 수 있습니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.createOrReplaceTempView.html
df.____________________("titanic")

# SQL 쿼리를 직접 실행하여 데이터 분석을 수행합니다.
# 객실 등급(Pclass)별 평균 나이를 계산합니다. NULL 값을 제외한 Age 열의 평균을 구하고, Pclass별로 그룹화하여 출력합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.SparkSession.sql.html
spark.sql("SELECT Pclass, AVG(Age) FROM titanic WHERE Age IS NOT NULL GROUP BY Pclass").show()


+------+------------------+
|Pclass|          avg(Age)|
+------+------------------+
|     1| 38.23344086030478|
|     3| 25.14061971827292|
|     2|29.877630057706998|
+------+------------------+



#### 열 추가, 업데이트 및 제거

In [None]:
# 열 추가
# withColumn() 메서드를 사용하여 "Name" 열의 첫 글자를 추출하여 새로운 "Initial" 열로 추가합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.withColumn.html
df_sub = df.____________________("Initial", df["Name"].substr(0, 1))  # 이름의 첫 글자를 추가합니다.
df_sub.show()

# 열 이름 변경
# withColumnRenamed() 메서드를 사용하여 "Initial" 열의 이름을 "Initial_Letter"로 변경합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.withColumnRenamed.html
df_initial = df_sub.____________________("Initial", "Initial_Letter")
df_initial.show()

# 열 제거
# drop() 메서드를 사용하여 "Cabin" 열을 제거합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.drop.html
df_drop = df_initial.____________________("Cabin")
df_drop.show()

+-----------+--------------------+--------+----+-------+------+------+-----+-------+
|PassengerId|                Name|Survived| Age|   Fare|   Sex|Pclass|Cabin|Initial|
+-----------+--------------------+--------+----+-------+------+------+-----+-------+
|          1|Braund, Mr. Owen ...|       0|22.0|   7.25|  male|     3| null|      B|
|          2|Cumings, Mrs. Joh...|       1|38.0|71.2833|female|     1|  C85|      C|
|          3|Heikkinen, Miss. ...|       1|26.0|  7.925|female|     3| null|      H|
|          4|Futrelle, Mrs. Ja...|       1|35.0|   53.1|female|     1| C123|      F|
|          5|Allen, Mr. Willia...|       0|35.0|   8.05|  male|     3| null|      A|
|          6|    Moran, Mr. James|       0|null| 8.4583|  male|     3| null|      M|
|          7|McCarthy, Mr. Tim...|       0|54.0|51.8625|  male|     1|  E46|      M|
|          8|Palsson, Master. ...|       0| 2.0| 21.075|  male|     3| null|      P|
|          9|Johnson, Mrs. Osc...|       1|27.0|11.1333|female|  

#### DataFrame을 다른 데이터 구조로 변환 및 출력

In [31]:
# RDD로 변환
# DataFrame의 데이터를 RDD로 변환하여 RDD 연산을 수행할 수 있습니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.rdd.html
rdd_out = df_initial.rdd
print(rdd_out.collect()[:10])  # 상위 10개의 RDD 요소를 출력합니다.

# Pandas DataFrame으로 변환
# toPandas() 메서드를 사용하여 Spark DataFrame을 Pandas DataFrame으로 변환합니다.
# 참고: https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.toPandas.html
pandas_out = df_initial.toPandas()
print(pandas_out)  # Pandas DataFrame을 출력합니다.

[Row(PassengerId=1, Name='Braund, Mr. Owen Harris', Survived=0, Age=22.0, Fare=7.25, Sex='male', Pclass=3, Cabin=None, Initial_Letter='B'), Row(PassengerId=2, Name='Cumings, Mrs. John Bradley (Florence Briggs Thayer)', Survived=1, Age=38.0, Fare=71.2833023071289, Sex='female', Pclass=1, Cabin='C85', Initial_Letter='C'), Row(PassengerId=3, Name='Heikkinen, Miss. Laina', Survived=1, Age=26.0, Fare=7.925000190734863, Sex='female', Pclass=3, Cabin=None, Initial_Letter='H'), Row(PassengerId=4, Name='Futrelle, Mrs. Jacques Heath (Lily May Peel)', Survived=1, Age=35.0, Fare=53.099998474121094, Sex='female', Pclass=1, Cabin='C123', Initial_Letter='F'), Row(PassengerId=5, Name='Allen, Mr. William Henry', Survived=0, Age=35.0, Fare=8.050000190734863, Sex='male', Pclass=3, Cabin=None, Initial_Letter='A'), Row(PassengerId=6, Name='Moran, Mr. James', Survived=0, Age=None, Fare=8.45829963684082, Sex='male', Pclass=3, Cabin=None, Initial_Letter='M'), Row(PassengerId=7, Name='McCarthy, Mr. Timothy J',

#### SparkSession 중지

In [None]:
spark.stop()  # Spark 세션을 중지합니다.