이제까지
- Spark SQL 사용법
이번 강의에선
- DataFrame의 사용법
    - DataFrame의 데이터 타입
    - DataFrame에서 가능한 연산들
    - DataFrame에서의 Aggregation 작업들

# DataFrame은 관계형 데이터 
- 한마디로: 관계형 데이터셋(RDD + Relation)에 적용한 것
- RDD가 함수형 API를 가졌다면 DataFrame은 선언형 API
- 자동으로 최적화가 가능
    - Schema를 통한 최적화
- 타입이 없다.

# DataFrame의 특징
- 지연실행(Lazy Execution)
- 분산 저장
- Immutable
    - 생성한 이후에 변경할 수 없음을 의미함

## DataFrame: RDD의 확장판
- 지연 실행(Lazy Execution)
- 분산 저장
- Immutable
- 열(Row) 객체가 있다.
- SQL 쿼리를 실행할 수 있다.
- 스키마를 가질 수 있고 이를 통해 성능을 더욱 최적화 할 수 있다.
- CSV, JSON, Hive 등으로 읽어오거나 변환이 가능하다.

# DataFrame의 스키마를 확인하는 법
- Dtypes
- show()
    - 테이블 형태로 데이터를 출력
    - 첫 20개의 열만 보여준다.
- PrintSchema()
    - 스키마를 트리 형태로 볼 수 있다.

# 복잡한 DataType들
- ArrayType
- MapType
- StructType

# DataFrame Operations
SQL과 비슷한 작업이 가능하다
- Select
- Where 
- Limit
- OrderBy
- GROUPBy
- Join

### 1) Select 
사용자가 원하는 Column이나 데이터를 추출하는데 사용

- df.select('*').collect()
- df.select('name', 'age').collect()
- df.select(df.name, (df.age +1).alias('age')).collect()

### 2) Agg
Aggregate의 약자로, 그룹핑 후 데이터를 하나로 합치는 작업

- df.agg({'age': 'max'}).collect()
    - age 컬럼 안에서 Max값 구하기
- from pyspark.sql import functions as F
    - df.agg(F.min(df.age)).collect()

### 3) GroupBy
사용자가 지정한 Column을 기준으로 데이터를 Grouping하는 작업

- df.groupBy().avg().collect()
- sorted(df.groupBy('name').agg({'age': 'mean'}).collect())
- sorted(df.groupBy(df.name).avg().collect())
- sorted(df.groupBy(['name' df.age]).count().collect()

### 4) Join
다른 DataFrame과 사용자가 지정한 Column을 기준으로 합치는 작업

- df.join(df2, 'name').select(df.name, df2.height).collect()

# DataFrame 조작하기

- sparkSession.builder: "SparkSession" 클래스의 빌더를 호출해서 SparkSession을 생성하기 위핸 빌더 객체를 가져옵니다.
- Master('local'): SparkSession의 마스터 URL을 설정합니다. 여기서 'Local'은 로컬 모드로 실행하겠다는 것을 의미합니다. 이는 스파크 단일 노드에서 실행하고 모든 스파크 작업을 로컬 머신에서 처리하겠다는 것입니다.
- appName('create-dataframe'): SparkSession의 애플리케이션 이름을 설정합니다. 이 이름은 Spark UI에서 애플리케이션을 구분하는 데 사용됩니다. 여기서 애플리케이션 이름은 'create-dataframe'입니다.
- getOrCreate(): 설정된 빌더 객체를 사용하여 SparkSession을 생성합니다. 이 메소드는 SparkSession이 이미 존재하는 경우 해당 세션을 반환하고, 없는 경우 새로운 세션을 생성하여 반환합니다. 이렇게 하면 여러 번 코드를 실행할 때 새로운 SparkSession을 생성하는 대신 기존 세션을 재사용할 수 있습니다.



In [4]:
from pyspark.sql import SparkSession, Row
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

spark = SparkSession.builder.master('local').appName('create-dataframe').getOrCreate()

stocks = [
    ('Google', 'GOOGL', 'USA', 2984, 'USD'),
    ('Netflix', 'NFLX', 'USA', 645, 'USD'),   
    ('Amazon', 'AMZN', 'USA', 3518, 'USD'),   
    ('Tesla', 'TSLA', 'USA', 1222, 'USD'),   
    ('Samsung', '005930', 'Korea', 70600, 'KRW'),  
    ('Kakao', '035720', 'Korea', 125000, 'KRW')]     

schema = ['name', 'ticker', 'country', 'price', 'currency']
df = spark.createDataFrame(data = stocks, schema = schema)

23/05/07 16:37:57 WARN Utils: Your hostname, Keemyoui-MacBookPro.local resolves to a loopback address: 127.0.0.1; using 192.168.35.79 instead (on interface en0)
23/05/07 16:37:57 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


23/05/07 16:37:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
23/05/07 16:37:58 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [5]:
df.show()

[Stage 0:>                                                          (0 + 1) / 1]

+-------+------+-------+------+--------+
|   name|ticker|country| price|currency|
+-------+------+-------+------+--------+
| Google| GOOGL|    USA|  2984|     USD|
|Netflix|  NFLX|    USA|   645|     USD|
| Amazon|  AMZN|    USA|  3518|     USD|
|  Tesla|  TSLA|    USA|  1222|     USD|
|Samsung|005930|  Korea| 70600|     KRW|
|  Kakao|035720|  Korea|125000|     KRW|
+-------+------+-------+------+--------+



                                                                                

In [8]:
# order by
usaStockDF = df.select('name', 'country', 'price').where('country == "USA"').orderBy('price')
usaStockDF.show()

+-------+-------+-----+
|   name|country|price|
+-------+-------+-----+
|Netflix|    USA|  645|
|  Tesla|    USA| 1222|
| Google|    USA| 2984|
| Amazon|    USA| 3518|
+-------+-------+-----+



In [9]:
# groupby
df.groupBy('currency').max('price').show()

+--------+----------+
|currency|max(price)|
+--------+----------+
|     KRW|    125000|
|     USD|      3518|
+--------+----------+



In [10]:
# function 사용하기
from pyspark.sql.functions import avg, count

df.groupBy('currency').agg(avg('price')).show()

+--------+----------+
|currency|avg(price)|
+--------+----------+
|     KRW|   97800.0|
|     USD|   2092.25|
+--------+----------+



In [11]:
df.groupBy('currency').agg(count('price')).show()

+--------+------------+
|currency|count(price)|
+--------+------------+
|     KRW|           2|
|     USD|           4|
+--------+------------+

