In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [4]:
from datetime import date, datetime
from pyspark.sql import *
from pyspark.sql.types import *
from pyspark.sql.functions import *


# 1. DataFrame 생성

### SparkSession.createDataFrame(data, **schema=None**, samplingRatio=None, verifySchema=True)
- data : RDD or iterable
- **scheam : pyspark.sql.types.DataType, str or list, optional**, 지정하지 않으면 스파크가 기본으로 생성.
  
- samplingRatio : the sample ratio of rows used for inferring, 스키마가 입력되지 않으면 데이터로 유추해야함(이때 확인할 data비율)
    - 인수값이 None이면 전달된 data의 첫번째 data만 읽어서 스키마 유추

-  verifySchema : verify data types of every row against schema. Enabled by default

- SparkSession 객체를 사용해 DataFrame을 생성할 수 있다.
- SparkSession 객체는 pyspark shell을 실행할 때 spark 라는 이름으로 미리 생성된다.

## Row 객체를 사용해 생성하기

- row : DataFrame에서의 한 행

In [1]:
# !pip install pandas
# !pip install pyarrow

In [3]:
import pandas as pd
from datetime import date, datetime
from pyspark.sql import *

In [6]:
##Spark.Row 클래스
??Row

[0;31mInit signature:[0m [0mRow[0m[0;34m([0m[0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m        
[0;32mclass[0m [0mRow[0m[0;34m([0m[0mtuple[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m[0;34m[0m
[0;34m[0m    [0;34m"""[0m
[0;34m    A row in :class:`DataFrame`.[0m
[0;34m    The fields in it can be accessed:[0m
[0;34m[0m
[0;34m    * like attributes (``row.key``)[0m
[0;34m    * like dictionary values (``row[key]``)[0m
[0;34m[0m
[0;34m    ``key in row`` will search through row keys.[0m
[0;34m[0m
[0;34m    Row can be used to create a row object by using named arguments.[0m
[0;34m    It is not allowed to omit a named argument to represent that the value is[0m
[0;34m    None or missing. This should be explicitly set to None in this case.[0m
[0;34m[0m
[0;34m    .. versionchanged:: 3.0.0[0m
[0;34m        Rows created from named arguments no longer have[0m
[0;34m      

In [5]:
# spark.Row는 명명된 인수를 사용하여 행 개체를 만드는 데 사용할 수 있음
row = Row(name='김철수', age=15, birth=date(1996,7,22))
row
row['name']

Row(name='김철수', age=15, birth=datetime.date(1996, 7, 22))

'김철수'

In [7]:
# spakr DF 생성
# Row class의 생성자로 keyword args를 전달해 생성
df = spark.createDataFrame([
     Row(name='김철수', age=15, birth=date(1996,7,22)),
     Row(name='이제동', age=20, birth=date(1991,5,10)),
     Row(name='홍진호', age=22, birth=date(1992,2,22))
])
df #지연연산

# 실행결과값: DataFrame[name: string, age: bigint, birth: date]
    #이것이 스키마. 즉, 스키마란 생성될 df의 기본정보 - 컬럼명:컬럼타입

# df 확인: action진행 - show(n): n개의 행 출력, 생략하면 기본값 n=20
df.show()

DataFrame[name: string, age: bigint, birth: date]

                                                                                

+------+---+----------+
|  name|age|     birth|
+------+---+----------+
|김철수| 15|1996-07-22|
|이제동| 20|1991-05-10|
|홍진호| 22|1992-02-22|
+------+---+----------+



- 논리적 연산 계획을 최적화 하기 위해 schema 사용
- 지정하지 않으면 자동생성
- 전체 스키마 확인
    - df.printSchema()

In [8]:
# 스키마(구조) 확인 - 자동생성됨(data보고 spark가 유추, null 허용 여부는 대부분 허용함 - 허용해야 spark가 편하기 때문에...)
df.printSchema()


root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)
 |-- birth: date (nullable = true)



## schema를 명시하여 DataFrame 생성
- 사용자 명시 스키마를 활용
- schema= 인수 사용

In [9]:
# 튜플에 데이터를 저장하고 스키마(pands df의 column)를 직접 지정, 문자열로 지정
df2 = spark.createDataFrame([
     Row(name='김철수', age=15, birth=date(1996,7,22)),
     Row(name='이제동', age=20, birth=date(1991,5,10)),
     Row(name='홍진호', age=22, birth=date(1992,2,22))
], schema='name string, age int, birth date')
df2.show()
df2.printSchema()

[Stage 3:>                                                          (0 + 1) / 1]

+------+---+----------+
|  name|age|     birth|
+------+---+----------+
|김철수| 15|1996-07-22|
|이제동| 20|1991-05-10|
|홍진호| 22|1992-02-22|
+------+---+----------+

root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- birth: date (nullable = true)



                                                                                

## StructType 객체를 사용해 Schema 지정

In [13]:
??StructField

[0;31mInit signature:[0m [0mStructField[0m[0;34m([0m[0mname[0m[0;34m,[0m [0mdataType[0m[0;34m,[0m [0mnullable[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mmetadata[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m        
[0;32mclass[0m [0mStructField[0m[0;34m([0m[0mDataType[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m    [0;34m"""A field in :class:`StructType`.[0m
[0;34m[0m
[0;34m    Parameters[0m
[0;34m    ----------[0m
[0;34m    name : str[0m
[0;34m        name of the field.[0m
[0;34m    dataType : :class:`DataType`[0m
[0;34m        :class:`DataType` of the field.[0m
[0;34m    nullable : bool, optional[0m
[0;34m        whether the field can be null (None) or not.[0m
[0;34m    metadata : dict, optional[0m
[0;34m        a dict from string to simple type that can be toInternald to JSON automatically[0m
[0;34m[0m
[0;34m    Examples[0m
[0;34m    --------[0m
[0;34m    >>> (StructField("f1", 

In [10]:
from pyspark.sql.types import *

In [23]:
data = [
    ('김철수', 15, date(1996,7,22)),
    ('이제동', 20, date(1991,5,10)),
    ('홍진호', 22, date(1992,2,22))]

# data = [
#     ('김철수', 15, date(1996,7,22)),
#     ('이제동', 20, date(1991,5,10)), #빈문자열 str타입이 스키마에 int로 구성해놓은 age 컬럼이라 타입오류 에러 발생
#     ('홍진호', 22, date(1992,2,22))]

# data = [
#     ('김철수', 15, date(1996,7,22)),
#     ('', 20, date(1991,5,10)), #빈문자열: null 처리의 의미로 전달 -> 스키마 nullable이 false임에도 df생성. 즉 '' null이아닌 정상데이터임
#     ('홍진호', 22, date(1992,2,22))
# ]

# data = [
#     ('김철수', 15, date(1996,7,22)),
#     (None, 20, date(1991,5,10)), # None: python의 null값 표현- 스키마에 nullable이 false여서 에러 발생
#     ('홍진호', 22, date(1992,2,22))]

In [24]:
# StructField 식: StructField(name, dataType, nullable=True, metadata=None)
# df의 열별로 StructField를 구성
# 컬럼 type은 XXXType() 이라는 모듈 사용: eg-StringType(), IntegerType()
schema = StructType([
    StructField('name',StringType(), False),
    StructField('age',IntegerType(), False),
    StructField('birth',DateType(), False),
])

In [25]:
df3 = spark.createDataFrame(data=data, schema=schema)
df3.printSchema()
df3.show()

root
 |-- name: string (nullable = false)
 |-- age: integer (nullable = false)
 |-- birth: date (nullable = false)

+------+---+----------+
|  name|age|     birth|
+------+---+----------+
|김철수| 15|1996-07-22|
|이제동| 20|1991-05-10|
|홍진호| 22|1992-02-22|
+------+---+----------+



## 중첩스키마적용
- 컬럼의 데이터가 단일 데이터가 아닌 iter데이터인 경우
    - 스키마를 컬럼의 원소값 각각에 대해 생성 가능

In [28]:
data = [
    ('김철수', 15, date(2022,7,22), ('010','1111','2222')),
    ('이제동', 20, date(1991,5,10), ('010','3333','4444')),
    ('홍진호', 22, date(1992,2,22), ('010','2222','2222'))]
# StructField(name, dataType, nullable=True, metadata=None)
schema = StructType([
    StructField('name',StringType(), False, {'desc':'이름'}), # name 컬럼 null 불허
    StructField('age',IntegerType(), False, {'desc':'나이'}),
    StructField('birth',DateType(), False, {'desc':'생일'}),
    StructField('phone',StructType([
        StructField('phone1', StringType(), True),
        StructField('phone2', StringType(), True),
        StructField('phone3', StringType(), True)
    ]), False, {'desc':'생일'}) #중첩스키마
])

In [31]:
df4 = spark.createDataFrame(data=data, schema=schema)
df4.printSchema()
df4.show()

root
 |-- name: string (nullable = false)
 |-- age: integer (nullable = false)
 |-- birth: date (nullable = false)
 |-- phone: struct (nullable = false)
 |    |-- phone1: string (nullable = true)
 |    |-- phone2: string (nullable = true)
 |    |-- phone3: string (nullable = true)



                                                                                

+------+---+----------+-----------------+
|  name|age|     birth|            phone|
+------+---+----------+-----------------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|
|이제동| 20|1991-05-10|{010, 3333, 4444}|
|홍진호| 22|1992-02-22|{010, 2222, 2222}|
+------+---+----------+-----------------+



- schema 접근
    - df.schema
    - json()이용해서 json으로 변환 후 저장

In [33]:
# 스키마를 json으로 변환하여 확인
df4_json = df4.schema.json()

# 이름 => \uc774\ub984  유니코드로 나온다
print(df4_json)
print('-----------------------------------------------------')
print(df4_json.encode().decode('unicode_escape'))
# 바이트코드로 변환한 뒤 다시 문자열 디코딩을 할 때 unicode_escape 옵션을 추가


{"fields":[{"metadata":{"desc":"\uc774\ub984"},"name":"name","nullable":false,"type":"string"},{"metadata":{"desc":"\ub098\uc774"},"name":"age","nullable":false,"type":"integer"},{"metadata":{"desc":"\uc0dd\uc77c"},"name":"birth","nullable":false,"type":"date"},{"metadata":{"desc":"\uc0dd\uc77c"},"name":"phone","nullable":false,"type":{"fields":[{"metadata":{},"name":"phone1","nullable":true,"type":"string"},{"metadata":{},"name":"phone2","nullable":true,"type":"string"},{"metadata":{},"name":"phone3","nullable":true,"type":"string"}],"type":"struct"}}],"type":"struct"}
-----------------------------------------------------
{"fields":[{"metadata":{"desc":"이름"},"name":"name","nullable":false,"type":"string"},{"metadata":{"desc":"나이"},"name":"age","nullable":false,"type":"integer"},{"metadata":{"desc":"생일"},"name":"birth","nullable":false,"type":"date"},{"metadata":{"desc":"생일"},"name":"phone","nullable":false,"type":{"fields":[{"metadata":{},"name":"phone1","nullable":true,"type":"string

### spark.df의 각 컬럼 data type확인
- dtypes 속성

In [34]:
df4.dtypes

[('name', 'string'),
 ('age', 'int'),
 ('birth', 'date'),
 ('phone', 'struct<phone1:string,phone2:string,phone3:string>')]

## Pandas DataFrame으로 생성
- pd dataframe을 spark dataframe으로 변환
- spark.createDataFrame(pdDF)을 이용해서 진행
- sparkDF로 변환 시 pd.DataFrame.iteritems 속성값을 전달해야함
    - pd.iteritems는 pd.DataFrame의 items라는 속성에 값이 들어있음

In [39]:
pandas_df = pd.DataFrame({
    'name':['김철수','이제동','김명운'],
    'age':[20, 21, 22],
    'birth':[date(2022,7,1),date(2022,7,2),date(2022,7,3)]
})
pandas_df

Unnamed: 0,name,age,birth
0,김철수,20,2022-07-01
1,이제동,21,2022-07-02
2,김명운,22,2022-07-03


In [40]:
type(pandas_df)

pandas.core.frame.DataFrame

In [36]:
## pandas 2.0 버전 이상부터 iteritems atrr이 items로 변경됨
# sprk.createDataFrame은 pd.DataFrame.iteritems를 사용하므로 변경 반영 후 사용해야 함
# pandas에 저장되어있는 속성값을 직접 설정하는 코드
pd.DataFrame.iteritems = pd.DataFrame.items

In [37]:
df_pd_sp = spark.createDataFrame(pandas_df)
df_pd_sp
df_pd_sp.show()

DataFrame[name: string, age: bigint, birth: date]

+------+---+----------+
|  name|age|     birth|
+------+---+----------+
|김철수| 20|2022-07-01|
|이제동| 21|2022-07-02|
|김명운| 22|2022-07-03|
+------+---+----------+



## spark.DataFrame -> pandas.DataFrame

In [8]:
# 스파크의 DataFrame을 사용하는 것이 성능상 더 이득
# 스파크는 병렬처리도 해주고... 쿼리실행 최적화도 해주고...
# 하지만 스파크 api가 Pandas에 비해 제공되는 기능이 적어서
# Pandas를 써야만 해결이 가능하다면 Pandas로 가공 이후 스파크 DataFrame으로 변환도 가능

## DataFrame -> pyspark.pandas
- sparkdf.toPandas()

In [41]:
df_sp_pd = df_pd_sp.toPandas()
df_sp_pd

                                                                                

Unnamed: 0,name,age,birth
0,김철수,20,2022-07-01
1,이제동,21,2022-07-02
2,김명운,22,2022-07-03


### pyspark.pandas dataframe -> spark.dataframe
- to_pandas_on_spark()
    - pyarrow timezone을 무시하도록 변경
    - numpy 2.0이상 버전에서는 에러 발생
    - numpy 2.0미만으로 downgrade해야 함

In [51]:
!pip list

Package                   Version
------------------------- --------------
anyio                     4.8.0
argon2-cffi               23.1.0
argon2-cffi-bindings      21.2.0
arrow                     1.3.0
asttokens                 3.0.0
async-lru                 2.0.4
attrs                     24.3.0
babel                     2.16.0
beautifulsoup4            4.12.3
bleach                    6.2.0
certifi                   2024.12.14
cffi                      1.17.1
charset-normalizer        3.4.1
click                     8.1.8
comm                      0.2.2
contourpy                 1.3.1
cycler                    0.12.1
dbus-python               1.2.18
debugpy                   1.8.11
decorator                 5.1.1
defusedxml                0.7.1
distro                    1.7.0
exceptiongroup            1.2.2
executing                 2.1.0
fastjsonschema            2.21.1
fonttools                 4.55.3
fqdn                      1.5.1
h11                       0.14.0
httpcore    

In [47]:
# !pip install pyarrow>=4.0.0

[0m

In [50]:
# numpy 2.0이상이라 에러 발생 -> 다운그레이드 진행
# 터미널에서 pip uninstall numpy / pip install "numpy<2.0"진행 / !pip install로 확인
# 버전 변경 후 커널/서버 재시작해야 반영

Found existing installation: numpy 2.2.1
Uninstalling numpy-2.2.1:
  Would remove:
    /usr/local/bin/f2py
    /usr/local/bin/numpy-config
    /usr/local/lib/python3.10/dist-packages/numpy-2.2.1.dist-info/*
    /usr/local/lib/python3.10/dist-packages/numpy.libs/libgfortran-040039e1-0352e75f.so.5.0.0
    /usr/local/lib/python3.10/dist-packages/numpy.libs/libquadmath-96973f99-934c22de.so.0.0.0
    /usr/local/lib/python3.10/dist-packages/numpy.libs/libscipy_openblas64_-6bb31eeb.so
    /usr/local/lib/python3.10/dist-packages/numpy/*
^Coceed (Y/n)? 
[31mERROR: Operation cancelled by user[0m[31m
[0m

In [42]:
import os
os.environ['PYARROW_IGNORE_TIMEZONE']='1'

In [52]:
# 모듈이 오래된 모듈, pyspark df를 활용 가능한 모듈이기 때문에 파이프라인 ETL위해서 모듈 사용이 가능한 상황을 만들고 있음. 
df_pd_sp.to_pandas_on_spark()

AttributeError: `np.NaN` was removed in the NumPy 2.0 release. Use `np.nan` instead.

## 외부파일을 사용해 DataFrame 생성

In [6]:
class_df = spark.read.csv('/dataframe/a_class_info.csv', header=True)
type(class_df)
class_df.show(3)

                                                                                

pyspark.sql.dataframe.DataFrame

[Stage 1:>                                                          (0 + 1) / 1]

+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     6OL| ANKYI|           20|   Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|   Urban| Non-public|     Standard|
|     2B1| CCAAW|           18|Suburban| Non-public| Experimental|
+--------+------+-------------+--------+-----------+-------------+
only showing top 3 rows



                                                                                

### SPARK.SQL.DATAFRAME SHOW() 
- def show( : 20개의 행을 표시)
- def show(numRows : scala.Int) : 정해진 수 만큼 행 표시
- def show(truncate : scala.Boolean) : 열값이 길어 모두 표현되지 않을경우 표현 여부
    - truncate : True -> 열값을 자르고 표시 / False -> 열값을 모두 표시
- def show(numRows : scala.Int, truncate : scala.Boolean) : 표현할 행과 열값을 자를것인지의 여부
- def show(numRows : scala.Int, truncate : scala.Int ) : 표현할 행과 열값을 몇 글자 보여줄 것인지 여
- def show(numRows : scala.Int, truncate : scala.Int, vertical : scala.Boolean) : 레코드별로 세로로 표시할 
- 모든 행을 표현하고자 한다면
    - count()사용해 행 수를 얻어와서 show()로 연결해야 함
    - def show(df.count())것인지의 여부

In [12]:
# class_df.show() #20개 행 표시
#class_df.count() #102개row
#class_df.show(2, truncate=2) #2개행 표시, 열별2글자만 표현
# class_df.show(2, truncate=False) #각 열의 값이 잘리는 것을 방지
# class_df.show(2, vertical=True)
# class_df.show(2, vertical=False) #vertical 기본값은 False
class_df.show(class_df.count()) #전체 행 표시하려면 이렇게 전체행 값을 얻어와서 show를 돌려야만 가능.
                                #모든 node data순회해서 결과 반환. --> 성능 떨어지게됨.
                                #자주사용한다면 메모리에 상주시키고 사용하면 성능 up

# collect(): 출력하고 list로 반환
# show() 출력만 진행함, 반환값이 없으므로 type이 non type
# type(class_df.show(2, vertical=True))

+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     6OL| ANKYI|           20|   Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|   Urban| Non-public|     Standard|
|     2B1| CCAAW|           18|Suburban| Non-public| Experimental|
|     EPS| CCAAW|           20|Suburban| Non-public| Experimental|
|     IQN| CCAAW|           15|Suburban| Non-public| Experimental|
|     PGK| CCAAW|           21|Suburban| Non-public|     Standard|
|     UHU| CCAAW|           16|Suburban| Non-public| Experimental|
|     UWK| CCAAW|           19|Suburban| Non-public|     Standard|
|     A33| CIMBB|           19|   Urban| Non-public|     Standard|
|     EID| CIMBB|           21|   Urban| Non-public|     Standard|
|     HUJ| CIMBB|           17|   Urban| Non-public| Experimental|
|     PC6| CIMBB|           17|   Urban| Non-public|     Stand

## spark.sql.DataFrame 컬럼 컨트롤

In [13]:
data = [
    ('김철수', 15, date(2022,7,22), ('010','1111','2222')),
    ('이제동', 20, date(2021,7,22), ('010','2222','3333')),
    ('김명운', 25, date(2020,7,22), ('010','4444','5555')),
    ('홍진호', 36, date(2018,7,22), ('010','3333','4444'))
]

schema = StructType([
    StructField('name',StringType(),False,{'desc':'이름'}),
    StructField('age',IntegerType(),False,{'desc':'나이'}),    
    StructField('birth',DateType(),False,{'desc' :'생일'}),
    StructField('phone', StructType([
        StructField('phone1',StringType(),True),
        StructField('phone2',StringType(),True),
        StructField('phone3',StringType(),True)]),False,{'desc':'전화번호'}) # 중첩스키마
])

col_df = spark.createDataFrame(data, schema=schema)
type(col_df)

pyspark.sql.dataframe.DataFrame

In [14]:
col_df.show(3)

                                                                                

+------+---+----------+-----------------+
|  name|age|     birth|            phone|
+------+---+----------+-----------------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|
|이제동| 20|2021-07-22|{010, 2222, 3333}|
|김명운| 25|2020-07-22|{010, 4444, 5555}|
+------+---+----------+-----------------+
only showing top 3 rows



- withColumn
    - 지연연산 모듈
    - 연산계획에 참여함
    - 기존 컬럼 업데이트, 타입 변경, 신규 컬럼 추가 가능
    - withColumn('컬럼명', '값')
    - 신규 또는 업데이트 값 줄 때 주의
        - 신규 컬럼 값 타입 활용, 업데이트 진행시 기존 컬럼값 활용: col('컬럼명') -> 기존 컬럼의 값 참조 가능

- withColumnRename()
    - 컬럼명 변경 연산의 메소드

- Spark의 lit function
    - 모든 타입을 허용하는 함수
    - 어떤 타입이 들어와도 객체로 인식하고 연산 진행 시 원하는 타입(유추타입)으로 변환 가능
    - 지연연산을 진행하므로 추가되는 컬럼값에 대해 타입 바로 결정 불가능, lit()이용 객체등록 후 최적화시 타입 유추

In [17]:
# lit : column 객체를 literal로 만들어주는 함수

# 원하는 컬럼을 DataFrame에 추가
#col_df.withColumn('우승여부', '').show() --> 이렇게 실행하면 ''을 str로 못읽어서 (값이 없으니 유추를 못해서) 에러난다.
tmp = col_df.withColumn('우승여부', lit('')) # lit으로 객체등록을 하니 잘 진행된다.
tmp.show()

                                                                                

+------+---+----------+-----------------+--------+
|  name|age|     birth|            phone|우승여부|
+------+---+----------+-----------------+--------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|        |
|이제동| 20|2021-07-22|{010, 2222, 3333}|        |
|김명운| 25|2020-07-22|{010, 4444, 5555}|        |
|홍진호| 36|2018-07-22|{010, 3333, 4444}|        |
+------+---+----------+-----------------+--------+



In [22]:
# 값을 지정해서 추가 - 컬럼의 모든 셀에 동일값 지정
col_df.show()
col_df.withColumn('우승여부',lit('우승')).show()

                                                                                

+------+---+----------+-----------------+
|  name|age|     birth|            phone|
+------+---+----------+-----------------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|
|이제동| 20|2021-07-22|{010, 2222, 3333}|
|김명운| 25|2020-07-22|{010, 4444, 5555}|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|
+------+---+----------+-----------------+

+------+---+----------+-----------------+--------+
|  name|age|     birth|            phone|우승여부|
+------+---+----------+-----------------+--------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|    우승|
|이제동| 20|2021-07-22|{010, 2222, 3333}|    우승|
|김명운| 25|2020-07-22|{010, 4444, 5555}|    우승|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|    우승|
+------+---+----------+-----------------+--------+



### 파생컬럼 생성
- 기존 컬럼값을 가공해서 새로운 컬럼을 추가
- eg. age 값에 따라 '연령대'라는 컬럼을 추가
- spark의 sql.dataframe 에서, if문(case문)처럼 사용할 수 있는 SQL function 제공
  : when (+ otherwise )을 사용할 수 있음
  - when을 if로, otherwise를 else로 생각하면 됨.
  - when(조건1, 조건1이 참일 때 값).when(조건2, 조건2이 참일 때 값).otherwise(그 외 모든 경우의 값)

In [23]:
# when - otherwise : 조건에 따라 원하는 컬럼객체를 반환
col_df.age #연산 가능한 int타입
col_df.printSchema()

Column<'age'>

root
 |-- name: string (nullable = false)
 |-- age: integer (nullable = false)
 |-- birth: date (nullable = false)
 |-- phone: struct (nullable = false)
 |    |-- phone1: string (nullable = true)
 |    |-- phone2: string (nullable = true)
 |    |-- phone3: string (nullable = true)



### column  내용  변경

In [28]:
# when - otherwise : 조건에 따라 원하는 컬럼객체를 반환
# 정수/정수 = 정수가 나올거라 예상했으나 실수가 반환되고 있음 ==> floor로 버림처리
# col_df.age 했을 때, Column<'age'> 출력됨. 이 column객체와 연산이 가능한지 확인 vlfdy
# 기존 df의 컬럼값 참조 위해서 col('컬럼명')사용 -> col('age') == Column('age') == df.age
# Column객체로 참조하게 되면 각 셀의 값과 연산하는 토큰(리터럴)연산이 가능
temp = col_df.withColumn('연령대', when(floor(col_df.age/10)==1, '10대')
                                    .when(floor(col_df.age/10)==2, '20대')
                                    .otherwise('30대 이상'))
temp.show()

+------+---+----------+-----------------+---------+
|  name|age|     birth|            phone|   연령대|
+------+---+----------+-----------------+---------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|     10대|
|이제동| 20|2021-07-22|{010, 2222, 3333}|     20대|
|김명운| 25|2020-07-22|{010, 4444, 5555}|     20대|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|30대 이상|
+------+---+----------+-----------------+---------+



In [29]:
# 연령대 컬럼의 값을 다시 변경
tmp = col_df.withColumn('연령대', when(floor(col_df.age/10)==1, '10대')
                                    .when(floor(col_df.age/10)==2, '20대')
                                    .otherwise('30대 이상'))
tmp.show()

+------+---+----------+-----------------+---------+
|  name|age|     birth|            phone|   연령대|
+------+---+----------+-----------------+---------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|     10대|
|이제동| 20|2021-07-22|{010, 2222, 3333}|     20대|
|김명운| 25|2020-07-22|{010, 4444, 5555}|     20대|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|30대 이상|
+------+---+----------+-----------------+---------+



In [32]:
# 기존 컬럼인 연령대 값을 변경 (tmp에 연령대의 연산 계획이 들어와있음)
tmp.withColumn('연령대', when(floor(col('age')/10)==1, '청소년')
                           .when(floor(col('age')/10)==2, '청년')
                           .otherwise('성인')).show()

# 위에처럼 col_df.age로 접근해서도 변경이 가능한지 확인해보자.
tmp = tmp.withColumn('연령대', when(floor(col_df.age/10)==1, '청소년')
                           .when(floor(col_df.age/10)==2, '청년')
                           .otherwise('성인'))
tmp.show()

+------+---+----------+-----------------+------+
|  name|age|     birth|            phone|연령대|
+------+---+----------+-----------------+------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|청소년|
|이제동| 20|2021-07-22|{010, 2222, 3333}|  청년|
|김명운| 25|2020-07-22|{010, 4444, 5555}|  청년|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|  성인|
+------+---+----------+-----------------+------+



[Stage 60:>                                                         (0 + 1) / 1]

+------+---+----------+-----------------+------+
|  name|age|     birth|            phone|연령대|
+------+---+----------+-----------------+------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|청소년|
|이제동| 20|2021-07-22|{010, 2222, 3333}|  청년|
|김명운| 25|2020-07-22|{010, 4444, 5555}|  청년|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|  성인|
+------+---+----------+-----------------+------+



                                                                                

### column 이름 변경
- withColumnRenamed('변경전컬럼명','변경후컬럼명')

In [33]:
tmp.withColumnRenamed('연령대','분류').show() #컬럼명변경 연산계획을 저장하지 않음.

                                                                                

+------+---+----------+-----------------+------+
|  name|age|     birth|            phone|  분류|
+------+---+----------+-----------------+------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|청소년|
|이제동| 20|2021-07-22|{010, 2222, 3333}|  청년|
|김명운| 25|2020-07-22|{010, 4444, 5555}|  청년|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|  성인|
+------+---+----------+-----------------+------+



### column  삭제
- spark.spl.DF.drop(컬럼명)
- 해당 컬럼이 없어도 연산처리시(action)에러 발생하지 않음

In [35]:
tmp = tmp.drop('분류') # 연령대를 분류로 변경하는 연산이 없는 상태에서 분류를 drop하라는 명령
                        # 그러나 에러 발생하지 않고 그냥 무시
tmp.show()

+------+---+----------+-----------------+------+
|  name|age|     birth|            phone|연령대|
+------+---+----------+-----------------+------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|청소년|
|이제동| 20|2021-07-22|{010, 2222, 3333}|  청년|
|김명운| 25|2020-07-22|{010, 4444, 5555}|  청년|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|  성인|
+------+---+----------+-----------------+------+



In [36]:
tmp = tmp.withColumnRenamed('연령대','분류')
tmp = tmp.drop('분류')
tmp.show()

+------+---+----------+-----------------+
|  name|age|     birth|            phone|
+------+---+----------+-----------------+
|김철수| 15|2022-07-22|{010, 1111, 2222}|
|이제동| 20|2021-07-22|{010, 2222, 3333}|
|김명운| 25|2020-07-22|{010, 4444, 5555}|
|홍진호| 36|2018-07-22|{010, 3333, 4444}|
+------+---+----------+-----------------+



# 2. DataFrame 사용 하기

참고 : https://spark.apache.org/docs/3.2.0/api/scala/org/apache/spark/sql/Dataset.html 

- DataFrame의 메서드의 구분
 - transformation
 - action
 - Basic Dataset functions  
 
 
- DataFrame의 사용은 SQL 쿼리 구조를 따라간다