In [11]:
# SparkSession 설정
from pyspark.sql import SparkSession 

spark = SparkSession.builder.master('local').appName('udf').getOrCreate()

In [12]:
# 샘플 데이터: 사용자 이름 및 나이
users_data = [
    ('김성재', 39),
    ('이지은', 29),
    ('박혜진', 31),
    ('최원호', 37),
    ('장지윤', 33),
    ('윤성환', 45),
    ('김하은', 22),
    ('박지수', 59),
    ('이현우', 64),
    ('김은주', 73)
]

In [13]:
# 스키마 정의
schema=['name','age']

In [14]:
# 데이터프레임 생성
df=spark.createDataFrame(data=users_data,schema=schema)

In [15]:
# 데이터프레임 출력
df.show()

+------+---+
|  name|age|
+------+---+
|김성재| 39|
|이지은| 29|
|박혜진| 31|
|최원호| 37|
|장지윤| 33|
|윤성환| 45|
|김하은| 22|
|박지수| 59|
|이현우| 64|
|김은주| 73|
+------+---+



In [16]:
# 데이터프레임 스키마 출력
df.printSchema()

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)



In [17]:
# Temporary View 생성
df.createOrReplaceTempView('users')

In [18]:
# UDF: 나이 카테고리 변환 함수
def age_category(age):
    if age < 35:
        return 'young'
    elif 35 <= age < 60:
        return 'adult'
    else:
        return 'senior'


In [19]:
# UDF 등록
spark.udf.register('age_category', age_category)

<function __main__.age_category(age)>

In [20]:
# SQL문 처리
spark.sql("SELECT name, age_category(age) AS age_category FROM users").show()

+------+------------+
|  name|age_category|
+------+------------+
|김성재|       adult|
|이지은|       young|
|박혜진|       young|
|최원호|       adult|
|장지윤|       young|
|윤성환|       adult|
|김하은|       young|
|박지수|       adult|
|이현우|      senior|
|김은주|      senior|
+------+------------+

