In [10]:
from pyspark.sql import SparkSession

# Spark 세션 생성
spark = SparkSession.builder \
    .appName("SparkTest") \
    .master("local[*]") \
    .getOrCreate()

# 데이터 프레임 생성
data = [("Alice", 34), ("Bob", 45), ("Catherine", 29), ("David", 40), ("Eva", 35)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

# 데이터 출력
df.show()

# 데이터 통계 정보 출력
df.describe().show()

# Spark 세션 종료
spark.stop()



+---------+---+
|     Name|Age|
+---------+---+
|    Alice| 34|
|      Bob| 45|
|Catherine| 29|
|    David| 40|
|      Eva| 35|
+---------+---+

+-------+-----+-----------------+
|summary| Name|              Age|
+-------+-----+-----------------+
|  count|    5|                5|
|   mean| NULL|             36.6|
| stddev| NULL|6.107372593840988|
|    min|Alice|               29|
|    max|  Eva|               45|
+-------+-----+-----------------+



In [27]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import split, col

# Spark 세션 생성
spark = SparkSession.builder \
    .appName("SparkTest") \
    .master("local[*]") \
    .config("spark.sql.execution.arrow.enabled", "true") \
    .getOrCreate()

# 데이터 읽기
data = spark.read.text("data.txt")

# 데이터 변환: 쉼표로 구분된 데이터를 분리하고, 컬럼 이름을 지정
split_col = split(col("value"),", ")
df = data.withColumn("Name", split_col.getItem(0)).withColumn("Age", split_col.getItem(1).cast("int"))

# 필요한 컬럼만 선택
df = df.select("Name", "Age")

# 데이터 출력
df.show()

# 데이터 통계 정보 출력
df.describe().show()

# 데이터 저장 (선택 사항, 파일 형식으로 저장)
df.write.parquet("output_pyarrow.parquet")

# Spark 세션 종료
spark.stop()


+---------+---+
|     Name|Age|
+---------+---+
|    Alice| 34|
|      Bob| 45|
|Catherine| 29|
|    David| 40|
|      Eva| 35|
+---------+---+

+-------+-----+-----------------+
|summary| Name|              Age|
+-------+-----+-----------------+
|  count|    5|                5|
|   mean| NULL|             36.6|
| stddev| NULL|6.107372593840988|
|    min|Alice|               29|
|    max|  Eva|               45|
+-------+-----+-----------------+



In [29]:
# Spark 세션 생성
spark = SparkSession.builder \
    .appName("SparkTest") \
    .master("local[*]") \
    .config("spark.sql.execution.arrow.enabled", "true") \
    .getOrCreate()


# Parquet 파일에서 데이터 읽기
parquet_df = spark.read.parquet("output_pyarrow.parquet")

# 데이터 출력
parquet_df.show()

# Spark 세션 종료
spark.stop()

+---------+---+
|     Name|Age|
+---------+---+
|    Alice| 34|
|      Bob| 45|
|Catherine| 29|
|    David| 40|
|      Eva| 35|
+---------+---+



In [4]:
import requests

response = requests.get("http://host.docker.internal:8000/random")

print(response.content)

b'{"one":"TXFlnvlCfY","two":22}'
