In [0]:
%spark.pyspark
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = SparkSession.builder.master("yarn").appName("card 201909 test1").config("spark.cassandra.connection.host", "172.21.0.6").getOrCreate()

file_path = "hdfs:///example/card_201909.csv"
file_path2 = "hdfs:///example/card_201910.csv"
file_path3 = "hdfs:///example/card_201911.csv"
file_path4 = "hdfs:///example/card_201912.csv"

df1 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path)
df2 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path2)
df3 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path3)
df4 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path4)

df = df1.union(df2).union(df3).union(df4)
df.show()
df.count()

In [1]:
%spark.pyspark
from pyspark.sql.types import IntegerType

dfselect = df.select(
        F.substring(df.성별, 3,2).alias("성별"),
        F.substring(df.연령, 3, 3).alias("연령대"),
        df.개인기업구분,
        df.매출년월일,
        df.승인시간대1.cast(IntegerType()),
        df.결제금액.cast(IntegerType()),
        df.가맹점업종코드
    )


dfselect.show()
# dfselect.createOrReplaceTempView("card")

In [2]:
%spark.pyspark

from pyspark.sql.functions import dense_rank, col, count
from pyspark.sql.window import Window

# 성별과 연령대별로 가맹점 업종코드의 사용 빈도수를 계산
agg_df = dfselect.filter((col("성별") != "기업") & (col("연령대") != "기타")).groupBy("성별", "연령대", "가맹점업종코드").count()

# Window 함수를 정의하여 각 그룹별로 가장 빈번한 업종코드 상위 3개를 추출할 수 있도록 설정
windowSpec = Window.partitionBy("성별", "연령대").orderBy(col("count").desc())

# dense_rank를 사용하여 각 그룹 내에서 빈도수에 따른 순위를 매김
ranked_df = agg_df.withColumn("rank", dense_rank().over(windowSpec))

# 빈도수가 높은 상위 3개의 업종코드만 필터링
top3_df = ranked_df.filter(col("rank") <= 3)

# 결과 출력
top3_df.show()


In [3]:
%spark.pyspark
from pyspark.sql.functions import monotonically_increasing_id

top3category_df = top3_df.select(
        monotonically_increasing_id().alias('id'),
        top3_df.성별.alias('gender'),
        top3_df.연령대.alias("age"),
        top3_df.가맹점업종코드.alias('category')
        )
# df_test = spark.read.format("org.apache.spark.sql.cassandra").options(table="top3category", keyspace="trend").load()
  
top3category_df.show()

In [4]:
%spark.pyspark
top3category_df.write.format('org.apache.spark.sql.cassandra').mode('append').option("keyspace", "trend").option("table", "top3category").option("spark.cassandra.output.consistency.level", "ONE").save()

# 테스트
df_test = spark.read.format("org.apache.spark.sql.cassandra").options(table="top3category", keyspace="trend").load()
df_test.show()

In [5]:
%spark.pyspark
