In [0]:
%spark.pyspark
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = SparkSession.builder.master("yarn").appName("card 201909 test1").config("spark.cassandra.connection.host", "172.21.0.6").getOrCreate()

file_path = "hdfs:///example/card_201909.csv"
file_path2 = "hdfs:///example/card_201910.csv"
file_path3 = "hdfs:///example/card_201911.csv"
file_path4 = "hdfs:///example/card_201912.csv"

df1 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path)
df2 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path2)
df3 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path3)
df4 = spark.read.format("csv").option("header", "true").option("inferSchema", "false").option("encoding", "EUC-KR").load(file_path4)

df = df1.union(df2).union(df3).union(df4)
df.show()

In [1]:
%spark.pyspark
from pyspark.sql.types import IntegerType

dfselect = df.select(
        F.substring(df.성별, 3,2).alias("성별"),
        F.substring(df.연령, 3, 3).alias("연령대"),
        df.개인기업구분,
        df.매출년월일,
        df.승인시간대1.cast(IntegerType()),
        df.결제금액.cast(IntegerType()),
        df.가맹점업종코드
    )


dfselect.show()
# dfselect.createOrReplaceTempView("card")

In [2]:
%spark.pyspark
from pyspark.sql.functions import dense_rank, col, count
from pyspark.sql.window import Window

# 승인시간대1별로 그룹화하고, 각 연령대의 빈도수 계산
ageGroupCount = dfselect.filter((col("성별") != "기업") & (col("연령대") != "기타")).groupBy("승인시간대1", "연령대").count()

# ageGroupCount.show()
# 전체 레코드 수에 대한 각 연령대별 count의 비율 계산
totalCounts = df.groupBy("승인시간대1").count().withColumnRenamed("count","total_counts")
ageGroupWithTotal = ageGroupCount.join(totalCounts, "승인시간대1")
ageGroupWithRatio = ageGroupWithTotal.withColumn("ratio", col("count") / col("total_counts"))

# 각 승인시간대별로 가장 높은 비율을 가진 연령대 선택
windowSpec = Window.partitionBy("승인시간대1").orderBy(col("ratio").desc())

mostRepresentativeAgeGroup = ageGroupWithRatio.withColumn("rank", dense_rank().over(windowSpec))\
                                               .filter(col("연령대") == '20대')\
                                               .select("승인시간대1", "연령대", "ratio")

mostRepresentativeAgeGroup.show()

In [3]:
%spark.pyspark
from pyspark.sql.functions import dense_rank, col, count
from pyspark.sql.window import Window

calcdf = dfselect.filter((col("성별") != "기업") & (col("연령대") != "기타"))

# 전체 연령대별 사용자 수 계산
totalUsageByAgeGroup = calcdf.groupBy("연령대").count().withColumnRenamed("count", "total_count")

# 각 시간대와 연령대별 사용자 수 계산
usageByTimeAndAge = calcdf.groupBy("승인시간대1", "연령대").count()

# 전체 연령대별 사용자 수를 기준으로 각 시간대별 사용자 수의 비율 계산
usageRatio = usageByTimeAndAge.join(totalUsageByAgeGroup, "연령대")\
                              .withColumn("비율", col("count") / col("total_count"))\
                              .select("승인시간대1", "연령대", "비율")

# 각 시간대별로 가장 높은 비율을 가진 연령대 찾기
windowSpec = Window.partitionBy("승인시간대1").orderBy(col("비율").desc())

mostRepresentativeAgeGroup = usageRatio.withColumn("rank", dense_rank().over(windowSpec))\
                                       .filter(col("rank") == 1)\
                                       .select("승인시간대1", "연령대", "비율")

mostRepresentativeAgeGroup.show()

In [4]:
%spark.pyspark
peaktime_df = mostRepresentativeAgeGroup.select(
        mostRepresentativeAgeGroup.승인시간대1.alias('time'),
        mostRepresentativeAgeGroup.연령대.alias("age")
        )
# df_test = spark.read.format("org.apache.spark.sql.cassandra").options(table="top3category", keyspace="trend").load()
  
peaktime_df.show()

In [5]:
%spark.pyspark
peaktime_df.write.format('org.apache.spark.sql.cassandra').mode('append').option("keyspace", "trend").option("table", "peaktime").option("spark.cassandra.output.consistency.level", "ONE").save()

# 테스트
df_test = spark.read.format("org.apache.spark.sql.cassandra").options(table="peaktime", keyspace="trend").load()
df_test.show()

In [6]:
%spark.pyspark
