In [1]:
import os
import pandas as pd
from google.cloud import storage

# GCS에서 Parquet 파일 불러오기 및 형식 확인
print("\n--- 2. GCS Parquet 파일 로드 및 형식 확인 ---")
gcs_parquet_path = "gs://sprintda05_final_project/hackle/hackle_events.parquet"

print(f"📂 다음 Parquet 파일을 불러옵니다: {gcs_parquet_path}")

# pandas를 사용하여 Parquet 파일 불러오기
# 'engine'을 'pyarrow'로 명시하여 확실하게 pyarrow 사용
# gcsfs가 설치되어 있다면 pandas는 gs:// 경로를 자동으로 처리
df = pd.read_parquet(gcs_parquet_path, engine='pyarrow')

print("\n✅ Parquet 파일 로드 성공!")

print("\n--- 데이터프레임 상위 5개 행 (df.head()) ---")
print(df.head())

print("\n--- 데이터프레임 정보 (df.info()) ---")
# 각 컬럼의 이름, Non-Null 개수, 데이터 타입(Dtype) 확인
df.info()

print("\n--- 데이터프레임 기술 통계 (df.describe()) ---")
# 숫자형 컬럼에 대한 통계 정보 확인
print(df.describe(include='all')) # 모든 컬럼 타입 포함

print(f"\n--- 데이터프레임 행과 열 개수 (df.shape): {df.shape} ---")

print("\n--- 데이터프레임 컬럼 목록 (df.columns) ---")
print(df.columns.tolist())


--- 2. GCS Parquet 파일 로드 및 형식 확인 ---
📂 다음 Parquet 파일을 불러옵니다: gs://sprintda05_final_project/hackle/hackle_events.parquet

✅ Parquet 파일 로드 성공!

--- 데이터프레임 상위 5개 행 (df.head()) ---
                               event_id      event_datetime  \
0  00000533-3f1c-4b3b-81f1-0c8f35754b4e 2023-07-18 19:40:17   
1  00000716-27e9-4e72-a602-d0ce61784b06 2023-07-18 21:07:24   
2  000007c8-68ce-40e6-9b1e-f0e34e8ff9cc 2023-08-06 20:18:03   
3  00000981-5e2a-4111-993e-4f1891ad9a53 2023-08-05 01:46:10   
4  00000a7a-ba72-4332-b4a9-7910670aaeb2 2023-07-24 15:03:37   

                         event_key                            session_id  \
0                   $session_start          4OzYh3seq3VKytpSn5pvQkZNQii1   
1              click_question_open          8QXy31PQxbW9qLzq0Y1dhR8Ypm52   
2  click_bottom_navigation_profile  6bcea65d-9f40-46fc-888c-700fe707483f   
3                        view_shop          XVYNT6zfhFWqIg9omwg2AHDjTLx2   
4      click_bottom_navigation_lab          XFB2SPiGfjbVhvJ3Q3D

In [2]:
df

Unnamed: 0,event_id,event_datetime,event_key,session_id,id,item_name,page_name,friend_count,votes_count,heart_balance,question_id
0,00000533-3f1c-4b3b-81f1-0c8f35754b4e,2023-07-18 19:40:17,$session_start,4OzYh3seq3VKytpSn5pvQkZNQii1,00000533-3f1c-4b3b-81f1-0c8f35754b4e,,,,,,
1,00000716-27e9-4e72-a602-d0ce61784b06,2023-07-18 21:07:24,click_question_open,8QXy31PQxbW9qLzq0Y1dhR8Ypm52,00000716-27e9-4e72-a602-d0ce61784b06,,,64.0,436.0,4830.0,
2,000007c8-68ce-40e6-9b1e-f0e34e8ff9cc,2023-08-06 20:18:03,click_bottom_navigation_profile,6bcea65d-9f40-46fc-888c-700fe707483f,000007c8-68ce-40e6-9b1e-f0e34e8ff9cc,,,26.0,174.0,4729.0,
3,00000981-5e2a-4111-993e-4f1891ad9a53,2023-08-05 01:46:10,view_shop,XVYNT6zfhFWqIg9omwg2AHDjTLx2,00000981-5e2a-4111-993e-4f1891ad9a53,,,61.0,44.0,142.0,
4,00000a7a-ba72-4332-b4a9-7910670aaeb2,2023-07-24 15:03:37,click_bottom_navigation_lab,XFB2SPiGfjbVhvJ3Q3DBsaT3m2B3,00000a7a-ba72-4332-b4a9-7910670aaeb2,,,119.0,545.0,3287.0,
...,...,...,...,...,...,...,...,...,...,...,...
11441314,fffff54e-e730-418f-8080-4eff7e2641f2,2023-08-08 01:40:00,view_timeline_tap,n9RSY5wNfvURIV3sKeXZiYWiVSD3,fffff54e-e730-418f-8080-4eff7e2641f2,,,27.0,92.0,326.0,
11441315,fffff57d-6c79-46b3-a87b-4bfa900ef11b,2023-07-23 09:30:22,skip_question,CB3F11FD-4B78-4496-96E7-3B4174C123E9,fffff57d-6c79-46b3-a87b-4bfa900ef11b,,,0.0,0.0,300.0,799.0
11441316,fffff632-2d70-4190-addd-6ae2f2399876,2023-07-18 18:13:30,view_lab_tap,AwpRr0ll7bTfFV22MIXHDASEpz72,fffff632-2d70-4190-addd-6ae2f2399876,,,29.0,97.0,284.0,
11441317,fffffb07-af2f-4cce-a26e-1dcc97c74b14,2023-07-21 15:37:27,view_timeline_tap,H8oiWwKxRiYByNykbb2GsVYd8JU2,fffffb07-af2f-4cce-a26e-1dcc97c74b14,,,49.0,527.0,932.0,


In [4]:
import os
import pandas as pd
from google.cloud import storage

# GCS에서 Parquet 파일 불러오기 및 형식 확인
print("\n--- 2. GCS Parquet 파일 로드 및 형식 확인 ---")
gcs_parquet_path = "gs://sprintda05_final_project/votes/accounts_blockrecord.parquet"

print(f"📂 다음 Parquet 파일을 불러옵니다: {gcs_parquet_path}")

# pandas를 사용하여 Parquet 파일 불러오기
# 'engine'을 'pyarrow'로 명시하여 확실하게 pyarrow 사용
# gcsfs가 설치되어 있다면 pandas는 gs:// 경로를 자동으로 처리
df = pd.read_parquet(gcs_parquet_path, engine='pyarrow')

print("\n✅ Parquet 파일 로드 성공!")

print("\n--- 데이터프레임 상위 5개 행 (df.head()) ---")
print(df.head())

print("\n--- 데이터프레임 정보 (df.info()) ---")
# 각 컬럼의 이름, Non-Null 개수, 데이터 타입(Dtype) 확인
df.info()

print("\n--- 데이터프레임 기술 통계 (df.describe()) ---")
# 숫자형 컬럼에 대한 통계 정보 확인
print(df.describe(include='all')) # 모든 컬럼 타입 포함

print(f"\n--- 데이터프레임 행과 열 개수 (df.shape): {df.shape} ---")

print("\n--- 데이터프레임 컬럼 목록 (df.columns) ---")
print(df.columns.tolist())


--- 2. GCS Parquet 파일 로드 및 형식 확인 ---
📂 다음 Parquet 파일을 불러옵니다: gs://sprintda05_final_project/votes/accounts_blockrecord.parquet

✅ Parquet 파일 로드 성공!

--- 데이터프레임 상위 5개 행 (df.head()) ---
   id              reason          created_at  block_user_id  user_id
0   1               그냥... 2023-05-04 23:01:53         867483   878476
1   2         친구 사이가 어색해짐 2023-05-05 01:17:08         867190   867564
2   3  나랑 관련 없는 질문을 자꾸 보냄 2023-05-05 01:50:55         875110   875261
3   6               그냥... 2023-05-05 05:21:52         883696   883511
4   7               그냥... 2023-05-05 06:40:34         871349   870177

--- 데이터프레임 정보 (df.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19482 entries, 0 to 19481
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             19482 non-null  int64         
 1   reason         19482 non-null  object        
 2   created_at     19482 non-null  datetime64[ns]
 3

In [5]:
df

Unnamed: 0,id,reason,created_at,block_user_id,user_id
0,1,그냥...,2023-05-04 23:01:53,867483,878476
1,2,친구 사이가 어색해짐,2023-05-05 01:17:08,867190,867564
2,3,나랑 관련 없는 질문을 자꾸 보냄,2023-05-05 01:50:55,875110,875261
3,6,그냥...,2023-05-05 05:21:52,883696,883511
4,7,그냥...,2023-05-05 06:40:34,871349,870177
...,...,...,...,...,...
19477,25355,사칭 계정,2024-04-05 08:15:03,875351,879416
19478,25356,친구 사이가 어색해짐,2024-04-25 09:28:19,1444256,1292346
19479,25357,친구 사이가 어색해짐,2024-04-25 09:28:24,1379126,1292346
19480,25360,모르는 사람임,2024-05-05 11:06:31,1582869,1583612


In [6]:
df['reason'].unique()

array(['그냥...', '친구 사이가 어색해짐', '나랑 관련 없는 질문을 자꾸 보냄', '기타', '모르는 사람임',
       '너무 많은 양의 질문을 보냄', '사칭 계정'], dtype=object)

In [8]:
df['reason'].nunique()

7

In [11]:
# GCS에서 Parquet 파일 불러오기 및 형식 확인
print("\n--- 2. GCS Parquet 파일 로드 및 형식 확인 ---")
gcs_parquet_path = "gs://sprintda05_final_project/votes/polls_usercandidate.parquet"

print(f"📂 다음 Parquet 파일을 불러옵니다: {gcs_parquet_path}")

# pandas를 사용하여 Parquet 파일 불러오기
# 'engine'을 'pyarrow'로 명시하여 확실하게 pyarrow 사용
# gcsfs가 설치되어 있다면 pandas는 gs:// 경로를 자동으로 처리
df = pd.read_parquet(gcs_parquet_path, engine='pyarrow')

print("\n✅ Parquet 파일 로드 성공!")

print("\n--- 데이터프레임 상위 5개 행 (df.head()) ---")
print(df.head())

print("\n--- 데이터프레임 정보 (df.info()) ---")
# 각 컬럼의 이름, Non-Null 개수, 데이터 타입(Dtype) 확인
df.info()

print("\n--- 데이터프레임 기술 통계 (df.describe()) ---")
# 숫자형 컬럼에 대한 통계 정보 확인
print(df.describe(include='all')) # 모든 컬럼 타입 포함

print(f"\n--- 데이터프레임 행과 열 개수 (df.shape): {df.shape} ---")

print("\n--- 데이터프레임 컬럼 목록 (df.columns) ---")
print(df.columns.tolist())


--- 2. GCS Parquet 파일 로드 및 형식 확인 ---
📂 다음 Parquet 파일을 불러옵니다: gs://sprintda05_final_project/votes/polls_usercandidate.parquet

✅ Parquet 파일 로드 성공!

--- 데이터프레임 상위 5개 행 (df.head()) ---
        id          created_at  question_piece_id  user_id
0  3088872 2023-04-28 12:27:49             998458   849444
1  3088873 2023-04-28 12:27:49             998458   849454
2  3088874 2023-04-28 12:27:49             998458   849460
3  3088875 2023-04-28 12:27:49             998458   849469
4  3088964 2023-04-28 12:28:02             998459   849446

--- 데이터프레임 정보 (df.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4769609 entries, 0 to 4769608
Data columns (total 4 columns):
 #   Column             Dtype         
---  ------             -----         
 0   id                 int64         
 1   created_at         datetime64[ns]
 2   question_piece_id  int64         
 3   user_id            int64         
dtypes: datetime64[ns](1), int64(3)
memory usage: 145.6 MB

--- 데이터프레임 기술 통계 (df.descr

In [12]:
df

Unnamed: 0,id,created_at,question_piece_id,user_id
0,3088872,2023-04-28 12:27:49,998458,849444
1,3088873,2023-04-28 12:27:49,998458,849454
2,3088874,2023-04-28 12:27:49,998458,849460
3,3088875,2023-04-28 12:27:49,998458,849469
4,3088964,2023-04-28 12:28:02,998459,849446
...,...,...,...,...
4769604,646672580,2024-05-08 01:36:00,200139933,857296
4769605,646672581,2024-05-08 01:36:18,200139934,850774
4769606,646672582,2024-05-08 01:36:18,200139934,856446
4769607,646672583,2024-05-08 01:36:18,200139934,857101


In [14]:
# - **polls_usercandidate**: 질문 조각에 등장하는 유저들 테이블(이준희)
#     - "한 질문마다 최대 8명이 등장합니다”
#         - 8명이 어떻게 선정되는지 알 수 없음
#         - 친구를 8명 까지만 받을 수 있나?
#         - 사용자가 질문에 해당하는 8명을 선정한 후 최후의 한 명을 고르는 건가?
#         - 질문의 성격에 따라 자동으로 구분하는지?(예시: 성별로 구분)
#         - 선택지가 8개가 최대숫자인지 아니면 선택지가 무조건 8개인지?