In [1]:
import pandas as pd

# 테이블 이름 리스트
table_names = [
    'accounts_attendance',
    'accounts_blockrecord',
    'accounts_failpaymenthistory',
    'accounts_friendrequest',
    'accounts_group',
    'accounts_nearbyschool',
    'accounts_paymenthistory',
    'accounts_user_contacts',
    'accounts_pointhistory',
    'accounts_school',
    'accounts_timelinereport',
    'accounts_user',
    'accounts_userquestionrecord',
    'accounts_userwithdraw',
    'event_receipts',
    'events',
    'polls_question',
    'polls_questionpiece',
    'polls_questionreport',
    'polls_questionset',
    'polls_usercandidate'
]

# GCS 경로 딕셔너리 생성
gcs_parquet_paths = {
    name: f'gs://sprintda05_final_project/votes/{name}.parquet' for name in table_names
}

# 결과 저장용 딕셔너리
dfs = {}

# 반복문으로 각 파일 로딩 및 정보 출력
for name, path in gcs_parquet_paths.items():
    print(f"\n📂 --- {name} 로드 시작 ---")
    print(f"파일 경로: {path}")
    
    try:
        df = pd.read_parquet(path, engine='pyarrow')
        dfs[name] = df  # 딕셔너리에 저장

        print("✅ 로드 성공!")
        print(f"🔹 상위 5개 행 ({name})")
        print(df.head())
        print(f"\n🔹 컬럼 목록: {df.columns.tolist()}")
        print(f"🔹 행과 열 개수: {df.shape}")
        print(f"🔹 정보 요약:")
        df.info()
        print("\n" + "-"*60)
    except Exception as e:
        print(f"❌ {name} 로드 실패: {e}")
        print("\n" + "-"*60)



📂 --- accounts_attendance 로드 시작 ---
파일 경로: gs://sprintda05_final_project/votes/accounts_attendance.parquet
✅ 로드 성공!
🔹 상위 5개 행 (accounts_attendance)
   id                               attendance_date_list  user_id
0   1  ["2023-05-27", "2023-05-28", "2023-05-29", "20...  1446852
1   2  ["2023-05-27", "2023-05-29", "2023-05-30", "20...  1359398
2   3  ["2023-05-27", "2023-05-29", "2023-05-30", "20...  1501542
3   4  ["2023-05-27", "2023-05-28", "2023-05-29", "20...  1507767
4   5  ["2023-05-27", "2023-05-28", "2023-05-29", "20...  1287453

🔹 컬럼 목록: ['id', 'attendance_date_list', 'user_id']
🔹 행과 열 개수: (349637, 3)
🔹 정보 요약:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 349637 entries, 0 to 349636
Data columns (total 3 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   id                    349637 non-null  int64 
 1   attendance_date_list  349637 non-null  object
 2   user_id               349637 non-null  int64 
dtypes

In [2]:
def check_missing_duplicates_outliers(df, z_thresh=3):
    import numpy as np

    print("📌 [1] 결측치(Missing Values)")
    missing = df.isnull().sum()
    missing = missing[missing > 0]
    if not missing.empty:
        print(missing.sort_values(ascending=False))
    else:
        print("✅ 결측치 없음")

    print("\n📌 [2] 중복값(Duplicates)")
    dup_count = df.duplicated().sum()
    print(f"총 중복 행 수: {dup_count}")

    print("\n📌 [3] 이상치(Outliers, Z-score 기준)")
    numeric_cols = df.select_dtypes(include=[np.number])
    if numeric_cols.empty:
        print("⚠️ 수치형 컬럼 없음 → 이상치 확인 불가")
    else:
        from scipy.stats import zscore
        z_scores = np.abs(zscore(numeric_cols, nan_policy='omit'))
        outlier_mask = (z_scores > z_thresh).any(axis=1)
        outlier_count = outlier_mask.sum()
        print(f"{z_thresh} 이상 Z-score 기준 이상치 행 수: {outlier_count}")


In [3]:
check_missing_duplicates_outliers(dfs['accounts_attendance'])
# 출석 테이블


📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [4]:
check_missing_duplicates_outliers(dfs['accounts_blockrecord'])
# 차단 기록 테이블


📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [5]:
check_missing_duplicates_outliers(dfs['accounts_failpaymenthistory'])
# 상품 구매 실패 기록 테이블

📌 [1] 결측치(Missing Values)
productId    107
dtype: int64

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [6]:
check_missing_duplicates_outliers(dfs['accounts_friendrequest'])
# 친구 요청 테이블

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)


: 

: 

: 

In [6]:
check_missing_duplicates_outliers(dfs['accounts_group'])
# 학급 테이블

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 2850


In [7]:
check_missing_duplicates_outliers(dfs['accounts_nearbyschool'])
# 가까운 학교를 기록해두기 위한 관계형 테이블

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 18


In [8]:
check_missing_duplicates_outliers(dfs['accounts_paymenthistory'])
# 구매 기록 테이블

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [9]:
check_missing_duplicates_outliers(dfs['accounts_user_contacts'])
# 유저 컨택 테이블

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 150


In [10]:
# ✅ 포인트 적립/차감 내역 테이블
check_missing_duplicates_outliers(dfs['accounts_pointhistory'])

📌 [1] 결측치(Missing Values)
user_question_record_id    2992
dtype: int64

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 71163


In [11]:
# ✅ 학교 정보 테이블
check_missing_duplicates_outliers(dfs['accounts_school'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 33


In [12]:
# ✅ 유저 타임라인 신고 기록 테이블
check_missing_duplicates_outliers(dfs['accounts_timelinereport'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [13]:
# ✅ 유저 기본 정보 테이블
check_missing_duplicates_outliers(dfs['accounts_user'])

📌 [1] 결측치(Missing Values)
group_id    3
gender      2
dtype: int64

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 17467


In [14]:
# ✅ 유저가 참여한 투표 기록 테이블
check_missing_duplicates_outliers(dfs['accounts_userquestionrecord'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 89269


In [27]:
from scipy.stats import zscore

# 수치형 컬럼만 대상으로 Z-score 계산
numeric_cols = dfs['accounts_userquestionrecord'].select_dtypes(include='number')
z_scores = numeric_cols.apply(zscore)

# Z-score 3 초과 여부 마스킹
outlier_mask = (z_scores.abs() > 3)

# 컬럼별 이상치 수 확인
outlier_counts = outlier_mask.sum().sort_values(ascending=False)
print("📌 컬럼별 이상치 수:\n", outlier_counts)

# 어떤 행이 이상치인지 예시 확인
print("\n📌 이상치 예시:\n", dfs['accounts_userquestionrecord'][outlier_mask.any(axis=1)].head())

📌 컬럼별 이상치 수:
 opened_times         60662
question_id          29810
report_count           169
id                       0
chosen_user_id           0
user_id                  0
question_piece_id        0
has_read                 0
dtype: int64

📌 이상치 예시:
          id status          created_at  chosen_user_id  question_id  user_id  \
10   771940      I 2023-04-28 12:29:13          849634          297   849436   
34   772123      I 2023-04-28 12:30:48          849489          209   849452   
35   772126      I 2023-04-28 12:30:49          849488          257   849438   
95   772488      I 2023-04-28 12:33:33          849446          245   849445   
117  772628      I 2023-04-28 12:34:17          849436          253   849477   

     question_piece_id  has_read answer_status   answer_updated_at  \
10              998465         1             N 2023-04-28 12:29:13   
34              999059         0             N 2023-04-28 12:30:48   
35              998594         1             N 2023-04

In [28]:
df_userquestionrecord = dfs['accounts_userquestionrecord']
df_userquestionrecord

print(df_userquestionrecord.head())
print(df_userquestionrecord.info())
print(df_userquestionrecord.describe())


       id status          created_at  chosen_user_id  question_id  user_id  \
0  771777      C 2023-04-28 12:27:49          849469          252   849436   
1  771800      C 2023-04-28 12:28:02          849446          244   849436   
2  771812      C 2023-04-28 12:28:09          849454          183   849436   
3  771828      C 2023-04-28 12:28:16          847375          101   849436   
4  771851      C 2023-04-28 12:28:26          849477          209   849436   

   question_piece_id  has_read answer_status   answer_updated_at  \
0             998458         0             N 2023-04-28 12:27:49   
1             998459         0             N 2023-04-28 12:28:02   
2             998460         1             N 2023-04-28 12:28:09   
3             998461         0             N 2023-04-28 12:28:16   
4             998462         1             N 2023-04-28 12:28:26   

   report_count  opened_times  
0             0             0  
1             0             0  
2             0           

In [32]:
df_userquestionrecord['report_count'].value_counts()

report_count
0     1217389
1         147
2          15
3           3
5           1
4           1
6           1
14          1
Name: count, dtype: int64

In [15]:
# ✅ 탈퇴한 유저 정보 테이블
check_missing_duplicates_outliers(dfs['accounts_userwithdraw'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [16]:
# ✅ 포인트 이벤트 참여 내역 테이블
check_missing_duplicates_outliers(dfs['event_receipts'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 20


In [17]:
# ✅ 포인트 이벤트 정보 테이블
check_missing_duplicates_outliers(dfs['events'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


  z_scores = np.abs(zscore(numeric_cols, nan_policy='omit'))


In [18]:
# ✅ 질문 본문 데이터 테이블
check_missing_duplicates_outliers(dfs['polls_question'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [19]:
# ✅ 질문을 구성하는 단위 조각 테이블
check_missing_duplicates_outliers(dfs['polls_questionpiece'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 73041


In [23]:
from scipy.stats import zscore

# 수치형 컬럼만 대상으로 Z-score 계산
numeric_cols = dfs['polls_questionpiece'].select_dtypes(include='number')
z_scores = numeric_cols.apply(zscore)

# Z-score 3 초과 여부 마스킹
outlier_mask = (z_scores.abs() > 3)

# 컬럼별 이상치 수 확인
outlier_counts = outlier_mask.sum().sort_values(ascending=False)
print("📌 컬럼별 이상치 수:\n", outlier_counts)

# 어떤 행이 이상치인지 예시 확인
print("\n📌 이상치 예시:\n", dfs['polls_questionpiece'][outlier_mask.any(axis=1)].head())


📌 컬럼별 이상치 수:
 is_voted       46789
question_id    33439
is_skipped      1127
id                 0
dtype: int64

📌 이상치 예시:
            id  is_voted          created_at  question_id  is_skipped
1084  1015518         0 2023-04-28 13:41:27          268           0
1085  1015519         0 2023-04-28 13:41:27          184           0
1086  1015520         0 2023-04-28 13:41:27          141           0
1087  1015521         0 2023-04-28 13:41:27          172           0
1088  1015522         0 2023-04-28 13:41:27          259           0


In [24]:
df_questionpiece = dfs['polls_questionpiece']


In [25]:
df_questionpiece

Unnamed: 0,id,is_voted,created_at,question_id,is_skipped
0,998458,1,2023-04-28 12:27:22,252,0
1,998459,1,2023-04-28 12:27:22,244,0
2,998460,1,2023-04-28 12:27:22,183,0
3,998461,1,2023-04-28 12:27:22,101,0
4,998462,1,2023-04-28 12:27:22,209,0
...,...,...,...,...,...
1265471,208385226,0,2024-05-07 11:32:30,960,0
1265472,208385227,0,2024-05-07 11:32:30,1402,0
1265473,208385228,0,2024-05-07 11:32:30,1676,0
1265474,208385229,0,2024-05-07 11:32:30,3115,0


In [26]:
print(df_questionpiece.head())
print(df_questionpiece.info())
print(df_questionpiece.describe())


       id  is_voted          created_at  question_id  is_skipped
0  998458         1 2023-04-28 12:27:22          252           0
1  998459         1 2023-04-28 12:27:22          244           0
2  998460         1 2023-04-28 12:27:22          183           0
3  998461         1 2023-04-28 12:27:22          101           0
4  998462         1 2023-04-28 12:27:22          209           0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1265476 entries, 0 to 1265475
Data columns (total 5 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   id           1265476 non-null  int64         
 1   is_voted     1265476 non-null  int64         
 2   created_at   1265476 non-null  datetime64[ns]
 3   question_id  1265476 non-null  int64         
 4   is_skipped   1265476 non-null  int64         
dtypes: datetime64[ns](1), int64(4)
memory usage: 48.3 MB
None
                 id      is_voted                     created_at  \
count  1.2

In [20]:
# ✅ 질문에 대한 신고 기록 테이블
check_missing_duplicates_outliers(dfs['polls_questionreport'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 1316


In [21]:
# ✅ 하나의 질문 세트(여러 질문 조각 묶음) 테이블
check_missing_duplicates_outliers(dfs['polls_questionset'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0


In [22]:
# ✅ 질문에 등장한 후보자(유저) 정보 테이블
check_missing_duplicates_outliers(dfs['polls_usercandidate'])

📌 [1] 결측치(Missing Values)
✅ 결측치 없음

📌 [2] 중복값(Duplicates)
총 중복 행 수: 0

📌 [3] 이상치(Outliers, Z-score 기준)
3 이상 Z-score 기준 이상치 행 수: 0
