In [12]:
import pandas as pd
import numpy as np
from scipy.stats import f_oneway

df = pd.read_csv('C:/Users/pc/ai_tool_analysis_ultra_final_20251213_221653.csv')

df_clean = df.dropna(subset=['job_category', 'rating'])

print("모델 1: ANOVA 분석 - 직무 카테고리별 평점 차이 검증\n")

print(f"전체 데이터: {len(df):,}개")
print(f"분석 데이터: {len(df_clean):,}개")
print(f"AI 도구 수: {df_clean['ai_tool'].nunique()}개")
print(f"직무 카테고리 수: {df_clean['job_category'].nunique()}개\n")

print("[1] 직무 카테고리별 기술통계\n")

job_stats = df_clean.groupby('job_category')['rating'].agg([
    ('평균', 'mean'),
    ('표준편차', 'std'),
    ('최소값', 'min'),
    ('최대값', 'max'),
    ('리뷰수', 'count')
]).round(3).sort_values('평균', ascending=False)

print(job_stats)

print("\n[2] ANOVA 검정\n")

job_categories = df_clean['job_category'].dropna().unique()
groups = [df_clean[df_clean['job_category'] == cat]['rating'].values 
          for cat in job_categories if len(df_clean[df_clean['job_category'] == cat]) > 0]

f_stat, p_value = f_oneway(*groups)

print("귀무가설 (H0): 모든 직무 카테고리의 평점 평균이 같다")
print("대립가설 (H1): 적어도 하나의 직무 카테고리 평점이 다르다\n")
print(f"F-통계량: {f_stat:.4f}")
print(f"p-value: {p_value:.6f}")
print(f"유의수준: 0.05\n")

if p_value < 0.05:
    print("결론: 직무 카테고리 간 평점 차이가 통계적으로 유의합니다 (p < 0.05)")
    print("- 귀무가설(H0) 기각")
    print("- 전공별로 AI 도구 만족도가 다릅니다.")
    print("- 전공별 맞춤형 AI 도구 추천이 필요합니다.")
else:
    print("결론: 직무 카테고리 간 평점 차이가 통계적으로 유의하지 않습니다 (p >= 0.05)")
    print("- 귀무가설(H0) 채택")

print("\n모델 1 완료")


모델 1: ANOVA 분석 - 직무 카테고리별 평점 차이 검증

전체 데이터: 9,431개
분석 데이터: 9,424개
AI 도구 수: 7개
직무 카테고리 수: 16개

[1] 직무 카테고리별 기술통계

                 평균   표준편차  최소값  최대값   리뷰수
job_category                              
운영/물류         4.857  0.378  4.0  5.0     7
프리랜서          4.829  0.411  3.0  5.0   152
재무/회계         4.826  0.388  4.0  5.0    23
교육/연구         4.741  0.517  2.0  5.0   324
마케팅/영업        4.731  0.527  2.0  5.0   401
컨설팅/전략        4.722  0.454  4.0  5.0    36
디자인/UX        4.716  0.529  1.0  5.0   550
기타            4.705  0.568  1.0  5.0  1528
PM/PO         4.700  0.535  3.0  5.0    30
경영/관리         4.692  0.590  1.0  5.0  2272
HR/인사         4.690  0.598  2.0  5.0    58
고객지원          4.662  0.603  2.0  5.0    74
데이터/분석        4.658  0.528  2.0  5.0   488
IT/개발         4.657  0.585  1.0  5.0  1852
검증된리뷰어        4.648  0.610  1.0  5.0  1571
미디어/콘텐츠       4.534  0.706  2.0  5.0    58

[2] ANOVA 검정

귀무가설 (H0): 모든 직무 카테고리의 평점 평균이 같다
대립가설 (H1): 적어도 하나의 직무 카테고리 평점이 다르다

F-통계량: 2.4797
p-value: 0.0012