# 🎯 리셀러 자동 판단 시스템

## 📌 Google Colab에서 실행하세요!

**⚠️ 중요**: 이 노트북은 Google Colab에서만 작동합니다!
- 현재 링크: https://colab.research.google.com/github/ryu-qqq/sample-reseller-extract/blob/main/reseller_analyzer_colab.ipynb

## 🚀 사용법 (3단계)
1. **런타임 연결**: 상단의 "연결" 버튼 클릭 (또는 자동 연결 대기)
2. **전체 실행**: `런타임` → `모두 실행` (또는 Ctrl+F9)
3. **파일 업로드**: 첫 번째 셀에서 파일 선택 버튼 클릭

---

**💡 팁**: 각 셀을 개별 실행하려면 셀 왼쪽의 ▶️ 버튼을 클릭하세요!

In [None]:
# 1️⃣ 첫 번째: 파일 업로드 (▶️ 클릭 후 파일 선택)
import pandas as pd
import numpy as np
from datetime import datetime

try:
    from google.colab import files
    print("📁 엑셀 파일을 업로드하세요!")
    print("   파일명: erp_order_form.xlsx")
    print("   👇 아래 '파일 선택' 버튼을 클릭하세요!")
    print("-" * 50)

    uploaded = files.upload()

    if 'erp_order_form.xlsx' in uploaded:
        print("\n✅ 파일 업로드 성공!")
        print(f"   파일 크기: {len(uploaded['erp_order_form.xlsx']):,} bytes")
    else:
        print("\n❌ 파일명을 확인하세요: erp_order_form.xlsx")
        if uploaded:
            print("   업로드된 파일:", list(uploaded.keys()))
except ImportError:
    print("⚠️ Google Colab 환경이 아닙니다!")
    print("💡 이 노트북은 Google Colab에서만 작동합니다.")
    print("   링크: https://colab.research.google.com/")
except Exception as e:
    print(f"⚠️ 파일 업로드 중 오류: {e}")
    print("\n💡 해결방법:")
    print("   1. Google Colab인지 확인하세요")
    print("   2. 브라우저 팝업 차단을 해제하세요")
    print("   3. 런타임 → 런타임 다시 시작 후 재실행")

In [None]:
# 🔍 디버깅: 현재 파일 목록 확인
import os

print("📂 현재 디렉토리의 파일들:")
print("-" * 30)

files = os.listdir('.')
xlsx_files = [f for f in files if f.endswith('.xlsx')]
other_files = [f for f in files if not f.endswith('.xlsx')]

if xlsx_files:
    print("📊 엑셀 파일:")
    for f in xlsx_files:
        size = os.path.getsize(f)
        print(f"   ✓ {f} ({size:,} bytes)")
else:
    print("❌ 엑셀 파일이 없습니다!")

if other_files and len(other_files) < 20:  # 너무 많으면 일부만 표시
    print("\n📁 기타 파일:")
    for f in other_files[:10]:
        print(f"   • {f}")

print("\n" + "=" * 50)
if 'erp_order_form.xlsx' in files:
    print("✅ erp_order_form.xlsx 파일이 있습니다!")
    print("   👉 다음 셀을 실행하세요!")
else:
    print("⚠️ erp_order_form.xlsx 파일을 업로드해주세요!")
    print("   방법: 왼쪽 사이드바 📁 → ⬆️ 업로드")

In [None]:
# 1️⃣ 파일 업로드 (두 가지 방법 중 선택)
import pandas as pd
import numpy as np
from datetime import datetime
import os

print("📁 파일 업로드 방법을 선택하세요:\n")
print("방법 1: 아래 '파일 선택' 버튼 클릭")
print("방법 2: 왼쪽 사이드바 📁 → ⬆️ 업로드\n")

# 방법 1: 자동 업로드
try:
    from google.colab import files
    
    # 먼저 이미 업로드된 파일이 있는지 확인
    if os.path.exists('erp_order_form.xlsx'):
        print("✅ 파일이 이미 업로드되어 있습니다!")
        print("   다음 셀을 실행하세요 (2️⃣ 데이터 읽기)")
    else:
        print("-" * 50)
        print("👇 아래 버튼을 클릭하여 파일을 선택하세요:")
        uploaded = files.upload()
        
        if uploaded:
            print("\n✅ 파일 업로드 성공!")
            for filename in uploaded.keys():
                print(f"   업로드된 파일: {filename}")
                print(f"   파일 크기: {len(uploaded[filename]):,} bytes")
        else:
            print("⚠️ 파일이 업로드되지 않았습니다.")
            
except ImportError:
    print("⚠️ Google Colab 환경이 아닙니다!")
except Exception as e:
    # 사이드바로 업로드한 경우 확인
    if os.path.exists('erp_order_form.xlsx'):
        print("✅ 사이드바를 통해 파일이 업로드되었습니다!")
        print("   다음 셀을 실행하세요 (2️⃣ 데이터 읽기)")
    else:
        print(f"⚠️ 오류 발생: {e}")
        print("\n💡 사이드바에서 직접 업로드하세요:")
        print("   1. 왼쪽 📁 폴더 아이콘 클릭")
        print("   2. ⬆️ 업로드 버튼 클릭")
        print("   3. erp_order_form.xlsx 선택")

# 파일 존재 여부 최종 확인
print("\n" + "=" * 50)
if os.path.exists('erp_order_form.xlsx'):
    print("✅ 파일 준비 완료! 다음 셀을 실행하세요!")
else:
    print("⚠️ 파일을 업로드해주세요: erp_order_form.xlsx")

In [None]:
# 2️⃣ 두 번째: 데이터 읽기 (▶️ 클릭)
import os
import pandas as pd
import numpy as np
from datetime import datetime

# 파일 존재 확인
if not os.path.exists('erp_order_form.xlsx'):
    print("❌ 파일이 없습니다! 먼저 파일을 업로드하세요.")
    print("   위의 1️⃣ 셀을 실행하여 파일을 업로드하세요.")
else:
    try:
        # 오전/오후 시트 통합
        print("📖 엑셀 파일 읽는 중...")
        df_morning = pd.read_excel('erp_order_form.xlsx', sheet_name='오전')
        df_afternoon = pd.read_excel('erp_order_form.xlsx', sheet_name='오후')
        
        # 전역 변수로 저장 (다른 셀에서 사용하기 위해)
        global df
        df = pd.concat([df_morning, df_afternoon], ignore_index=True)
        
        print("✅ 데이터 읽기 완료!")
        print("=" * 50)
        print(f"📊 총 {len(df):,}건의 주문 데이터")
        print(f"👥 고객 수: {df['주문자명'].nunique():,}명")
        print(f"📅 기간: {df['주문일자'].min()} ~ {df['주문일자'].max()}")
        print("=" * 50)
        
        # 데이터 샘플 보여주기
        print("\n📋 데이터 샘플 (처음 3행):")
        print(df.head(3))
        
        print("\n✅ 다음 셀을 실행하여 리셀러 분석을 시작하세요!")
        
    except Exception as e:
        print(f"❌ 에러 발생: {e}")
        print("\n💡 확인사항:")
        print("   1. 파일명이 'erp_order_form.xlsx'인지 확인")
        print("   2. 시트명이 '오전', '오후'인지 확인")
        print("   3. 필수 컬럼이 있는지 확인:")
        print("      - 주문자명, 주문수량, 총매출액, 주문일자, 상품명, 주소")

In [None]:
# 3️⃣ 세 번째: 리셀러 분석 (▶️ 클릭)

# df 변수 확인
try:
    df
    print(f"✅ 데이터 로드 확인: {len(df)}개 레코드")
except NameError:
    print("❌ 데이터가 로드되지 않았습니다!")
    print("   👆 위의 '2️⃣ 데이터 읽기' 셀을 먼저 실행하세요!")
    raise

def detect_business_address(address):
    if pd.isna(address):
        return 0
    address_str = str(address)
    business_keywords = ['사무실', '오피스', '빌딩', '타워', '센터', '상가', '층',
                        '호실', '공장', '창고', '물류', '유통', '산업']
    for keyword in business_keywords:
        if keyword in address_str:
            return 1
    return 0

def analyze_reseller_patterns(df):
    df['주문일자'] = pd.to_datetime(df['주문일자'], errors='coerce')
    
    analysis = df.groupby('주문자명').agg({
        '주문수량': ['sum', 'mean', 'std'],
        '총매출액': 'sum',
        '주문번호(쇼핑몰)': 'count',
        '상품명': ['nunique', lambda x: ', '.join(x.value_counts().head(3).index)],
        '주소': lambda x: x.mode()[0] if len(x) > 0 else '',
        '주문일자': ['min', 'max', lambda x: (x.max() - x.min()).days if len(x) > 1 else 0]
    }).round(2)
    
    analysis.columns = ['총구매수량', '평균구매수량', '수량편차', '총매출액', '주문횟수',
                        '구매제품종류', '주력상품TOP3', '대표주소',
                        '첫구매일', '최근구매일', '활동기간(일)']
    
    analysis['사업장주소'] = analysis['대표주소'].apply(detect_business_address)
    analysis['평균구매주기'] = (analysis['활동기간(일)'] / analysis['주문횟수']).replace([float('inf'), -float('inf')], 0).round(1)
    
    return analysis

def calculate_reseller_score(stats):
    scores = pd.DataFrame(index=stats.index)
    
    scores['대량구매'] = stats['평균구매수량'].apply(
        lambda x: 30 if x >= 5 else 20 if x >= 3 else 10 if x >= 2 else 0
    )
    scores['정기구매'] = stats.apply(
        lambda x: 25 if (x['주문횟수'] >= 5 and x['활동기간(일)'] >= 30) else
                  15 if (x['주문횟수'] >= 3 and x['활동기간(일)'] >= 14) else
                  5 if x['주문횟수'] >= 2 else 0,
        axis=1
    )
    scores['사업장'] = stats['사업장주소'] * 20
    scores['다양성'] = stats['구매제품종류'].apply(
        lambda x: 15 if x >= 5 else 10 if x >= 3 else 5 if x >= 2 else 0
    )
    scores['구매규모'] = stats['총매출액'].apply(
        lambda x: 10 if x >= 200000 else 7 if x >= 100000 else 3 if x >= 50000 else 0
    )
    
    scores['리셀러점수'] = scores.sum(axis=1)
    scores['판정'] = scores['리셀러점수'].apply(
        lambda x: '🔴 확실한 리셀러' if x >= 70 else
                  '🟠 리셀러 가능성 높음' if x >= 50 else
                  '🟡 잠재 리셀러' if x >= 30 else
                  '🟢 일반 고객'
    )
    scores['등급'] = scores['리셀러점수'].apply(
        lambda x: 'A' if x >= 70 else 'B' if x >= 50 else 'C' if x >= 30 else 'D'
    )
    
    final = pd.concat([stats, scores], axis=1)
    return final

# 분석 실행
print("🔍 리셀러 분석 중...")
print("-" * 50)

customer_analysis = analyze_reseller_patterns(df)
final_results = calculate_reseller_score(customer_analysis)

# 결과를 전역 변수로 저장
global final_results_global
final_results_global = final_results

# 통계
total = len(final_results)
a_grade = len(final_results[final_results['등급'] == 'A'])
b_grade = len(final_results[final_results['등급'] == 'B'])
c_grade = len(final_results[final_results['등급'] == 'C'])
d_grade = total - a_grade - b_grade - c_grade

print("\n✅ 분석 완료!")
print("=" * 50)
print(f"📊 리셀러 분포:")
print(f"🔴 A등급 (확실한 리셀러): {a_grade}명")
print(f"🟠 B등급 (가능성 높음): {b_grade}명")
print(f"🟡 C등급 (잠재 리셀러): {c_grade}명")
print(f"🟢 D등급 (일반 고객): {d_grade}명")
print("=" * 50)
print("\n👉 다음 셀을 실행하여 상위 리셀러를 확인하세요!")

In [None]:
# 4️⃣ 네 번째: 상위 리셀러 보기 (▶️ 클릭)

# final_results 변수 확인
try:
    # 전역 변수 사용 시도
    try:
        final_results = final_results_global
    except:
        final_results = final_results
    
    print("🔥 상위 리셀러 후보 TOP 10")
    print("=" * 60)

    top_resellers = final_results.nlargest(10, '리셀러점수')

    for rank, (idx, row) in enumerate(top_resellers.iterrows(), 1):
        print(f"\n{rank}위. {idx}")
        print(f"   📊 등급: {row['판정']}")
        print(f"   🎯 점수: {row['리셀러점수']:.0f}점")
        print(f"   💰 매출: {row['총매출액']:,.0f}원")
        print(f"   📦 주문: {row['주문횟수']}회, 평균 {row['평균구매수량']:.1f}개")
        print(f"   📍 주소: {row['대표주소'][:30]}..." if len(str(row['대표주소'])) > 30 else f"   📍 주소: {row['대표주소']}")
        
    print("\n" + "=" * 60)
    print("✅ 다음 셀을 실행하여 엑셀 파일을 다운로드하세요!")
    
except NameError:
    print("❌ 분석 결과가 없습니다!")
    print("   👆 위의 '3️⃣ 리셀러 분석' 셀을 먼저 실행하세요!")

In [None]:
# 5️⃣ 다섯 번째: 엑셀 다운로드 (▶️ 클릭)

try:
    # 전역 변수 확인
    try:
        final_results = final_results_global
    except:
        final_results = final_results

    # 엑셀 파일 생성
    print("📝 엑셀 파일 생성 중...")
    
    export_data = final_results.sort_values('리셀러점수', ascending=False)
    export_columns = [
        '등급', '판정', '리셀러점수',
        '총구매수량', '평균구매수량', '주문횟수',
        '총매출액', '구매제품종류',
        '사업장주소', '활동기간(일)', '평균구매주기',
        '주력상품TOP3'
    ]

    # 엑셀 저장
    output_filename = '리셀러_분석_결과.xlsx'
    export_data[export_columns].to_excel(output_filename)

    print(f"✅ 엑셀 파일 생성 완료: {output_filename}")
    print("-" * 50)

    # 다운로드
    try:
        from google.colab import files
        print("📥 파일 다운로드 중...")
        files.download(output_filename)
        print("\n✅ 다운로드가 시작되었습니다!")
        print("   브라우저의 다운로드 폴더를 확인하세요.")
    except ImportError:
        print("⚠️ Google Colab 환경이 아닙니다.")
        print(f"   파일이 현재 디렉토리에 저장되었습니다: {output_filename}")
    except Exception as e:
        print(f"⚠️ 다운로드 중 오류: {e}")
        print(f"   파일은 생성되었습니다: {output_filename}")
        print("   왼쪽 사이드바 📁에서 파일을 직접 다운로드하세요.")
        
    print("\n" + "=" * 50)
    print("🎉 모든 분석이 완료되었습니다!")
    
except NameError:
    print("❌ 분석 결과가 없습니다!")
    print("   위의 셀들을 순서대로 실행하세요:")
    print("   1️⃣ 파일 업로드 → 2️⃣ 데이터 읽기 → 3️⃣ 리셀러 분석")
except Exception as e:
    print(f"❌ 오류 발생: {e}")
    print("   위의 셀들을 다시 실행해보세요.")