의류 실측 데이터 기반 프리사이즈 분석 및 개인화 의류 추천 시스템
무신사에서 상의 데이터를 크롤링하여 획일화 된 사이즈 표기방식으로 변환하고, 사용자의 신체 정보에 따라 맞춤형 의류 추천 시스템을 구현
- "2017~2019년 사이 온라인 쇼핑몰 거래액 120% 증가"
통계청 온라인쇼핑동향조사에 따르면 2017년 이후부터 지속적으로 온라인 쇼핑 거래액이 증가하고 있음 - "프리사이즈 기준의 모호함"
하지만, one 사이즈인 ‘프리사이즈’와 각 브랜드 별로 다른 사이즈 기준으로 인해 소비자들은 본인 체형에 맞는 사이즈 선택의 어려움을 겪고있음
(출처 : 온라인 의류사업 지속적인 성장 / 프리사이즈 실태)
따라서, 프리사이즈 및 브랜드 별로 다른 사이즈 기준을 일관된 사이즈로 정립하고, 사용자의 특성(키, 몸무게, 성별), 태그를 입력 받아 고객의 특성에 맞는 제품 추천 시스템을 개발하고자 함
-
소매길이 컬럼 제거
- 반팔, 긴팔, 민소매의 구분이 되어있지 않아 사이즈별 소매길이가 상관관계가 없음
-
Null 값 및 중복 사이즈 데이터 삭제
-
성별 컬럼의 ‘라이프’ 삭제
- 19개의 행이있으며, 객관적인 성별의 구분이 어려움
-
특정 브랜드(GLIMMER) 내 성인 사이즈가 아닌 행 제거
-
리뷰 데이터 키, 몸무게의 이상치 제거
- 키 : 150cm 미만 / 200cm 이상
- 몸무게 : 40kg 미만 / 120kg 초과 데이터 제거
-
Description
- Random Forest Model (랜덤 포레스트 모델)
→ MUSINSA STANDARD의 실측 데이터(총장, 가슴단면, 어깨너비)로 사이즈 분류 시행
- Random Forest Model (랜덤 포레스트 모델)
-
Description
- Cosine Similarity (코사인 유사도)
→ 사용자의 특성(키, 몸무게, 성별)을 통하여 가장 유사한 상위 20개 제품 추천
→ TF-IDF로 얻어진 태그 벡터의 유사도를 이용해 최종 제품 추천 - TF-IDF (단어 빈도-역 문서 빈도)
→ 한국어 형태로 된 태그를 벡터 형태로 표현하기 위해 사용
- Cosine Similarity (코사인 유사도)
- Classification Model
- MUSINSA STANDARD의 실측 데이터를 기준으로 사이즈 분류 모델은 RandomForest로 선정하여 진행함
- 남성, 여성을 나누어 분류 모델을 진행하였고, Grid Search를 통하여 최적의 하이퍼 파라미터를 도출함
- 남성은 F1스코어 기준 3XL, S, 2XL 순으로 모델 성능이 좋았음
- 여성은 모델 성능평가 결과 XS, S, L 순 나타났음
- Recommendation Model
- 제품 정보(키, 몸무게, 성별, 태그 등)를 벡터화시켜 코사인 유사도를 이용하여 추천시스템을 진행함 (콘텐츠 기반)
- 키, 몸무게, 성별, 선호 사이즈를 입력하면 유사도가 가장 높은 제품 N개 추천해주는 시스템을 제작함
- 남성, 여성 모두 사이즈를 기반한 카테고리 별 제품을 잘 보여주는 것으로 확인됨
- 모델 비교 선택 시 모델 간 평가지표의 차이가 없어 과적합이 의심됨으로 객관적 판단이 어려움
- 데이터 개수의 부족으로 인해 극단 값들의 추천 결과가 아쉬움
- 고객 별로 추구하는 스타일이 달라서 사이즈 기반으로만 추천하기에는 정확도가 떨어져 보였음
- 추천 시스템을 객관적으로 평가하기 어려움
- 더 많은 리뷰 데이터를 수집하면 더 정확하고 다양한 제품 추천이 가능할 것으로 보임
- 규제 기법(Ridge, Lasso) 등을 활용하여 과적합을 줄이는 시도가 필요
Member | Information Link |
---|---|
김보석 | |
박미영 | |
박성호 | |
이성희 | |
정설령 | |
최은욱 |