Skip to content

jeaSeo/jeaSeo.github.io

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

62 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

멋쟁이 사자처럼 AI School 7기 Final Project - 웹툰발굴단

웹툰발굴단 - 베스트 도전작의 승격여부를 데이터로 알아보자 🔍

✅ 개요

2022년 12월 말에 수집한 데이터를 기반으로 베스트도전 웹툰의 승격여부를 예측해보는 ML프로젝트

✅ 과정

  1. 수집대상 데이터
    베스트도전에서 5회 이상 회차가 존재하는 웹툰의 데이터(2022년도 12월 15일 기준 확인되는 모든 장르의 웹툰)
    • 제목
    • 작가아이디
    • 장르
    • 좋아요수
    • 회차별 평점
    • 회차별 조회수
    • 회차별 좋아요수
    • 회차별 댓글수
    • 회차별 댓글작성자
    • 회차별 댓글내용
    • 회차별 댓글별 추천,비추천 수
  2. 데이터 수집 with python
    • requests
    • BeautifulSoup4
    • Selenium
  3. 수집 데이터 전처리 with pandas
    • 후기/에필로그/마지막화 라는 키워드가 부제목에 포함된 웹툰은 정식연재된 웹툰이 아닌 단순[완결작]으로 구분
    • 정식연재 키워드가 부제목에 포함된 웹툰은 [정식연재작]으로 구분
    • 5회기준 완결작 227개, 정식연재작 314개 / 10회기준 완결작 222개, 정식연재작 251개
  4. 데이터 시각화 및 분석을 통한 피쳐선택 with seaborn
    • 5회차 기준: 106개 중 37개 사용
      사용한 피쳐 생성한 파생변수
      조회수(1~2회) 모든 회차 조회수 합
      좋아요 수(3~5회) 모든 회차 좋아요수 합
      댓글수(3~5회) 모든 회차 댓글수 합
      댓글 추천 수(5회)
      댓글 비추천수(1회)
      (별점*별점 참여자 수)
      댓글 긍정점수 평균(3~5회)
      댓글 부정점수 평균(1~2회)
      긍정 반응 점수, 부정 반응 점수
      부정댓글수(3~5회),
      중립댓글수(3~5회),
      긍정댓글수(3~5회)
      긍정댓글 비율(2회),
      부정댓글 비율(5회),
      중립댓글 비율(2회)
    • 10회차 기준: 206개 중 52개 사용
      사용한 피쳐 생성한 파생변수
      댓글 추천수 합(5~7회) 모든 회차 조회수 합
      댓글 비추천수 합(2~10회) 모든 회차 좋아요수 합
      댓글 긍정점수 평균(1~2회, 8~10회) 모든 회차 댓글수 합
      댓글 부정점수 평균(8~10회) (별점*별점 참여자 수)
      부정댓글수(1, 10회),
      중립댓글수(8~10회),
      긍정댓글수(7~10회)
      긍정 반응 점수, 부정 반응 점수
      부정댓글비율(1, 10회),
      중립댓글비율(4~6회),
      긍정댓글비율(4~6회)
  5. 사용 모델
    • Random Forest
    • XGBoost
    • LightGbm <- 최종 채택
  6. 모델 선정 기준
    • 데이터의 특성
    • 해석가능여부
  7. 모델 평가 metric
    • Recall
      실제로 승격될 작품을 승격으로 예측한 확률로, 승격이 안된다고 예측하는 것이 작가와 웹툰 플랫폼 담당자(성공할 만한 작품을 다른 경쟁사에 빼앗기는 것이기 때문)에게 더 부정적인 영향을 줄 수 있음
    • Accuracy
      직관적으로 모델의 성능을 판단하기 위해 사용함

About

멋쟁이 사자처럼 AI School 7기 Final Project - 웹툰발굴단

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published