멋쟁이 사자처럼 AI School 7기 Final Project - 웹툰발굴단
2022년 12월 말에 수집한 데이터를 기반으로 베스트도전 웹툰의 승격여부를 예측해보는 ML프로젝트
-
수집대상 데이터
베스트도전에서 5회 이상 회차가 존재하는 웹툰의 데이터(2022년도 12월 15일 기준 확인되는 모든 장르의 웹툰)- 제목
- 작가아이디
- 장르
- 좋아요수
- 회차별 평점
- 회차별 조회수
- 회차별 좋아요수
- 회차별 댓글수
- 회차별 댓글작성자
- 회차별 댓글내용
- 회차별 댓글별 추천,비추천 수
-
데이터 수집 with python
- requests
- BeautifulSoup4
- Selenium
-
수집 데이터 전처리 with pandas
- 후기/에필로그/마지막화 라는 키워드가 부제목에 포함된 웹툰은 정식연재된 웹툰이 아닌 단순[완결작]으로 구분
- 정식연재 키워드가 부제목에 포함된 웹툰은 [정식연재작]으로 구분
- 5회기준 완결작 227개, 정식연재작 314개 / 10회기준 완결작 222개, 정식연재작 251개
-
데이터 시각화 및 분석을 통한 피쳐선택 with seaborn
-
5회차 기준: 106개 중 37개 사용
사용한 피쳐 생성한 파생변수 조회수(1~2회) 모든 회차 조회수 합 좋아요 수(3~5회) 모든 회차 좋아요수 합 댓글수(3~5회) 모든 회차 댓글수 합 댓글 추천 수(5회)
댓글 비추천수(1회)(별점*별점 참여자 수) 댓글 긍정점수 평균(3~5회)
댓글 부정점수 평균(1~2회)긍정 반응 점수, 부정 반응 점수 부정댓글수(3~5회),
중립댓글수(3~5회),
긍정댓글수(3~5회)긍정댓글 비율(2회),
부정댓글 비율(5회),
중립댓글 비율(2회) -
10회차 기준: 206개 중 52개 사용
사용한 피쳐 생성한 파생변수 댓글 추천수 합(5~7회) 모든 회차 조회수 합 댓글 비추천수 합(2~10회) 모든 회차 좋아요수 합 댓글 긍정점수 평균(1~2회, 8~10회) 모든 회차 댓글수 합 댓글 부정점수 평균(8~10회) (별점*별점 참여자 수) 부정댓글수(1, 10회),
중립댓글수(8~10회),
긍정댓글수(7~10회)긍정 반응 점수, 부정 반응 점수 부정댓글비율(1, 10회),
중립댓글비율(4~6회),
긍정댓글비율(4~6회)
-
5회차 기준: 106개 중 37개 사용
-
사용 모델
- Random Forest
- XGBoost
- LightGbm <- 최종 채택
-
모델 선정 기준
- 데이터의 특성
- 해석가능여부
-
모델 평가 metric
-
Recall
실제로 승격될 작품을 승격으로 예측한 확률로, 승격이 안된다고 예측하는 것이 작가와 웹툰 플랫폼 담당자(성공할 만한 작품을 다른 경쟁사에 빼앗기는 것이기 때문)에게 더 부정적인 영향을 줄 수 있음
-
Accuracy
직관적으로 모델의 성능을 판단하기 위해 사용함
-
Recall