패키지 로드

In [1]:
import pymongo
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import IsolationForest
import xgboost as xgb
import os
from dotenv import load_dotenv
import joblib
import cloudpickle

import warnings
warnings.filterwarnings('ignore')

유튜브 분석 피클 로드

In [2]:
# 불러오기
with open('youtube_analysis.pkl', 'rb') as f:
    youtube_analysis = cloudpickle.load(f)

분석에 필요한 데이터 로드

In [3]:
# 필요데이터 경로
need_data_path = 'C:/py_src/awake/data/need/'

In [4]:
# 필요데이터 로드
# 변수명, 파일명 변경하면 실행안됨(주의!)
user_info_df, trained_data, features_weight, input_data = youtube_analysis.data_preparation_need(need_data_path)

MongDB 연동

In [5]:
# MongoDB 연동
# 각자 ID, PW 입력
db = youtube_analysis.mongodb_connection('external_user','nrAx9lyGH5K7lbgv')

데이터 준비

In [6]:
youtube_user_df = youtube_analysis.data_preparation_user(db)
youtube_contents_df = youtube_analysis.data_preparation_contents(db)

분석 결과 확인

In [9]:
# Topic 1 - 콘텐츠 영향력 데이터 내 Fraud 색출을 통한 채널 진성 영향력 파악
result_topic1_df = youtube_analysis.result_topic1()

큰 영향력 계정
1
['축구 읽어주는 여자 쵱내']
---------------------------------------------------------------------

작은 영향력 계정
28
['운동남 - 운동하는 남자', '금속남자(Metal_male)', '키키낙낙', '먹크탕', '초은 : Cho Eun', '오늘의 여정 - 오늘의 여행 정리', 'Seeyousoon', '유랑민의 지구적응기', '은는이가', '니들needle', 'ORlGN 오리진', '헤이임자heylimja', '패션 고슴도치', 'the sence', '음악하는 황지원', '갓키', '최민욱', '엔딘TV', '윰상 Yun Minsang', '혜윤 (희망)', '김경수', '스뷰작 TV', '연민지TV', '김백사', '김윤지', 'editor gieun', '오이로그', '신햇님 ShinHaley']
---------------------------------------------------------------------

잠재적 영향력 계정
0
[]
---------------------------------------------------------------------

가짜 영향력 계정
0
[]
---------------------------------------------------------------------



In [11]:
# Topic 2 - 구독자 수 예측
result_topic2_df = youtube_analysis.result_topic2()

1개월 후 유지 및 감소 예상 계정
17
['운동남 - 운동하는 남자' '금속남자(Metal_male)' '키키낙낙' '초은 : Cho Eun' '유랑민의 지구적응기'
 '은는이가' '헤이임자heylimja' 'the sence' '음악하는 황지원' '최민욱' '엔딘TV' '김경수' '연민지TV'
 '김백사' 'editor gieun' '오이로그' '신햇님 ShinHaley']
---------------------------------------------------------------------

1개월 후 증가 예상 계정
4
['오늘의 여정 - 오늘의 여행 정리' 'Seeyousoon' 'ORlGN 오리진' '스뷰작 TV']
---------------------------------------------------------------------

1개월 후 크게 증가 예상 계정
2
['축구 읽어주는 여자 쵱내' '니들needle']
---------------------------------------------------------------------

3개월 후 유지 및 감소 예상 계정
16
['운동남 - 운동하는 남자' '금속남자(Metal_male)' '키키낙낙' '초은 : Cho Eun' '유랑민의 지구적응기'
 '은는이가' '헤이임자heylimja' 'the sence' '음악하는 황지원' '최민욱' '엔딘TV' '연민지TV' '김백사'
 'editor gieun' '오이로그' '신햇님 ShinHaley']
---------------------------------------------------------------------

3개월 후 증가 예상 계정
4
['오늘의 여정 - 오늘의 여행 정리' 'Seeyousoon' 'ORlGN 오리진' '스뷰작 TV']
---------------------------------------------------------------------

3개월 후 크게 증가 예상 계정
2
['축구 읽어주

In [12]:
# Topic 3 - 광고수익 예측
result_topic3_df = youtube_analysis.result_topic3()

1개월 후 유지 및 감소 예상 계정
21
['운동남 - 운동하는 남자' '금속남자(Metal_male)' '키키낙낙' '초은 : Cho Eun'
 '오늘의 여정 - 오늘의 여행 정리' 'Seeyousoon' '유랑민의 지구적응기' '은는이가' 'ORlGN 오리진'
 '헤이임자heylimja' 'the sence' '음악하는 황지원' '최민욱' '엔딘TV' '김경수' '스뷰작 TV' '연민지TV'
 '김백사' 'editor gieun' '오이로그' '신햇님 ShinHaley']
---------------------------------------------------------------------

1개월 후 증가 예상 계정
0
[]
---------------------------------------------------------------------

1개월 후 증가 예상 계정
2
['축구 읽어주는 여자 쵱내' '니들needle']
---------------------------------------------------------------------

3개월 후 유지 및 감소 예상 계정
18
['운동남 - 운동하는 남자' '금속남자(Metal_male)' '키키낙낙' '초은 : Cho Eun' 'Seeyousoon'
 '유랑민의 지구적응기' 'ORlGN 오리진' '헤이임자heylimja' 'the sence' '음악하는 황지원' '최민욱'
 '엔딘TV' '스뷰작 TV' '연민지TV' '김백사' 'editor gieun' '오이로그' '신햇님 ShinHaley']
---------------------------------------------------------------------

3개월 후 증가 예상 계정
2
['오늘의 여정 - 오늘의 여행 정리' '은는이가']
---------------------------------------------------------------------

3개월 후 증가 예상 계정
2
['축구 읽어주는 여자

In [13]:
# Topic 4 - 신용평가 스코어링, 부도예측확률 분포도 구조 개발
result_topic4_df = youtube_analysis.result_topic4()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


부도 가능성 안전
0
[]
---------------------------------------------------------------------

부도 가능성 보통
0
[]
---------------------------------------------------------------------

부도 가능성 위험
28
['혜윤 (희망)', '초은 : Cho Eun', '김백사', '엔딘TV', '음악하는 황지원', '연민지TV', 'the sence', '김윤지', 'ORlGN 오리진', '최민욱', '윰상 Yun Minsang', '스뷰작 TV', '운동남 - 운동하는 남자', '오이로그', '신햇님 ShinHaley', '금속남자(Metal_male)', '은는이가', '패션 고슴도치', '키키낙낙', 'Seeyousoon', '헤이임자heylimja', '니들needle', 'editor gieun', '김경수', '축구 읽어주는 여자 쵱내', '오늘의 여정 - 오늘의 여행 정리', '유랑민의 지구적응기', '먹크탕']
---------------------------------------------------------------------

