In [1]:
import requests
from bs4 import BeautifulSoup
from time import sleep
import pandas as pd
import os
from urllib import parse
import numpy as np

In [2]:

def step2_get_reple_href() :
    #영화 코드를 불러온다.
    # 테스트용
    code_list = ['181414', '92575','167638','155263']


    # 영화코드와 주소를 합쳐서 요청할 주소를 만든다.
    url_list = pd.DataFrame()
    for code in code_list:
        site = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=%s&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false' % code
        # print(site)
        url_list = url_list.append([[site]], ignore_index=True)

    url_list.columns = ['url']
    url_list.to_csv('movie_url_list.csv', index=False, encoding='utf-8-sig')
    print('저장완료')



In [3]:
def step3_get_reply_data() :
    # csv에 저장되어 있는 url 데이터를 가져온다.
    df = pd.read_csv('movie_url_list.csv')
    url_list = df['url'].tolist()

    # for url in url_list :
    #    print(url)
    # url = url_list[0]

    for url in url_list :
        print(url)
        # 해당 영화의 첫 페이지 html 데이터를 가져온다. (총 몇건의 리뷰가 있는지 확인해서 "페이지수"를 계산하기 위함)
        response = requests.get(url)
        bs = BeautifulSoup(response.content, 'html.parser')
        # print(bs)

        # 총 페이지 수를 구한다.
        strong = bs.select('.total em')
        #1->0
        score_total = int(strong[0].text.replace(',', ''))    # 쉼표 없애기 / int(정수형)로 만들기
        # print(score_total)
        pageCnt = score_total // 10     # 한페이지당 10개의 리뷰가 있어서
        if score_total % 10 > 0 :
            pageCnt += 1
        print(pageCnt)

        # 전체 페이지를 돌면서 140평 데이터를 가져온다.
        # 현재 페이지
        now_page = 1

#         pageCnt = 5        # 테스트로 5페이지까지만
        
        while now_page <= pageCnt :
            #sleep(1)
            #sleep(0.0001)
            # 요청할 페이지의 주소
            url2 = url + '&page=' + str(now_page)
            # print(url2)

            # 140자평 데이터를 추출한다.
            response2 = requests.get(url2)
            bs2 = BeautifulSoup(response2.content, 'html.parser')

            result_df = pd.DataFrame()

            # li 태그들을 가져온다.(score_reple 태그-리뷰-를 포함하고 있는)
            lis = bs2.select('.score_result li')

            for obj in lis :
                # 평점
                star_score = obj.select('.star_score em')[0].text
                # 140자평
                score_reple = obj.select('.score_reple p')[0].text
                # print(star_score)
                # print(score_reple)

                # 저장한다.
                result_df = result_df.append([[score_reple, star_score]], ignore_index=True)

            if os.path.exists('model_review.csv') == False :     # 아직 파일이 없으면 파일을 만든다.
                result_df.columns = ['text', 'score']
                result_df.to_csv('model_review.csv', index=False, encoding='utf-8-sig')
            else :                                               # 이미 파일이 있으면 결과를 더한다.
                result_df.to_csv('model_review.csv', index=False, encoding='utf-8-sig', mode='a', header=False)

            print("%d / %d" % (now_page, pageCnt))               # 진행경과를 보여준다. n번째 중 몇 번째 진행중인지.
            now_page += 1

    print('저장완료')



In [4]:
# 140자평 데이터 전처리 함수
def text_preprocessing(text) :
    if text.startswith('관람객'):
        return text[3:]
    ######
    elif text.startswith('스포일러가 포함된 감상평입니다. 감상평 보기'):
        return text[23:]
    #####
    else :
        return text

# 평점 전처리 함수
def star_preprocessing(text) :
    value = int(text)

    if value <= 5 :
        return '0'
    else :
        return '1'




In [5]:
def step4_data_preprocessing() :
    # 수집한 데이터를 읽어온다.
    df = pd.read_csv('model_review.csv')
    print(len(df))
    # 전처리를 수행한다.
    df['text'] = df['text'].apply(text_preprocessing)
    df['score'] = df['score'].apply(star_preprocessing)
    
    # 학습데이터와 테스트 데이터로 나눈다.
    text_list = df['text'].tolist()
    star_list = df['score'].tolist()

    from sklearn.model_selection import train_test_split

    # 70%는 학습, 30%는 test
    text_train, text_test, star_train, star_test = train_test_split(text_list, star_list, test_size=0.3, random_state=0)

    return text_train, text_test, star_train, star_test



In [6]:
# step4_data_preprocessing()

In [7]:
from sklearn.model_selection import GridSearchCV #하이퍼파라미터 최적화
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score
import pickle
from konlpy.tag import *

# 형태소 분석을 위한 함수
def tokenizer(text) :
    okt = Okt()
    return okt.morphs(text)
def using_GridSearch(X_train,y_train,tfidf,logistic):
    tfidf.fit(X_train)
    tfv_X_train= tfidf.transform(X_train)
    params = {'C': [1,3,5,7,9,11,13,15,100,200,300],
             'penalty':['l1','l2']}
    grid_cv = GridSearchCV(logistic, param_grid=params, cv =4, scoring='accuracy', verbose=1)
    grid_cv.fit(tfv_X_train, y_train)
    print(grid_cv.best_params_)    
    print(grid_cv.best_score_)
    
def step5_learning(X_train, y_train, X_test, y_test):

    # 주어진 데이터를 단어 사전으로 만들고 각 단어의 빈도수를 계산한 후 벡터화 하는 객체 생성
    tfidf = TfidfVectorizer(lowercase=False, tokenizer=tokenizer,min_df=3, max_df=0.9, ngram_range=(1,2)) #ngram (1,2) 
     
    # 문장별 나오는 단어수 세서 수치화, 벡터화해서 학습을 시킨다.
    logistic = LogisticRegression(C=100, penalty='l2', random_state=0)
    
    #최적의 파라미터 찾기
#     using_GridSearch(X_train,y_train,tfidf,logistic)
    
    
    pipe = Pipeline([('vect', tfidf), ('clf', logistic)])

    # 학습한다.
    pipe.fit(X_train, y_train)

    # 학습 정확도 측정
    y_pred = pipe.predict(X_test)
    print(accuracy_score(y_test, y_pred))

    # 학습된 모델을 저장한다.
    with open('pipe_model.dat', 'wb') as fp :
        pickle.dump(pipe, fp)
        
    print('저장완료')



In [8]:
# 스크래핑 함수
def scrapping() :

    # 각 영화 코드 데이터를 가져와 저장한다.
#     step1_get_detail_url()

    # 140자 평 데이터가 있는 페이지의 주소를 저장한다.
    step2_get_reple_href()

    # 140평 데이터를 가져온다.
    step3_get_reply_data()

# 학습 함수
def learing() :
    text_train, text_test, star_train, star_test = step4_data_preprocessing()
    step5_learning(text_train, star_train, text_test, star_test)


In [None]:
if __name__ == "__main__":
    scrapping()
    learing()

저장완료
https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=181414&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false
1077
1 / 1077
2 / 1077
3 / 1077
4 / 1077
5 / 1077
6 / 1077
7 / 1077
8 / 1077
9 / 1077
10 / 1077
11 / 1077
12 / 1077
13 / 1077
14 / 1077
15 / 1077
16 / 1077
17 / 1077
18 / 1077
19 / 1077
20 / 1077
21 / 1077
22 / 1077
23 / 1077
24 / 1077
25 / 1077
26 / 1077
27 / 1077
28 / 1077
29 / 1077
30 / 1077
31 / 1077
32 / 1077
33 / 1077
34 / 1077
35 / 1077
36 / 1077
37 / 1077
38 / 1077
39 / 1077
40 / 1077
41 / 1077
42 / 1077
43 / 1077
44 / 1077
45 / 1077
46 / 1077
47 / 1077
48 / 1077
49 / 1077
50 / 1077
51 / 1077
52 / 1077
53 / 1077
54 / 1077
55 / 1077
56 / 1077
57 / 1077
58 / 1077
59 / 1077
60 / 1077
61 / 1077
62 / 1077
63 / 1077
64 / 1077
65 / 1077
66 / 1077
67 / 1077
68 / 1077
69 / 1077
70 / 1077
71 / 1077
72 / 1077
73 / 1077
74 / 1077
75 / 1077
76 / 1077
77 / 1077
78 / 1077
79 / 1077
80 / 1077
81 / 1077
82 / 1

740 / 1077
741 / 1077
742 / 1077
743 / 1077
744 / 1077
745 / 1077
746 / 1077
747 / 1077
748 / 1077
749 / 1077
750 / 1077
751 / 1077
752 / 1077
753 / 1077
754 / 1077
755 / 1077
756 / 1077
757 / 1077
758 / 1077
759 / 1077
760 / 1077
761 / 1077
762 / 1077
763 / 1077
764 / 1077
765 / 1077
766 / 1077
767 / 1077
768 / 1077
769 / 1077
770 / 1077
771 / 1077
772 / 1077
773 / 1077
774 / 1077
775 / 1077
776 / 1077
777 / 1077
778 / 1077
779 / 1077
780 / 1077
781 / 1077
782 / 1077
783 / 1077
784 / 1077
785 / 1077
786 / 1077
787 / 1077
788 / 1077
789 / 1077
790 / 1077
791 / 1077
792 / 1077
793 / 1077
794 / 1077
795 / 1077
796 / 1077
797 / 1077
798 / 1077
799 / 1077
800 / 1077
801 / 1077
802 / 1077
803 / 1077
804 / 1077
805 / 1077
806 / 1077
807 / 1077
808 / 1077
809 / 1077
810 / 1077
811 / 1077
812 / 1077
813 / 1077
814 / 1077
815 / 1077
816 / 1077
817 / 1077
818 / 1077
819 / 1077
820 / 1077
821 / 1077
822 / 1077
823 / 1077
824 / 1077
825 / 1077
826 / 1077
827 / 1077
828 / 1077
829 / 1077
830 / 1077