In [20]:
import csv
import logging
import requests
from bs4 import BeautifulSoup
import time
import re
import json
logging.basicConfig(format='%(message)s')

In [21]:
def normalize_query(q):
    q = q.replace('\n', '')
    q = q.replace('（', '(')
    q = q.replace('）', ')')
    q = re.sub(r"\(.+\)$", "", q)
    q = re.sub('(!|\u3000|/|\\s|>|<|\\.)+', " ", q)
    return q

def search(q):
    url_search = 'https://eiga.com/search/{}' .format(requests.utils.quote(normalize_query(q), safe=''))
    res_search = requests.get(url_search )
    res_search.encoding = res_search.apparent_encoding
    
    soup_search = BeautifulSoup(res_search.content, "lxml")
    result =  soup_search.find('section', attrs={"id": "rslt-movie"})
    if result != None:
        path = result.find('li', attrs={"class": "col-s-3"}).find('a')["href"]
        return path
    else:
        return None

def scrape(query, movie_id, year):
    data = {
        "id": -1,
        "rating": -1,
        "check-in":-1,
        "review-count":-1
    }
    print("START : " + query)
    path = search(query)
    
    if path is None:
        logging.warning("**************************************************")
        logging.warning(query + " HAS NO RESULT")
        logging.warning("**************************************************")
        with open('./eigacom_id_table_{}_error.txt'.format(year), 'a') as f:
            print(str(movie_id), "-1")
            f.write(str(movie_id) + '\t' + '-1' + '\n')
        return None
    
    url_review = 'https://eiga.com' + path
    eigacom_id = re.sub("\\D", "", path)
    
    with open('./eigacom_id_table_{}.txt'.format(year), 'a') as f:
        print(str(movie_id), eigacom_id)
        f.write(str(movie_id) + '\t' + eigacom_id + '\n')
    
    res = requests.get(url_review)
    res.encoding = res.apparent_encoding
    soup = BeautifulSoup(res.content, "lxml")
    
    rating = soup.find('span', attrs={"class": "rating-star"})
    review_count = soup.find('span', attrs={"itemprop": "reviewCount"})
    check_in = soup.find('a', attrs={"class": "icon-movie-checkin"}).find('strong')
    data["rating"] = 0 if rating.text == '－' else float(rating.text)
    data["review-count"] = 0 if review_count is None else int(review_count.text)
    data["check-in"] = 0 if check_in is None else int(check_in.text)
        
    return data

In [22]:
def main():
    years = ['2017', '2016', '2015', '2014']
    for y in years:
        print(y)
        fr = open('./eigacom_id_table_{}.txt'.format(y), 'r')
        with open( '../{}_movie_clean'.format(y), 'r') as movie_clean:
            for line in csv.reader(movie_clean, delimiter='\t'):
                eigacom_id = fr.readline().split()[1]
                if eigacom_id != "-1":
                    continue
                    
                movie_id, title, *_ = line
            
                output_file = './{0}/{1}.json'.format(y, movie_id)
                with open(output_file, 'w') as f:
                    print(movie_id)
                    data = scrape(title,movie_id, y)
                    if data == None:
                        continue
                    data["id"] = int(movie_id)
                    json.dump(data, f, ensure_ascii=False, indent=2) 
                time.sleep(1)
    fr.close()
    

In [23]:
if __name__ == '__main__':
    main()

2017
2
START : 傷物語III 冷血篇
2 83227
10
START : 劇場版 動物戦隊ジュウオウジャーVSニンニンジャー 未来からのメッセージ from スーパー戦隊
10 86069
11
START : 劇場版 新・ミナミの帝王
11 84729
18
START : 劇場版 黒執事 Book of the Atlantic
18 83283
22
START : イタズラなkiss THE MOVIE 2 〜キャンバス編〜


**************************************************
イタズラなkiss THE MOVIE 2 〜キャンバス編〜 HAS NO RESULT
**************************************************


22 -1
24
START : 劇場版 BiS誕生の詩
24 86317
40
START : 劇場版 ソードアート・オンライン -オーディナル・スケール-
40 83224
58
START : 劇場版プリパラ み～んなでかがやけ！キラリン☆スターライブ！
58 85902
61
START : 劇場版 しまじろうのわお！しまじろうと にじのオアシス


**************************************************
劇場版 しまじろうのわお！しまじろうと にじのオアシス HAS NO RESULT
**************************************************


61 -1
63
START : 劇場版 ウルトラマンオーブ 絆の力、おかりします！
63 86049
64
START : 劇場版総集編 オーバーロード 漆黒の英雄
64 86054
70
START : 劇場版 黒子のバスケ LAST GAME
70 84708
75
START : サクラダリセット 前篇
75 85654
99
START : 劇場版 Free!-Timeless Medley- 絆
99 86805
111
START : 劇場版 FAIRY TAIL -DRAGON CRY-
111 86574
116
START : サクラダリセット 後篇
116 85655
139
START : 22年目の告白 -私が殺人犯です-
139 85298
147
START : 劇場版 魔法科高校の劣等生 星を呼ぶ少女
147 84507
153
START : 宇宙戦艦ヤマト2202 愛の戦士たち/第二章 発進篇
153 86606
166
START : 劇場版ポケットモンスター キミにきめた!
166 86155
186
START : 劇場版 仮面ライダーエグゼイド トゥルー・エンディング
186 86299
203
START : 劇場版Fate/kaleid liner プリズマ☆イリヤ 雪下の誓い
203 86604
204
START : 映画監督外山文治短編作品集


**************************************************
映画監督外山文治短編作品集 HAS NO RESULT
**************************************************


204 -1
225
START : 交響詩篇エウレカセブンハイエボリューション１
225 86717
236
START : 劇場版　其ノ灯、暮ラシ
236 87704
238
START : 劇場版 響け! ユーフォニアム～届けたいメロディ～
238 86697
239
START : エルネスト もう一人のゲバラ


**************************************************
エルネスト もう一人のゲバラ HAS NO RESULT
**************************************************


239 -1
247
START : 宇宙戦艦ヤマト2202 愛の戦士たち/第三章 純愛篇
247 87352
248
START : Fate/stay night [Heaven's Feel] 第一章「presage flower」


**************************************************
Fate/stay night [Heaven's Feel] 第一章「presage flower」 HAS NO RESULT
**************************************************


248 -1
257
START : ブレードランナー 2049
257 85393
270
START : 劇場版シネマ狂想曲　名古屋映画館革命
270 86828
279
START : 劇場版 はいからさんが通る 前編 〜紅緒、花の17歳〜
279 85042
292
START : 映画かいけつゾロリ ZZ（ダブルゼット）のひみつ


**************************************************
映画かいけつゾロリ ZZ（ダブルゼット）のひみつ HAS NO RESULT
**************************************************


292 -1
318
START : ダンシング・ベートーヴェン
318 87787
2016
24
START : 尾崎支配人が泣いた夜 DOCUMENTARY of HKT48
24 81438
32
START : 新劇場版 頭文字D Legend3 −夢現−


**************************************************
新劇場版 頭文字D Legend3 −夢現− HAS NO RESULT
**************************************************


32 -1
47
START : ジョーのあした 辰吉丈一郎との20年
47 83126
49
START : 劇場版 探偵オペラ ミルキィホームズ 〜逆襲のミルキィホームズ〜
49 82817
59
START : 劇場版しまじろうのわお! しまじろうと えほんのくに


**************************************************
劇場版しまじろうのわお! しまじろうと えほんのくに HAS NO RESULT
**************************************************


59 -1
60
START : エヴェレスト 神々の山嶺
60 80572
62
START : 劇場版 ウルトラマンX きたぞ!われらのウルトラマン
62 83703
73
START : リップヴァンウィンクルの花嫁
73 83603
80
START : 青春100キロ
80 84468
86
START : レヴェナント: 蘇えりし者
86 82912
88
START : 劇場版 響け!ユーフォニアム〜北宇治高校吹奏楽部へようこそ〜
88 83456
102
START : 64 -ロクヨン- 前編
102 81855
103
START : チリ33人 希望の軌跡（ チリ・ コロンビア）
103 83277
125
START : 64 -ロクヨン- 後編
125 82055
127
START : 10 クローバーフィールド・レーン
127 84061
144
START : 存在する理由 DOCUMENTARY of AKB48
144 81531
157
START : 劇場版 仮面ライダーゴースト 100の眼魂とゴースト運命の瞬間
157 83971
158
START : 劇場版 動物戦隊ジュウオウジャー ドキドキサーカスパニック!
158 83972
166
START : 劇場版アイカツスターズ!
166 83973
169
START : 葛城物語


**************************************************
葛城物語 HAS NO RESULT
**************************************************


169 -1
175
START : ミュータント・ニンジャ・タートルズ：影＜シャドウズ＞


**************************************************
ミュータント・ニンジャ・タートルズ：影＜シャドウズ＞ HAS NO RESULT
**************************************************


175 -1
236
START : 劇場版 艦これ
236 82705
2015
1
START : 劇場版 PSYCHO-PASS サイコパス
1 88814
2
START : 96時間/レクイエム
2 81182
6
START : アゲイン 28年目の甲子園
6 79497
19
START : 劇場版 BiSキャノンボール2014
19 81089
26
START : 劇場版プロレスキャノンボール2014
26 81776
36
START : 劇場版 シドニアの騎士
36 81440
40
START : 劇場版プリパラ み〜んなあつまれ!プリズム☆ツアーズ
40 80759
44
START : 劇場版しまじろうのわお！ しまじろうと おおきなき


**************************************************
劇場版しまじろうのわお！ しまじろうと おおきなき HAS NO RESULT
**************************************************


44 -1
48
START : 劇場版 ウルトラマンギンガS 決戦!ウルトラ10勇士!!
48 81372
62
START : ソロモンの偽証 後篇・裁判
62 79922
73
START : 劇場版 境界の彼方 -I'LL BE HERE- 未来篇
73 81455
92
START : 天才バカヴォン〜蘇るフランダースの犬〜
92 80716
125
START : 劇場版 進撃の巨人 後編 自由の翼
125 80232
129
START : チャイルド44 森に消えた子供たち
129 81856
131
START : 青鬼 ver.2.0


**************************************************
青鬼 ver.2.0 HAS NO RESULT
**************************************************


131 -1
143
START : 奇跡の2000マイル
143 82163
160
START : 劇場版 仮面ライダードライブ サプライズ・フューチャー
160 81790
166
START : Dressing Up ドレッシングアップ


**************************************************
Dressing Up ドレッシングアップ HAS NO RESULT
**************************************************


166 -1
174
START : 劇場版デート・ア・ライブ 万由里ジャッジメント
174 81800
175
START : 向日葵の丘・1983年夏
175 80296
176
START : 劇場版 弱虫ペダル
176 87430
184
START : 劇場版　どついたるねんライブ
184 82766
226
START : サイボーグ009VSデビルマン
226 82142
246
START : 劇場版 MOZU
246 81409
275
START : 400デイズ
275 82856
283
START : 劇場版　東京女子プロレス　爆音セレナーデ
283 83734
2014
38
START : ポール・ヴァーホーヴェン/トリック
38 78251
70
START : 劇場版 TIGER & BUNNY -The Rising-
70 77537
84
START : 17歳
84 91424
89
START : 劇場版テレクラキャノンボール2013
89 79945
97
START : 劇場版 仮面ティーチャー
97 79346
98
START : ゲームセンターCX THE MOVIE 1986 マイティボンジャック
98 78878
105
START : 劇場版 トレインヒーロー
105 79835
107
START : バディファイトPresentsワールドプロレスリング3D第8弾 1.4東京ドーム 2014


**************************************************
バディファイトPresentsワールドプロレスリング3D第8弾 1.4東京ドーム 2014 HAS NO RESULT
**************************************************


107 -1
127
START : 劇場版 薄桜鬼 第二章 士魂蒼穹
127 79114
134
START : 劇場版 プリティーリズム・オールスターセレクション プリズムショー☆ベストテン
134 79844
141
START : 劇場版 しまじろうのわお! しまじろうとくじらのうた


**************************************************
劇場版 しまじろうのわお! しまじろうとくじらのうた HAS NO RESULT
**************************************************


141 -1
143
START : 劇場版 世界一初恋 〜横澤隆史の場合〜
143 79255
186
START : 1/11 じゅういちぶんのいち


**************************************************
1/11 じゅういちぶんのいち HAS NO RESULT
**************************************************


186 -1
190
START : ROUTE42


**************************************************
ROUTE42 HAS NO RESULT
**************************************************


190 -1
243
START : ヴィオレッタ
243 57099
262
START : ネクスト・ゴール!世界最弱のサッカー代表チーム 0対31からの挑戦
262 79802
293
START : ミッション:15
293 80230
306
START : 劇場版 東京伝説 恐怖の人間地獄
306 80345
320
START : パリ・オペラ座へようこそ ライブビューイング シーズン2 2013〜2014/西部の娘


**************************************************
パリ・オペラ座へようこそ ライブビューイング シーズン2 2013〜2014/西部の娘 HAS NO RESULT
**************************************************


320 -1
325
START : 劇場版 東京伝説 歪んだ異形都市
325 80346
326
START : SiM「10 YEARS - SPECIAL EDiTiON -」


**************************************************
SiM「10 YEARS - SPECIAL EDiTiON -」 HAS NO RESULT
**************************************************


326 -1
340
START : 300 〈スリーハンドレッド〉 〜帝国の進撃〜
340 77929
342
START : 映画 うわこい2


**************************************************
映画 うわこい2 HAS NO RESULT
**************************************************


342 -1
348
START : ニューヨーク・アニバーサリーライブ/シリーズ第2弾 ビリー・ジョエル《ライヴ・アット・シェイ・スタジアム -ザ・コンサート-


**************************************************
ニューヨーク・アニバーサリーライブ/シリーズ第2弾 ビリー・ジョエル《ライヴ・アット・シェイ・スタジアム -ザ・コンサート- HAS NO RESULT
**************************************************


348 -1
351
START : アンダーフェイス


**************************************************
アンダーフェイス HAS NO RESULT
**************************************************


351 -1
355
START : NOTHING PARTS 71
355 79864
361
START : 劇場版 テレクラキャノンボール2013
361 79945
365
START : 奴隷区 僕と23人の奴隷
365 79288
390
START : MOOSIC LAB 2014/あんこまん


**************************************************
MOOSIC LAB 2014/あんこまん HAS NO RESULT
**************************************************


390 -1
391
START : ニューヨーク・アニバーサリーライブ/シリーズ第3弾 サイモン&ガーファンクル《セントラルパーク・コンサート》


**************************************************
ニューヨーク・アニバーサリーライブ/シリーズ第3弾 サイモン&ガーファンクル《セントラルパーク・コンサート》 HAS NO RESULT
**************************************************


391 -1
408
START : パガニーニ 愛と狂気のヴァイオリニスト
408 79642
410
START : シネマ歌舞伎/歌舞伎クラシック 船弁慶


**************************************************
シネマ歌舞伎/歌舞伎クラシック 船弁慶 HAS NO RESULT
**************************************************


410 -1
411
START : シネマ歌舞伎/歌舞伎クラシック 身替座禅


**************************************************
シネマ歌舞伎/歌舞伎クラシック 身替座禅 HAS NO RESULT
**************************************************


411 -1
413
START : ニューヨーク・アニバーサリーライブ/シリーズ第4弾 ボン・ジョヴィ《インサイド・アウト》


**************************************************
ニューヨーク・アニバーサリーライブ/シリーズ第4弾 ボン・ジョヴィ《インサイド・アウト》 HAS NO RESULT
**************************************************


413 -1
416
START : シネマ歌舞伎/歌舞伎クラシック 勧進帳


**************************************************
シネマ歌舞伎/歌舞伎クラシック 勧進帳 HAS NO RESULT
**************************************************


416 -1
423
START : 劇場版K MISSING KINGS
423 79673
427
START : パリ・オペラ座へようこそ ライブビューイング シーズン2 2013〜2014/白鳥の湖


**************************************************
パリ・オペラ座へようこそ ライブビューイング シーズン2 2013〜2014/白鳥の湖 HAS NO RESULT
**************************************************


427 -1
440
START : 劇場版 仮面ライダー鎧武 サッカー大決戦!黄金の果実争奪杯!
440 79896
450
START : NMB48 げいにん!THE MOVIE リターンズ 卒業!お笑い青春ガールズ!!新たなる旅立ち
450 79986
455
START : ヴァンパイア・アカデミー
455 79925
461
START : 新・極道の紋章


**************************************************
新・極道の紋章 HAS NO RESULT
**************************************************


461 -1
483
START : FORMA-フォルマ-


**************************************************
FORMA-フォルマ- HAS NO RESULT
**************************************************


483 -1
491
START : 365日のシンプルライフ（ フィンランド）
491 80247
500
START : 新劇場版 頭文字［イニシャル］D Legend 1 -覚醒-


**************************************************
新劇場版 頭文字［イニシャル］D Legend 1 -覚醒- HAS NO RESULT
**************************************************


500 -1
504
START : リヴァイアサン
504 80189
569
START : アンナプルナ南壁 7,400mの男たち


**************************************************
アンナプルナ南壁 7,400mの男たち HAS NO RESULT
**************************************************


569 -1
654
START : 弾丸刑事(デカ) 怒りの奪還


**************************************************
弾丸刑事(デカ) 怒りの奪還 HAS NO RESULT
**************************************************


654 -1
663
START : 0.5ミリ


**************************************************
0.5ミリ HAS NO RESULT
**************************************************


663 -1
670
START : 夜だから Night, Because


**************************************************
夜だから Night, Because HAS NO RESULT
**************************************************


670 -1
755
START : さよなら東京


**************************************************
さよなら東京 HAS NO RESULT
**************************************************


755 -1


映画.comにないやつ<br>
2017 <br>
204 外山文治短編作品集<br>
2016 <br>
169 葛城物語<br>
2014 <br>
326 SiM「10 YEARS - SPECIAL EDiTiON -」
351 アンダーフェイス
390 MOOSIC LAB 2014/あんこまん
461 新・極道の紋章
663 0.5ミリ
755 さよなら東京
2013 <br>
78 英国ロイヤル・バレエ/ロミオとジュリエット
83 つるしびな
165 英国ロイヤル・バレエ/不思議の国のアリス
404 イン・ザ・シャドウズ
477 ブシモ Presentsプロレス3D第7弾 ワールドプロレスリング G1 CLIMAX 2013

In [29]:
errors_2017 = [
    (83967, 22),
    (83446,59),
    (85425, 239),
    (84639, 248),
    (86831, 292),
]

errors_2016 = [
    (82315, 32),
    (85928,61),
    (83806, 175),
]

errors_2015 = [
    (81351, 44),
    (81588,131),
    (78671, 166),
]

errors_2014 = [
    (79824, 107),
    (79222,141),
    (79672, 186),
    (77705, 190),
    (79960,320),
    (79998, 342),
    (80145, 348),
    (80146,391),
    (80421, 410),
    (80420, 411),
    (80147,413),
    (80419, 416),
    (79957, 427),
    (79260,483),
    (78987, 500),
    (79842, 569),
    (80979,654),
    (81192, 670),
]

errors_2013 = [
    (78009,100),
    (78140, 103),
    (58247, 111),
    (77852, 261),
    (78088, 294),
    (77941, 350),
    (78149, 432),
    (79303, 516),
    (79202, 633),
]

In [30]:
errors_all = [errors_2017, errors_2016, errors_2015, errors_2014, errors_2013]

In [31]:
def scrape_directly(id_in, id_out):
    page_num = 1
    data = {
        "id": id_out,
        "rating": -1,
        "check-in":-1,
        "review-count":-1
    }
    url_review = "https://eiga.com/movie/" + str(id_in)
    
    if(url_review == "error"):
        return "error"
    

    res = requests.get(url_review)
    res.encoding = res.apparent_encoding
    soup = BeautifulSoup(res.content, "lxml")
    
    rating = soup.find('span', attrs={"class": "rating-star"})
    review_count = soup.find('span', attrs={"itemprop": "reviewCount"})
    check_in = soup.find('a', attrs={"class": "icon-movie-checkin"}).find('strong')
    data["rating"] = 0 if rating.text == '－' else float(rating.text)
    data["review-count"] = 0 if review_count is None else int(review_count.text)
    data["check-in"] = 0 if check_in is None else int(check_in.text)
    print('DONE : ' + str(id_out) )
    return data

In [32]:
year = 2017
for errors in errors_all:
    print(year)
    for id_in, id_out in errors:
        output_file = './{0}/{1}.json'.format(str(year), id_out)
        with open(output_file, 'w') as f:
            data = scrape_directly(id_in, id_out)
            jsn =  json.dump(data,f,ensure_ascii=False, indent=2) 
        time.sleep(1)
    year -= 1

2017
DONE : 22
DONE : 59
DONE : 239
DONE : 248
DONE : 292
2016
DONE : 32
DONE : 61
DONE : 175
2015
DONE : 44
DONE : 131
DONE : 166
2014
DONE : 107
DONE : 141
DONE : 186
DONE : 190
DONE : 320
DONE : 342
DONE : 348
DONE : 391
DONE : 410
DONE : 411
DONE : 413
DONE : 416
DONE : 427
DONE : 483
DONE : 500
DONE : 569
DONE : 654
DONE : 670
2013
DONE : 100
DONE : 103
DONE : 111
DONE : 261
DONE : 294
DONE : 350
DONE : 432
DONE : 516
DONE : 633
