In [1]:
import os
import sys
import traceback
from mimetypes import guess_extension
from time import time, sleep
from urllib.request import urlopen, Request
from urllib.parse import quote
from bs4 import BeautifulSoup

MY_EMAIL_ADDR = ''

class Fetcher:
    def __init__(self, ua=''):
        self.ua = ua

    def fetch_img_direct(self, url):
        """
        yahoo画像検索画面に表示されている画像のbyte情報を抽出します。
        引数:
            url: yahoo画像検索画面のurlです。

        返り値:
            img_b_content: ウェブサイトリソースのbyteコードのリストです。
            mime: CONTENT_TYPEにより指定されている拡張子です。
        """
        req = Request(url, headers={'User-Agent': self.ua})
        try:
            with urlopen(req, timeout=3) as p:
                page_b_content = p.read()
                structured_page = BeautifulSoup(page_b_content.decode('UTF-8'), 'html.parser')
                img_link_elems = structured_page.find_all('img')
                img_urls = [e.get('src') for e in img_link_elems if e.get('src').startswith('http')]
                img_urls = list(set(img_urls)) #なぜset化しているのかは不明
        except:
            sys.stderr.write('Error in fetching {}\n'.format(url))
            sys.stderr.write(traceback.format_exc())
            return None, None

        img_b_content = []
        mime = []
        for i, img_url in enumerate(img_urls):
            req1 = Request(img_url, headers={'User-Agent': self.ua})
            try:
                with urlopen(req1, timeout=3) as p:
                    img_b_content.append(p.read())
                    mime.append(p.getheader('Content-Type'))
            except:
                sys.stderr.write('Error in fetching {}\n'.format(img_url))
                sys.stderr.write(traceback.format_exc())
                continue

        return img_b_content, mime

fetcher = Fetcher(MY_EMAIL_ADDR)



def url_brancher(word):
    """
    yahoo画像検索画面のurlを、検索条件の組み合わせの数だけ取得します。

    引数:
        word : 検索語です。

    返り値:
        urllist : yahoo画像検索画面のurlのリストです。
    """
    constant = "https://search.yahoo.co.jp/image/search?p={}&ei=UTF-8&".format(quote(word))

    values = [str(20*i+1) for i in range(30)]
    """
    values = [\
    ["", "small", "medium", "large", "wallpaper", "widewallpaper"],\
    ["", "red", "orange", "yellow", "green", "teal", "blue", "purple", "pink", "white", "gray", "black", "brown"],\
    ["", "face", "photo", "clipart", "lineart"]\
    ]
    """
    urllist = []

    for b in values:
        urllist.append(constant+"b="+b)
    return urllist



def main(word):
    """
    Fetchにより取得された情報をもとに画像ファイルを保存します。

    引数:
    word: 検索語です。

    返り値:
    """
    data_dir = './data/'
    if not os.path.exists(data_dir):
        os.makedirs(data_dir)

    yahoo_url_list = url_brancher(word)

    for i, yahoo_url in enumerate(yahoo_url_list):
        sleep(0.1)
        img, mime = fetcher.fetch_img_direct(yahoo_url)
        if not mime or not img:
            print('Error in fetching {}\n'.format(yahoo_url))
            continue

        for j, img_url in enumerate(img):
            ext = guess_extension(mime[j].split(';')[0])
            if ext in ('.jpe', '.jpeg'):
                ext = '.jpg'
            if not ext:
                print('Error in fetching {}\n'.format(img_url))
                continue

            result_file = os.path.join(data_dir, str(i) + str(j)+ ext)
            with open(result_file, mode='wb') as f:
                f.write(img_url)
            print('fetched', str(i) + str(j) + ext)



if __name__ == '__main__':
    word = "鬼滅の刃+漫画+炭治郎"
    main(word)

fetched 00.jpg
fetched 01.jpg
fetched 02.jpg
fetched 03.gif
fetched 04.jpg
fetched 05.jpg
fetched 06.jpg
fetched 07.jpg
fetched 08.jpg
fetched 09.jpg
fetched 010.jpg
fetched 011.jpg
fetched 012.jpg
fetched 013.jpg
fetched 014.jpg
fetched 015.jpg
fetched 016.jpg
fetched 017.jpg
fetched 018.jpg
fetched 019.jpg
fetched 020.jpg
fetched 10.gif
fetched 11.jpg
fetched 12.jpg
fetched 13.jpg
fetched 14.jpg
fetched 15.jpg
fetched 16.jpg
fetched 17.jpg
fetched 18.jpg
fetched 19.jpg
fetched 110.jpg
fetched 111.jpg
fetched 112.jpg
fetched 113.jpg
fetched 114.jpg
fetched 115.jpg
fetched 116.jpg
fetched 117.jpg
fetched 118.jpg
fetched 119.jpg
fetched 120.jpg
fetched 20.gif
fetched 21.jpg
fetched 22.jpg
fetched 23.jpg
fetched 24.jpg
fetched 25.jpg
fetched 26.jpg
fetched 27.jpg
fetched 28.jpg
fetched 29.jpg
fetched 210.jpg
fetched 211.jpg
fetched 212.jpg
fetched 213.jpg
fetched 214.jpg
fetched 215.jpg
fetched 216.jpg
fetched 217.jpg
fetched 218.jpg
fetched 219.jpg
fetched 220.jpg
fetched 30.gif
fetched

In [6]:
# coding:utf-8

import requests
from bs4 import BeautifulSoup

url = 'https://animanch.com/archives/16861675.html'
# スクレイピングするユーザーエージェントを指定
headers = {'User-Agent':'Mozilla/5.0'}
soup = BeautifulSoup(requests.get(url,headers=headers).content,'lxml')
print(soup)
images = [] # 画像リストの空配列

for img in soup.find_all('img', class_="img", limit=5):
    # コンソールへスクレイピング対象の画像URLを表示。特段必須ではない
    print(img.get("src"))
    # imagesの空配列へsrcを登録
    images.append(img.get("src"))

# imagesからtargetに入れる
for target in images:
    re = requests.get(target)
    with open('./data/' + target.split('/')[-1], 'wb') as f: # imgフォルダに格納
      # .contentで画像データとして書き込む
      f.write(re.content)

# スクレイピング終了確認
print("画像保存が完了しました。")

class="fa fa-heart-o"></i></button><span class="votecount">0</span>
</div>
</div> <div class="commentwrap" id="comment-19">
<div class="commentheader">
<span class="commentnumber">19</span>. <span class="commentname">名無しのあにまんch</span> <span class="commentdate">2019年04月07日 06:35:09</span> <span class="commentid">ID:AzMTQ4MDc</span>
</div>
<div class="commentbody">まるで鬼滅が超大作アニメかのようだ…！<br/>
</div>
<div class="commentvote" id="vote19">
<a class="comres-19" name="#commentform"><i class="fa fa-reply"></i></a>
<button class="comvote_yes" id="comyes_19"><i class="fa fa-heart-o"></i></button><span class="votecount">0</span>
</div>
</div> <div class="commentwrap" id="comment-20">
<div class="commentheader">
<span class="commentnumber">20</span>. <span class="commentname">名無しのあにまんch</span> <span class="commentdate">2019年04月07日 08:22:30</span> <span class="commentid">ID:Q4Mjg5NzE</span>
</div>
<div class="commentbody">完璧すぎて…<br/>
メイドインアビス以来の完璧さだ…<br/>
素晴らしい<br/>
</div>
<div class="commentvote" id="