In [278]:
import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import itertools
import re
from tqdm.notebook import tqdm
import time
import random
import pickle
import pandas as pd
from pathlib import Path

In [58]:
# на этот раз в качестве источника данных я выбрал онлайн галлерею gallerix.ru, 
# так как они обладают очень большой коллекцией картин, каталогизированных по художникам

In [59]:
# страница со ссылками на художников

In [60]:
base_url = "https://gallerix.ru/"

In [124]:
def get_all_links():
    res = requests.get(base_url + "storeroom/",  headers={'User-Agent': UserAgent().chrome})
    main_page = res.content
    main_page = BeautifulSoup(main_page, 'html.parser')
    items = main_page.findAll("p", attrs={"class":"sr-pntrs"})
    links = [i["href"] for i in itertools.chain.from_iterable([i.findAll("a") for i in items])]
    return links
links = get_all_links()

In [171]:
def get_data_about_artist(link):
    res = requests.get(base_url + link[1:],  headers={'User-Agent': UserAgent().chrome})
    main_page = res.content
    main_page = BeautifulSoup(main_page, 'html.parser')
    items = main_page.findAll("p", attrs={"class":"sr-pntrs"})
    title_data = main_page.find("h1",  attrs={"class":"panel-title"})
    artist_name = title_data.find("b").text
    try:
        artist_dates = re.findall("\d{4}", title_data.find("span").find("b").text)
        live_from = artist_dates[0]    
        live_to = artist_dates[1]
    except:
        live_from = 0
        live_to = 0
    # удалим часть документа, содержащую картины из других альбомов (сборников) для избежания дублей    
    for el in main_page.findAll("h3"):
        if "в других альбомах" in el.text:
            el.parent.decompose()    
    pictures_list = [i.find("a")["href"] for i in main_page.findAll("div", attrs={"class":"pic"})]
    return {"artist_name":artist_name,
            "live_from":live_from,
            "live_to":live_to,
            "pictures_count":len(pictures_list),
            "pictures_list":pictures_list
           }

In [148]:
# пора загрузить данные о каждом художнике

In [174]:
data = []
failed = []
for artist_link in tqdm(links):
    time.sleep(random.randint(1,2))
    try:
        data.append(get_data_about_artist(artist_link))
    except:
        failed.append(artist_link)
print("Обработано {} записей. Обнаружено {} ошибок".format(len(links), len(failed)))
    
    

HBox(children=(FloatProgress(value=0.0, max=238.0), HTML(value='')))


Обработано 238 записей. Обнаружено 9 ошибок


In [157]:
# ручные проверки показали что часть ссылок битые (возвращают ошибку 404)

In [190]:
# сохраним спарсенные метаданные на всякий случай
with open("artists_with_pictures.pkl", "wb") as f:
    pickle.dump(data, f)   

In [189]:
with open("artists_with_pictures.pkl", "rb") as f:
    data = pickle.load(f)

In [223]:
def get_picture_details(link):
    res = requests.get(base_url + link[1:],  headers={'User-Agent': UserAgent().chrome})
    main_page = res.content
    main_page = BeautifulSoup(main_page, 'html.parser')
    picture_name = main_page.find("h1", attrs={"class":"panel-title"}).contents[0].strip()
    img_url = main_page.find("p", attrs={"class":"xpic"}).find("img")["src"]
    return picture_name, img_url

In [242]:
data2 = []
for artist in tqdm(data[:]):
    for picture in tqdm(artist["pictures_list"][:], desc = artist["artist_name"] ):
#         time.sleep(random.randint(1,2))
        time.sleep(0.2)
        try:
            picture_name, img_url =  get_picture_details(picture)
        except:
            picture_name, img_url = "unknown", "unknown"
            time.sleep(1)
        
        data2.append({
            "artist_name": artist["artist_name"],
            "live_from": artist["live_from"],
            "live_to": artist["live_to"],
            "pictures_count": artist["pictures_count"],
            "picture_name": picture_name,
            "img_url": img_url,
        })
        

HBox(children=(FloatProgress(value=0.0, max=229.0), HTML(value='')))

HBox(children=(FloatProgress(value=0.0, description='Иван Константинович Айвазовский', max=516.0, style=Progre…




HBox(children=(FloatProgress(value=0.0, description='Лоуренс Альма-Тадема', max=112.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Amano, Yoshitaka \xa0', max=431.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Васнецов Аполлинарий Михайлович', max=143.0, style=Progre…




HBox(children=(FloatProgress(value=0.0, description='Arikha, Avigdor \xa0', max=108.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Armstrong, Rolf \xa0', max=225.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Ausencia, Jesus Helguera \xa0', max=103.0, style=Progress…




HBox(children=(FloatProgress(value=0.0, description='Bansemer, Roger \xa0', max=158.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Bateman, Robert \xa0', max=396.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Джованни Беллини', max=162.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Николас Питерс Берхем', max=124.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Bierstadt, Albert \xa0', max=214.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Альберт Бирштадт', max=175.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Арнольд Бёклин', max=191.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Елизавета Меркурьевна Бём (Эндаурова)', max=367.0, style=…




HBox(children=(FloatProgress(value=0.0, description='Джованни Больдини', max=336.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Bonnard, Pierre \xa0', max=227.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Иероним Босх', max=111.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Сандро Боттичелли', max=203.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Франсуа Буше', max=306.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Адольф Уильям Бугро', max=310.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Bowser, Jonathan Earl \xa0', max=155.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Brasilier, Andre \xa0', max=175.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Brenders, Carl \xa0', max=369.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Ян Брейгель Старший', max=353.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Ян Брейгель Младший', max=165.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Питер Брейгель Младший', max=108.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Карл Павлович Брюллов', max=169.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Сэр Эдвард Бёрн-Джонс', max=342.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Гюстав Кайботт', max=265.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Каналетто (Джованни Антонио Каналь)', max=148.0, style=Pr…




HBox(children=(FloatProgress(value=0.0, description='Мэри Кассат', max=181.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Castillo, Jorge \xa0', max=118.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Бернар Кателин', max=116.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Поль Сезанн', max=214.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Challenger, J. D. \xa0', max=133.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Жан-Батист Симеон Шарден', max=161.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Уильям Меррит Чейз', max=248.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=1.0, bar_style='info', description='Джорджо де Кирико', max=1.0, style=Prog…




HBox(children=(FloatProgress(value=0.0, description='Cole, Thomas \xa0', max=118.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Джон Кольер', max=191.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Cook, Beryl \xa0', max=341.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Жан-Батист-Камиль Коро', max=238.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Гюстав Курбе', max=130.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Альберт Кёйп', max=123.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=1.0, bar_style='info', description='Сальвадор Дали', max=1.0, style=Progres…




HBox(children=(FloatProgress(value=0.0, description='Dallet, Robert \xa0', max=140.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Жак-Луи Давид', max=118.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Эдгар Дега', max=181.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Dillon, Leo & Diane \xa0', max=182.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Гюстав Доре', max=788.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Dou, Gerrit \xa0', max=114.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Driben, Peter \xa0', max=352.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Гравюры Дюрера', max=247.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Альбрехт Дюрер', max=144.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Антонис Ван Дейк', max=202.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Eakins, Thomas \xa0', max=126.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Earle, Eyvind \xa0', max=370.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Эль Греко', max=234.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Джил Элвгрен', max=709.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Engle, Jason \xa0', max=109.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Enjolras, Delphin \xa0', max=183.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Уильям Этти', max=146.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Игнас-Анри-Жан-Теодор Фантен-Латур', max=141.0, style=Pro…




HBox(children=(FloatProgress(value=0.0, description='Fisher, Harrison \xa0', max=319.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Фра Анджелико', max=319.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Жан Оноре Фрагонар', max=156.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Поль Гоген', max=195.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Жан-Леон Жером', max=253.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Джотто ди Бондоне', max=175.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Girotto, Walter \xa0', max=136.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Джон Уильям Годвард', max=194.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Винсент Ван Гог', max=943.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Фредерик Гудолл', max=156.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Франсиско Хосе де Гойя-и-Лусьентес', max=182.0, style=Pro…




HBox(children=(FloatProgress(value=0.0, description='Grimshaw, John Atkinson \xa0', max=133.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='Grunewald, Matthias \xa0', max=105.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Gudiol, Montserrat \xa0', max=141.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Франс Халс', max=148.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Hanks, Steve \xa0', max=368.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Алексей Алексеевич Харламов', max=115.0, style=ProgressSt…




HBox(children=(FloatProgress(value=0.0, description='Harrison, Mark \xa0', style=ProgressStyle(description_wid…




HBox(children=(FloatProgress(value=0.0, description='Чайлд Фредерик Хассам', max=224.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Hildebrandt, Greg \xa0', max=267.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Фердинанд Ходлер', max=127.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Hokusai \xa0', max=157.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Holbein, Hans The Younger \xa0', max=132.0, style=Progres…




HBox(children=(FloatProgress(value=0.0, description='Homer, Winslow \xa0', max=207.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Жан Огюст Доминик Энгр', max=230.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Фрида Кало', max=133.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Kaluta, Micheal \xa0', max=125.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Орест Адамович Кипренский', max=181.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=0.0, description='Эрнст Людвиг Кирхнер', max=121.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Пауль Клее', max=192.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Густав Климт', max=138.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Макс Клингер', max=189.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Сэр Годфри Неллер', max=241.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Korovin, Konstantin Alekseevich (1861-1939) \xa0', max=27…




HBox(children=(FloatProgress(value=0.0, description='Koson \xa0', max=134.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Котарбинский Вильгельм Александрович', max=136.0, style=P…




HBox(children=(FloatProgress(value=0.0, description='Архип Иванович Куинджи', max=175.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Карл Улоф Ларссон', max=181.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Lassen, Christian Riese \xa0', max=382.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='сэр Джон Лавери', max=120.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Lebasque, Henri \xa0', max=396.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Lebourg, Albert-Charles \xa0', max=141.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='Lee, Alan \xa0', max=205.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Фредерик Лейтон', max=117.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Исаак Ильич Левитан', max=393.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Lippi, Fra Filippo \xa0', max=105.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Loiseau, Gustave \xa0', max=259.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Лоренцо Лотто', max=111.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Lucas Cranach and Workshop \xa0', max=487.0, style=Progre…




HBox(children=(FloatProgress(value=0.0, description='Maitz, Don \xa0', max=162.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Malczewski, Jacek \xa0', max=105.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Эдуард Мане', max=271.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Андреа Мантенья', max=109.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Martin, Henri-Jean-Guillaume \xa0', max=418.0, style=Prog…




HBox(children=(FloatProgress(value=0.0, description='Анри Матисс', max=495.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Memling, Hans \xa0', max=198.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Merriam, Daniel \xa0', max=197.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Амедео Модильяни', max=193.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Моне Клод Оскар', max=451.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Клод Оскар Моне', max=1330.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Гюстав Моро', max=117.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Moret, Henry \xa0', max=142.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Morrissey, Dean \xa0', max=135.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Mucha, Alphonse Maria \xa0', max=201.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Mullins, Craig \xa0', max=153.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Эдвард Мунк', max=217.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Muth, John J \xa0', max=103.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Nagel, Patrick \xa0', max=115.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Nasmith, Ted \xa0', max=167.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Nelson, Robert Lyn \xa0', max=109.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Nemo, Anry \xa0', max=113.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='OKeeeffe, Georgia \xa0', max=179.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Olano, Ignacio Diaz \xa0', max=118.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Olbinski, Rafal \xa0', max=163.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Oliver, Tony \xa0', max=224.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Olsen, Penny \xa0', max=130.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Orientalistas, Los \xa0', max=234.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Джованни Паоло Панини', max=119.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Parkinson, Keith \xa0', max=320.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Penagos, Rafael De \xa0', max=199.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Perceval, Jesus De \xa0', max=166.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Василий Григорьевич Перов', max=183.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=0.0, description='Петров-Водкин Кузьма Сергеевич', max=185.0, style=Progres…




HBox(children=(FloatProgress(value=0.0, description='Пабло Пикассо', max=6.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Пьеро делла Франческа', max=125.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Pinole, Nicanor \xa0', max=106.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Pipo, Manuel Ruiz \xa0', max=106.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Камиль Писсарро', max=859.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Poortvliet, Rien \xa0', max=409.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Porter, Eliot \xa0', max=101.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Никола Пуссен', max=192.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Prendergast, Maurice \xa0', max=112.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=0.0, description='Пьер-Поль Прюдон', max=106.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Pruna, Pere \xa0', max=116.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Рафаэль Санти', max=240.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Одилон Редон', max=178.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Рембрандт Харменс ван Рейн', max=363.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Remington, Frederick \xa0', max=107.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=0.0, description='Гвидо Рени', max=164.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Пьер Огюст Ренуар', max=1206.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Илья Ефимович Репин', max=516.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Rivera, Diego \xa0', max=160.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Rob, Roy \xa0', max=188.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Rockwell, Norman \xa0', max=364.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Данте Габриэль Россетти', max=119.0, style=ProgressStyle(…




HBox(children=(FloatProgress(value=0.0, description='Анри Руссо', max=154.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Royo, Jose \xa0', max=128.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Питер Пауль Рубенс', max=719.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Sanderson, Ruth \xa0', max=105.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Джон Сингер Сарджент', max=770.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Алексей Кондратьевич Саврасов', max=232.0, style=Progress…




HBox(children=(FloatProgress(value=0.0, description='Эгон Шиле', max=250.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Schimmel, William \xa0', max=107.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Segur, Adrienne \xa0', max=127.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Генрих Ипполитович Семирадский', max=104.0, style=Progres…




HBox(children=(FloatProgress(value=0.0, description='Валентин Александрович Серов', max=189.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='Иван Иванович Шишкин', max=595.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Лука Синьорелли', max=120.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Соломко Сергей Сергеевич', max=144.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Somov, Konstantin Andreevich (1869-1939) \xa0', max=230.0…




HBox(children=(FloatProgress(value=0.0, description='Sorolla y Bastida, Joaquin \xa0', max=189.0, style=Progre…




HBox(children=(FloatProgress(value=0.0, description='Souto, Arturo \xa0', max=168.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Spinaker, D K \xa0', max=113.0, style=ProgressStyle(descr…




HBox(children=(FloatProgress(value=0.0, description='Stawicki, Matthew \xa0', max=113.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Василий Иванович Суриков', max=231.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Sweet, Darrell K \xa0', max=254.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Tejada, Carlos Saenz De \xa0', max=110.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='Джованни Баттиста Тьеполо', max=366.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=0.0, description='Джеймс Тиссо', max=185.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Тициан (Тициано Вечеллио)', max=310.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=0.0, description='Анри де Тулуз-Лотрек', max=189.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Troiani, Don \xa0', max=102.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Turner, Joseph Mallord William \xa0', max=182.0, style=Pr…




HBox(children=(FloatProgress(value=0.0, description='Turner, Michael \xa0', max=162.0, style=ProgressStyle(des…




HBox(children=(FloatProgress(value=0.0, description='Unknown painters \xa0', max=215.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Varo, Remedios \xa0', max=108.0, style=ProgressStyle(desc…




HBox(children=(FloatProgress(value=0.0, description='Диего Родригес де Сильва и Веласкес', max=127.0, style=Pr…




HBox(children=(FloatProgress(value=0.0, description='Василий Васильевич Верещагин', max=199.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='Орас Верне', max=121.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Веронезе (Паоло Кальяри)', max=197.0, style=ProgressStyle…




HBox(children=(FloatProgress(value=0.0, description='Элизабет-Луиз Виже-Лебрён', max=117.0, style=ProgressStyl…




HBox(children=(FloatProgress(value=1.0, bar_style='info', description='Warhol, Andy \xa0', max=1.0, style=Prog…




HBox(children=(FloatProgress(value=0.0, description='Джон Уильям Уотерхаус', max=121.0, style=ProgressStyle(de…




HBox(children=(FloatProgress(value=0.0, description='Weyden, Rogier Van Der \xa0', max=130.0, style=ProgressSt…




HBox(children=(FloatProgress(value=0.0, description='Whistler, James Abbott Mcneill \xa0', max=112.0, style=Pr…




HBox(children=(FloatProgress(value=0.0, description='Франц Ксавьер Винтерхальтер', max=157.0, style=ProgressSt…




HBox(children=(FloatProgress(value=0.0, description='Wyeth, Newell Convers \xa0', max=112.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Ханс Зацка', max=157.0, style=ProgressStyle(description_w…




HBox(children=(FloatProgress(value=0.0, description='Пол Зелинский', max=111.0, style=ProgressStyle(descriptio…




HBox(children=(FloatProgress(value=0.0, description='Андерс Цорн', max=182.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Леонид Афремов', max=191.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Николай Петрович Богданов-Бельский', max=109.0, style=Pro…




HBox(children=(FloatProgress(value=1.0, bar_style='info', description='Марк Захарович Шагал', max=1.0, style=P…




HBox(children=(FloatProgress(value=0.0, description='Николай Иванович Фешин', max=280.0, style=ProgressStyle(d…




HBox(children=(FloatProgress(value=0.0, description='Александр Головин', max=105.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Борис Дмитриевич Григорьев', max=108.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Василий Васильевич Кандинский', max=259.0, style=Progress…




HBox(children=(FloatProgress(value=0.0, description='Гавриил Павлович Кондратенко', max=132.0, style=ProgressS…




HBox(children=(FloatProgress(value=0.0, description='Борис Михайлович Кустодиев', max=125.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Константин Егорович Маковский', max=227.0, style=Progress…




HBox(children=(FloatProgress(value=0.0, description='Казимир Северинович Малевич', max=177.0, style=ProgressSt…




HBox(children=(FloatProgress(value=0.0, description='Василий Дмитриевич Поленов', max=191.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Зинаида Евгеньевна Серебрякова', max=345.0, style=Progres…




HBox(children=(FloatProgress(value=0.0, description='Василий Андреевич Тропинин', max=133.0, style=ProgressSty…




HBox(children=(FloatProgress(value=0.0, description='Сергей Арсеньевич Виноградов', max=111.0, style=ProgressS…





In [245]:
# сохраним результаты труда
pd.DataFrame(data2).to_pickle("paintings_links.pkl")

In [246]:
paintings_links = pd.read_pickle("paintings_links.pkl")

In [259]:
paintings_links[paintings_links.picture_name != "unknown"]

Unnamed: 0,artist_name,live_from,live_to,pictures_count,picture_name,img_url
0,Иван Константинович Айвазовский,1817,1900,516,Девятый вал,https://sr.gallerix.ru/_EX/1016087178/71308039...
1,Иван Константинович Айвазовский,1817,1900,516,Лунная дорожка,https://sr.gallerix.ru/_EX/1819898631/33996887...
2,Иван Константинович Айвазовский,1817,1900,516,Штиль 1885 42х62,https://sr.gallerix.ru/_EX/1819898631/52061157...
3,Иван Константинович Айвазовский,1817,1900,516,Закат 1866 46х61,https://sr.gallerix.ru/_EX/1819898631/31920471...
4,Иван Константинович Айвазовский,1817,1900,516,Волна 1889 304х505,https://sr.gallerix.ru/_EX/1819898631/59644470...
...,...,...,...,...,...,...
49254,Сергей Арсеньевич Виноградов,1869,1938,111,Пристань на Волге. 1885,https://sr.gallerix.ru/_RUS/637749369/75230970...
49255,Сергей Арсеньевич Виноградов,1869,1938,111,Пристань. Архангельск. 1903,https://sr.gallerix.ru/_RUS/637749369/33525229...
49256,Сергей Арсеньевич Виноградов,1869,1938,111,Этюд с лодкой,https://sr.gallerix.ru/_RUS/637749369/14122712...
49257,Сергей Арсеньевич Виноградов,1869,1938,111,Баба. 1890,https://sr.gallerix.ru/_RUS/637749369/80091214...


In [260]:
# пришло время скачать сами картины

In [305]:
paintings_links["img_path"] = "unknown"

In [329]:
p_name = t.picture_name.replace("?","")

'Бабы тульские. 1889'

In [334]:
p_name[:100]

'Сивилла (Хуана Пачеко)'

In [339]:
for t in tqdm(paintings_links.itertuples(), total=paintings_links[paintings_links.img_path == "unknown"].shape[0]):
    if t.picture_name != "unknown" and t.img_path == "unknown":
        (Path.cwd()/"data"/t.artist_name).mkdir(parents=True, exist_ok=True)
        # много названий картин содержит недопустимые символы
        p_name = t.picture_name.replace("?","").replace("/","").replace('"',"").replace(':',"")[:100]
        image_path = "data/{}/{}_{}.jpg".format(t.artist_name,t.Index, p_name)
        try:
            r = requests.get(t.img_url,  headers={'User-Agent': UserAgent().chrome})
            out = open(str(image_path),'wb')
            out.write(r.content)
            out.close()
            time.sleep(0.3)
            paintings_links.loc[t.Index, "img_path"] = image_path
        except Exception as e:
            print(e)
            pass
    
    

HBox(children=(FloatProgress(value=0.0, max=92.0), HTML(value='')))




In [342]:
paintings_links.to_pickle("final_dataframe.pkl")