In [40]:
# Scraping http://collections.muma-lehavre.fr/
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [33]:
def parse_painting(html):
    page = BeautifulSoup(html, "lxml")

    fields = page.select(".field")
    painting = {}

    for field in fields:
        label = field.select(".field-label")
        item = field.select(".field-item")

        if len(label) == 0:
            continue

        label = label[0].get_text()
        label = label.replace(":", "").strip()
        item = item[0].get_text()
        painting[label] = item
        
    return painting

In [34]:
# Parse a painting
with open("painting.html") as f:
    html = f.read()
    painting = parse_painting(html)

df = pd.DataFrame([painting])
df.to_csv("painting.csv")

In [39]:
def parse_overview(html):
    page = BeautifulSoup(html, "lxml")
    links = page.select("span.field-content a")
    return [l.get("href") for l in links]

['http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0',
 'http://collections.muma-lehavre.fr/fiche/le-golfe-0',
 'http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0',
 'http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0',
 'http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0',
 'http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0',
 'http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0',
 'http://collections.muma-lehavre.fr/fiche/les-nympheas-0',
 'http://collections.muma-lehavre.fr/fiche/la-valse-0',
 'http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0',
 'http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0',
 'http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0']

In [51]:
def scrape_page(number):
    url = f"http://collections.muma-lehavre.fr/?page={number}"
    print(f"Scraping overview page {url}")
    req = requests.get(URL)
    html = req.text
    links = parse_overview(html)
    paintings = []

    for link in links:
        print(f"🖼 Parsing {link}")
        req = requests.get(link)
        html = req.text
        painting = parse_painting(html)
        paintings.append(painting)
        
    return paintings

In [52]:
museum = []

for index in range(0, 61):
    paintings = scrape_page(index)
    museum = museum + paintings
    
df = pd.DataFrame(museum)
df.to_csv("museum.csv")

Scraping overview page http://collections.muma-lehavre.fr/?page=0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peu

🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=8
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http:/

🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=15
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-pay

🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=23
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http:/

🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=30
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fich

🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=38
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0

🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=45
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-ap

🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil-maree-montante-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/portrait-de-nini-lopez-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-l

🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-et-le-brise-lames-est-le-havre-apres-midi-temps-ensoleille-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/les-nympheas-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-valse-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/croquis-de-paysans-normands-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/la-colline-aux-peupliers-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/apres-le-bain-femme-s-essuyant-0
Scraping overview page http://collections.muma-lehavre.fr/?page=60
🖼 Parsing http://collections.muma-lehavre.fr/fiche/au-coin-de-la-fenetre-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-golfe-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/le-haut-de-forme-interieur-ou-la-visite-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/enfants-lisant-enfants-lisant-jacques-et-annette-roussel-0
🖼 Parsing http://collections.muma-lehavre.fr/fiche/l-anse-des-pilotes-le-havre-matin-soleil