In [1]:
import os
import os.path
from urllib.request import urlopen
from requests import get
from bs4 import BeautifulSoup
from collections import defaultdict

from pandas import DataFrame
import PIL.Image
import numpy as np

from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn import cluster
from sklearn.cluster import KMeans

base_url = 'http://www.libertylondon.com'
url = 'http://www.libertylondon.com/uk/department/fabric/'
start_urls = ['/uk/department/fabric/cotton-tana-lawn/',
             '/uk/department/fabric/silk/',
             '/uk/department/fabric/wool/',
             '/uk/department/fabric/linen/',
             '/uk/department/fabric/poplin/',
             '/uk/department/fabric/viscose-jersey/',
             '/uk/department/fabric/cord/',
             '/uk/department/fabric/fleece/',
             '/uk/department/fabric/cotton-wool/',
             '/uk/department/fabric/furnishing-fabric/',
             '/uk/department/sale/fabric/50-off/',
             '/uk/edits/classics/']

In [28]:
def extract_fabrics(soup):
    fabrics = []
    for product in soup.find_all(class_="product product-tile"):
        imgs = product.find_all('img')
        sales = product.find(class_='price-sales')
        amount = ' '.join(product.find(class_='price-sales').text.split())
        main_link = product.find(class_='thumb-link')['href']
        for img in imgs:
            title, src = img['title'], img['data-src']
            fabrics += [[title, src, amount, base_url + main_link]]
    return fabrics

In [16]:
def extract_images(url, title):
    images = []
    r = get(url)
    soup = BeautifulSoup(r.text, "lxml")
    image_links = soup.find_all('img')
    for im in image_links:
        name = im.get('alt', '')
        if name == title:
            src = im['src']
            images += [im['src']]
            try:
                #download_image(src)
            except Exception as e:
                print('Issue', e, images, title, url)
    return images

In [4]:
def download_image(link):
    r = get(link, stream=True)
    outfile = link.split('/')[-1].split('$')[0].replace('?', '')
    im = PIL.Image.open(r.raw)
    if 'jpg' not in outfile:
        outfile += '.jpg'
    im.save('data/2019/' + outfile)

In [5]:
def kmeans_colour(im):
    ima = np.asarray(im)[:,:,:3]
    w,h,d = ima.shape
    X = np.reshape(ima, (w*h, d))
    kcluster = cluster.KMeans(init='k-means++', n_clusters=16)
    kcluster.fit(X)
    predictions = kcluster.predict(X)
    clusters = kcluster.cluster_centers_
    image = np.zeros((w, h, 3))
    predictions_idx = 0
    colour_distribution = defaultdict(int)
    for i in range(w):
        for j in range(h):
            cluster_int = predictions[predictions_idx]
            image[i][j] = clusters[cluster_int]
            predictions_idx += 1
            colour_distribution[cluster_int] += 1
    for k, v in colour_distribution.items():
        v = v / (w*h)
        colour_distribution[k] = v
    im = PIL.Image.fromarray(image.astype('uint8'), 'RGB')
    return im, colour_distribution, clusters

In [6]:
def amount_of_white(colour_distribution, clusters):
    total = 0
    for index, c in enumerate(clusters):
        if sum(list(c)) > 750:
            total += colour_distribution[index]
    return total

In [7]:
def crop_images():
    rootdir = 'data/2019/'
    data = []
    for _, _, files in os.walk(rootdir):
        for file in files:
            if 'jpg' in file:
                if not os.path.isfile('data/2019/cropped/' + file): 
                    img = rootdir + file
                    im = PIL.Image.open(img)
                    kim, colour_dis, clu = kmeans_colour(im)
                    if amount_of_white(colour_dis, clu) > 0.20:
                        print('greater', file)
                        im = im.crop((70,120,600,650))
                        kim = kim.crop((70,120,600,650))
                    im.save('data/cropped/' + file)
                    kim.save('data/color/' + file)
                    data += [[file, colour_dis, clu]] 
    return data

In [31]:
fabrics = []
for u in start_urls:
    print(u)
    u = base_url + u
    r = get(u + '?sz=120#sz=120&start=120')
    print(r)
    soup = BeautifulSoup(r.text, "lxml")
    more_fabrics = extract_fabrics(soup)
    print(len(more_fabrics))
    for f in more_fabrics:
        f += [u]
    fabrics += more_fabrics
data = DataFrame(fabrics, columns=['title', 'img_src', 'amount', 'url', 'from_url'])
data['images'] = data.apply(lambda x: extract_images(x['url'], x['title']), axis=1)
data.to_csv('liberty_prints.csv')

/uk/department/fabric/cotton-tana-lawn/
<Response [200]>
240


In [296]:
data2 = crop_images()



greater 000515498-R047925006-2.jpg




greater 000515511-R047941006-4.jpg




greater 000515512-R047942006-4.jpg




greater 000515513-R047943006-4.jpg




greater 000515514-R047944006-4.jpg




greater 000519860-R061164006-2.jpg




greater 000519867-R061185006-2.jpg




greater 000520242-R062096006-3.jpg




greater 000520268-R062170006-3.jpg




greater 000521055-R064153006-3.jpg




greater 000521057-R064159006-3.jpg




greater 000521061-R064171006-3.jpg




greater 000521062-R064174006-2.jpg




greater 000521069-R064195006-2.jpg




greater 000521071-R064199006-3.jpg




greater 000521074-R064210006-3.jpg




greater 000521075-R064213006-3.jpg




greater 000521076-R064214006-3.jpg




greater 000521083-R064235006-3.jpg




greater 000521084-R064238006-3.jpg




greater 000521085-R064242006-3.jpg




greater 000521086-R064245006-3.jpg




greater 000521088-R064252006-3.jpg




greater 000521090-R064257006-2.jpg




greater 000521090-R064257006-3.jpg




greater 000521098-R064285006-3.jpg




greater 000521099-R064286006-2.jpg




greater 000521101-R064292006-3.jpg




greater 000521111-R064324006-2.jpg




greater 000521112-R064326006-3.jpg




greater 000521113-R064328006-3.jpg




greater 000521117-R064340006-3.jpg




greater 000521121-R064354006-3.jpg




greater 000521128-R064375006-2.jpg




greater 000521130-R064379006-3.jpg




greater 000521133-R064389006-3.jpg




greater 000521136-R064397006-3.jpg




greater 000521143-R064418006-2.jpg




greater 000521143-R064418006-3.jpg




greater 000521144-R064421006-2.jpg




greater 000521146-R064426006-3.jpg




greater 000521148-R064432006-3.jpg




greater 000521150-R064438006-3.jpg




greater 000521153-R064448006-3.jpg




greater 000521154-R064451006-3.jpg




greater 000521156-R064457006-3.jpg




greater 000522352-R066867006-2.jpg




greater 000523160-R069221006-2.jpg




greater 000523160-R069221006-5.jpg




greater 000523172-R069432006-5.jpg




greater 000523238-R069436006-2.jpg




greater 000523238-R069436006-5.jpg




greater 000523239-R069438006-4.jpg




greater 000523240-R069445006-5.jpg




greater 000523241-R069450006-2.jpg




greater 000523241-R069450006-5.jpg




greater 000523243-R069458006-2.jpg




greater 000523243-R069458006-5.jpg




greater 000523245-R069466006-2.jpg




greater 000523245-R069466006-5.jpg




greater 000527530-R080081006-2.jpg




greater 000527530-R080081006-5.jpg




greater 000527531-R080085006-2.jpg




greater 000527531-R080085006-5.jpg




greater 000527532-R080088006-2.jpg




greater 000527532-R080088006-5.jpg




greater 000527533-R080091006-2.jpg




greater 000527533-R080091006-5.jpg




greater 000527534-R080094006-2.jpg




greater 000527534-R080094006-5.jpg




greater 000527535-R080096006-2.jpg




greater 000527535-R080096006-5.jpg




greater 000527536-R080097006-2.jpg




greater 000527536-R080097006-5.jpg




greater 000527537-R080102006-2.jpg




greater 000527537-R080102006-5.jpg




greater 000527538-R080103006-2.jpg




greater 000527538-R080103006-5.jpg




greater 000527539-R080107006-2.jpg




greater 000527539-R080107006-5.jpg




greater 000527540-R080111006-2.jpg




greater 000527540-R080111006-5.jpg




greater 000527541-R080114006-2.jpg




greater 000527541-R080114006-5.jpg




greater 000535179-R101837006-2.jpg




greater 000535179-R101837006-5.jpg




greater 000535180-R101841006-5.jpg




greater 000538216-R110656006-2.jpg




greater 000538217-R110657006-2.jpg




greater 000538222-R110662006-2.jpg




greater 000538225-R110665006-2.jpg




greater 000538227-R110667006-2.jpg




greater 000538228-R110668006-2.jpg




greater 000538229-R110671006-2.jpg




greater 000538230-R110674006-2.jpg




greater 000538231-R110677006-2.jpg




greater 000538233-R110681006-2.jpg




greater 000538234-R110686006-2.jpg




greater 000538235-R110689006-2.jpg




greater 000538236-R110692006-2.jpg




greater 000538237-R110693006-2.jpg




greater 000538238-R110696006-2.jpg




greater 000538239-R110701006-2.jpg




greater 000538240-R110704006-2.jpg




greater 000538241-R110707006-2.jpg




greater 000538242-R110710006-2.jpg




greater 000538243-R110713006-2.jpg




greater 000538244-R110716006-2.jpg




greater 000538245-R110719006-2.jpg




greater 000538258-R110732006-2.jpg




greater 000538258-R110733006-2.jpg




greater 000538259-R110734006-2.jpg




greater 000538259-R110735006-2.jpg




greater 000538260-R110736006-2.jpg




greater 000538260-R110737006-2.jpg




greater 000538262-R110740006-2.jpg




greater 000538262-R110741006-2.jpg




greater 000538263-R110742006-2.jpg




greater 000538263-R110743006-2.jpg




greater 000538264-R110744006-2.jpg




greater 000538264-R110745006-2.jpg




greater 000538265-R110747006-2.jpg




greater 000538266-R110748006-2.jpg




greater 000538266-R110749006-2.jpg




greater 000538267-R110750006-2.jpg




greater 000538267-R110751006-2.jpg




greater 000538268-R110752006-2.jpg




greater 000538268-R110753006-2.jpg




greater 000538269-R110754006-2.jpg




greater 000538269-R110755006-2.jpg




greater 000538270-R110756006-2.jpg




greater 000538270-R110757006-2.jpg




greater 000538271-R110758006-2.jpg




greater 000538271-R110759006-2.jpg




greater 000538272-R110760006-2.jpg




greater 000538272-R110761006-2.jpg




greater 000538273-R110762006-2.jpg




greater 000538273-R110763006-2.jpg




greater 000538274-R110765006-2.jpg




greater 000538275-R110766006-2.jpg




greater 000538275-R110767006-2.jpg




greater 000538276-R110768006-2.jpg




greater 000538276-R110769006-2.jpg




greater 000538277-R110771006-2.jpg




greater 000538279-R110775006-2.jpg




greater 000538281-R110781006-2.jpg




greater 000538282-R110784006-2.jpg




greater 000538283-R110787006-2.jpg




greater 000538284-R110790006-2.jpg




greater 000538285-R110793006-2.jpg




greater 000538286-R110796006-2.jpg




greater 000538287-R110799006-2.jpg




greater 000538288-R110802006-2.jpg




greater 000538289-R110803006-2.jpg




greater 000538290-R110808006-2.jpg




greater 000538291-R110811006-2.jpg




greater 000538292-R110812006-2.jpg




greater 000538293-R110817006-2.jpg




greater 000538294-R110820006-2.jpg




greater 000538295-R110823006-2.jpg




greater 000538296-R110826006-2.jpg




greater 000538297-R110829006-2.jpg




greater 000538298-R110832006-2.jpg




greater 000538299-R110834006-2.jpg




greater 000538300-R110839006-2.jpg




greater 000538301-R110842006-2.jpg




greater 000538302-R110845006-2.jpg




greater 000538303-R110848006-2.jpg




greater 000538304-R110852006-2.jpg




greater 000538305-R110855006-2.jpg




greater 000538306-R110858006-2.jpg




greater 000538307-R110861006-2.jpg




greater 000538308-R110865006-2.jpg




greater 000538309-R110868006-2.jpg




greater 000538310-R110872006-2.jpg




greater 000538311-R110875006-2.jpg




greater 000538312-R110878006-2.jpg




greater 000538313-R110882006-2.jpg




greater 000538318-R110927006-2.jpg




greater 000538319-R110934006-2.jpg




greater 000538320-R110935006-2.jpg




greater 000538321-R110938006-2.jpg




greater 000538322-R110943006-2.jpg




greater 000538323-R110946006-2.jpg




greater 000538324-R110949006-2.jpg




greater 000538326-R110954006-2.jpg




greater 000538327-R110958006-2.jpg




greater 000538328-R110961006-2.jpg




greater 000538329-R110964006-2.jpg




greater 000538330-R110967006-2.jpg




greater 000538331-R110970006-2.jpg




greater 000538332-R110971006-2.jpg




greater 000538333-R110976006-2.jpg




greater 000538334-R110979006-2.jpg




greater 000538335-R110981006-2.jpg




greater 000538336-R110985006-2.jpg




greater 000538337-R110988006-2.jpg




greater 000538339-R110994006-2.jpg




greater 000538340-R110997006-2.jpg




greater 000538341-R111000006-2.jpg




greater 000538342-R111003006-2.jpg




greater 000538343-R111004006-2.jpg




greater 000538344-R111009006-2.jpg




greater 000538345-R111012006-2.jpg




greater 000538346-R111013006-2.jpg




greater 000538347-R111016006-2.jpg




greater 000538348-R111021006-2.jpg




greater 000538349-R111024006-2.jpg




greater 000538350-R111027006-2.jpg




greater 000538351-R111028006-2.jpg




greater 000538352-R111033006-2.jpg




greater 000538353-R111036006-2.jpg




greater 000538354-R111038006-2.jpg




greater 000538459-R111384006-2.jpg




greater 000538460-R111387006-2.jpg




greater 000538460-R111388006-2.jpg




greater 000538460-R111389006-2.jpg




greater 000538461-R111390006-2.jpg




greater 000538461-R111392006-2.jpg




greater 000538462-R111393006-2.jpg




greater 000538462-R111394006-2.jpg




greater 000538462-R111395006-2.jpg




greater 000538463-R111396006-2.jpg




greater 000538463-R111397006-2.jpg




greater 000538463-R111398006-2.jpg




greater 000543010-R118985006-2.jpg




greater 000543018-R119035006-2.jpg




greater 000543019-R119036006-2.jpg




greater 000544789-R124323006-2.jpg




greater 000544790-R124330006-2.jpg




greater 000544791-R124335006-2.jpg




greater 000544792-R124336006-2.jpg




greater 000544793-R124343006-2.jpg




greater 000544794-R124345006-2.jpg




greater 000544795-R124352006-2.jpg




greater 000544796-R124354006-2.jpg




greater 000544797-R124359006-2.jpg




greater 000544798-R124362006-2.jpg




greater 000544801-R124369006-2.jpg




greater 000544802-R124370006-2.jpg




greater 000544804-R124373006-2.jpg




greater 000544805-R124374006-2.jpg




greater 000544806-R124375006-2.jpg




greater 000544808-R124380006-2.jpg




greater 000544809-R124385006-2.jpg




greater 000544810-R124389006-2.jpg




greater 000546165-R128114006-2.jpg




greater 000546168-R128117006-2.jpg




greater 000546172-R128121006-2.jpg




greater 000546174-R128123006-2.jpg




greater 000546178-R128127006-2.jpg




greater 000546185-R128134006-2.jpg




greater 000546187-R128136006-2.jpg




greater 000549149-R135864006-2.jpg




greater 000549149-R135865006-2.jpg




greater 101404-1000319219-2.jpg




greater 101404-1000319219-5.jpg




greater 145526-1000493477-2.jpg




greater 145526-1000493477-5.jpg




greater 176691-1000615109-2.jpg




greater 176691-1000615109-5.jpg




greater 201246-1000721324-2.jpg




greater 201246-1000721324-5.jpg




greater 237099-1000871008-2.jpg




greater 237099-1000871008-5.jpg




greater 271509-1001032515-2.jpg




greater 271509-1001032515-5.jpg




greater 271537-1001032531-2.jpg




greater 302143-1001154714-2.jpg




greater 302147-1001154728-2.jpg




greater 302150-1001154731-2.jpg




greater 302152-1001154737-2.jpg




greater 302155-1001154740-2.jpg




greater 302630-1001156621-2.jpg




greater 302630-1001156621-5.jpg




greater 302631-1001156623-2.jpg




greater 302631-1001156623-5.jpg




greater 302634-1001156637-2.jpg




greater 302634-1001156637-5.jpg




greater 332622-1001255654-1.jpg




greater 346514-1001298011-2.jpg




greater 346514-1001298011-5.jpg




greater 346522-1001298042-2.jpg




greater 346522-1001298042-5.jpg




greater 346533-1001298083-2.jpg




greater 346533-1001298083-5.jpg




greater 346663-1001298370-2.jpg




greater 346663-1001298370-5.jpg




greater 346664-1001298374-2.jpg




greater 346664-1001298374-5.jpg




greater 353689-1001316251-2.jpg




greater 363971-1001349870-5.jpg




greater 363983-1001349921-5.jpg




greater 363987-1001349938-2.jpg




greater 363987-1001349938-5.jpg




greater 363988-1001349941-5.jpg




greater 363992-1001349956-5.jpg




greater 367759-1001361211-2.jpg




greater 378754-1001400269-5.jpg




greater 378770-1001400328-2.jpg




greater 378773-1001400602-2.jpg




greater 378774-1001400340-4.jpg




greater 391864-1001443080-2.jpg




greater 391864-1001443080-5.jpg




greater 391868-1001443104-2.jpg




greater 391868-1001443104-5.jpg




greater 391871-1001443128-2.jpg




greater 391873-1001443139-2.jpg




greater 391873-1001443139-5.jpg




greater 392020-1001443515-4.jpg




greater 394921-1001455546-2.jpg




greater 394927-1001453253-2.jpg




greater 394930-1001459311-2.jpg




greater 394934-1001453257-2.jpg




greater 394942-1001453265-2.jpg




greater 394943-1001453266-2.jpg




greater 394944-1001453267-2.jpg




greater 394945-1001453268-2.jpg




greater 394947-1001453274-2.jpg




greater 394953-1001453279-2.jpg




greater 398737-1001466748-5.jpg




greater 398739-1001466759-2.jpg




greater 398739-1001466759-5.jpg




greater 398741-1001466770-2.jpg




greater 398741-1001466770-5.jpg




greater 398742-1001466772-2.jpg




greater 398742-1001466772-5.jpg




greater 398743-1001466777-5.jpg




greater 398744-1001466782-2.jpg




greater 398744-1001466782-5.jpg




greater 405743-1001497371-2.jpg




greater 408297-1001509265-2.jpg




greater 408297-1001509265-5.jpg




greater 408304-1001509303-2.jpg




greater 408304-1001509303-5.jpg




greater 408306-1001509317-2.jpg




greater 408313-1001509390-2.jpg




greater 408313-1001509390-5.jpg




greater 408317-1001509410-2.jpg




greater 408317-1001509410-5.jpg




greater 408319-1001509418-2.jpg




greater 408320-1001509420-4.jpg




greater 408324-1001509469-5.jpg




greater 408325-1001509474-2.jpg




greater 408325-1001509474-5.jpg




greater 408326-1001509478-2.jpg




greater 408328-1001509492-2.jpg




greater 408330-1001509500-4.jpg




greater 408332-1001509508-4.jpg




greater 408333-1001509514-2.jpg




greater 408344-1001509570-4.jpg




greater 408347-1001509584-2.jpg




greater 408444-1001509901-2.jpg




greater 408446-1001509907-2.jpg




greater 419646-1001561432-2.jpg




greater 419646-1001561432-5.jpg




greater 419647-1001561436-2.jpg




greater 419647-1001561436-5.jpg




greater 419648-1001561440-2.jpg




greater 419648-1001561440-5.jpg




greater 419649-1001561444-2.jpg




greater 419649-1001561444-5.jpg




greater 419650-1001561446-2.jpg




greater 419650-1001561446-5.jpg




greater 419651-1001561452-2.jpg




greater 419651-1001561452-5.jpg




greater 419652-1001561455-2.jpg




greater 419652-1001561455-5.jpg




greater 419664-1001561476-2.jpg




greater 419664-1001561476-5.jpg




greater 419675-1001561550-5.jpg




greater 419676-1001561555-2.jpg




greater 419676-1001561555-5.jpg




greater 419680-1001561571-2.jpg




greater 419680-1001561571-5.jpg




greater 419681-1001561575-2.jpg




greater 419681-1001561575-5.jpg




greater 419682-1001561579-2.jpg




greater 419682-1001561579-5.jpg




greater 419683-1001561583-2.jpg




greater 419683-1001561583-5.jpg




greater 432693-1001618682-2.jpg




greater 432693-1001618682-3.jpg




greater 432699-1001618700-2.jpg




greater 432700-1001618701-2.jpg




greater 432701-1001618702-2.jpg




greater 432701-1001618702-3.jpg




greater 432702-1001618703-2.jpg




greater 432703-1001618704-2.jpg




greater 432703-1001618704-3.jpg




greater 432704-1001618705-2.jpg




greater 432705-1001618706-2.jpg




greater 432706-1001618707-2.jpg




greater 432706-1001618707-3.jpg




greater 432707-1001618708-2.jpg




greater 432708-1001618709-2.jpg




greater 432708-1001618709-3.jpg




greater 432709-1001618710-2.jpg




greater 432709-1001618710-3.jpg




greater 432711-1001618712-2.jpg




greater 432711-1001618712-3.jpg




greater 432712-1001618713-2.jpg




greater 432712-1001618713-3.jpg




greater 432713-1001618714-2.jpg




greater 432713-1001618714-3.jpg




greater 432714-1001618715-2.jpg




greater 432714-1001618715-3.jpg




greater 432715-1001618716-2.jpg




greater 432715-1001618716-3.jpg




greater 432721-1001618722-2.jpg




greater 432721-1001618722-3.jpg




greater 432723-1001618724-2.jpg




greater 432723-1001618724-3.jpg




greater 432725-1001618726-2.jpg




greater 432725-1001618726-3.jpg




greater 432726-1001618727-2.jpg




greater 432726-1001618727-3.jpg




greater 432729-1001618730-2.jpg




greater 432730-1001618731-2.jpg




greater 432730-1001618731-3.jpg




greater 433058-1001619032-2.jpg




greater 433058-1001619032-3.jpg




greater 433061-1001619035-2.jpg




greater 433061-1001619035-3.jpg




greater 433062-1001619036-2.jpg




greater 433062-1001619036-3.jpg




greater 433063-1001619037-2.jpg




greater 433063-1001619037-3.jpg




greater 442242-1001657910-2.jpg




greater 442242-1001657910-5.jpg




greater 442243-1001657912-2.jpg




greater 442243-1001657912-5.jpg




greater 80659-1000251429-5.jpg




greater 80663-1001255432-2.jpg




greater 80663-1001255432-5.jpg




greater 80664-1001442587-2.jpg




greater 80667-1000251474-2.jpg




greater 80667-1000251474-5.jpg




greater 80668-1001255437-5.jpg




greater 80669-1000251486-5.jpg




greater 80674-R014983006-2.jpg




greater 80674-R014983006-5.jpg




greater 80675-R013218006-2.jpg




greater 80675-R013218006-5.jpg




greater 80676-R013221006-1.jpg




greater 80676-R013221006-2.jpg




greater 80676-R013221006-5.jpg




greater 80677-R012604006-2.jpg




greater 80677-R012604006-5.jpg




greater 80680-1001442591-2.jpg




greater 80680-1001442591-5.jpg




greater 000515498-R047925006-2.jpg


In [297]:
data_colours = DataFrame(data, columns=['image_name', 'colour_distribution', 'clusters'])
data_colours.to_csv('colour_dis.csv')