In [2]:
import pandas as pd
import requests
requests.adapters.DEFAULT_RETRIES = 5 # increase retries number
from bs4 import BeautifulSoup
from random import randint
from time import sleep
import tqdm
import re

In [3]:
def step2(df_link, default=0):
    
    
    # define empty value lists:
    cols = ['listing_url',
            'shop_name',
            'size_options',            
            'shop_location',
            'allows_returns',
            'total_shop_sales',
            'shop_reviews_count',
            'shop_5_star_rating_percentage',
            'shop_4_star_rating_percentage',
            'shop_3_star_rating_percentage',
            'shop_2_star_rating_percentage',
            'shop_1_star_rating_percentage',
            'item_reviews_count',
            'listing_customer_reviews',
            'listing_customer_reviews',
            'listing_customer_reviews',
            'listing_customer_reviews',
            'start_price',
            'ship_cost_germany',]
    
    errors = []
    
    df = pd.DataFrame(columns = cols)
    
    # turn listing_url into link list for interative loop:
    link = list(df_link["listing_url"])

    
    # define a regular expression pattern trained on DE currentcy format with decimal "," separator
    currency = re.compile('[-+]? (?: (?: \d* \, \d+ ) | (?: \d+ \,? ) )(?: [Ee] [+-]? \d+ ) ?', re.VERBOSE)
    
    #define a regular expression pattern for finding total sales
    sales_select = '[\d]{1},[\d]{3} sales|[\d]{2},[\d]{3} sales|[\d]{3} sales|[\d]{2} sales|[\d]{1} sales'

    
    # english url soup
    for url in tqdm.tqdm(link): # tqdm code for progress bar
        response = requests.get(url, timeout=3)
        soup = BeautifulSoup(response.text,"html.parser")
        if response.status_code == 200:
            
            row = []
            row.append(url)
            

            # extract shop name, set up failsave in case listing has been removed
            if True:
                try:
                    name = soup.select("#listing-page-cart > div:nth-child(1) > div > div.wt-display-flex-xs.wt-align-items-center.wt-mb-xs-1 > p")[0].get_text()
                    name = name[31:]
                    name = name[:-27]
                    row.append(name)
                except:
                    row.append('No name')


                # extract size options count for this item
    
                try:
                    sizes = len(soup.select("#listing-page-cart > div.wt-mb-xs-6.wt-mb-lg-0 > div:nth-child(1) > div.wt-mb-xs-3 > div:nth-child(4) > div")[0].select("option")[1:])
                    row.append(sizes)
                except:
                    row.append(0)

                try:
                    # extract shop location
                    location = soup.select("#shipping-variant-div > div > div.wt-grid.wt-mb-xs-3 > div.wt-grid__item-xs-12.wt-text-black.wt-text-caption")[0].get_text()
                    location = location[16:]
                    location = location[:-1]
                    row.append(location)
                except:
                    row.append("N/A")


                
                try:
                    # extract returns allowed yes/no
                    ret = soup.select("#shipping-variant-div > div > div.wt-grid.wt-mb-xs-3")[0].get_text()
                    if ret.find("Accepted") != -1:
                        ret = 1
                    else:
                        ret = 0
                    row.append(ret)
                except:
                    row.append("N/A")



                # extract total shop sales
                try:
                    tot_sales = re.findall(sales_select, soup.select("#listing-page-cart")[0].text)[0]
                    tot_sales = int(tot_sales[:-6].replace(",",""))
                    row.append(tot_sales)
                except:
                    row.append(0)

                # extract review count for the shop 
                try:
                    shop_rev = int(soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].get_text()[19:].split(" ")[0].replace(",",""))
                    row.append(shop_rev)
                except:
                    row.append(0)

                
                #extract 5/5 star rating for this shop (only way to do this is in percentage counts per star rating level)
                
                try:
                    five = soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.split("\n5 stars\n\n\n\n\n\n\n")[1]
                    five = float(five.split("%\n\n\n\n\n")[0])
                    five = five/100
                    row.append(five)
                except:
                    row.append(0)
                    
                try:
                    four = soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.split("4 stars\n\n\n\n\n\n\n")[1]
                    four = float(four.split("%\n\n\n\n\n")[0])
                    four = four/100
                    row.append(four)
                except:
                    row.append(0)
                    
                try:
                    three = soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.split("3 stars\n\n\n\n\n\n\n")[1]
                    three = float(three.split("%\n\n\n\n\n")[0])
                    three = three/100
                    row.append(three)
                except:
                    row.append(0)
                    
                try:
                    two = soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.split("2 stars\n\n\n\n\n\n\n")[1]
                    two = float(two.split("%\n\n\n\n\n")[0])
                    two = two/100
                    row.append(two)
                except:
                    row.append(0)
                
                try:
                    one = soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.split("1 star\n\n\n\n\n\n\n")[1]
                    one = float(one.split("%\n\n\n\n\n")[0])
                    one = one/100
                    row.append(one)
                except:
                    row.append(0)
                
                # extract review count for this item
                
                try:
                    item_rev = soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.split("Reviews for this item\n                \n                    ")[1]
                    item_rev = int(item_rev.split("\n")[0].replace(",",""))
                    row.append(item_rev)
                except:
                    row.append(0)
                
                # extract customer reviews per item
                
                try:
                    if soup.select("#listing-right-column > div > div.body-wrap.wt-body-max-width.wt-display-flex-md.wt-flex-direction-column-xs > div.listing-info.review-col.wt-order-xs-6 > div > div > div:nth-child(2)")[0].text.find("Reviews for this item") != -1:
                        rev_key = "#review-preview-toggle-{}"
                        for iterate in range(0,4):
                            key = rev_key.format(iterate)
                            try:
                                rev = soup.select(key)[0].text.split("\n                    ")[1]
                                rev = rev.split(" \n\n    ")[0]
                                row.append(rev)
                            except:
                                row.append("N.A.")
                    else:
                        row.extend(["N.A.","N.A.","N.A.","N.A."])
                except:
                    row.extend(["N.A.","N.A.","N.A.","N.A."])

                flag = True
                try:
                    # create DE url variant to scrape prices in EUR instead of USD
                    url_de = url.replace("https://www.etsy.com/listing/","https://www.etsy.com/de/listing/")
                    response_de = requests.get(url_de)
                    soup_de = BeautifulSoup(response_de.text,"html.parser")     
                except:
                    flag = False
                    row.append(0)
                    row.append(0)

                if flag == True:
                    
                    try:
                        # extract starting price quote from soup and applying proper decimal "." separator
                        p = currency.findall(soup_de.select("#listing-page-cart > div.wt-mb-xs-6.wt-mb-lg-0 > div:nth-child(1) > div.wt-mb-xs-3 > div.wt-mb-xs-3 > div:nth-child(1) > div > div.wt-display-flex-xs.wt-align-items-center.wt-flex-wrap > p")[0].get_text())[0]
                        p = float(p.replace(",","."))
                        row.append(p)
                    except:
                        row.append(0)

                    try:
                        # extract shipping to Germany cost quote
                        sc = soup_de.select("#shipping-variant-div > div > div.wt-grid.wt-mb-xs-3")[0].text.split('\nVersandkosten\n')[1]
                        sc = sc.split('\n\n\n\n\n\n')[0]
                        if sc == 'Kostenlos':
                            ship_cost = 0           
                        else:
                            ship_cost = float(sc[:-2].replace(",","."))
                        row.append(ship_cost)
                    except:
                        row.append(0)                 

            
            try:
                df.loc[len(df)] = row
            except:
                print(len(row))

            # wait time between cycles
            wait_time = randint(1,1500)
            sleep(wait_time/1000)

    return df

In [4]:
import pandas as pd

In [5]:
data = pd.read_csv('step1_germany.csv')

full_df2 = pd.DataFrame()

for i in range(10,len(data),10):
    try:
        df = step2(data[i-10:i])
        full_df2 = pd.concat([full_df2,df], axis = 0)
    except:
        print(i,'node failed')
        
full_df2.to_csv('Nic_scrappes_4.csv')

100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.63s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.71s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.70s/it]
100%|███████████████████████████████████████████| 10/10 [00:45<00:00,  4.53s/it]
100%|███████████████████████████████████████████| 10/10 [00:41<00:00,  4.14s/it]
100%|███████████████████████████████████████████| 10/10 [00:43<00:00,  4.36s/it]
100%|███████████████████████████████████████████| 10/10 [00:45<00:00,  4.51s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.41s/it]
100%|███████████████████████████████████████████| 10/10 [00:48<00:00,  4.86s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.65s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.65s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.46s/it]
100%|███████████████████████

150 node failed


100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.63s/it]
100%|███████████████████████████████████████████| 10/10 [00:43<00:00,  4.38s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.71s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.67s/it]
100%|███████████████████████████████████████████| 10/10 [00:45<00:00,  4.56s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.50s/it]
100%|███████████████████████████████████████████| 10/10 [00:50<00:00,  5.00s/it]
100%|███████████████████████████████████████████| 10/10 [00:43<00:00,  4.38s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.45s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.71s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.67s/it]
100%|███████████████████████████████████████████| 10/10 [00:43<00:00,  4.35s/it]
100%|███████████████████████

1080 node failed


100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.80s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.76s/it]
 70%|██████████████████████████████▊             | 7/10 [00:38<00:16,  5.50s/it]


1110 node failed


100%|███████████████████████████████████████████| 10/10 [01:10<00:00,  7.02s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.71s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.47s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.45s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.69s/it]
100%|███████████████████████████████████████████| 10/10 [00:43<00:00,  4.34s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.45s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.67s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.98s/it]
100%|███████████████████████████████████████████| 10/10 [00:55<00:00,  5.56s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.61s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.41s/it]
100%|███████████████████████

100%|███████████████████████████████████████████| 10/10 [00:57<00:00,  5.75s/it]
100%|███████████████████████████████████████████| 10/10 [00:53<00:00,  5.32s/it]
100%|███████████████████████████████████████████| 10/10 [00:51<00:00,  5.10s/it]
100%|███████████████████████████████████████████| 10/10 [01:02<00:00,  6.25s/it]
100%|███████████████████████████████████████████| 10/10 [00:55<00:00,  5.59s/it]
100%|███████████████████████████████████████████| 10/10 [00:50<00:00,  5.08s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.28s/it]
100%|███████████████████████████████████████████| 10/10 [00:51<00:00,  5.15s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.95s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.95s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.26s/it]
100%|███████████████████████████████████████████| 10/10 [00:48<00:00,  4.80s/it]
100%|███████████████████████

2300 node failed


100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.91s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.91s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.92s/it]
100%|███████████████████████████████████████████| 10/10 [00:48<00:00,  4.84s/it]
100%|███████████████████████████████████████████| 10/10 [00:55<00:00,  5.59s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.91s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.27s/it]
100%|███████████████████████████████████████████| 10/10 [00:54<00:00,  5.46s/it]
100%|███████████████████████████████████████████| 10/10 [00:48<00:00,  4.89s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.69s/it]
100%|███████████████████████████████████████████| 10/10 [00:51<00:00,  5.15s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.26s/it]
100%|███████████████████████

2920 node failed


100%|███████████████████████████████████████████| 10/10 [00:53<00:00,  5.30s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.25s/it]
100%|███████████████████████████████████████████| 10/10 [00:50<00:00,  5.07s/it]
100%|███████████████████████████████████████████| 10/10 [00:50<00:00,  5.02s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.97s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.99s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.30s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.73s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.92s/it]
100%|███████████████████████████████████████████| 10/10 [00:52<00:00,  5.26s/it]
100%|███████████████████████████████████████████| 10/10 [00:57<00:00,  5.72s/it]
100%|███████████████████████████████████████████| 10/10 [00:54<00:00,  5.41s/it]
100%|███████████████████████

100%|███████████████████████████████████████████| 10/10 [00:48<00:00,  4.84s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.78s/it]
100%|███████████████████████████████████████████| 10/10 [00:46<00:00,  4.63s/it]
100%|███████████████████████████████████████████| 10/10 [00:47<00:00,  4.78s/it]
100%|███████████████████████████████████████████| 10/10 [00:49<00:00,  4.99s/it]
100%|███████████████████████████████████████████| 10/10 [00:44<00:00,  4.50s/it]


In [None]:
data = pd.read_csv('step1_data.csv')

full_df3 = pd.DataFrame()

for i in range(10,len(data),10):
    try:
        df2 = step2(data[i-10:i])
        full_df3 = pd.concat([full_df3,df2], axis = 0)
    except:
        print(i,'node failed')
        
full_df3.to_csv('Nic_scrappes_5.csv')

In [None]:
data = pd.read_csv('step1_white_pink_blue_red_gold.csv')

full_df4 = pd.DataFrame()

for i in range(10,len(data),10):
    try:
        df3 = step2(data[i-10:i])
        full_df4 = pd.concat([full_df4,df3], axis = 0)
    except:
        print(i,'node failed')
        
full_df4.to_csv('Nic_scrappes_6.csv')