In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import math
import time
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

import ipywidgets as wi
from ipywidgets import IntProgress
from IPython.display import display
from ipywidgets import Layout
import psycopg2                                     # Для подключение к БД
from sqlalchemy import create_engine

HOST    ='10.47.126.122'
DB      ='sas'
DBUSER  ='lesikhina'
DBPASS  ='Xne2J*f~'
PORT    ='5432'

greenplum = psycopg2.connect(host = HOST, database = DB, user = DBUSER, password = DBPASS)
gp_cursor = greenplum.cursor()

In [3]:
%%html
<style>
.cell-output-ipywidget-background {
   background-color: transparent !important;
}
.jp-OutputArea-output {
   background-color: transparent;
}  
</style>

In [12]:
class Response:
    """
    Класс для выгрузки данных с сайта, преобразования и загрузки в Dbeaver.

    Для проверки подключения использовать - start_respond с аргументом type = test.
    Для выгрузки основных категорий использовать start_respond с аргументом type = main.

    Для выгрузки остальных данных использовать метод loader:
        links           - Набор ссылок, по которым выгружается информация
        type            - (category, uncategory(не обязательно), pages, products, name_art)
                            Порядок выгрузки - (category, uncategory(не обязательно), pages, products, name_art)
                            При выгрузке pages необходимо указать тип ранее используемого уровня page_type - (category, uncategory).
        need_to_red     - (True, False) Дефолтно стоит True. Нужно для преобразования файла в нужный формат. При False выдаст сырой список по товарам с артикулами и наименованиями.

    Для преобразования данных использовать функцию redactor:
        prod_links      - Ссылки продуктов
        type            - (category, uncategory). Указать откуда были выгружены ссылки.
        want_to_split   - (True, False). Указать True, если хотим разбить df на несколько по категориям. Использовать, если данных очень большое количество.

    Для загрузки данных в Dbeaver использовать функцию merge_with_db:
        df              - Датафрейм с шага redactor
        table_name_for_db Наименование таблицы для загрузки в базу
        want_to_create  - (True, False) Дефолтно стоит True. Нужно для загрузки в базу. Если поставить False - загружаться не будет. Выдаст итоговый датафрейм.
    """
    def __init__(self):
        self.url = 'https://www.auchan.ru'
        self.start_time = time.time()
        self.style= {'bar_color':'#f08080'}
        self.layout = Layout(width='20%', height='20px')

    def start_respond(self, type):
        response = requests.get(self.url, verify=False)
        response.raise_for_status()     
        
        if type == 'test':
            print(response)
        
        elif type == 'main':
            main_links, folder_name = [], []
            soup = BeautifulSoup(response.text, 'lxml')
            
            for link in soup.find_all('a','youMayNeedCategoryItem active css-1poaokp'):
                main_links.append(self.url+link.get('href'))
                folder_name.append(link.get('href').replace('/catalog/',"").replace('/',"").replace('-',"_"))
    
            return main_links
        
    def loader(self, links, type, page_type = False, need_to_red = True):
        progress = IntProgress(min = 0, max = len(links), style=self.style, layout=self.layout)
        display(progress)
        num = 0
        resp_links, prod_links = [], []

        for s_link in links:
            try:
                response = requests.get(s_link, verify=False)
                response.raise_for_status()
                soup = BeautifulSoup(response.text, 'lxml')
        
                if type == 'category':
                    search_attr = 'linkToSubCategory active css-1bxu12v'
                    url = self.url
                    [resp_links.append(url + link.get('href')) for link in soup.find_all('a', search_attr)]
        
                elif type == 'uncategory':
                    search_attr = 'active css-1g2m3w6 css-zq3cln'
                    url = self.url
                    [resp_links.append(url + link.get('href')) for link in soup.find_all('a', search_attr)]
                
                elif type == 'products':
                    search_attr = 'productCardPictureLink active css-of3y3a'
                    url = s_link               
                    [resp_links.append(url + link.get('href')) for link in soup.find_all('a', search_attr)]

                elif type == 'pages':

                    if page_type == 'category':
                        n = soup.find('span','css-105jgwh').text            # Для количества товаров в категории
                    elif page_type == 'uncategory':
                        n = soup.find('span','css-1vpxcja').text            # Для количества товаров в подкатегории
                        
                    page = 1
                    n = n.replace('(',"").replace(')', "")
                    max_page = math.ceil(int(n)/40)

                    while page <= max_page:
                        resp_links.append(s_link+'?page={}'.format(page))
                        page += 1

                elif type == 'name_art':                                            # ДОБАВИТЬ ЗАГРУЗКУ ПО ОТДЕЛЬНОМУ ФАЙЛУ ИЛИ ПОЛНОСТЬЮ
                    prod_links.append(s_link + '/'+ soup.find('title').text)        # Если ничего не грузит - проверить значения в строке

                    if need_to_red == True:    
                        name_art = pd.DataFrame(prod_links)
                        name_art.columns=['все']
                        name_art = name_art['все'].str.split('/', expand=True)
                        name_art.columns=['0','1','2','3','Имя_ENG','5','Имя и арт']
                        name_art[['Наименование', 'Артикул']] = name_art['Имя и арт'].map(lambda x: x.lstrip('Купить ').rstrip(') в интернет-магазине АШАН в Москве и России')).str.split('(', expand=True)
                        name_art = name_art.drop(columns=['0','1','2','3','5', 'Имя и арт'])
                        resp_links = name_art
                    else:
                        pass

                num += 1    
                perc = round((num / len(links)) * 100, 2)
                end_time = time.time()
                predict = round((((end_time - self.start_time)/num)*(len(links)-num))/60,2)
                print (' PROCESS: {}/{}  ||  {} %  ||  WAITING TIME {} MIN  ||   '.format(num,len(links),perc,predict), end='\r')
                
                output = wi.Output()
                progress.value = num
                    
            except Exception as e:
                print ('SOMETHING IS WRONG WITH {}      '.format(s_link), end='\r')
                pass
            
        return(resp_links)

def redactor(prod_links, type, want_to_split):
    
    prod = pd.DataFrame(prod_links)
    prod.to_csv ("full_path.csv", index=False)

    if type == 'category':
        names = ['1','2','3','4','category','uncategory','5','product','name','6']
    elif type == 'uncategory':
        names = ['1','2','3','4','category','uncategory','subcategory','5','product','name','6']
    
    path_prod = pd.read_csv('full_path.csv', names=names, encoding='cp1251',sep='/', skiprows=1)
    path_prod = path_prod.drop(columns=['1','2','3','4','5','product','6'])
    path_prod['path'] = 'https://www.auchan.ru/product/' + path_prod['name'] +'/'

    if want_to_split == True:
        category = path_prod.category.unique()
        files_name = []

        for category_name in category:
            df = path_prod.loc[(path_prod['category'] == category_name)]
            df = df.drop(columns=['category','name'])
            file_name = "{}_part".format(category_name)
            df.to_csv ('{}.csv'.format(file_name), index= False, header= False, sep=';')
            files_name.append(file_name)

        prodycts_links = []
        for i in files_name:
            prodycts_links.append(i+'.csv')
        print('Всего категорий: {}. Созданы файлы с именами категорий: {}'.format(len(path_prod.category.unique()), files_name))

    else:
        file_name = "Full_data"
        path_prod.to_csv ('{}.csv'.format(file_name), index= False, header= False, sep=';')
        print('Данные загружены одним файлом. Создан файл с именем: {}'.format(file_name))

    return(path_prod)

def merge_with_db(df, table_name_for_db = 'lay_test', want_to_create = True):
    query_prod = """select sku, lvl_1, lvl_1_name, lvl_2, lvl_2_name, lvl_3, lvl_3_name, lvl_4, lvl_4_name from ods_mdm.dim_products"""
    products  =  pd.read_sql(query_prod, greenplum)
    products['sku'] = products['sku'].astype(str)

    df_merged = pd.merge(products, df, left_on='sku', right_on='Артикул')
    df_merged = df_merged[['Артикул', 'Наименование', 'lvl_1','lvl_1_name','lvl_2','lvl_2_name','lvl_3','lvl_3_name','lvl_4','lvl_4_name']]
    df_merged = df_merged.drop_duplicates ()
    df_merged

    if want_to_create == True:
        conn = create_engine('postgresql+psycopg2://lesikhina:Xne2J*f~@10.47.126.122:5432/sas')
        df_merged.to_sql(name = table_name_for_db, con=conn, schema='public', if_exists='replace')
        print('Залито в базу, путь: {}'.format(table_name_for_db))

    else:
        pass 

    return df_merged

R = Response()

In [16]:
R?

[1;31mType:[0m        Response
[1;31mString form:[0m <__main__.Response object at 0x000002AEFAED50C0>
[1;31mDocstring:[0m  
Класс для выгрузки данных с сайта, преобразования и загрузки в Dbeaver.

Для проверки подключения использовать - start_respond с аргументом type = test.
Для выгрузки основных категорий использовать start_respond с аргументом type = main.

Для выгрузки остальных данных использовать метод loader:
    links           - Набор ссылок, по которым выгружается информация
    type            - (category, uncategory(не обязательно), pages, products, name_art)
                        Порядок выгрузки - (category, uncategory(не обязательно), pages, products, name_art)
                        При выгрузке pages необходимо указать тип ранее используемого уровня page_type - (category, uncategory).
    need_to_red     - (True, False) Дефолтно стоит True. Нужно для преобразования файла в нужный формат. При False выдаст сырой список по товарам с артикулами и наименованиями.



In [6]:
# ПРИМЕРЫ ЗАПРОСОВ

# тест главные категории
main_links = R.start_respond(type = 'main')
main_links = main_links[0:5]

# тест категории
cat_links = R.respond(links = main_links, type = 'category')
cat_links = cat_links[0:10]

# тест подкатегории
uncat_links = R.respond(type = 'uncategory', links = cat_links)
uncat_links = uncat_links[0:10]

# тест номера страниц
uncat_page_links = R.respond(type = 'pages', links = uncat_links, page_type = 'uncategory')
uncat_page_links = uncat_page_links[0:10]

# тест продукты
prod_links = R.respond(type = 'products', links = uncat_page_links)
prod_links = prod_links[0:10]

# тест редактор
df = redactor(prod_links = prod_links, type = 'uncategory', want_to_split=False)

# тест выгрузки наименований и артикулов
table_name_art = R.respond(type = 'name_art', links = list(df.path))

# тест редактирования списка ссылок с артикулами и наименованиями
df = redactor(prod_links = table_name_art, type = 'uncategory', want_to_split = False)

# тест заливки в базу
merge_with_db(table_name_art, want_to_create = False)

IntProgress(value=0, layout=Layout(height='20px', width='20%'), max=5, style=ProgressStyle(bar_color='#f08080'…

 PROCESS: 5/5  ||  100.0 %  ||  WAITING TIME 0.0 MIN  ||   

IntProgress(value=0, layout=Layout(height='20px', width='20%'), max=10, style=ProgressStyle(bar_color='#f08080…

 PROCESS: 10/10  ||  100.0 %  ||  WAITING TIME 0.0 MIN  ||   

IntProgress(value=0, layout=Layout(height='20px', width='20%'), max=10, style=ProgressStyle(bar_color='#f08080…

 PROCESS: 10/10  ||  100.0 %  ||  WAITING TIME 0.0 MIN  ||   

IntProgress(value=0, layout=Layout(height='20px', width='20%'), max=10, style=ProgressStyle(bar_color='#f08080…

Данные загружены одним файлом. Создан файл с именем: Full_data
