# Парсинг сайта

**Цель** - создать таблицу с данными о товарах интернет-магазина, представленными на сайте, и отработать технику парсинга сайтов.

Для парсинга использовался сайт интернет-магазина текстиля для дома TAG tekstil https://tagtekstil.com.ua/. (найден на сайте со списком сайтов разрешенных для парсинга).

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re
from urllib.parse import urljoin

In [2]:
# путь к сайту
root = 'https://tagtekstil.com.ua/'

In [3]:
r=requests.get(root)
r.ok

True

In [4]:
soup=BeautifulSoup(r.text)

вызовем HTML со страницы с каталогом

In [5]:
soup.select('ul.VMmenu li')

[<li class="VmClose">
 <div>
 <a href="/postelnoe-tm-tag">ПОСТЕЛЬНОЕ БЕЛЬЕ ТМ TAG</a> <span class="VmArrowdown"> </span>
 </div>
 <ul class="menu">
 <li>
 <div><a href="/postelnoe-tm-tag/polutornyi">1.5-спальные</a></div>
 </li>
 <li>
 <div><a href="/postelnoe-tm-tag/2-sp">2-спальные</a></div>
 </li>
 <li>
 <div><a href="/postelnoe-tm-tag/evro">евро</a></div>
 </li>
 <li>
 <div><a href="/postelnoe-tm-tag/евро-maxi">Евро maxi</a></div>
 </li>
 <li>
 <div><a href="/postelnoe-tm-tag/semeinie">семейные</a></div>
 </li>
 </ul>
 </li>,
 <li>
 <div><a href="/postelnoe-tm-tag/polutornyi">1.5-спальные</a></div>
 </li>,
 <li>
 <div><a href="/postelnoe-tm-tag/2-sp">2-спальные</a></div>
 </li>,
 <li>
 <div><a href="/postelnoe-tm-tag/evro">евро</a></div>
 </li>,
 <li>
 <div><a href="/postelnoe-tm-tag/евро-maxi">Евро maxi</a></div>
 </li>,
 <li>
 <div><a href="/postelnoe-tm-tag/semeinie">семейные</a></div>
 </li>,
 <li class="VmClose">
 <div>
 <a href="/скидка">ТОВАРЫ СО СКИДКАМИ</a> </div>
 </li>,


создадим таблицу с товарными категориями и ссылками на них  

In [6]:
# функция, которая делает таблицу
def parsing_cathegory(x):
    return {
        'link': f"https://tagtekstil.com.ua/{x.select_one('a')['href']}",
        'type': x.select_one('a').text
    }

In [7]:
cathegories = pd.DataFrame([parsing_cathegory(x) for x in soup.select('ul.VMmenu li')])
cathegories

Unnamed: 0,link,type
0,https://tagtekstil.com.ua//postelnoe-tm-tag,ПОСТЕЛЬНОЕ БЕЛЬЕ ТМ TAG
1,https://tagtekstil.com.ua//postelnoe-tm-tag/po...,1.5-спальные
2,https://tagtekstil.com.ua//postelnoe-tm-tag/2-sp,2-спальные
3,https://tagtekstil.com.ua//postelnoe-tm-tag/evro,евро
4,https://tagtekstil.com.ua//postelnoe-tm-tag/ев...,Евро maxi
5,https://tagtekstil.com.ua//postelnoe-tm-tag/se...,семейные
6,https://tagtekstil.com.ua//скидка,ТОВАРЫ СО СКИДКАМИ
7,https://tagtekstil.com.ua//tm-tag-detskie2013-...,ПОСТЕЛЬНОЕ БЕЛЬЕ И ТОВАРЫ ДЛЯ ДЕТЕЙ
8,https://tagtekstil.com.ua//tm-tag-detskie2013-...,1.5-спальные
9,https://tagtekstil.com.ua//tm-tag-detskie2013-...,1.5-спальные 160х220


сделаем таблицу содержащую наименование товара, ссылку на фото товара и тип категории. на сайте не указаны цены, поэтому не можем создать столбец с ценами

In [8]:
data=[]

for i in cathegories.index:
    types = cathegories.loc[i, 'type']
    url = cathegories.loc[i, 'link']
    
    r=requests.get(cathegories.loc[i, 'link'])
    soup = BeautifulSoup(r.text)
    products = soup.select('div.spacer')
    
    for product in products:
        title = product.select_one('h2 a').text.strip()
        img=urljoin(url, product.select_one('img')['src'])
        
        data.append({
            'title': title,
            'img':img,
            'type':types
        })
df=pd.DataFrame(data)[45:].reset_index(drop=True)
display(df.sample(10))

Unnamed: 0,title,img,type
502,Полотенце 100х150 Calm tones цвет: молочный,https://tagtekstil.com.ua/images/stories/virtu...,Сауна
152,Комплект постельного белья R8657,https://tagtekstil.com.ua/images/stories/virtu...,1.5-спальные 160х220
404,Стеганное покрывало Гонки,https://tagtekstil.com.ua/images/stories/virtu...,Стеганные покрывала-одеяла
281,Плед велсофт (микрофибра) VL-030,https://tagtekstil.com.ua/images/stories/virtu...,160х220
133,Комплект постельного белья Lol dolls,https://tagtekstil.com.ua/images/stories/virtu...,1.5-спальные 160х220
727,"Наматрасник ""Аква стоп"" с бортами 60х120",https://tagtekstil.com.ua/images/stories/virtu...,Наматрасники
312,Плед велсофт (микрофибра) ALM1904,https://tagtekstil.com.ua/images/stories/virtu...,200х220
515,Набор полотенец 30*30 (6шт) Белые,https://tagtekstil.com.ua/images/stories/virtu...,Кухонные полотенца
498,Полотенце 100х150 Calm tones цвет: голубой,https://tagtekstil.com.ua/images/stories/virtu...,Сауна
658,"Одеяло ""Eco-cotton"" евро",https://tagtekstil.com.ua/images/stories/virtu...,Одеяла


In [9]:
df['type'].value_counts()

Одеяла                                         83
160х220                                        78
200х220                                        69
ТОВАРЫ СО СКИДКАМИ                             63
1.5-спальные                                   61
70*140 от 1 ед.                                53
1.5-спальные 160х220                           51
Подушки                                        44
Наматрасники                                   30
Стеганные покрывала-одеяла                     29
Наволочки 70х70 см                             26
Пледы детские                                  21
50*90 от 1 ед.                                 19
Подушки и одеяла                               17
Кухонные полотенца                             15
Сауна                                          15
Размер 160х200х20                              12
Размер 180х200х20                              12
Наволочки                                      10
Ортопедические матрасы                          9


- не по всем категориям понятно к какой категории относится товар (дан только размер). добавим названия категорий в такие строки;
- некоторые категории написаны большими буквами, приведем к строчным.

In [10]:
# функция меняющая категорию в зависимости от названия предыдущей категории
def change_cathegory(df, col, old_cath, new_cath):
    for i in old_cath: 
        df.loc[df[col]==i]=(f'{new_cath} {i}')

In [11]:
df['type']=df['type'].str.lower() #перевод к строчным буквам

cath=['70*140 от 1 ед.', '50*90 от 1 ед.', '40*70 от 1 ед.']
sheet=['размер 160х200х20', 'размер 180х200х20']      # категории которые надо дополнить
pled=['160х220', '200х220']
complect=['1.5-спальные', '1.5-спальные 160х220']

change_cathegory(df, 'type', cath, 'полотенце')
change_cathegory(df, 'type', sheet, 'простыня')
change_cathegory(df, 'type', pled, 'плед')
change_cathegory(df, 'type', complect, 'комплекты белья')

In [12]:
df['type'].value_counts()

одеяла                                         83
плед 160х220                                   78
плед 200х220                                   69
товары со скидками                             63
комплекты белья 1.5-спальные                   61
полотенце 70*140 от 1 ед.                      53
комплекты белья 1.5-спальные 160х220           51
подушки                                        44
наматрасники                                   30
стеганные покрывала-одеяла                     29
наволочки 70х70 см                             26
пледы детские                                  21
полотенце 50*90 от 1 ед.                       19
подушки и одеяла                               17
сауна                                          15
кухонные полотенца                             15
простыня размер 160х200х20                     12
простыня размер 180х200х20                     12
наволочки                                      10
ортопедические матрасы                          9


In [13]:
df

Unnamed: 0,title,img,type
0,Комплект постельного белья R4047grey,https://tagtekstil.com.ua/images/stories/virtu...,товары со скидками
1,Комплект постельного белья R4121,https://tagtekstil.com.ua/images/stories/virtu...,товары со скидками
2,Комплект постельного белья S446,https://tagtekstil.com.ua/images/stories/virtu...,товары со скидками
3,Комплект постельного белья S476,https://tagtekstil.com.ua/images/stories/virtu...,товары со скидками
4,Комплект постельного белья S476,https://tagtekstil.com.ua/images/stories/virtu...,товары со скидками
...,...,...,...
756,"Матрас топпер ""Istanbul""",https://tagtekstil.com.ua/images/stories/virtu...,ортопедические матрасы
757,"Ортопедический матрас ""Alexandria""",https://tagtekstil.com.ua/images/stories/virtu...,ортопедические матрасы
758,"Ортопедический матрас ""Genoa""",https://tagtekstil.com.ua/images/stories/virtu...,ортопедические матрасы
759,"Ортопедический матрас ""Liverpool""",https://tagtekstil.com.ua/images/stories/virtu...,ортопедические матрасы


________________________________________________________________________________
***таблица готова!***