In [1]:
import requests
import bs4

## Достать один рецепт

In [195]:
url = 'https://vkuso.ru/recipe/myaso-garmoshka-s-pomidorami-v-duxovke/'
r = requests.get(url)

In [196]:
soup = bs4.BeautifulSoup(r.content)

### Изображение

In [197]:
def get_image_url(soup):
    img_url = soup.find('img', 'photo').get('src')
    
    return img_url

In [198]:
get_image_url(soup)

'//st.vkuso.ru/data/cache/thumb/d4/9e8a677a87a26d4_660x440.jpeg'

### Информация о готовке

In [199]:
def get_recipe_information(soup):
    item = soup.find('div', {'class': 'recipe_information'}).find_all('div')
    
    labels = {}
    
    for div in item:
        span = div.span

        if span:
            labels[div.get('class')[0]] = span.text
            
    return labels

In [200]:
get_recipe_information(soup)

{'recipe-difficulty': 'средняя',
 'recipe_info__cook_time': 'PT1H20M',
 'recipe_info__value': 'PT10H',
 'recipe_info__prep_time': 'PT10H',
 'recipe-cuisine': 'Домашняя кухня'}

### Ингридиенты

In [201]:
def get_recipe_ingr(soup):
    ingrs = []
    
    for item in soup.find('div', {'class': 'recipe-ingr'}).find_all('li'):
        ingr = {}
        
        ingr_span = list(filter(lambda x: x.has_attr('class'), item.find_all('span')))
        
        for ingr_item in ingr_span:
            ingr[ingr_item.get('class')[0]] = ingr_item.text
        
        ingrs.append(ingr)
    return ingrs

In [202]:
get_recipe_ingr(soup)

[{'name': 'свиная вырезка/говяжья вырезка', 'value': '1', 'type': 'кг'},
 {'name': 'сыр твердый', 'value': '200', 'type': 'г'},
 {'name': 'помидоры', 'value': '2', 'type': 'шт.'},
 {'name': 'чеснок', 'value': '3', 'type': 'зубчика'},
 {'name': 'соус соевый', 'value': '2-3', 'type': 'ст.л.'},
 {'name': 'масло оливковое/растительное', 'value': '2', 'type': 'ст.л.'},
 {'name': 'лимонный сок', 'value': '1', 'type': 'ст.л.'},
 {'name': 'горчица', 'value': '1', 'type': 'ст.л.'}]

### Приготовление

In [203]:
def get_recipe_steps(soup):
    steps = []
    
    steps_soup = soup.find('div', {'class': 'recipe-steps'}).find_all('li')
    
    for step in steps_soup:
        steps.append(step.text)
        
    return steps

In [204]:
get_recipe_steps(soup)

['Взять ровный, плотный кусочек мяса прямоугольной формы. Сделать на мясе поперек надрезы, не дорезая до конца. Соединить ингредиенты для маринада, намазать со всех сторон мясо, в том числе в надрезах, посыпать перцем, солью. Отставить мясо часов на десять, чтобы оно замариновалось.',
 'Порезать сыр на ломтики, помидоры на кольца, чесночок измельчить. В надрезы положить помидор, чеснок и сыр. Можно положить ломтики грибов. Завернуть мясо в фольгу, положить на противень, отправить мясо в духовку на 1 час, соблюдать температуру 190 градусов. Положить мясо «Гармошка» на тарелку, украсить зеленью.']

### Рецепт

In [82]:
from collections import namedtuple

In [123]:
Recipe = namedtuple('Recipe', ['image_url', 'information', 'ingrs', 'steps'])

In [136]:
def get_recipe(url):
    try:
        r = requests.get(url)
    except requests.HTTPError:
        return 
    
    soup = bs4.BeautifulSoup(r.content)
    
    recipe_image       = get_image_url(soup)
    recipe_information = get_recipe_information(soup)
    recipe_ingrs       = get_recipe_ingr(soup)
    recipe_steps       = get_recipe_steps(soup)
    
    recipe = Recipe(recipe_image, recipe_information, recipe_ingrs, recipe_steps)
    
    return recipe

## Парсинг всех рецептов

In [137]:
import pandas as pd
from tqdm import tqdm as tq

In [138]:
df = pd.read_csv('goods_vkusno.csv', sep='\t')

In [229]:
def get_recipes(count=2, offset=0):
    def print_fail():
        print('fail!', row.name, title, url)
        
    recipes = []

    for i in tq(range(count-offset)):
        row = df.iloc[i + offset]
    
        title, url = row
        
        try:
            recipe = get_recipe(url)
        except KeyboardInterrupt:
            break
        except:
            print_fail()
            continue
            
        if recipe:
            recipes.append(recipe)
        else:
            print_fail()
            break
            
    return recipes

In [233]:
recipes = get_recipes(df.shape[0], 1012)

 53%|█████▎    | 2995/5666 [24:13<21:19,  2.09it/s]  

fail! 4006 Салат из курицы с виноградом https://vkuso.ru/recipe/salat-iz-kuricy-s-vinogradom/


100%|██████████| 5666/5666 [46:35<00:00,  2.03it/s]


In [234]:
recipes_dictionaries = []

for title, recipe in zip(df['title'], recipes):
    recipe_dict = recipe._asdict()
    recipe_dict['title'] = title
    
    recipes_dictionaries.append(recipe_dict) 

In [235]:
len(recipes_dictionaries)

5665

In [239]:
with open('1012_recipes.txt', 'r') as f:
    first_recipes = eval(f.read())

In [241]:
first_recipes.extend(recipes_dictionaries)

In [243]:
len(first_recipes)

6677

In [244]:
with open('recipes.txt', 'w') as f:
    f.write(str(first_recipes))