# Методы сбора и обработки данных из сети Интернет
## Урок 3. MongoDB, SQLAlchemy
### Задание
1. Развернуть у себя на компьютере/виртуальной машине/хостинге MongoDB и реализовать функцию, записывающую собранные данные в созданную БД
2. Написать функцию, которая производит поиск и выводит на экран рецепты с перечисленными ингридиентами
3. *Написать функцию, которая будет добавлять в вашу базу данных только новые рецепты с сайта. Доработать функцию, которая будет обновлять старые.

### Запуск MongoDB

In [3]:
!docker run -d -p 27017:27017 --name scrapy_mongo mongo

Unable to find image 'mongo:latest' locally
latest: Pulling from library/mongo

[1Ba4a261c9: Pulling fs layer 
[1B20cdee96: Pulling fs layer 
[1B60e1d0de: Pulling fs layer 
[1B7668deea: Pulling fs layer 
[1B87a82b4c: Pulling fs layer 
[1B139e0836: Pulling fs layer 
[1B9c8680b4: Pulling fs layer 
[1Bdf30d947: Pulling fs layer 
[1B5ef3d2ce: Pulling fs layer 
[1B54ed6b43: Pulling fs layer 
[1Be535ddb8: Pulling fs layer 
[1Bdad81b2a: Pulling fs layer 
[1BDigest: sha256:7a1406bfc05547b33a3b7b112eda6346f42ea93ee06b74d30c4c47dfeca0d5f2[2K[13A[2K[13A[2K[10A[2K[13A[2K[13A[2K[13A[2K[13A[2K[13A[2K[13A[2K[13A[2K[13A[2K[7A[2K[13A[2K[7A[2K[8A[2K[13A[2K[8A[2K[7A[2K[8A[2K[13A[2K[8A[2K[13A[2K[8A[2K[7A[2K[8A[2K[7A[2K[8A[2K[8A[2K[7A[2K[13A[2K[13A[2K[8A[2K[13A[2K[8A[2K[13A[2K[7A[2K[8A[2K[7A[2K[8A[2K[7A[2K[13A[2K[7A[2K[13A[2K[7A[2K[13A[2K[7A[2K[8A[2K[7A[2K[8A[2K[13A[2K[13A[2K[7A[2K[13A[2K

In [7]:
!docker start scrapy_mongo

scrapy_mongo


In [6]:
!docker stop scrapy_mongo

scrapy_mongo


### Секция импорта

In [67]:
from pymongo import MongoClient
import time
import requests
import pandas as pd
from bs4 import BeautifulSoup as bs
from pprint import pprint

### Скрапперы

Базовый класс:

In [27]:
class BaseScrapper:

    def __init__(self, category: str, init_page_num: int = 0, crawl_delay: int = 1):
        self._host: str = ''
        self._category: str = category
        self._crawl_delay: int = crawl_delay
        self._current_page_num: int = init_page_num
        self._last_recipes_urls: set = set()
        self._data_to_return: set = set()

    def __iter__(self) -> iter:
        return self

    def __next__(self):
        if len(self._data_to_return) == 0:
            page = self._next_page()
            recipes = self._extract_recipes(page)
            recipes_urls = set([recipe['url'] for recipe in recipes])
            if self._last_recipes_urls != recipes_urls:
                self._last_recipes_urls = recipes_urls
                self._data_to_return = recipes
                time.sleep(self._crawl_delay)
                return self.__next__()
            else:
                raise StopIteration
        else:
            return self._data_to_return.pop()

    def _next_page(self) -> bs:
        self._current_page_num += 1
        return self._get_page(self._current_page_num)

    def _get_page(self, page_num: int) -> bs:
        pass

    def _extract_recipes(self, page: bs) -> set:
        pass

    def reset(self):
        self._current_page_num = 0
        self._last_recipes = set()

    def __repr__(self) -> str:
        return '{clazz}({sep}host={host},{sep}category={category},{sep}crawl_delay={crawl_delay},\n)'.format(
            sep='\n\t',
            clazz=self.__class__.__name__,
            host=self._host,
            category=self._category,
            crawl_delay=self._crawl_delay,
        )

Скраппер сайта povarenok.ru:

In [83]:
class PovarenokScrapper(BaseScrapper):

    def __init__(self, category: str, init_page_num: int = 0, crawl_delay: int = 1):
        super().__init__(category, init_page_num, crawl_delay)
        self._host: str = 'https://www.povarenok.ru/recipes'
        self._category: str = {
            'ch': 'kitchen/73',
            'fr': 'kitchen/64',
            'it': 'kitchen/56',
            'jp': 'kitchen/79',
            'ru': 'kitchen/101',
            'ua': 'kitchen/104',
        }[category]

    def _get_page(self, page_num: int) -> bs:
        url = f'{self._host}/{self._category}/~{page_num}/?sort=date_create&order=desc'
        content = requests.get(url).text
        parsed = bs(content, 'lxml')
        return parsed

    def _extract_recipes(self, page: bs) -> list:
        return [self._extract_recipe(article) for article in page.find_all('article')]

    def _extract_recipe(self, article: bs) -> dict:
        return {
            'raw': str(article), 'name': article.select_one('article > h2').get_text().strip(),
            'url': article.select_one('article > h2 > a')['href'], 
            'ingr': list(map(lambda span: span.get_text().strip().lower(), article.select('div.ingr_fast span'))),
            'views': article.select_one('ul.icons-wrap .i-views').get_text(),
            'comm': article.select_one('ul.icons-wrap .i-comments').get_text(),
            'likes': article.select_one('ul.icons-wrap .i-likes').get_text(), 'category': self._category
        }

Скраппер сайта russianfood.com:

In [84]:
class RussianFoodScrapper(BaseScrapper):

    def __init__(self, category: str, init_page_num: int = 0, crawl_delay: int = 1):
        super().__init__(category, init_page_num, crawl_delay)
        self._host: str = 'https://www.russianfood.com'
        self._category: str = {
            'ch': 'bytype/?fid=132',
            'fr': 'bytype/?fid=102',
            'it': 'bytype/?fid=110',
            'jp': 'bytype/?fid=154',
            'ru': 'bytype/?fid=103',
            'ua': 'bytype/?fid=104',
        }[category]

    def _get_page(self, page_num: int) -> bs:
        url = f'{self._host}/recipes/{self._category}&sort=id&page={page_num}/'
        content = requests.get(url).text
        parsed = bs(content, 'lxml')
        return parsed

    def _extract_recipes(self, page: bs) -> list:
        return [self._extract_recipe(article) for article in page.select('div.recipe_list_new > div.recipe_l')]

    def _extract_recipe(self, article: bs) -> dict:
        return {
            'raw': str(article),
            'name': article.select_one('div.recipe_l > div.title_o > div.title').get_text().strip(),
            'url': self._host + article.select_one('div.recipe_l > div.title_o > div.title > a')['href'],
            'ingr': article.select_one('div.recipe_l > div.announce_o > div.announce > div.ingr_str').get_text().strip().lower().split(','),
            'category': self._category
        }

### Добавление данных

In [63]:
mongo = MongoClient('localhost', 27017)
food_db = mongo['food_db']

In [85]:
def fill_via_scrapper(recipes, collection):
    for recipe in recipes:
        if collection.find_one({'_id': recipe['url']}):
            break
        else:
            new_recipe = {'_id': recipe['url']}
            new_recipe.update(recipe)
            collection.insert_one(new_recipe)

In [88]:
fill_via_scrapper(PovarenokScrapper('ch'), food_db.recipes)

In [118]:
fill_via_scrapper(RussianFoodScrapper('ch'), food_db.recipes)

### Вывод данных

In [120]:
def get_data(ingr: str, collection):
    for recipe in collection.find({'ingr': ingr}, {'name': 1, 'ingr': 1, 'url': 1}):
        print(recipe['name'])
        print('url:', recipe['url'])
        pprint(recipe['ingr'])
        print()

In [121]:
get_data('карп', food_db.recipes)

Запеченый карп в азиатском стиле
url: https://www.povarenok.ru/recipes/show/137852/
['карп',
 'перец красный жгучий',
 'имбирь',
 'масло растительное',
 'кунжут',
 'соус',
 'уксус',
 'лук зеленый',
 'сахар коричневый']

Карп "Белка"
url: https://www.povarenok.ru/recipes/show/120244/
['карп',
 'крахмал',
 'сок лимонный',
 'масло растительное',
 'бульон',
 'сахар коричневый',
 'томатная паста',
 'уксус',
 'вино белое сухое',
 'соль',
 'чеснок',
 'имбирь',
 'перец чили',
 'вода']

Фаршированный карп в азиатском стиле
url: https://www.povarenok.ru/recipes/show/97487/
['карп',
 'перец болгарский',
 'лук красный',
 'баклажан',
 'имбирь',
 'лимон',
 'бадьян',
 'сахар',
 'соевый соус',
 'крахмал кукурузный',
 'уксус',
 'масло растительное',
 'вода',
 'рис']

Карп в кисло-сладком соусе
url: https://www.povarenok.ru/recipes/show/67758/
['карп',
 'яйцо куриное',
 'крошка хлебная',
 'крахмал кукурузный',
 'соль',
 'вода',
 'уксус',
 'сахар',
 'томатная паста',
 'соевый соус',
 'вино белое сухое']
