In [5]:
import requests
from bs4 import BeautifulSoup
import json

# Визначаємо базову веб сторінку з якою будемо працювати
base_url = "http://quotes.toscrape.com"

# Запитуємо сторінку, перевіряємо статус відповіді, та передаємо на обробку BeautifulSoup  
def get_soup(url):
    response = requests.get(url)
    response.raise_for_status() 
    return BeautifulSoup(response.text, 'html.parser')


# Функція по пошуку та отримання даних
def scrape_quotes():
    quotes = []
    authors_info = []
    url = base_url
    while url:
        try:
            # на базовій сторінці шукаємо всі цитати та відокремлюємо їх дані - Тект, автор, теги
            soup = get_soup(url)
            quote_divs = soup.find_all('div', class_='quote')
            for quote_div in quote_divs:
                text = quote_div.find('span', class_='text').text
                author = quote_div.find('small', class_='author').text
                tags = [tag.text for tag in quote_div.find_all('a', class_='tag')]
                
                # Записуємо все у список словників
                quotes.append({
                    'quote': text,
                    'author': author,
                    'tags': tags
                })
                
                # до базової сторінки додаємо посилання на сторінку автора та далі збираємо з неї інформацю
                author_url = base_url + quote_div.find('a')['href']
                if not any(author_info['fullname'] == author for author_info in authors_info): # перевірка наявності автора у authors_info
                    author_soup = get_soup(author_url)
                    born_date = author_soup.find('span', class_='author-born-date').text
                    born_location = author_soup.find('span', class_='author-born-location').text
                    description = author_soup.find('div', class_='author-description').text.strip()
                    
                    # Записуємо все у список словників
                    authors_info.append({
                        'fullname': author,
                        'born_date': born_date,
                        'born_location': born_location,
                        'description': description
                    })
            
            # Додаємо перехід на іншу сторінку
            next_btn = soup.find('li', class_='next')
            
            # Якщо наступної сторінки нема повертаємо None для зупинки циклу
            url = base_url + next_btn.find('a')['href'] if next_btn else None
        except Exception as e:
            print(f"An error occurred: {e}")
            break

    return quotes, authors_info

def save_to_json(data, filename):
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

if __name__ == "__main__":
    quotes, authors_info = scrape_quotes()
    save_to_json(quotes, 'quotes.json')
    save_to_json(authors_info, 'authors.json')


In [6]:
from pymongo import MongoClient
import json

def load_json(filename):
    with open(filename, 'r', encoding='utf-8') as f:
        return json.load(f)

def import_to_mongodb():
    client = MongoClient("mongodb+srv://koshelevskiyv:GOIT2024_Zp@goitlearn.1laswll.mongodb.net/test?retryWrites=true&w=majority")
    db = client.get_database("quotes_db")
    
    quotes_collection = db.quotes
    authors_collection = db.authors
    
    quotes = load_json('quotes.json')
    authors = load_json('authors.json')
    
    try:
        quotes_collection.insert_many(quotes)
        authors_collection.insert_many(authors)
        print("Data imported successfully")
    except Exception as e:
        print(f"An error occurred: {e}")

if __name__ == "__main__":
    import_to_mongodb()


Data imported successfully
