In [19]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import csv
import time
import os


In [31]:

class AppleBooksScraper:

    def __init__(self):
        self.soup = None
        

    def open_apple_books_link(self):
        """ 
        Cette fonction ouvrira le lien Apple Books fourni par l'API Books du New-York Times

        """

        url = 'https://goto.applebooks.apple/9780593237465?at=10lIEQ'
        headers = {'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Safari/605.1.15"}
        page = requests.get(url, headers=headers)
        self.soup = BeautifulSoup(page.content, 'html.parser')

    def extract_book_informations(self):
        """ 
        Cette fonction va extraire les données sur la page Apple Books qui aura été ouverte
        """
        if self.soup:
            # Extraire le nom de l'auteur
            author_name_location = self.soup.find('div',class_="book-header__author")
            author_name = author_name_location.find('a').text.strip() if author_name_location else "N/A"

            # Extraire le nom du livre
            book_name_location = self.soup.find('h1', class_="product-header__title book-header__title")
            book_name = book_name_location.text.strip() if book_name_location else "N/A"

            # Extraire le résumé
            summary_location = self.soup.find('div', class_="we-truncate--multi-line")
            summary_text = summary_location.text.strip() if summary_location else "N/A"

            return book_name, author_name, summary_text
        return "N/A", "N/A", "N/A"  # Return a default tuple if soup is None

    def book_informations_dataset(self, book_name, author_name, summary_text):
        """ 
        Cette fonction va creer un fichier .csv et y stocker les données récoltées
        args: book_name, author_name, summary_text

        """
        today = datetime.date.today()
        header = ['Title', 'Author', 'Summary', 'Date']
        data = [book_name, author_name, summary_text, today]

       # Ouvrir le fichier csv dans le répertoire actuel
        current_dir = os.getcwd()
        csv_file_path = os.path.join(current_dir, 'AppleBooksScraperDataset.csv')

        # Ouvrir le fichier CSV en mode ajout ('a')
        file = open(csv_file_path, 'a', newline='', encoding='UTF8')
        try:
            writer = csv.writer(file)
            if os.path.getsize(csv_file_path) == 0:
                writer.writerow(header)
            writer.writerow(data)
        finally:
            file.close()

# Executer la classe et afficher les résultats sur un dataframe 
scraper = AppleBooksScraper()
scraper.open_apple_books_link()
book_name, author_name, summary_text = scraper.extract_book_informations()

# Ajuster plus tard
time.sleep(1)  

# Creation du dataframe avec pandas pour afficher les resulats
data = {
    'Title': [book_name],
    'Author': [author_name],
    'Summary': [summary_text],
    'Date': [datetime.date.today()]
}
df = pd.DataFrame(data)
print(df)


                Title          Author  \
0  The Light We Carry  Michelle Obama   

                                             Summary        Date  
0  #1 NEW YORK TIMES AND USA TODAY BESTSELLER • I...  2024-05-07  
