In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
import re
import psycopg2
import time
import logging
import sys

class Crawling:

    def __init__(self):
        self.drvier = None
        self.connection = None
        self.cursor = None

    def start_driver(self):
        self.driver = webdriver.Chrome(service = Service(ChromeDriverManager().install()))

    def quit_driver(self):
        self.driver.quit()

    def connect_db(self):
        db_config = {
        'dbname': 'your_database_name',
        'user': 'your_username',
        'password': 'your_password',
        'host': 'your_host',
        'port': 'your_port',
        }

        try:
            self.connection = psycopg2.connect(**db_config)
            logging.info("Connected to PostgreSQL.")
        except psycopg2.OperationalError:
            logging.info(f"Could not establish the database connection.")
        self.cursor = self.connection.cursor()

    def create_table(self):
        # univstore 테이블 생성
        create_univstore_table_query = '''
            CREATE TABLE IF NOT EXISTS univstore (
                id SERIAL PRIMARY KEY,
                product_number VARCHAR(255),
                price INTEGER,
                category VARCHAR(255),
                year INTEGER,
                cpu VARCHAR(255),
                ram VARCHAR(255),
                ssd VARCHAR(255),
                color VARCHAR(255),
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
                deleted_at TIMESTAMP,
                updated_at TIMESTAMP
            );
        '''
        self.cursor.excute(create_univstore_table_query)

        # coupang 테이블 생성
        create_coupang_table_query = '''
            CREATE TABLE IF NOT EXISTS coupang (
                id SERIAL PRIMARY KEY,
                product_number VARCHAR(255),
                price INTEGER,
                category VARCHAR(255),
                year INTEGER,
                cpu VARCHAR(255),
                ram VARCHAR(255),
                ssd VARCHAR(255),
                color VARCHAR(255),
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
                deleted_at TIMESTAMP,
                updated_at TIMESTAMP
            );
        '''
        self.cursor.excute(create_coupang_table_query)
        
        self.connection.commit()

    # 학생 복지 스토어에 로그인하는 함수
    def login_univstore(self):
        self.driver.get("https://www.univstore.com/")
        self.driver.implicitly_wait(60)

        # 로그인 화면 이동
        login_element = self.driver.find_element(By.CLASS, "usAccountLogin")
        ActionChains(self.driver).click(login_element).perform()

        # 로그인
        try:
            id = input("학생복지스토어의 id를 입력하시오 >> ")
            pw = input("학생복지스토어의 pw를 입력하시오 >> ")
            id_element = self.driver.find_element(By.NAME, "userid")
            pw_element = self.driver.find_element(By.NAME, "password")
            submit_element = self.driver.find_element(By.NAME, "submit")
            ActionChains(self.driver).send_keys_to_element(id_element, id).send_keys_to_element(pw_element, pw).click(submit_element).perform()
        except:
            print("잘못된 id와 pw입니다.")

    # 맥북 정보 리스트 페이지에서 정보를 갖고 오는 함수
    def get_macbook_info_in_univstore(self):
        '''
        input : 맥북 페이지의 url
        output :
        1. 카테고리 (pro, air)
        2. 연도 (2020, 2021, 2022, ..)
        3. CPU (M1, M2, ..)
        4. RAM (8GB, 16GB, ..)
        5. SSD (256GB, 512GB, ..)
        6. 색상 (스페이스 그레이, 실버, 골드, ..)
        7. 가격
        8. 상품 번호 -> primary key
        9. 풀 네임 (MacBook Air 15 2023년 M2 CPU 8코어 GPU 10코어 8GB 256GB 스페이스 그레이)
        '''
        macbook_url = "https://univstore.com/category/computer?ctg_sub_code=020100&ctg_third_code=020101"
        self.driver.get(macbook_url)

        # 상품 더보기로 모든 상품 출력
        more_div_element = self.driver.find_element(By.CLASS, "usItemsMore")
        more_button_element = self.driver.find_element(By.CLASS, "usInputButtonRound")
        # 모든 상품이 출력될 때까지 반복
        while "display: none;" not in more_div_element.get_attribute("style"):
            ActionChains.click(more_button_element).perform()

        # 총 개수
        num_of_total = int(self.driver.find_element(By.CLASS, "usListCountValue").text)

        # 각 상품에 대한 정보 추출
        for i in range(1, len(num_of_total)+1):
            # 추출할 정보 : 이름(카테고리,), 상품번호, 가격
            product_full_name = self.driver.find_element(By.XPATH, f"/html/body/main/div/div[2]/div[9]/div[1]/div/div[{i}]/div/div[2]/a/span").text
            product_number = self.driver.find_element(By.XPATH, f"/html/body/main/div/div[2]/div[9]/div[1]/div/div[{i}]/div/div[3]").text
            product_price_str = self.driver.find_element(By.XPATH, f"/html/body/main/div/div[2]/div[9]/div[1]/div/div[{i}]/div/div[6]").text
            product_price = int(product_price_str.replace(',', ''))

            # 카테고리 분류
            ''' 분류 기준
            1. 카테고리 (pro, air)
            2. 연도 (2020, 2021, 2022)
            3. CPU (M1, M2)
            4. RAM (8GB, 16GB, ..)
            5. SSD (256GB, 512GB, ..)
            6. 색상 (스페이스 그레이, 실버, 골드, ..)
            '''
            # product_full_name 예시)
            # MacBook Air 15 2023년 M2 CPU 8코어 GPU 10코어 8GB 256GB 스페이스 그레이
            
            # 카테고리 확인 (Air, Pro, ..)
            category = product_full_name[:11]

            # 연도 확인 (숫자 4자리)
            year_pattern = re.compile(r'\b(\d{4})년\b')
            year_match = year_pattern.search(product_full_name)
            year = year_match.group(1) if year_match else None

            # CPU 확인 (M숫자 CPU)
            cpu_pattern = re.compile(r'M(\d) CPU')
            cpu_match = cpu_pattern.search(product_full_name)
            cpu = cpu_match.group(1) if cpu_match else None

            # RAM 확인 (숫자GB)
            ram_pattern = re.compile(r'(\d+)GB')
            ram_match = ram_pattern.search(product_full_name)
            ram = ram_match.group(1) if ram_match else None
            
            # SSD 확인 (숫자GB)
            ssd_match = ram_pattern.search(product_full_name)
            ssd = ssd_match.group(1) if ssd_match else None

            # 색상 확인
            # 확인할 단어들
            colors = ['실버', '미드나이트', '스페이스 그레이', '스타라이트', '골드']
            color_pattern = re.compile(fr'\b({"|".join(map(re.escape, colors))})\b')
            color_match = color_pattern.search(product_full_name)
            color = color_match.group(1) if color_match else '실버'

            # 결과 반환. (상품번호, 가격, 카테고리, 연도, CPU, RAM, SSD, 색상)
            return (product_number, product_price, category, year, cpu, ram, ssd, color)

    def insert_data(self, table_name, dataset):
        '''
        input : 테이블 이름, (상품번호, 가격, 카테고리, 연도, CPU, RAM, SSD, 색상)
        데이터를 디비에 저장하는 함수.
        '''
        try :
            insert_query = f'''
                INSERT INTO {table_name} (product_number, price, category, year, cpu, ram, ssd, color) VALUES (%s, %s, %s, %s, %s, %s, %s, %s);
            '''
            self.cursor.excute(insert_query, dataset)
            self.connection.commit()
            logging.info(f"Data successfully stored in the {table_name} table.")
        except psycopg2.Error as err:
            logging.error(f"error : {err}")
            self.connection.rollback()
            sys.exit(1)
