In [4]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
import time
import csv
import chromedriver_autoinstaller

# ChromeDriver 자동 설치
chromedriver_autoinstaller.install()

# ChromeDriver 설정
driver = webdriver.Chrome()

# CSV 파일 생성 및 헤더 추가
csv_filename = "pokemon_data.csv"
fields = ["도감번호", "이름", "설명", "타입", "키", "분류", "몸무게", "특성"]
with open(csv_filename, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(fields)

# 포켓몬 데이터 크롤링
base_url = "https://pokemonkorea.co.kr/pokedex/view/"
for pokemon_id in range(1, 1026):  # 1번부터 1025번까지
    driver.get(f"{base_url}{pokemon_id}")
    time.sleep(1)  # 페이지 로드 대기

    try:
        # 도감번호와 이름
        number = driver.find_element(By.CSS_SELECTOR, 'h3 > p.font-lato').text.replace("No. ", "").strip()
        name = driver.find_element(By.CSS_SELECTOR, 'h3 > p.font-lato + p').text.strip()

        # 설명
        descriptions = [element.text.strip() for element in driver.find_elements(By.CSS_SELECTOR, 'p.para.descript') if element.text.strip()]
        description = " ".join(descriptions)

        # 타입
        type_elements = driver.find_elements(By.CSS_SELECTOR, '.img-type p')
        types = [element.text.strip() for element in type_elements]

        # 키, 분류, 몸무게
        try:
            height = driver.find_element(By.CSS_SELECTOR, 'div.row div:nth-child(2) p').text.strip()
        except:
            height = "N/A"
        
        try:
            category = driver.find_element(By.CSS_SELECTOR, 'div.row div:nth-child(3) p').text.strip()
        except:
            category = "N/A"
        
        try:
            weight = driver.find_element(By.CSS_SELECTOR, 'div.row div:nth-child(5) p').text.strip()
        except:
            weight = "N/A"

        # 특성
        ability_elements = driver.find_elements(By.CSS_SELECTOR, "div.row div:nth-child(6) div")
        abilities = [element.text.strip() for element in ability_elements]

        # CSV 파일에 데이터 저장
        with open(csv_filename, mode='a', newline='', encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerow([number, name, description, types, height, category, weight, abilities])

    except Exception as e:
        print(f"Error on Pokémon ID {pokemon_id}: {e}")

# 크롬 드라이버 종료
driver.quit()

print(f"{csv_filename} 파일 생성 완료!")


pokemon_data.csv 파일 생성 완료!


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
import time
import csv
import chromedriver_autoinstaller

# ChromeDriver 자동 설치
chromedriver_autoinstaller.install()

# ChromeDriver 설정
driver = webdriver.Chrome()

# CSV 파일 생성 및 헤더 추가
csv_filename = "pokemon_data.csv"
fields = ["도감번호", "이름", "설명", "타입", "키", "분류", "몸무게", "특성"]
with open(csv_filename, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(fields)

# 포켓몬 데이터 크롤링
base_url = "https://pokemonkorea.co.kr/pokedex/view/"
visited = set()  # 방문한 도감 번호를 추적하기 위한 집합

for pokemon_id in range(1, 1252):  # 테스트로 10번까지 설정 (나중에 1026으로 변경)
    driver.get(f"{base_url}{pokemon_id}")
    time.sleep(1)  # 페이지 로드 대기

    try:
        # 도감번호와 이름
        full_name = driver.find_element(By.CSS_SELECTOR, 'h3').text.strip()
        number = driver.find_element(By.CSS_SELECTOR, 'h3 > p.font-lato').text.replace("No. ", "").strip()
        name = full_name.split('\n')[1].strip()

        # 이름 아래 추가 설명이 있는지 확인하고 설명 칼럼에 추가
        try:
            additional_description = driver.find_element(By.CSS_SELECTOR, 'h3 > p + p').text.strip()
        except:
            additional_description = ""

        # 설명
        descriptions = [element.text.strip() for element in driver.find_elements(By.CSS_SELECTOR, 'p.para.descript') if element.text.strip()]
        if additional_description:
            descriptions.insert(0, additional_description)
        description = " ".join(descriptions)

        # 타입
        type_elements = driver.find_elements(By.CSS_SELECTOR, '.img-type p')
        types = [element.text.strip() for element in type_elements]

        # 키, 분류, 몸무게
        try:
            height = driver.find_element(By.XPATH, "//h4[contains(text(), '키')]/following-sibling::p").text.strip().replace('m', '')
        except:
            height = "N/A"
        
        try:
            category = driver.find_element(By.XPATH, "//h4[contains(text(), '분류')]/following-sibling::p").text.strip()
        except:
            category = "N/A"
        
        try:
            weight = driver.find_element(By.XPATH, "//h4[contains(text(), '몸무게')]/following-sibling::p").text.strip().replace('kg', '')
        except:
            weight = "N/A"

        # 특성 추출
        try:
            ability_elements = driver.find_elements(By.XPATH, "//h4[contains(text(), '특성')]/following-sibling::div/div | //h4[contains(text(), '특성')]/following-sibling::div")
            abilities = [element.text.split('\n')[0].strip() for element in ability_elements]
        except:
            abilities = []

        # CSV 파일에 데이터 저장
        with open(csv_filename, mode='a', newline='', encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerow([number, name, description, types, height, category, weight, abilities])
            print(f"No.{number} {name}가(이) 도감에 등록되었습니다!")

    except Exception as e:
        print(f"Error on Pokémon ID {pokemon_id}: {e}")

# 크롬 드라이버 종료
driver.quit()

print(f"{csv_filename} 파일 생성 완료!")


PermissionError: [Errno 13] Permission denied: 'pokemon_data.csv'

In [4]:
import pandas as pd

# 기존 CSV 파일 불러오기
input_file = "C:/Users/jooeu/Desktop/git/ms-ai-school/0312_Azure_OpenAI_data_for_AIsearch/pokemon_data.csv"  # 원본 CSV 파일 이름
output_file = "C:/Users/jooeu/Desktop/git/ms-ai-school/0312_Azure_OpenAI_data_for_AIsearch/pokemon_data_id.csv"  # 수정된 CSV 파일 이름

# CSV 파일 읽기
df = pd.read_csv(input_file)

# id 컬럼 추가 (1부터 시작하는 번호)
df.insert(0, "id", range(1, len(df) + 1))

# 수정된 데이터 저장
df.to_csv(output_file, index=False, encoding="utf-8-sig")

print(f"파일이 성공적으로 저장되었습니다: {output_file}")

파일이 성공적으로 저장되었습니다: C:/Users/jooeu/Desktop/git/ms-ai-school/0312_Azure_OpenAI_data_for_AIsearch/pokemon_data_id.csv
