## 이미지 데이터 수집

1. 폴더 생성
2. 속성 수집(이미지 링크)
3. 링크 다운로드(만들어둔 폴더에 저장)
4. 자동화 (1, 2, 3 합치기)

In [1]:
import os # 운영체제 라이브러리 (폴더&파일 생성, 제거, 삭제, 이동, 조회 등)

In [2]:
# 폴더 생성
# os.mkdir("C:/Users/notye/ESTCampAI/웹크롤링/포켓몬")

# 중복된 폴더명 or 파일명은 같은 경로에 존대할 수 없다

In [3]:
# 해당 경로(바탕화면)에 폴더가 있는지 검사
if os.path.isdir("C:/Users/notye/ESTCampAI/웹크롤링/포켓몬"): # 해당 디렉토리가 있니?
    print("폴더가 이미 존재함")
else: # 해당 디렉토리가 없는 경우
    os.mkdir("C:/Users/notye/ESTCampAI/웹크롤링/포켓몬")
    print("폴더 생성 완료")

폴더가 이미 존재함


In [4]:
from selenium import webdriver as wb # 테스트 브라우저 도구
from selenium.webdriver.common.by import By # 경로 지정 방식
from selenium.webdriver.common.keys import Keys # 키보드 입력

from bs4 import BeautifulSoup as bs # 파싱도구

In [5]:
driver = wb.Chrome()
url = "https://www.pokemonkorea.co.kr/pokedex#pokedex_1"
driver.get(url)

# 포켓몬 페이지 특징
# 반응형 웹페이지
# 동적 페이지 (스크롤 하강 시, 새로운 요소가 렌더링)

### 속성 추출
- soup : 인덱싱(딕셔너리처럼 키값)으로 접근
- selenium : get_attribute()

In [6]:
# 현재 페이지소스 읽어들여서 파싱하기
soup = bs(driver.page_source, "lxml")

In [7]:
# 속성에 접근 (soup)

# 1. 요소 접근
imgs = soup.select("img.img-fluid")

# 2. 속성 접근
print(imgs[0].text) # text 속성 - 쌍태그 안에 content를 가져올 때 사용하는 속성
# 우리가 가져오고자 하는 이미지 태그는 홀태그

imgs[0]["src"] # soup에서는 key값으로 인덱싱해서 요소의 속성 접근 가능




'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000101.png'

In [8]:
# 셀레니움으로도 속성 접근해보기
imgs = driver.find_elements(By.CSS_SELECTOR, "img.img-fluid")
imgs[0].get_attribute("src")

'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000101.png'

In [9]:
# 현재 수집한 이미지의 길이 확인
len(imgs)

# 현재 렌더링되어있는 이미지 요소만 수집된 것을 확인

18

## 스크롤 내리기
- 효율적으로 내리기 위해, 브라우저 최대화도 수행

In [10]:
# 창 최대화하기
driver.maximize_window()

In [11]:
# 스크롤 내릴려면 -> spacebar, 방향키, pagedown, end -> end가 가장 효율적
body = driver.find_element(By.TAG_NAME, "body")
# body 태그 -> 웹페이지의 전체 화면 부분

In [12]:
body.send_keys(Keys.END)

In [13]:
# 페이지 길이 확인하기
driver.execute_script("return document.body.scrollHeight") # 스크롤 길이 확인
# 현재 페이지(body전체)의 세로 길이가 3581px이다
# execute_sctript() -> 브라우저 안에서 JS를 실행시켜주는 기능

6646

In [14]:
# 페이지 스크롤 끝까지 해보기
import time
while True: # 무한 반복으로 스크롤이 끝까지가도 계속 내려가려고 함
    old = driver.page_source # 기존 페이지 소스

    # 스크롤 내리기
    body = driver.find_element(By.TAG_NAME, "body")
    body.send_keys(Keys.END)
    time.sleep(2)

    new = driver.page_source # 갱신된 이후 페이지 소스

    if old == new: # 기존 페이지와 갱신된 이후 페이지가 같다면
        print("스크롤 하강 완료")
        break # 반복문 종료
    else:
        pass

스크롤 하강 완료


In [15]:
# 요소가  완전히 로드된 상태에서 img 태그 접근
soup = bs(driver.page_source, 'lxml')
imgs = soup.select("img.img-fluid")

In [16]:
len(imgs)

1252

In [17]:
imgs[0]['src']

'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000101.png'

In [18]:
from tqdm import tqdm # 반복문 현황 출력하는 도구
img_link = []
for img in tqdm(imgs):
    img_link.append(img['src'])
img_link

['https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000101.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000201.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000301.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000302.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000303.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000401.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000501.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000601.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000602.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000603.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000604.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000701.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000801.png',
 'https://data1.pokemonkorea.co.kr/newdata/pokedex/mid/000901.png',
 'https://data1.pokemonkorea.co.kr/newdata/poked

### 리스트 컴프리헨션
- 리스트나 딕셔너리를 한눈에 이해 가능한 형태로 만드는 문법
- [출력값 for 변수 in 반복문]

In [None]:
img_link = [img['src'] for img in tqdm(imgs)]

### URL을 활용해서 이미지 다운로드

In [19]:
from urllib.request import urlretrieve # url 기반으로 다운로드 할 수 있는 도구

In [20]:
# 1개만 test로 다운로드 받아보기
# urlretrieve("이미지링크", "경로 및 확장자")
urlretrieve(img_link[0], "C:/Users/notye/ESTCampAI/웹크롤링/포켓몬/포켓몬1.jpg")

('C:/Users/notye/ESTCampAI/웹크롤링/포켓몬/포켓몬1.jpg',
 <http.client.HTTPMessage at 0x217eef0c690>)

In [21]:
driver.quit()

### 실습. 하나의 셀에 코드 합쳐보기
1. 폴더 생성 자동화
2. 스크롤 하강
3. 링크 수집
4. 링크 기반으로 이미지 다운로드 -> tqdm
5. 종료

In [28]:
from tqdm import tqdm

# 폴더 생성
if not os.path.isdir("C:/Users/notye/ESTCampAI/웹크롤링/포켓몬"):
    os.mkdir("C:/Users/notye/ESTCampAI/웹크롤링/포켓몬")
print("폴더 생성")

# 브라우저 실행
driver = wb.Chrome()
driver.get("https://www.pokemonkorea.co.kr/pokedex#pokedex_1")

# 창 최대화
driver.maximize_window()

# 스크롤 내리기
scrolling = True
while scrolling:
    old = driver.page_source

    # 페이지 스크롤
    body = driver.find_element(By.TAG_NAME, "body")
    body.send_keys(Keys.END)

    # 페이지 로드 확인
    timer = 0.0
    while True:
        new = driver.page_source
        if old != new:
            break
        elif timer >= 2.0:
            scrolling = False
            break
        else:
            timer += 0.02
        time.sleep(0.02)
print("스크롤 완료")

# 링크 수집
soup = bs(driver.page_source, 'lxml')
imgs = soup.select("img.img-fluid")
print("링크 수집")

# 브라우저 종료
driver.quit()

# 이미지 다운로드
i = 1
for src in tqdm([img['src'] for img in imgs]):
    urlretrieve(src, f"C:/Users/notye/ESTCampAI/웹크롤링/포켓몬/포켓몬{i}.jpg")
    i += 1
print("다운로드 완료")

폴더 생성
스크롤 완료
링크 수집


100%|██████████| 1252/1252 [00:46<00:00, 27.12it/s]

다운로드 완료



