# ImageCrawling(이미지 크롤링)

## 이미지 크롤링을 위한 초기 설정

In [None]:
# 한글 폰트 설치하기
!apt install fonts-nanum -y

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  fonts-nanum
0 upgraded, 1 newly installed, 0 to remove and 9 not upgraded.
Need to get 10.3 MB of archives.
After this operation, 34.1 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 fonts-nanum all 20200506-1 [10.3 MB]
Fetched 10.3 MB in 1s (10.0 MB/s)
Selecting previously unselected package fonts-nanum.
(Reading database ... 120880 files and directories currently installed.)
Preparing to unpack .../fonts-nanum_20200506-1_all.deb ...
Unpacking fonts-nanum (20200506-1) ...
Setting up fonts-nanum (20200506-1) ...
Processing triggers for fontconfig (2.13.1-4.2ubuntu5) ...


In [None]:
# 꼭! 설치가 완료되면 [런타임 다시 시작]을 누르고 다시 실행하기
# Ctrl + M

In [1]:
# 필요한 module import
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

In [2]:
# 한글 폰트 설정하기
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=10)
plt.rc('font', family='NanumBarunGothic')
# matplotlib.font_manager._rebuild()

In [3]:
# 필요한 라이브러리 설치하기
!git clone https://github.com/ndb796/bing_image_downloader

Cloning into 'bing_image_downloader'...
remote: Enumerating objects: 86, done.[K
remote: Counting objects: 100% (22/22), done.[K
remote: Compressing objects: 100% (12/12), done.[K
remote: Total 86 (delta 17), reused 10 (delta 10), pack-reused 64[K
Receiving objects: 100% (86/86), 17.50 KiB | 1.94 MiB/s, done.
Resolving deltas: 100% (38/38), done.


## 이미지 크롤링을 활용한 학습 이미지 수집

- 수집한 이미지를 저장하기 위한 폴더 생성
- 필요한 함수 정의

In [4]:
# 필요한 module import
import os
import shutil
from bing_image_downloader.bing_image_downloader import downloader

In [5]:
# train, test 이미지 담을 directory_list 만들기
directory_list = [
    './custom_dataset/train/',
    './custom_dataset/test/',
]

In [6]:
# 초기 디렉토리 만들기
for directory in directory_list:
    if not os.path.isdir(directory):
        os.makedirs(directory)

# 수집한 이미지를 학습 데이터와 평가 데이터로 구분하는 함수
def dataset_split(query, train_cnt):

    # 학습 및 평가 데이터셋 디렉토리 만들기
    for directory in directory_list:
        if not os.path.isdir(directory + '/' + query):
            os.makedirs(directory + '/' + query)

    # 학습 및 평가 데이터셋 준비하기
    cnt = 0
    for file_name in os.listdir(query):
        if cnt < train_cnt:
            print(f'[Train Dataset] {file_name}')
            shutil.move(query + '/' + file_name, './custom_dataset/train/' + query + '/' + file_name)
        else:
            print(f'[Test Dataset] {file_name}')
            shutil.move(query + '/' + file_name, './custom_dataset/test/' + query + '/' + file_name)
        cnt += 1

    # Remove the original directory after moving files
    shutil.rmtree(query)

- 원하는 키워드로 이미지로 크롤링을 진행한 후, 데이터셋 구축

In [7]:
# 원하는 키워드 입력
query = 'baby back head'

# Download images for the query
downloader.download(query, limit=1000,  output_dir='./', adult_filter_off=True, force_replace=False, timeout=50)

# Split the downloaded images into training and testing datasets
#dataset_split(query, 800)

[Info] Indexing page: 1
[Info] Indexed 35 Images on Page 1.
#1 이미지 다운로드 (https://thumbs.dreamstime.com/z/head-baby-months-back-view-head-baby-months-back-view-191847294.jpg)
#1 파일 다운로드가 완료되었습니다.
#2 이미지 다운로드 (https://i.pinimg.com/originals/e3/ec/0c/e3ec0c180918c75274606b500ca1be56.jpg)
#2 파일 다운로드가 완료되었습니다.
#3 이미지 다운로드 (https://cdn.cdnparenting.com/articles/2018/08/1138920695-H.jpg)
#3 파일 다운로드가 완료되었습니다.
#4 이미지 다운로드 (https://imgix.bustle.com/uploads/image/2017/6/27/4975d045-f528-418e-81ee-a23b589c3667-fotolia_157983002_subscription_monthly_m.jpg?w=1200&amp;h=630&amp;fit=crop&amp;crop=faces&amp;fm=jpg)
#4 파일 다운로드가 완료되었습니다.
#5 이미지 다운로드 (https://thumbs.dreamstime.com/z/portrait-newborn-baby-lying-bed-back-head-showing-beautiful-curl-hair-29787218.jpg)
#5 파일 다운로드가 완료되었습니다.
#6 이미지 다운로드 (https://thumbs.dreamstime.com/z/close-up-shot-back-black-haired-baby-s-head-close-up-shot-back-black-haired-baby-s-head-close-up-186958101.jpg)
[Info] Issue getting: https://thumbs.dreamstime.com/z/close-up-sho

In [14]:
# 원하는 키워드 입력
query = 'baby face'

# Download images for the query
downloader.download(query, limit=1000,  output_dir='./', adult_filter_off=True, force_replace=False, timeout=100)

# Split the downloaded images into training and testing datasets
#dataset_split(query, 800)

[Info] Indexing page: 1
[Info] Indexed 35 Images on Page 1.
#1 이미지 다운로드 (https://upload.wikimedia.org/wikipedia/commons/e/e1/Baby_Face.JPG)
#1 파일 다운로드가 완료되었습니다.
#2 이미지 다운로드 (https://www.entertainmentmesh.com/wp-content/uploads/2015/06/funny-faces-photos.jpeg)
#2 파일 다운로드가 완료되었습니다.
#3 이미지 다운로드 (https://www.wallpaperflare.com/static/722/620/40/child-baby-face-smile-wallpaper.jpg)
#3 파일 다운로드가 완료되었습니다.
#4 이미지 다운로드 (https://www.wallpapertip.com/wmimgs/0-9506_cute-baby-face-sweet-hd-wallpaper-data-src.jpg)
#4 파일 다운로드가 완료되었습니다.
#5 이미지 다운로드 (https://graphicdesignjunction.com/wp-content/uploads/2012/08/cute-baby-photo-30.jpg)
#5 파일 다운로드가 완료되었습니다.
#6 이미지 다운로드 (https://www.wallpaperflare.com/static/80/941/233/children-project-baby-face-toddler-wallpaper.jpg)
#6 파일 다운로드가 완료되었습니다.
#7 이미지 다운로드 (https://c.pxhere.com/photos/b8/30/baby_child_small_child_face_cute_boy_human_newborn-1099377.jpg!d)
#7 파일 다운로드가 완료되었습니다.
#8 이미지 다운로드 (https://c.wallhere.com/photos/d8/e3/boy_portrait_baby_cute_beautiful_face_s

## 로컬에 이미지 저장



> 코랩(Colab)에서 로컬에 이미지를 저장하는 방법
- Google Colab의 파일 시스템과 로컬 머신의 파일 시스템 간에 파일을 복사하는 것
- 아래 코드는 이미지를 로컬에 다운로드하고 저장하는 코드
- 주의 : 코랩 환경에서는 코랩 세션을 종료하면 생성된 파일이 모두 삭제되므로 주의해야한다





> 코드 설명
1. Colab 세션 내에서 생성된 이미지들을 로컬 머신으로 복사
2. 로컬 머신에 압축 파일로 저장
3. 다운로드
--> 코드 실행 후 나타나는 다운로드 링크를 클릭하면 압축 파일을 다운로드 할 수 있음









### dataset을 압축파일로 다운로드
- split 안했을 때

In [17]:
from google.colab import files

# Copy images from Colab to local machine
def copy_images_to_local(source_path, destination_path):
    shutil.copytree(source_path, destination_path)

# Define source and destination directories
source_directory = '/content/baby face'  # Change this according to your source directory
destination_directory = '/content/drive/MyDrive/KOSA3/custom_face/'  # Change this according to your destination directory
                                                                       # 이미 존재하는 폴더라는 에러가 뜨면, custom_train뒤에 숫자 하나씩 올리기

# Copy images to local machine
copy_images_to_local(source_directory, destination_directory)

# Create a zip file for easier download
shutil.make_archive('/content/drive/MyDrive/KOSA3/custom_face', 'zip', '/content/drive/MyDrive/KOSA3/custom_face/')

# Download the zip file
files.download('/content/drive/MyDrive/KOSA3/custom_face.zip')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### train dataset을 압축파일로 다운로드

In [9]:
from google.colab import files

# Copy images from Colab to local machine
def copy_images_to_local(source_path, destination_path):
    shutil.copytree(source_path, destination_path)

# Define source and destination directories
source_directory = './custom_dataset/train/'  # Change this according to your source directory
destination_directory = '/content/drive/MyDrive/KOSA3/custom_train1/'  # Change this according to your destination directory
                                                                       # 이미 존재하는 폴더라는 에러가 뜨면, custom_train뒤에 숫자 하나씩 올리기

# Copy images to local machine
copy_images_to_local(source_directory, destination_directory)

# Create a zip file for easier download
shutil.make_archive('/content/drive/MyDrive/KOSA3/custom_train1/custom_train_dataset', 'zip', '/content/drive/MyDrive/KOSA3/custom_train1/')

# Download the zip file
files.download('/content/drive/MyDrive/KOSA3/custom_train1/custom_train_dataset.zip')


FileExistsError: ignored

### test dataset을 압축파일로 다운로드

In [None]:
from google.colab import files

# Copy images from Colab to local machine
def copy_images_to_local(source_path, destination_path):
    shutil.copytree(source_path, destination_path)

# Define source and destination directories
source_directory = './custom_dataset/test/'  # Change this according to your source directory
destination_directory = '/content/drive/MyDrive/KOSA3/custom_test1/'  # Change this according to your destination directory
                                                                      # 이미 존재하는 폴더라는 에러가 뜨면, custom_test뒤에 숫자 하나씩 올리기

# Copy images to local machine
copy_images_to_local(source_directory, destination_directory)

# Create a zip file for easier download
shutil.make_archive('/content/drive/MyDrive/KOSA3/custom_test1/custom_test_dataset', 'zip', '/content/drive/MyDrive/KOSA3/custom_test1/')

# Download the zip file
files.download('/content/drive/MyDrive/KOSA3/custom_test1/custom_test_dataset.zip')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>