#### [이미지 분류 모델을 위한 준비]
- 데이터 준비 : 수집된 데이터 => 하나의 데이터로 저장
- scikit-learn
    - 피쳐 데이터 : 2D ==> 이미지 파일 1개 ==> 1개 행 데이터. 픽셀이 컬럼이 됨
    - 타겟 데이터 : 1D ==> 이미지 파일명 

- 데이터 즉, 피쳐와 타겟 ==> csv, json, xlsx, ... 저장


[1] 모듈 로딩 및 데이터 준비 <hr>

In [158]:
# -------------------------------------------------------------------------
# 1-1. 모듈 로딩 
# -------------------------------------------------------------------------
import cv2
import os
import pandas as pd

# -------------------------------------------------------------------------
# 1-2. 데이터 로딩
# -------------------------------------------------------------------------
# 데이터 설정
DATA_DIR = './apples/img'

# 이미지 파일 리스트
FILES = os.listdir(DATA_DIR)

In [159]:
# 확인
for idx, filename in enumerate(FILES):
    if idx < 10:
        print(filename)
    else:
        break

apple (01).jpg
apple (02).jpg
apple (03).jpg
apple (04).jpg
apple (05).jpg
apple (06).jpg
apple (07).jpg
apple (08).jpg
apple (09).jpg
apple (10).jpg


[2] 기계학습을 위한 데이터셋 파일 생성 <hr>
- csv 파일 저장 => [형식] 타겟, 픽셀1, 픽셀2,........픽셀n
- 이미지 사이즈 일치
- 이미지 로우데이터 읽어오기
- 타겟 추출
- csv 파일에 쓰기

In [160]:
# -------------------------------------------------------------------------
# 2-1. csv 파일명
# -------------------------------------------------------------------------
CSV_DIR = './apples/csv'
CSV_FILE = './apples/csv/fruits.csv'

if not os.path.exists(CSV_DIR):
    os.mkdir(CSV_DIR)
else:
    print(f'{CSV_DIR} 경로가 이미 존재합니다.')

./apples/csv 경로가 이미 존재합니다.


In [161]:
# -------------------------------------------------------------------------
# 2-2. 이미지 처리
# -------------------------------------------------------------------------
with open(CSV_FILE, mode='w', encoding='utf-8') as f:
    
    # 파일 1개 처리
    for file_name in FILES:
        img_path = f'{DATA_DIR}/{file_name}'
        save_path = f'{DATA_DIR}/re_{file_name}'
        print(img_path)
        
        img = cv2.resize(cv2.imread(img_path, cv2.IMREAD_GRAYSCALE),
                        (0, 0), 
                        fx=0.5, fy=0.5, 
                        interpolation=cv2.INTER_AREA)
        print('1차 :', img.shape)
        # print(img, '\n')

        img = cv2.resize(img, 
                        (70, 70), 
                        interpolation=cv2.INTER_AREA)
        print('2차 :', img.shape)

        cv2.imwrite(save_path, img)

        img = img.reshape(-1)
        print('3차(2D → 1D) :', img.shape, '\n')

        raw = [str(i) for i in img.tolist()]
        raw = ','.join(raw)
        # print(raw)

        f.write('apple,'+raw+'\n')

./apples/img/apple (01).jpg
1차 : (320, 320)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (02).jpg
1차 : (320, 320)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (03).jpg
1차 : (354, 275)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (04).jpg
1차 : (428, 600)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (05).jpg
1차 : (234, 350)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (06).jpg
1차 : (234, 350)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (07).jpg
1차 : (300, 300)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (08).jpg
1차 : (480, 370)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (09).jpg
1차 : (320, 320)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (10).jpg
1차 : (218, 280)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (11).jpg
1차 : (500, 750)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/apple (12).jpg
1차 : (360, 360)
2차 : (70, 70)
3차(2D → 1D) : (4900,) 

./apples/img/app