# 과일 이미지 분류기


이번 문제는 12개의 과일들로 구성된 2,700개의 이미지들로부터 과일 이미지 분류기를 만들어 900개의 테스트 이미지에 적용해보는 것이다. 다음과 같은 총 12개의 과일 이미지를 대상으로 한다.

* Apple
* Avocado
* Banana
* Blueberry
* Lemon
* Mango
* Orange
* Peach
* Pineapple
* Sweetpotato
* Strawberry
* Tomato

훈련과 테스트를 위한 이미지들은 파일로 제공된다. 즉 이미지 파일들을 읽어 들여서 전처리하는 과정이 필요하다. 

### 데이터 셋 설명

이번 문제에 사용된 과일 이미지들을 일부 살펴보면 아래와 같다. 앞서 설명된 것처럼 12개의 과일 이미지들로 구성되어 있다. 각 이미지들은 모두 100 * 100의 크기로 구성된다. 아래 예를 들었다.

![image1.png](https://grepp-programmers.s3.ap-northeast-2.amazonaws.com/files/production/cd5aef6b-2d95-4009-a7eb-7eadef37dc98/image1.png)

data 폴더를 열면 아래와 같은 파일들을 볼 수 있다:

* training.csv
* test.csv
* Images 폴더: 3,600개의 이미지 파일들이 존재

#### train.csv

train.csv의 경우 헤더 라인 하나와 2,700개의 이미지 파일 이름으로 구성되어 있다. 하나의 라인은 하나의 훈련용 이미지에 해당하며 각 라인의 첫 번째 필드(filename)는 해당 훈련용 이미지의 파일 이름이 된다. 이 파일들은 images 폴더에 존재한다. 두 번째 필드(label)는 이미지 파일에 해당하는 과일의 이름이 된다. 과일 이름의 리스트는 앞서 문제 개요에서 확인해볼 수 있다. 

앞서 이야기했듯이 이미지의 픽셀 정보가 MNIST처럼 훈련용 데이터로 제공되지 않기 때문에 여러분들이 직접 이미지 파일을 읽어서 픽셀 데이터를 만들어내는 전처리 과정을 거쳐야 한다. 이미지 파일들은 images 폴더 안에 존재한다

여러분이 해야 할 일은 이 파일들을 읽어 들이고 이 데이터를 바탕으로 앞의 필드에 주어진 과일을 예측하는 모델을 만드는 것이다. 예를 들어 이 파일의 처음 5라인을 보면 아래와 같다.

| filename | label   |
|----------|---------|
| 0.jpg    | Apple   |
| 1.jpg    | Avocado |
| 2.jpg    | Tomato  |
| 3.jpg    | Avocado |

#### test.csv

앞서 만든 모델로 풀어야 하는 문제들이 들어있는 파일들이 바로 test.csv이다. 이 파일의 구성은 앞서 train.csv와 비슷하게 하나의 헤더 라인(filename)과 900개의 이미지 파일 라인으로 구성되어있다. 이 두 파일의 차이점은 test.csv에는 이미지에 해당하는 과일이 없이 이미지 파일의 이름만 있다는 점이다. 처음 5줄은 다음과 같다.

| filename |
|----------|
| 2700.jpg |
| 2701.jpg |
| 2702.jpg |
| 2703.jpg |

여러분이 앞서 훈련용 데이터로 모델을 만든 뒤에 할 일은 여기 있는 이미지 파일들을 읽어서 그걸 모델의 입력으로 주고 나오는 과일 예측값을 얻어내는 것이다. 이를 바탕으로 제출해야 할 파일의 포맷에 대해서 뒤에서 바로 설명한다.

#### images 폴더

이 폴더 안에는 모델 훈련에 필요한 2,700개의 과일 이미지와 나중에 훈련된 모델로 인식해서 인식 결과를 제출해야 하는 테스트 과일 이미지 900개가 존재한다. 앞서 이야기했듯이 이 이미지들은 모두 100 * 100의 크기를 갖는다. 


### 초기 코드 선택

Python, R 중 본인의 선호 언어에 따라 초기 코드를 선택하세요. Python을 선호한다면 Python 초기 코드를, R을 선호한다면 R 초기 코드만 남기면 됩니다. 언어를 변경하는 방법이나 사용할 수 있는 라이브러리는 상단의 도움말 버튼에 나와있습니다.


In [1]:
# 초기코드 - python
import pandas as pd

# 데이터 로드
train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

train.head()

Unnamed: 0,filename,label
0,0.jpg,Apple
1,1.jpg,Avocado
2,2.jpg,Tomato
3,3.jpg,Avocado
4,4.jpg,Sweetpotato


In [7]:
test.head()

Unnamed: 0,filename
0,2700.jpg
1,2701.jpg
2,2702.jpg
3,2703.jpg
4,2704.jpg


# 과제

채점을 위해 다음을 만족하는 csv파일을 현재 디렉토리에 `submission.csv`라는 이름으로 저장해야 한다. `submission.csv`는 `test.csv`와 같은 수의 라인으로 구성이 되어야 하며 첫 번째 라인(헤더)은 다음과 같은 두 개의 필드로 구성이 되어야 한다:
 
* filename
* prediction

먼저 첫 번째 컬럼으로 들어오는 filename은 `test.csv`에 들어오는 값들이 그대로 들어와야 한다. 두 번째 컬럼은 여러분이 훈련한 모델에 두 번째 컬럼에 해당하는 이미지 파일을 입력으로 주었을 때 나오는 과일 예측값을 넣어주어야 한다 (즉 앞서 12개의 과일 중의 하나가 되어야 하며 `train.csv`에 있는 label 필드에 있는 값들을 사용한다).

예를 들어 `test.csv`의 처음 다섯 라인이 아래와 같다면 

| filename |
|----------|
| 2700.jpg |
| 2701.jpg |
| 2702.jpg |
| 2703.jpg |


`submission.csv`의 filename 필드는 `test.csv`의 filename 순으로 나와야 하며, prediction필드의 값으로는 해당 과일 이미지의 인식 결과가 사용되어야 한다. 앞서 예로 사용한 `test.csv`에 해당하는 최종 제출 파일은 아래와 같은 형태를 갖추어야 한다.

| filename | prediction |
|----------|------------|
| 2700.jpg | Apple      |
| 2701.jpg | Avocado    |
| 2702.jpg | Lemon      |
| 2703.jpg | Peach      |



In [50]:
import numpy as np
import os
import glob

img_dir = glob.glob(img_dir)

n_classes = 12

In [140]:
from PIL import Image
from sklearn.preprocessing import StandardScaler
X = []
y = []
for i in img_dir:
    img = Image.open(i)
    data = np.asarray(img)
    name = os.path.basename(i)
    name = name.replace('.jpg','')
    name = int(name)
    if name <2700:
        label = train.loc[name,'label']
        X.append(data)
        y.append(label)
np.shape(X)

(2700, 100, 100, 3)

In [162]:
X_test = []
for i in img_dir:
    img = Image.open(i)
    data = np.asarray(img)
    name = os.path.basename(i)
    name = name.replace('.jpg','')
    name = int(name)
    if name >=2700:
        X_test.append(data)
np.shape(X_test)

test_input = tf.reshape(X_test, tf.stack([ -1 , 100,100,3]))
predictions = model.predict(test_input)

(900, 100, 100, 3)

In [None]:
# csv 파일 저장 예시 - python
test['label'] = result
test.set_index('filename')
test.to_csv('submission.csv',index=False)