<a href="https://colab.research.google.com/github/starcell/sejong-ml/blob/main/mnist-data-process.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MNIST 이미지 데이터 다루기  
(주)스타셀 Starcell Inc.

---
이 과정에서는 MNIST Dataset에 있는 이미지들을 분석하고 이미지 데이터를 프로그램에서 처리하는 방법을 배운다.

![](https://upload.wikimedia.org/wikipedia/commons/f/f7/MnistExamplesModified.png)

MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 **`0~9까지 숫자`들로 이루어진 대형 데이터베이스**이며, 28x28 픽셀의 흑백 이미지 70,000개로 되어 있고 **`60,000개의 트레이닝 이미지와 10,000개의 테스트 이미지를 포함`** 한다.

참고 : [위키백과](https://ko.wikipedia.org/wiki/MNIST_%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4)

---
이미지 파일 읽어오기

In [None]:
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import requests
from io import BytesIO

In [None]:
# img_dir = './data/'
# img_file = img_dir + 'mnist-5.png'
# print(img_file)

In [None]:
img_url = 'https://github.com/starcell/sejong-ml/blob/main/mnist-5.png?raw=true'
print(img_url)

In [None]:
# Step 2: Fetch the image from the URL
response = requests.get(img_url)

In [None]:
# Step 3: Open the image using PIL
img = Image.open(BytesIO(response.content), formats=['PNG'])

In [None]:
# Open the image and convert to grayscale
img_gray = img.convert('L')

---
로드된 이미지 데이터의 타입과 크기를 출력해 본다.

In [None]:
print(type(img))
print(img.size)

In [None]:
print(type(img_gray))
print(img_gray.size)

---
display()함수를 이용하여 로드된 이미지 데이터를 그림으로 표시한다.

In [None]:
display(img)

---
파이썬의 대표적인 그래픽 패키지인 matplotlib 라이브러리를 임포트한다.  
아래의 구문은 matplotlib 라이브러리를 임포트하여 plt란 이름으로 사용하겠다는 의미이다.

In [None]:
plt.imshow(img, cmap='gray')

---
numpy.ndarray 타입의 변수 뒤에 .shape를 붙이면 어레이 데이터의 크기(shape 또는 차원)을 볼 수 있다.

In [None]:
# Convert to NumPy array
img_array = np.array(img_gray)

# Check the type and shape
print(type(img_array))  # <class 'numpy.ndarray'>
print(img_array.shape)  # e.g., (height, width)

---
어레이의 값을 출력하여 본다.

In [None]:
print(img_array)

In [None]:
large_width = 500
np.set_printoptions(linewidth=large_width)
# np.set_printoptions(precision=3)

print(img_array)

---
matplotlib의 imshow()함수는 numpy.ndarray 타입의 입력을 받아도 그림으로 보여준다. 이때 디폴트 옵션으로 처리하면 컬러이미지로 보여준다.

In [None]:
# plt.imshow(img_array, cmap='gray')
plt.imshow(img_array)

In [None]:
from torchvision import datasets, transforms

In [None]:
# MNIST dataset
train_dataset = datasets.MNIST(root='./data', train=True, transform=transforms.ToTensor(), download=True)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transforms.ToTensor())

---
train_dataset에는 손글씨 숫자 이미지에 해당하는 텐서 데이터와 그 이미지가 실제 어떤 수인지를 알려주는 target이 포함되어 있다.  
target은 label, y값, ground truth, 정답 등으로 불린다.  
머신러닝(딥러닝 포함)에서는 텐서 데이터를 모델에 입력하여 결과 값을 구하고 이렇게 구한 값이 label(또는 target)과 차이가 최소가 되도록 만든다.

In [None]:
type(train_dataset.data)

In [None]:
train_dataset.data.shape

In [None]:
train_dataset.targets.shape

In [None]:
train_dataset.classes

In [None]:
# Train / Test 데이터의 크기 확인
print('MNIST Train 데이터의 크기 : {}'.format(len(train_dataset.data)))
print('MNIST Test 데이터의 크기 : {}'.format(len(test_dataset.data)))

---
데이터를 하나 선택하여 출력해 본다. (0 ~ 59999)

In [None]:
train_dataset.data[59999]

---
데이터를 선택하여 이미지로 출력해 본다.

In [None]:
plt.imshow(train_dataset.data[59999])

---
첫번째 어레이데이터를 이미지 파일로 저장해 본다.

In [None]:
save_file = 'x_train_59999.png'

In [None]:
plt.imsave(save_file, train_dataset.data[59999], cmap='gray')
plt.close()

In [None]:
import matplotlib.image as mpimg

In [None]:
img3 = mpimg.imread(save_file)
img3.shape

In [None]:
imgplot = plt.imshow(img3)

In [None]:
unique, counts = np.unique(train_dataset.targets, return_counts=True)

In [None]:
unique

In [None]:
counts

In [None]:
np.sum(counts)

---
각 숫자별 데이터의 개수를 출력해 본다.

In [None]:
print("Train labels: ", dict(zip(unique, counts)))

---
무작위(random)로 25개의 데이터를 뽑아 본 후 이미지와 라벨 값을 그려본다.

In [None]:
indexes = np.random.randint(0, train_dataset.data.shape[0], size=25)

In [None]:
indexes

In [None]:
images = train_dataset.data[indexes]
labels = train_dataset.targets[indexes]

In [None]:
fig = plt.figure(figsize=(5,5))
for i in range(len(indexes)):
    plt.subplot(5, 5, i + 1)
    image = images[i]
    plt.imshow(image, cmap='gray')
    label_name = "Label:" + str(train_dataset.targets[indexes[i]].item())
    plt.title(label_name)
    plt.tight_layout()
    plt.axis('off')

In [None]:
save_25_images = 'x_train-25.png'
fig.savefig(save_25_images)
plt.show()
plt.close('all')