# MNISTのデータについて
- 2025年12月現在、以下のヤン・ルカン博士のMNISTファイルは
利用できないことがあるようです。
    - <s>http://yann.lecun.com/exdb/mnist/</s>
        - 第７回（7-1）8:35-11:24, 11:25-13:06
        - 第７回視聴メモ　スライド＃８，＃９
- しかし、datasets ライブラリやヤン・ルカン博士がHugging Faceで公開しているデータを使うことが可能です。



---
## 方法１：Hugging Face Datasetsライブラリの利用
- Hugging Face Datasetsライブラリは、自然言語処理、コンピュータビジョン、オーディオタスク向けの数多くの公開データセットに簡単にアクセスし読み込み、前処理（フィルタリングや変換など）を行えるPythonライブラリです。


In [None]:
!pip install datasets



In [None]:
from datasets import load_dataset

dataset = load_dataset("mnist")

train_dataset = dataset["train"]
test_dataset = dataset["test"]

first_image = train_dataset[0]["image"]
first_label = train_dataset[0]["label"]

print(f"Training dataset size: {len(train_dataset)} samples")
print(f"Test dataset size: {len(test_dataset)} samples")
print(f"Label of the first image: {first_label}")



Training dataset size: 60000 samples
Test dataset size: 10000 samples
Label of the first image: 5




---


## 方法２：hf downloadの利用
- ヤン・ルカン博士が公開している Hugging Face のページ
    - Hugging Face（ハギングフェイス）とは、AIモデルやデータセット、開発ツールを共有・利用できる世界最大級のオープンソースプラットフォーム
    - [https://huggingface.co/datasets/ylecun/mnist](https://huggingface.co/datasets/ylecun/mnist)

In [None]:
!hf download ylecun/mnist \
--repo-type dataset \
--revision refs/convert/parquet \
--local-dir ./local_mnist_parquet


Fetching 3 files:   0% 0/3 [00:00<?, ?it/s]Fetching 3 files: 100% 3/3 [00:00<00:00, 33026.02it/s]
/content/local_mnist_parquet


In [None]:
!pwd
!ls -l local_mnist_parquet

/content
total 4
drwxr-xr-x 4 root root 4096 Dec 12 09:06 mnist


In [None]:
!ls -l local_mnist_parquet/mnist/test/0000.parquet
!ls -l local_mnist_parquet/mnist/train/0000.parquet

-rw-r--r-- 1 root root 2595890 Dec 12 09:06 local_mnist_parquet/mnist/test/0000.parquet
-rw-r--r-- 1 root root 15561616 Dec 12 09:06 local_mnist_parquet/mnist/train/0000.parquet


In [None]:
import pandas as pd

df_test = pd.read_parquet("local_mnist_parquet/mnist/test/0000.parquet", engine="pyarrow")
df_train = pd.read_parquet("local_mnist_parquet/mnist/train/0000.parquet", engine="pyarrow")

print(df_test.info())

print('test: ', len(df_test))
print('train:', len(df_train))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   image   10000 non-null  object
 1   label   10000 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 156.4+ KB
None
test:  10000
train: 60000


# その他：　様々なパッケージから利用可能です。

In [3]:
from sklearn.datasets import fetch_openml
X, y = fetch_openml('mnist_784', version=1, return_X_y=True)


In [1]:
import tensorflow as tf
(train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data()


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


In [2]:
import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)


100%|██████████| 9.91M/9.91M [00:00<00:00, 59.1MB/s]
100%|██████████| 28.9k/28.9k [00:00<00:00, 1.71MB/s]
100%|██████████| 1.65M/1.65M [00:00<00:00, 14.8MB/s]
100%|██████████| 4.54k/4.54k [00:00<00:00, 11.0MB/s]
