# Incremental PCA

Jednym z problemów z PCA jest to, że wymaga, aby cały zestaw treningowy zmieścił się do pamięci, aby algorytm SVD mógł działać.

Na szczęście opracowano algorytmy **incremental PCA (IPCA)**: można podzielić zestaw treningowy na mini-bacze i podawać algorytmowi IPCA po jednym minibatchu na raz. 

Jest to przydatne w przypadku dużych zestawów uczących, a także do stosowania PCA online (tzn. W locie, gdy pojawiają się nowe instancje).

# Zad

Poniższy kod dzieli zbiór danych MNIST na 100 mini-baczy i przekazuje je do klasy IncrementalPCA Scikit-Learn, aby zmniejszyć wymiarowość.

Zauważ, że musisz wywołać metodę **partial_fit()** z każdą mini-baczu zamiast metody fit() na całym zbiorze treningowym:

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import os
import numpy as np

from sklearn.datasets import fetch_mldata
from sklearn.decomposition import IncrementalPCA

mnist = fetch_mldata('MNIST original')
X = mnist.data.astype('float64')
y = mnist.target
print(X.shape, " ", y.shape)


(70000, 784)   (70000,)


In [7]:
n_batches = 100
inc_pca = IncrementalPCA(n_components=154)
for X_batch in np.array_split(X, n_batches):
    inc_pca.partial_fit(X_batch)
X_mnist_reduced = inc_pca.transform(X)

# Zad

Proszę zwizualizować dane MNIST za pomocą redukcji wymiaru do 2.

# memmap

* Alternatywnie możesz użyć klasy memmap z NumPy, która pozwala manipulować dużą tablicą przechowywaną w pliku binarnym na dysku, tak jakby była ona w całości w pamięci; 

* Klasa ładuje tylko dane, których potrzebuje w pamięci, gdy tego potrzebuje. 

* Ponieważ klasa IncrementalPCA wykorzystuje tylko niewielką część tablicy w danym momencie, wykorzystanie pamięci pozostaje pod kontrolą. 

* Umożliwia to wywołanie zwykłej metody fit(), jak widać w następującym kodzie:

# Zad
Utwórzmy strukturę **memmap()** i skopiujmy do niej dane MNIST. Zazwyczaj byłoby to wykonywane przez pierwszy program:

In [11]:
filename = "my_mnist.data"
m, n = X.shape

X_mm = np.memmap(filename, dtype='float32', mode='write', shape=(m, n))
X_mm[:] = X

Teraz usuńmy obiektu memmap().

In [12]:
del X_mm


# Zad

Następnie inny program załaduje dane i użyje ich do redukcji wymiarowości:

In [13]:
X_mm = np.memmap(filename, dtype="float32", mode="readonly", shape=(m, n))

batch_size = m // n_batches
inc_pca = IncrementalPCA(n_components=154, batch_size=batch_size)
inc_pca.fit(X_mm)

IncrementalPCA(batch_size=700, copy=True, n_components=154, whiten=False)

# Zad

Proszę zwizualizować dane MNIST za pomocą redukcji wymiaru do 2.