<h1 style='font-size:40px'> Dimensionality Reduction</h1>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Redução de Dimensionalidade, como seu nome sugere, consiste em reduzir o número de dimensões do nosso dataset. No caso, estaríamos excluindo ou condensando features.
        </li>
        <li> 
            No caso do dataset MNIST, por exemplo, os pixels localizados nas bordas das imagens poderiam ser facilmente removidos, já que são todos brancos para a maioria das instâncias. Seria interessante também condensarmos pixels vizinhos em um único só extraindo a média de suas intensidades.
        </li>
    </ul>
</div>

<h2 style='font-size:30px;'> Mas por que reduzir as dimensões?</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A necessidade de se diminuir as proporções de nossos dados surge da lentidão em treino proporcionada por datasets volumosos. Para a maior parte das empresas, a rapidez dos modelos (juntamente, é claro, com sua qualidade) é algo altamente demandado. 
        </li>
        <li> 
            Outra vantagem de se fazer essa tarefa é tornar possível a criação de gráficos sobre os dados. Conseguir ter um dataset de 2 a 5 dimensões torna possível a criação de scatter plots (eixo x, y, z, tamanho do scatter, colorbar).
        </li>
        <li> 
            Nota: Para grande parte dos casos, reduzir a dimensionalidade dos dados implica um tradeoff entre rapidez de treinamento e qualidade dos algoritmos.
        </li>
    </ul>
</div>

<h2 style='font-size:30px;'> The Curse of Dimesionality</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O autor expõe nesta seção o fato de que aumentar o número de dimensões do dataset torna mais provável o risco de overfitting. Isso porque, em um espaço multidimensional, a distância média entre dois pontos aleatoriamente escolhidos tende a ser assustadoramente grande.  
        </li>
        <li> 
            Com os dados esparsos, encontrar semelhanças entre eles se torna uma tarefa muito mais difícil. Para fazer uma previsão, os modelos terão poucas instâncias em suas mãos para realizarem as devidas comparações. 
        </li>
    </ul>
</div>

<h2 style='font-size:30px;'> Main Approaches for Dimensionality Reduction</h2>
<h3 style='font-size:30px;font-style:italic'> Projection</h3>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Projeção consiste em encontrar um sub-espaço de menores dimensões dentro de um espaço multidimensional no qual projetamos as instâncias de treino.
        </li>
    </ul>
</div>
<center> 
    <h1> Projeção em um espaço 3D</h1>
</center>
<div>
    <img src='projection1.png' width='350px'> 
    <span style='font-size:30px'> &rarr;</span>
    <img src='projection2.png' width='300px'>
</div>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Projeções nem sempre são interessantes. No caso de datasets como o da roleta suíça, as instâncias podem acabar se empilhando, tornando a previsão muito mais difícil.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Manifold Learning</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O Manifold Learing tem como suposição básica a de que o dataset com o qual estamos lidando surgiu da torção de um sub-espaço de dimensões muito menores - o Manifold. Tendo isso em vista, as técnicas de Manifold Learning buscam encontrar esse espaço. 
        </li>
    </ul>
</div>
<center> 
    <img src='manifold1.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Observe podemos entender a roleta suíça como uma dobra em três dimensões de um manifold 2-D.
        </li>
    </ul>
</div>

<h2 style='font-size:30px;'> PCA</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            PCA é um dos algoritmos de redução de dimensionalidade mais populares atualmente. Ele tenta achar o hiperplano que se encontra mais próximo das instâncias de treino (menor distância ao quadrado média).
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Preserving the Variance</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O algoritmo PCA escolhe como eixos aqueles que preservam a maior variância possível dos dados. Dessa maneira, o mínimo possível de informações é perdido.
        </li>
    </ul>
</div>
<center> 
    <img src='pca1.png'>
</center>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Na imagem, o eixo a ser escolhido seria o da linha contínua, pois preserva a maior variância entre as opções. Se quiséssemos dar uma segunda dimensão ao sub-espaço, escolheríamos a linha pontilhada, pois ela é ortogonal ao primeiro eixo e preserva grande parte da variância restante. Cada um dos eixos selecionados pelo PCA são denominados como Principal Components.
        </li>
        <li> 
           Se quiséssemos reduzir a dimensionalidade do dataset para duas dimensões, escolheríamos os dois primeiros Principal Components do PCA.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Principal Components</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O autor aqui adverte que o PCA é bastante sensível a modificações no set de treino. Por isso, é necessário ter bastante cuidado ao tratar as informações.
        </li>
    </ul>
</div>

In [27]:
# Aplicando PCA manualmente pelo Python.
from sklearn.datasets import make_regression
import numpy as np
# Vamos reduzir a dimensão do dataset para 2.
X,y = make_regression(n_features=3, noise=50, bias=2)

# Antes de qualquer coisa, temos que centralizar os dados.
X_centered = X - X.mean(axis=0)

# Extraindo os Principal Components de 'X'.
U, s, Vt = np.linalg.svd(X_centered)
W2 = Vt.T[:, :2]

# Reduzindo a dimensionalidade do dataset.
X2D = X_centered.dot(W2)

In [31]:
# Veja: não necessariamente o PCA vai aumentar a performance do modelo!
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
mean_squared_error(y,LinearRegression().fit(X, y).predict(X)), mean_squared_error(y,LinearRegression().fit(X2D, y).predict(X2D))

(2388.6212670387617, 2458.570542740498)

<p style='color:red'>Using Sckit-Learn