## Redução de dimensionalidade e visualização dos dados 

## Bibliotecas usadas

In [None]:
!pip show bokeh

Name: bokeh
Version: 2.1.1
Summary: Interactive plots and applications in the browser from Python
Home-page: http://github.com/bokeh/bokeh
Author: Bokeh Team
Author-email: info@bokeh.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.6/dist-packages
Requires: python-dateutil, numpy, pillow, Jinja2, tornado, typing-extensions, PyYAML, packaging
Required-by: panel


In [None]:
!pip show pandas

Name: pandas
Version: 1.1.4
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: None
Author-email: None
License: BSD
Location: /usr/local/lib/python3.6/dist-packages
Requires: numpy, pytz, python-dateutil
Required-by: xarray, vega-datasets, statsmodels, sklearn-pandas, seaborn, pymc3, plotnine, pandas-profiling, pandas-gbq, pandas-datareader, mlxtend, mizani, holoviews, gspread-dataframe, google-colab, fix-yahoo-finance, fbprophet, fastai, cufflinks, cmdstanpy, altair


In [None]:
!pip show numpy

Name: numpy
Version: 1.18.5
Summary: NumPy is the fundamental package for array computing with Python.
Home-page: https://www.numpy.org
Author: Travis E. Oliphant et al.
Author-email: None
License: BSD
Location: /usr/local/lib/python3.6/dist-packages
Requires: 
Required-by: yellowbrick, xgboost, xarray, wordcloud, umap-learn, torchvision, torchtext, torch, tifffile, thinc, Theano, tensorflow, tensorflow-probability, tensorflow-hub, tensorflow-datasets, tensorboard, tables, statsmodels, spacy, sklearn-pandas, seaborn, scs, scipy, scikit-learn, resampy, PyWavelets, python-louvain, pystan, pysndfile, pymc3, pyemd, pyarrow, plotnine, patsy, pandas, osqp, opt-einsum, opencv-python, opencv-contrib-python, numexpr, numba, np-utils, nibabel, moviepy, mlxtend, mizani, missingno, matplotlib, matplotlib-venn, lucid, lightgbm, librosa, knnimpute, Keras, Keras-Preprocessing, kapre, jpeg4py, jaxlib, jax, imgaug, imbalanced-learn, imageio, hyperopt, holoviews, h5py, gym, gensim, folium, fix-yahoo-fin

In [None]:
!pip show sklearn

Name: sklearn
Version: 0.0
Summary: A set of python modules for machine learning and data mining
Home-page: https://pypi.python.org/pypi/scikit-learn/
Author: UNKNOWN
Author-email: UNKNOWN
License: None
Location: /usr/local/lib/python3.6/dist-packages
Requires: scikit-learn
Required-by: 


## Introdução ao Bokeh

Esta seção contempla uma breve introdução à biblioteca de visualização **Bokeh**, que será utilizado daqui em diante.

**Bokeh** é uma biblioteca de visualização gráfica interativa de "baixo-nível", ou seja, não possui funções prontas para plotagens em formatos específicos (histograma, line-plot, scatter-plot, etc.), mas sim métodos para instanciar **Glyphs**, figuras geométricas com propriedades customizáveis.

Com relação à parte interativa, a **Bokeh** possibilita o uso de **tools**, ferramentas que permitem ao usuário interagir com os dados.


In [None]:
# Imports padrão para visualizar os dados
from bokeh.io import output_file, show

# Figure é o espaço criado para inserir Glyphs
from bokeh.plotting import figure 

# Import para visualizar no Jupyter Notebook
from bokeh.io import output_notebook

import numpy as np

**Glyphs** são a unidade fundamental de todos os plots da Bokeh, são formas geométricas pré-definidas(triângulo, círculo, estrela, etc.) com propriedades customizáveis (posição, cor, tamanho, opacidade, etc.).

In [None]:
# Ambiente onde são instanciados os Gliphs
plot = figure( plot_width=400, plot_height=400, tools="pan,box_zoom", title="Exemplo de Glyphs" )

# Instanciando um conjunto de Glyphs circulo
plot.circle(x=[1.5, 2.0, 3.0, 3.0, 1.5], 
            y=[-1.0, 2.0, 3.0, 4.5, 2.0], 
            size=[10, 20, 10, 10, 15])

# Instanciando um conjunto de triangulos
plot.triangle(x=2.5, y=[0,1,2,3,4,5], color='red', size=8)

output_notebook()
show(plot)

**Tools** fazem parte da premissa interativa da Bokeh, permitem a interação do usuário com o plot. Essas ferramentas podem ser dividas em três tipos: Navegação, Inspeção e Edição.

Podem ser adicionadas no instanciamento de uma figura, por uma string com o nome de cada uma, separados por vírgulas, ou adicionadas manualmente após.

In [None]:
 from bokeh.models import CrosshairTool
 # Dados
 x = np.linspace(-1,1,20)
 y1 = np.sqrt(1 - x**2)
 y2 = -np.sqrt(1 - x**2)

# Figure
plot = figure(plot_width=400, plot_height=400, 
              tools="pan,wheel_zoom,hover,save", title="Exemplo de tools")

plot.add_tools(CrosshairTool())

# Plots
plot.triangle( x=x, y=y1, color='orange', size=8 )
plot.circle( x=x, y=y2, color='blue', size=8 )

output_notebook()

show(plot)

## Datasets utilizados

Na análise, serão utilizados os seguites dadasets:

1. **Diabetes dataset** - Conjunto de dados representando um conjunto de informações de pacientes possivelmente reelevantes no diagnóstico de diabetes junto ao diagnóstico em si
2. **Red Wine quality dataset** - Conjunto de dados contendo informações fisico-químicas de vinhos vermelhos e um rank de qualidade

In [None]:
import pandas as pd

Vamos importar os datasets da internet, utilizando links que hospedam os arquivos **.csv**

In [None]:
diabetes = pd.read_csv('https://gist.githubusercontent.com/SoumenAtta/e00bd5cb6ed13a983bf48b845325c837/raw/d5e3560b8bfe97ba126b5e94bed4487c2b1ed787/diabetes.csv')
wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';')

In [None]:
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
wine.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


## Visualizando datasets

Para entender melhor o funcionamento do **Bokeh**, sua implementação com os dataframes do pandas, e customização de Glyphs e tools, vamos plotar os datasets.

Um outro tipo importante na biblioteca é o **ColumnDataSource**, que consiste em um dataset, possui colunas mapeando os parâmetros das instâncias, otimizado para as plotagens.
Com esses 

Na plotagem abaixo, vamos implementar:
1. Mapeamento de cores de acordo com o Outcome do dataset Diabetes
2. Highlight em um glyph selecionado por uma Tool de seleção
3. Plotando informação do dataset como um ColumnDataSource
4. Mostrar informações adicionais sobre um ponto com a HoverTool, útil para visualuzação multidimensional

### Diabetes

In [None]:
from bokeh.models import ColumnDataSource

from bokeh.models import HoverTool
from bokeh.models import BoxSelectTool, LassoSelectTool

diabetes_cds = ColumnDataSource(diabetes)

## Criando o array de cores categóricas
diabetes_cds.add(['blue' if x == 0 else 'red' for x in diabetes['Outcome']], name='cores')

plot = figure(plot_width=600, plot_height=600, title="BloodPressure x Glucose Diabetes plot", 
              x_axis_label = "BloodPressure", 
              y_axis_label = "Glucose")

## Criando uma lista de atributos para alimentar os tooltips da HoverTool
DIABETES_TOOLTIPS = [
    ("index", "$index"),
    ("Diabetes", "@Outcome"),
    ("Pressão sanguínea", "@BloodPressure mm Hg"),
    ("Concentração de Glicose", "@Glucose"),
    ("Insulina","@Insulin mu U/ml"),
    ("Gravidezes","@Pregnancies")
]
hover_tool = HoverTool(tooltips=DIABETES_TOOLTIPS)
plot.add_tools(hover_tool)

plot.add_tools(BoxSelectTool())
plot.add_tools(LassoSelectTool())

## Plotando os dados
circles = plot.circle(x='BloodPressure', y='Glucose', color='cores',
                      nonselection_fill_color='grey', # Customizando a cor na seleção
                      size=6, fill_alpha=0.7, source=diabetes_cds)

output_notebook()
show(plot)

### Red Wine Quality

In [None]:
from bokeh.palettes import Magma

wine_cds = ColumnDataSource(wine)

## Criando o array de cores categóricas
wine_cds.add([ Magma[9][x] for x in wine['quality'] ], name='cores')

plot = figure(plot_width=600, plot_height=600, title="Wine Quality Plot - residual sugar X density", 
              x_axis_label = "pH", 
              y_axis_label = "density")

## Criando uma lista de atributos para alimentar os tooltips da HoverTool
WINE_TOOLTIPS = [
    ("pH", "@pH"),
    ("Sulfatos", "@sulphates"),
    ("Álcool", "@alcohol"),
    ("Qualidade","@quality")
]
hover_tool = HoverTool(tooltips=WINE_TOOLTIPS)
plot.add_tools(hover_tool)

## Criando uma lista de atributos para alimentar os tooltips da HoverTool
plot.add_tools(BoxSelectTool())
plot.add_tools(LassoSelectTool())

## Plotando os dados
circles = plot.circle(x='pH', y='density', color='cores', line_color='cores',
                      nonselection_fill_color='grey', # Customizando a cor na seleção
                      size=6, fill_alpha=0.8, source=wine_cds)

output_notebook()
show(plot)

## Redução de dimensionalidade

Existem muitas razões para diminuir a dimensionalidade de um dataset, primeiramente, um grande número de features dificultam a interpretabilidade dos dados, já que não podemos, de modo geral, visualizar plots acima de 3 dimensões. 

Entretanto, esse não é o maior problema. Conforme o número de dimensões aumenta, a distância média entre dois pontos qualquer vai se tornando cada vez maior, e as instâncias do Dataset se tornam cada vez mais isoladas umas das outras. Dessa forma, um algoritmo de Machine Learning vai ter muito mais dificuldade de englobar todas as instâncias, tendo que se "contorcer" mais, causando perda de generalidade e Overfitting. Esse problema é conhecido como **Curse of Dimensionality**

O principal responsável pela viabilidade de uma redução de dimensionalidade é a forma em que as variáveis estão distribuídas. De modo geral, em problemas de Machine Learning, as variáveis não estão perfeitamente uniformemente distribuídas ao longo de todo o espaço disponível, mas seguem algum tipo de padrão.

De modo geral, algoritmos de redução de dimensionalidade baseiam se em dois métodos, projeção ou aprendizado não-supervisionado de variâncias(topologia). No primeiro, se tenta aprender qual o melhor sub-espaço(retas, planos, hiperplanos) que representa adequadamente os dados. No segundo, supõe-se que os dados representados no espaço atual são, na verdade, uma variância topológica de um espaço dimensionalmente menor "dobrada" em um espaço maior, como uma folha (espaço 2D) enrolada em um cone (espaço 3D).

Além disso, a reelevância das features para a tarefa é outro fator importante, features irrelevantes ou redundantes podem ser removidas para facilitar o aprendizado dos modelos.

In [None]:
from bokeh.layouts import row

x = np.linspace(-1,1,100)
y1 = 2*x + 1 + np.random.rand( x.shape[0] )/5

y21 = np.sqrt(1 - x**2)+ np.random.rand( x.shape[0] )/5
y22 = -np.sqrt(1 - x**2)+ np.random.rand( x.shape[0] )/5

plot1 = figure(plot_width=300, plot_height=300, tools="", title="Exemplo de sub-espaço (1D) ocupado")
plot1.circle(x=x,y=y1, color='black')

plot2 = figure(plot_width=300, plot_height=300, tools="", title="Exemplo de variância (1D) no espaço (2D)")
plot2.circle(x=x,y=y21, color='black')
plot2.circle(x=x,y=y22, color='black')

show(row([plot1, plot2]))

*Para deixar o texto mais enxuto, criaremos uma função para plotar ColumnDataSource*

In [None]:
def plot_2d_cds(cds,title, TOOLTIPS):
  plot = figure(plot_width=400, plot_height=400, title=title)

  hover_tool = HoverTool(tooltips=TOOLTIPS)
  plot.add_tools(hover_tool)

  output_notebook()
  plot.circle(x='x1_reduzido', y='x2_reduzido', source=cds, color='cores', size=6, fill_alpha=0.7 )

  show(plot)

### PCA - Principal Components Analysis

Esse método tenta representar o conjunto de dados através de seus **componentes principais**.  A premissa é escolher os n vetores que melhor capturem a "forma" (variância estatística) dos dados sobre o domínio do problema, dando preferência para features de grande variâcia, em detrimento das features com maior tendência central.

Para mais informações, veja o [vídeo](https://www.youtube.com/watch?v=FgakZw6K1QQ&ab_channel=StatQuestwithJoshStarmer) e o link da [documentação oficial](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html) do Sklearn sobre o PCA.

*Obs. 1*

*O PCA é aplicado sobre o domínio do problema, normalmente denotado por X, portanto, precisamos remover a variável y, variável de interesse, do dataset.*

*Obs. 2*

*O PCA deve ser aplicado sobre um conjunto de dados com média $\mu=0$, o Sklearn faz isso automaticamente na classe PCA, mas é um ponto que merece atenção.*

*Obs. 3*

*O Sklearn oferece várias variações do PCA, uma especialmente importante é o KernelPCA, específico para casos onde os dados não podem ser representados por vetores no espaço dimensional atual. Esse método utiliza de funções especiais para aumentar a dimensionalide dos dados, então trazendo-os para a dimensão desejada.*

In [None]:
from sklearn.decomposition import PCA

# Instanciando PCA com 2 vetores (componentes principais)
pca = PCA(n_components = 2)

# Transformando o dataframe do pandas em um ArrayNumpy
# com a coluna 'Outcome' removida
diabetes_np = diabetes.drop(columns=["Outcome"]).to_numpy()
print( "Shape antes do PCA:", diabetes_np.shape )

# Reduzindo a dimensionalidade com o PCA
## Ajuste
pca.fit(diabetes_np)
## Transformação
diabetes_np_reduced = pca.transform(diabetes_np)
print( "Shape depois do PCA:", diabetes_np_reduced.shape )
print( "Porcentagem de variância capturada: {:.2f}%".format(100*pca.explained_variance_ratio_.sum()) )

Shape antes do PCA: (768, 8)
Shape depois do PCA: (768, 2)
Porcentagem de variância capturada: 95.01%


Com os dados reduzidos em mãos, podemos incluílos no ColumDataSource do dataset diabetes, para conseguirmos utilizar as funções do Bokeh

In [None]:
diabetes_cds.add(diabetes_np_reduced[:,0], name='x1_reduzido')
diabetes_cds.add(diabetes_np_reduced[:,1], name='x2_reduzido')

'x2_reduzido'

In [None]:
plot_2d_cds(diabetes_cds, "Diabetes plot - Dimensionalidade Reduzida", DIABETES_TOOLTIPS)

Pela imagem acima, conseguimos perceber que a redução de dimensionalidade conseguiu preservar a separabilidade de classes do problema, portanto, é uma boa opção. 

Por fim, com o Sklearn é visualizar quais foram os vetores escolhidos para representar os nossos dados.

In [None]:
pca.components_.round(2)

array([[-0.  ,  0.1 ,  0.02,  0.06,  0.99,  0.01,  0.  , -0.  ],
       [-0.02, -0.97, -0.14,  0.06,  0.09, -0.05, -0.  , -0.14]])

Percebemos que o vetor 1 está preponderantemente sobre a **dimensão 4 - Insulin** e o vetor 2, sobre a **dimensão 1 - Glucose**. Analisando os desvios-padrão (raiz da variância), essas duas features são exatamente as que apresentam os maior valores.

In [None]:
diabetes.describe().loc['std'].round()

Pregnancies                   3.0
Glucose                      32.0
BloodPressure                19.0
SkinThickness                16.0
Insulin                     115.0
BMI                           8.0
DiabetesPedigreeFunction      0.0
Age                          12.0
Outcome                       0.0
Name: std, dtype: float64

### Feature Selection com DecisionTrees e RandomForests 

DecisionTrees e RandomForests são normalmente utilizadas como classificadores, entretanto, por repartirem sequencialmente os dados baseados em suas features e um critério de impureza, isto é, selecionando sempre a melhor feature para fazer a melhor separação, esses algoritmos são capazes de determinar quais das dimensões se apresenta mais reelevante na classificação de um conjunto.


Vamos aplicar esse método sobre o dataset Wines

In [None]:
from sklearn.ensemble import RandomForestClassifier

wines_np = wine.drop(columns='quality').to_numpy()
wines_np_quality = wine['quality'] .to_numpy()

# Instanciando um RandomForestClassifier
forest_clf = RandomForestClassifier(n_estimators=250, random_state=214, max_depth=5)
## Treino
forest_clf.fit(wines_np, wines_np_quality)
## Importance selection
forest_clf.feature_importances_.round(2)

array([0.05, 0.12, 0.05, 0.03, 0.04, 0.04, 0.12, 0.08, 0.04, 0.14, 0.3 ])

E no dataset Diabetes

In [None]:
diabetes_np = diabetes.drop(columns='Outcome').to_numpy()
diabetes_np_outcome = diabetes['Outcome'] .to_numpy()

# Instanciando um RandomForestClassifier
forest_clf = RandomForestClassifier(n_estimators=250, random_state=214, max_depth=5)
## Treino
forest_clf.fit(diabetes_np, diabetes_np_outcome)
## Importance selection
forest_clf.feature_importances_.round(2)

array([0.08, 0.34, 0.05, 0.05, 0.07, 0.18, 0.09, 0.15])

No dataset Wines, podemos ver que as features têm mais ou menos a mesma importância, entretanto ainda é possível escolher as mais importantes. No Diabetes, a diferença é mais acentuada, facilitando a esolha das features que fazem alguma diferença.

### t-Distributed Stochastic Neighbor Embedding (t-SNE)

Esta técnica de redução de dimensionalidade é geralmente utilizada para visualizações em baixa-escala dos datasets. O algoritmo baseia-se em uma métrica de similaridade entre as instâncias, projetando-as em um espaço dimensional menor, enquanto tenta manter instâncias próximas juntas e as diferentes, separadas. Útil para visualização de possíveis *clusters*.

[Documentação oficial](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html) do Sklearn

In [None]:
from sklearn.manifold import TSNE

Aplicando a técnica no dataset de diabetes

In [None]:
diabetes_np = diabetes.drop(columns='Outcome').to_numpy()

# Por padrão, reduz a dimensionalidade para 2
tsne = TSNE(random_state=214)
diabetes_np_reduced = tsne.fit_transform(diabetes_np)

# Adicionando as variáveis no ColumnDataSource
diabetes_cds.add(diabetes_np_reduced[:,0], name='x1_reduzido')
diabetes_cds.add(diabetes_np_reduced[:,1], name='x2_reduzido')

'x2_reduzido'

In [None]:
plot_2d_cds(diabetes_cds, "Diabetes plot - Dimensionalidade Reduzida com TSNE", DIABETES_TOOLTIPS)

Aplicando a técnica no dataset de vinhos

In [None]:
wine_np_reduced = tsne.fit_transform(wines_np)

# Adicionando as variáveis no ColumnDataSource
wine_cds.add(wine_np_reduced[:,0], name='x1_reduzido')
wine_cds.add(wine_np_reduced[:,1], name='x2_reduzido')

'x2_reduzido'

In [None]:
plot_2d_cds(wine_cds, "Wine Quality Plot - Dimensionalide Reduzida com TSNE", WINE_TOOLTIPS)

### Locally Linear Embedding

Esta técnica de redução de dimensionalidade baseia-se na preservação das relações lineares entre uma instância es seus vizinhos mais próximos, buscando um espaço dimensionalmente menor que preserve essas relações.

[Documentação oficial](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.LocallyLinearEmbedding.html) do Sklearn

In [None]:
from sklearn.manifold import LocallyLinearEmbedding

Aplicando sobre o dataset de diabetes

In [None]:
lle = LocallyLinearEmbedding(n_components=2, n_neighbors=20)

diabetes_np = diabetes.drop(columns='Outcome').to_numpy()
diabetes_np_reduced = lle.fit_transform(diabetes_np)

# Adicionando as variáveis no ColumnDataSource
diabetes_cds.add(diabetes_np_reduced[:,0], name='x1_reduzido')
diabetes_cds.add(diabetes_np_reduced[:,1], name='x2_reduzido')

'x2_reduzido'

In [None]:
plot_2d_cds(diabetes_cds, "Diabetes plot - Dimensionalidade Reduzida com LLE", DIABETES_TOOLTIPS)


Aplicando sobre o dataset Wines

In [None]:
lle = LocallyLinearEmbedding(n_components=2, n_neighbors=15)

wine_np_reduced = lle.fit_transform(wines_np)

# Adicionando as variáveis no ColumnDataSource
wine_cds.add(wine_np_reduced[:,0], name='x1_reduzido')
wine_cds.add(wine_np_reduced[:,1], name='x2_reduzido')

'x2_reduzido'

In [None]:
plot_2d_cds(wine_cds, "Wine Quality Plot - Dimensionalide Reduzida com LLE", WINE_TOOLTIPS)

### Isomap

[Isomap](https://en.wikipedia.org/wiki/Isomap) é um algoritmo não-linear baseado na manutenção das distâncias geodésicas entre os pontos do dataset, calculadas a partir de um grafo gerado por conexões de vizinhos mais próximos.

É adequado para manter as relações de proximidade entre as variáveis do domínio original.

[Documentação oficial](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.Isomap.html) do Sklearn.

Ver mais no [link](https://benalexkeen.com/isomap-for-dimensionality-reduction-in-python/)

In [None]:
from sklearn.manifold import Isomap

Aplicando sobre o Dataset Diabetes

In [None]:
isomap = Isomap(n_neighbors=6)

diabetes_np = diabetes.drop(columns='Outcome').to_numpy()
diabetes_np_reduced = isomap.fit_transform(diabetes_np)

# Adicionando as variáveis no ColumnDataSource
diabetes_cds.add(diabetes_np_reduced[:,0], name='x1_reduzido')
diabetes_cds.add(diabetes_np_reduced[:,1], name='x2_reduzido')

plot_2d_cds(diabetes_cds, "Diabetes plot - Dimensionalidade Reduzida com Isomap", DIABETES_TOOLTIPS)

Aplicando sobre o dataset Wines

In [None]:
isomap = Isomap(n_neighbors=15)

wine_np_reduced = lle.fit_transform(wines_np)

# Adicionando as variáveis no ColumnDataSource
wine_cds.add(wine_np_reduced[:,0], name='x1_reduzido')
wine_cds.add(wine_np_reduced[:,1], name='x2_reduzido')

plot_2d_cds(wine_cds, "Wine Quality Plot - Dimensionalide Reduzida com Isomap", WINE_TOOLTIPS)

### Sammon mapping

O intuito desse algoritmo também é manter da melhor forma possível as relações originais, padrões e estruturas. Para isso, utiliza um método iterativo de otimização, tentando minimizar a diferença entre as distâncias euclidianas entre instâncias no espaço original e no espaço reduzido. Funciona bem para a visualização do comportamento das features.

Ver sobre o funcionamento no [Link](https://data-farmers.github.io/2019-06-10-sammon-mapping/)

O Sammon Mapping não está disponível nas bibliotecas padrão, portanto temos que importá-lo de forma especial.

In [None]:
!git clone https://github.com/tompollard/sammon

Cloning into 'sammon'...
remote: Enumerating objects: 62, done.[K
remote: Total 62 (delta 0), reused 0 (delta 0), pack-reused 62[K
Unpacking objects: 100% (62/62), done.


In [None]:
!mv -i ./sammon/sammon.py ./sammon.py

Aplicando sobre o Dataset Diabetes

In [None]:
from sammon import sammon

diabetes_np = diabetes.drop(columns='Outcome').to_numpy()
diabetes_np_reduced = sammon(diabetes_np, n = 2)[0]

# Adicionando as variáveis no ColumnDataSource
diabetes_cds.add(diabetes_np_reduced[:,0], name='x1_reduzido')
diabetes_cds.add(diabetes_np_reduced[:,1], name='x2_reduzido')

epoch = 1 : E = 0.0155536389
epoch = 2 : E = 0.0155391684
epoch = 3 : E = 0.0154770014
epoch = 4 : E = 0.0144461085
epoch = 5 : E = 0.0139437190
epoch = 6 : E = 0.0134433987
epoch = 7 : E = 0.0134190248
epoch = 8 : E = 0.0125242474
epoch = 9 : E = 0.0125155298
epoch = 10 : E = 0.0123490820
epoch = 11 : E = 0.0120805243
epoch = 12 : E = 0.0119953979
epoch = 13 : E = 0.0118025241
epoch = 14 : E = 0.0105394474
epoch = 15 : E = 0.0090803356
epoch = 16 : E = 0.0079878047
epoch = 17 : E = 0.0078145468
epoch = 18 : E = 0.0065756553
epoch = 19 : E = 0.0064219134
epoch = 20 : E = 0.0062797173
epoch = 21 : E = 0.0062744099
epoch = 22 : E = 0.0062526802
epoch = 23 : E = 0.0062180294
epoch = 24 : E = 0.0062073587
epoch = 25 : E = 0.0062011872
epoch = 26 : E = 0.0062009739
epoch = 27 : E = 0.0061962412
epoch = 28 : E = 0.0061936261
epoch = 29 : E = 0.0061921636
epoch = 30 : E = 0.0061882519
epoch = 31 : E = 0.0061865075
epoch = 32 : E = 0.0061852486
epoch = 33 : E = 0.0061843246
epoch = 34 : E = 0.

'x2_reduzido'

In [None]:
plot_2d_cds(diabetes_cds, "Diabetes plot - Dimensionalidade Reduzida com Sammon Mapping", DIABETES_TOOLTIPS)

## Conclusão

Esse notebook abordou técnicas de redução de dimensionalidade de forma geral, o campo de estudo dessa área é muito vasto, com muitas especificidades e potenciais. Cada algoritmo pode ser melhor para uma situação ou dataset, pode ter seus hiper-parâmetros tunados e até ser utilizados em conjunto, portanto, é sempre uma boa ideia testar e se aprofundar teóricamente em alguns deles.