# 📉 O que é t-SNE

O **t-Distributed Stochastic Neighbor Embedding (t-SNE)** é um algoritmo poderoso para **redução de dimensionalidade**, amplamente utilizado para a visualização de conjuntos de dados de alta dimensão. Desenvolvido por **Laurens van der Maaten** e **Geoffrey Hinton** em 2008, o t-SNE é particularmente bem-sucedido em:

- Capturar a **estrutura local de dados complexos**
- Revelar **agrupamentos em um espaço de baixa dimensão** (geralmente 2D ou 3D)

---

## ⚙️ Como o t-SNE Funciona?

O t-SNE começa com a **compreensão de que em um espaço de alta dimensão**, cada ponto de dados pode ser visto como um ponto em um **espaço multidimensional**.

O algoritmo transforma as **distâncias entre os pontos em probabilidades condicionais**, que representam **similaridades**.

> A ideia é que pontos que são próximos uns dos outros tenham uma **alta probabilidade de serem "vizinhos"**, e aqueles que estão distantes tenham uma **probabilidade baixa**.

![image.png](attachment:image.png)

## ❓ Por que usar t-SNE?

Utilizamos o **t-SNE** para **simplificar a complexidade dos dados**, permitindo-nos **observar padrões e grupos que são difíceis** de visualizar em múltiplas dimensões.

Por exemplo, na **análise de dados genéticos**, o t-SNE pode ajudar a **identificar subgrupos de células com padrões de expressão gênica similares**, apesar da complexidade e da grande dimensão dos dados.

## 🧭 Etapas do t-SNE

### 1️⃣ Medindo Similaridades

Imagine que cada ponto de dados em um espaço de alta dimensão seja uma pessoa em uma festa.  
O **t-SNE** começa calculando o quanto cada pessoa (ponto de dados) prefere ficar perto de cada outra pessoa.  
Essa "preferência" é medida usando a **distância entre eles**:  
- Pessoas mais próximas são mais propensas a serem "amigas".
- Isso é convertido em **probabilidades**, com amigos próximos tendo **alta probabilidade** de ficarem juntos, e conhecidos distantes tendo **baixa probabilidade**.

---

### 2️⃣ Criando o Mapa

Depois, o **t-SNE** cria um **mapa**, que é uma representação mais simples onde as pessoas (pontos de dados) também estão presentes.  
Mas desta vez, o espaço é muito menor (como mudar de um grande salão para uma sala pequena).  

🔄 Aqui, ele tenta colocar todos no espaço pequeno **mantendo as amizades (similaridades)** tanto quanto possível.

---

### 3️⃣ Comparação de Similaridades

Agora, o **t-SNE** olha para as **probabilidades no espaço original** (o grande salão) e no **espaço pequeno** (a sala) e verifica quão bem as amizades foram preservadas.

Se duas pessoas que eram próximas no espaço original **não estiverem próximas no espaço reduzido**, há uma **penalidade**.  
O t-SNE ajusta as posições no espaço pequeno tentando **minimizar essas penalidades**.

---

### 4️⃣ Otimização

Este processo de ajustar as posições é como um **jogo de quebra-cabeça**, onde se tenta **fazer todos felizes com suas posições relativas**.

O t-SNE faz **muitos pequenos ajustes**, sempre tentando manter amigos próximos, até encontrar uma configuração no espaço menor onde as **amizades sejam bem representadas**, de acordo com as **probabilidades originais**.

---

### 5️⃣ Resultado Final

Depois de muitos ajustes, o **t-SNE** finaliza com uma configuração onde, em geral, **pessoas que eram próximas no espaço de muitas dimensões ainda estão próximas no espaço de poucas dimensões**.

🔍 Isso permite **visualizar e entender padrões e grupos nos dados** que seriam muito difíceis de perceber em um espaço de muitas dimensões.

![image-2.png](attachment:image-2.png)

## ⚙️ Mecânica do t-SNE

### 📊 Probabilidades e Similaridades

O primeiro passo no **t-SNE** é converter as **distâncias euclidianas entre os pontos em probabilidades** que somam um para cada ponto.

🔸 Isso é feito usando:
- A **distribuição Gaussiana (normal)** para os dados de entrada de alta dimensão
- A **distribuição t de Student** para o mapa de baixa dimensão

---

### ⚠️ O Desafio da "Maldição da Dimensionalidade"

A **"maldição da dimensionalidade"** refere-se ao fenômeno onde o aumento das dimensões dos dados leva a problemas como:
- Aumento do espaço vazio  
- Distorção das relações de distância

O t-SNE aborda esse desafio **focando nas probabilidades de similaridade**, em vez de apenas replicar distâncias métricas.  
🔍 Isso ajuda a **preservar a estrutura local dos dados**.

![image.png](attachment:image.png)

## 🔽 Otimização por Gradiente Descendente

O **t-SNE** utiliza uma técnica chamada **gradiente descendente** para **minimizar a diferença entre as probabilidades** no espaço de alta dimensão e no espaço projetado de baixa dimensão.

🧮 Este processo é conhecido como **minimização da divergência de Kullback-Leibler** entre as duas distribuições de probabilidades, que mede **quão bem o espaço de baixa dimensão representa o de alta dimensão**.

![image-2.png](attachment:image-2.png)

## ⚠️ Desafios e Limitações do t-SNE

### 🎛️ Sensibilidade aos Hiperparâmetros

Um dos desafios ao usar o **t-SNE** é sua **sensibilidade a hiperparâmetros** como o *perplexity*, que indica quantos vizinhos próximos cada ponto considera.

🔹 A escolha deste parâmetro pode afetar significativamente a **aparência dos gráficos finais**  
🔹 **Não existe um valor único ideal** para todos os conjuntos de dados

### ❗ Limitações na Interpretação de Clusters

Apesar de o **t-SNE** ser excelente para **visualizar agrupamentos**, é importante **não tirar conclusões precipitadas** sobre os "clusters" visualizados.

O t-SNE pode:
- Criar ou **exagerar clusters**
- Não representar divisões naturais nos dados  
🧠 Isso acontece devido à sua forma de **otimização** e representação.

### 🖥️ Custo Computacional e Escalabilidade

O **t-SNE** pode ser **computacionalmente intensivo**, especialmente para conjuntos de dados muito grandes.

Isso ocorre porque o algoritmo **compara todos os pares de pontos** para calcular as probabilidades, o que pode se tornar **impraticável com o aumento do número de pontos**.

## 🚀 Aplicações do t-SNE

### 🧬 Biologia Computacional

No campo da **biologia computacional**, o **t-SNE** é frequentemente utilizado para **analisar dados de sequenciamento de células únicas**, ajudando os pesquisadores a identificar tipos de células com base em seus **perfis de expressão gênica**.

🔍 Este tipo de análise pode **revelar novos subtipos celulares** e **potenciais alvos terapêuticos**.

---

### 🖼️ Reconhecimento de Imagens

O **t-SNE** também é aplicado no **reconhecimento de imagens**, onde pode ser usado para **reduzir a dimensão das representações de imagem** antes de classificações ou outras análises.

🧠 Visualizar essas representações ajuda a entender **como diferentes categorias de imagens são percebidas por modelos de IA**.

![image.png](attachment:image.png)

## 🔍 t-SNE vs PCA

### 🧮 PCA (Análise de Componentes Principais)

- **Método**: Linear – projeta os dados em direções que maximizam a variância, sem tentar preservar relações não-lineares.
- **Vantagens**:
  - Rápido e eficiente para grandes conjuntos de dados
  - Reduz ruídos e destaca características mais importantes dos dados
- **Desvantagens**:
  - Não captura complexidades e padrões não-lineares
  - Pode perder informações importantes em dados com estrutura intrincada
- **Melhores usos**:
  - Análise inicial para obter uma visão geral das principais variações
  - Útil em finanças e áreas com predominância de relações lineares

---

### 🌐 t-SNE

- **Método**: Não-linear – preserva a estrutura local dos dados ao mapear pontos próximos em alta dimensão para pontos próximos em baixa dimensão.
- **Vantagens**:
  - Excelente para visualizar agrupamentos e padrões complexos
  - Preserva a vizinhança local, permitindo visualizações intuitivas
- **Desvantagens**:
  - Computacionalmente intensivo (especialmente com grandes datasets)
  - Sensível a hiperparâmetros como *perplexidade*
- **Melhores usos**:
  - Análise exploratória para descobrir padrões ocultos
  - Especialmente útil em biologia, marketing e campos com relações não-lineares

## 🎯 O hiperparâmetro *Perplexity*

Imagine que você está numa festa e quer decidir com quantas pessoas você deve conversar.

- Se você conversar com **muitas pessoas**, terá uma boa ideia geral de quem está na festa.
- Se conversar com **poucas pessoas**, entenderá bem essas poucas, mas não tanto sobre a festa como um todo.

A **perplexidade** no t-SNE é semelhante a isso: é como se fosse um número que você escolhe para decidir **quantas "pessoas" (ou pontos de dados)** cada ponto deve considerar como seus **vizinhos próximos**.

---

### A *perplexidade* ajuda a determinar:

- **Quantos vizinhos próximos** cada ponto deve considerar:
  - 🔹 Um número **pequeno**: cada ponto olha só para seus vizinhos muito próximos (conversa com poucos).
  - 🔹 Um número **grande**: cada ponto considera muitos outros como seus vizinhos (conversa com muitos na festa).

---

### 🤔 Como Escolher a *Perplexidade*?

- Não muito alta, não muito baixa:
  - 🔸 Se for **muito alta**, o t-SNE pode perder detalhes, pois cada ponto tenta ser amigo de quase todos.
  - 🔸 Se for **muito baixa**, os pontos podem formar **pequenos grupinhos isolados**, não representando bem os dados.

- **Depende dos dados**: não existe um número mágico.  
🧪 Você precisa testar diferentes valores para ver **qual oferece a melhor visão geral** dos seus dados.
