<img src="logoINPE.png">

# Resumo sobre Aprendizado Não Supervisionado

#### O que é Aprendizado Não Supervisionado?

O aprendizado não supervisionado é uma técnica de aprendizado de máquina onde um modelo é treinado usando dados que não possuem rótulos ou respostas específicas. Diferentemente do aprendizado supervisionado, onde o objetivo é prever um resultado baseado em dados rotulados, o aprendizado não supervisionado busca encontrar padrões ou estruturas ocultas dentro dos dados.

#### Definição Teórica

##### Estrutura e Parâmetros

No aprendizado não supervisionado, a estrutura do modelo depende do algoritmo específico utilizado. Os principais algoritmos de aprendizado não supervisionado incluem:

1. **Clusterização (Clustering)**: Agrupa dados em clusters baseados em similaridade.
   - **K-means**: Usa centróides para agrupar dados.
   - **Hierárquico**: Cria uma hierarquia de clusters.
   - **DBSCAN**: Baseado em densidade para encontrar clusters de formas arbitrárias.

2. **Redução de Dimensionalidade**: Reduz o número de variáveis sob consideração.
   - **PCA (Principal Component Analysis)**: Transforma os dados em um conjunto de componentes principais.
   - **t-SNE**: Técnica para visualização de dados de alta dimensão.

3. **Análise de Associação**: Descobre regras de associação entre variáveis.
   - **Apriori**: Identifica conjuntos frequentes de itens.
   - **FP-Growth**: Similar ao Apriori, mas mais eficiente.

##### Cálculo Numérico

O cálculo em aprendizado não supervisionado frequentemente envolve operações de álgebra linear e estatísticas. Por exemplo:

- **K-means**:
  - Inicialização: Escolha aleatória de k centróides.
  - Iteração: Atribuição de pontos aos centróides mais próximos, recalculando os centróides com base nos pontos atribuídos.
  - Convergência: O processo para quando os centróides não mudam significativamente.

- **PCA**:
  - Centralização dos dados.
  - Cálculo da matriz de covariância.
  - Cálculo dos autovalores e autovetores da matriz de covariância.
  - Projeção dos dados nos autovetores principais.

#### Tópico em que está Inserido

O aprendizado não supervisionado faz parte do campo maior de aprendizado de máquina (Machine Learning), que é um subcampo da inteligência artificial. É frequentemente utilizado em mineração de dados, análise exploratória de dados, e sistemas de recomendação.

#### Uso com Scikit-learn

Scikit-learn é uma biblioteca Python muito popular para aprendizado de máquina, oferecendo uma gama de ferramentas para aprendizado não supervisionado. Exemplos de uso incluem:

1. **Clusterização com K-means**:
   ```python
   from sklearn.cluster import KMeans

   # Exemplo de uso
   kmeans = KMeans(n_clusters=3, random_state=0)
   kmeans.fit(X)  # X é o conjunto de dados de entrada
   labels = kmeans.labels_
   ```

2. **Redução de Dimensionalidade com PCA**:
   ```python
   from sklearn.decomposition import PCA

   # Exemplo de uso
   pca = PCA(n_components=2)
   principal_components = pca.fit_transform(X)  # X é o conjunto de dados de entrada
   ```

3. **Análise de Associação com Apriori** (usando mlxtend, uma extensão de scikit-learn):
   ```python
   from mlxtend.frequent_patterns import apriori, association_rules

   # Exemplo de uso
   frequent_itemsets = apriori(data, min_support=0.6, use_colnames=True)
   rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
   ```

# Aplicação para a Seleção de Canais

Para separar os dados em dois clusters, "Selecionado" e "Não selecionado", e dada a natureza dos dados com grande número de linhas e a necessidade de agrupar canais similares ou identificar canais relevantes, alguns dos algoritmos de clustering mais adequados são:

1. **K-means:**
   - **Vantagens:** Simplicidade e eficiência, adequado para grandes conjuntos de dados.
   - **Desvantagens:** Requer a definição do número de clusters a priori e pode não capturar clusters de forma arbitrária.

2. **DBSCAN (Density-Based Spatial Clustering of Applications with Noise):**
   - **Vantagens:** Não precisa definir o número de clusters a priori e pode encontrar clusters de formas arbitrárias.
   - **Desvantagens:** Sensível à escolha dos parâmetros (epsilon e min_samples) e pode ter dificuldade com conjuntos de dados de alta dimensionalidade.

3. **Agglomerative Clustering (Hierarchical Clustering):**
   - **Vantagens:** Não requer a definição do número de clusters a priori e pode capturar a hierarquia dos dados.
   - **Desvantagens:** Pode ser computacionalmente intensivo para grandes conjuntos de dados.

4. **Mean Shift**
    - **Vantagens:** Não precisa definir o número de clusters a priori; encontra o número de clusters automaticamente.
    - **Desvantagens:** Pode ser computacionalmente intensivo para grandes conjuntos de dados.

5. **Gaussian Mixture Models (GMM)**
    - **Vantagens:** Captura a complexidade dos dados, permite que cada cluster tenha uma forma elíptica diferente.
    - **Desvantagens:** Pode ser sensível a inicializações e pode exigir mais recursos computacionais.

6. **Spectral Clustering**
    - **Vantagens:** Pode capturar estruturas globais complexas e é bom para clusters não convexos.
    - **Desvantagens:** Escalabilidade limitada; pode ser computacionalmente intensivo para grandes conjuntos de dados.

7. **Birch (Balanced Iterative Reducing and Clustering using Hierarchies)**
    - **Vantagens:** Bom para grandes conjuntos de dados, hierárquico.
    - **Desvantagens:** Pode ser menos eficiente em dados de alta dimensionalidade.

# Escolha do Algoritmo

- **K-means:** Simples e eficiente, adequado se tiver uma noção do número de clusters.
- **DBSCAN:** Útil para detectar clusters de forma arbitrária e lidar com ruído, ideal se não tiver uma noção clara do número de clusters e seus dados possuem uma distribuição densa e esparsa.
- **Agglomerative Clustering:** Útil para entender a hierarquia dos clusters, bom se quiser uma visualização da estrutura dos dados.

A escolha do algoritmo depende de vários fatores, incluindo a natureza dos dados, a escala do dataset, a necessidade de pré-processamento, a forma esperada dos clusters, e os recursos computacionais disponíveis. Recomenda-se testar múltiplos algoritmos para comparar os resultados e determinar qual deles melhor atende às necessidades específicas.

Além disso, para avaliar a qualidade do clustering, é preciso usar métricas como o coeficiente de Silhouette e o índice Davies-Bouldin:

# Conclusão

O aprendizado não supervisionado é uma ferramenta poderosa para explorar dados e descobrir padrões ocultos. Com bibliotecas como Scikit-learn, é possível implementar e experimentar com vários algoritmos de forma eficiente e prática.