## **4. Implementação Prática**

Aqui vamos explorar como implementar o PCA em Python, desde o pré-processamento dos dados até a visualização dos resultados. Vamos detalhar o processo passo a passo, utilizando ferramentas comuns na análise de dados.

---

### **4.1 Pré-processamento de Dados**

O pré-processamento adequado dos dados é uma etapa crucial para garantir que o PCA seja realizado de maneira eficaz.

### **Por que normalizar os dados antes do PCA?**

- **Escala das variáveis:** O PCA é sensível às escalas das variáveis. Variáveis com magnitudes diferentes podem influenciar de maneira desproporcional os resultados. Por exemplo, se uma variável varia entre 0 e 1 e outra entre 1.000 e 10.000, a segunda variável pode dominar a análise.
- **Objetivo da normalização:** Tornar as variáveis comparáveis, para que todas tenham o mesmo peso na análise. Normalizar significa centralizar as variáveis em torno de zero e escalá-las para que todas tenham o mesmo desvio padrão, geralmente igual a 1.

### **Como tratar valores ausentes e outliers?**

- **Valores ausentes:** Os dados faltantes podem ser preenchidos usando métodos como média, mediana ou interpolação, ou então removendo as observações incompletas. A escolha depende do impacto que a ausência de dados pode ter na análise.
- **Outliers:** Outliers podem distorcer os resultados do PCA, já que eles afetam a variação dos dados. Algumas técnicas para tratá-los incluem:
    - Remoção de outliers baseados em z-score (valores com z-score > 3 podem ser considerados outliers).
    - Transformações de dados, como logaritmos ou escalamento robusto.

---

### **4.2 PCA na Prática**

Aqui, vamos implementar o PCA em Python usando algumas das bibliotecas mais populares: **NumPy**, **pandas** e **scikit-learn**.

### **Passo a Passo da Implementação**

1. **Importação das Bibliotecas**

In [1]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

2. **Carregamento do Dataset**
Vamos usar um dataset simples, como o **Iris dataset**, que é frequentemente utilizado em exemplos de aprendizado de máquina.

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data  # Matriz de características

3. **Normalização dos Dados**
O PCA requer que os dados sejam normalizados antes da análise:

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

4. **Aplicando o PCA**
Vamos aplicar o PCA e reduzir os dados para 2 dimensões:

In [None]:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

5. **Analisando os Resultados**
A variância explicada por cada componente principal pode ser acessada através de:

In [None]:
print("Variância explicada por componente:", pca.explained_variance_ratio_)

6. **Exemplo Completo em Python**
Aqui está o código completo para carregar o dataset, aplicar o PCA e visualizar os resultados:

In [None]:
import matplotlib.pyplot as plt

# Visualizando os componentes principais
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=iris.target, cmap='viridis')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title('PCA - Iris Dataset')
plt.show()

### **4.3 Visualização dos Resultados**

Após realizar o PCA, é importante visualizar os resultados para entender melhor o comportamento dos dados e a importância dos componentes principais.

### **Gráficos de dispersão dos componentes principais**

- A visualização dos componentes principais em um gráfico de dispersão ajuda a entender como os dados são distribuídos nas novas dimensões. No exemplo acima, visualizamos as duas primeiras componentes principais do dataset Iris.

### **Scree plot (gráfico de variância explicada)**

- O **scree plot** é um gráfico que mostra a variância explicada por cada componente. Ele é útil para decidir quantos componentes principais manter:

In [None]:
plt.plot(range(1, len(pca.explained_variance_ratio_) + 1), pca.explained_variance_ratio_, marker='o')
plt.xlabel('Número de Componentes')
plt.ylabel('Variância Explicada')
plt.title('Scree Plot')
plt.show()

O **scree plot** geralmente apresenta uma queda abrupta na variância explicada após alguns componentes. Você pode usar esse gráfico para decidir quantos componentes principais incluir na análise, com base na quantidade de variância que deseja preservar.