In [None]:
# identificar outliers com svd:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

# 1. Carregar o conjunto de dados Iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# 2. Padronizar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)

# 3. Aplicar SVD
svd = TruncatedSVD(n_components=2)  # Reduzimos para 2 componentes principais (TruncatedSVD é mais eficiente pois ele já seleciona os componentes principais)
X_svd = svd.fit_transform(X_scaled) # X_svd contém os dados transformados

# 4. Análise dos valores singulares
singular_values = svd.singular_values_

# 5. Visualizar os dados transformados
plt.scatter(X_svd[:, 0], X_svd[:, 1])
plt.title('Dados projetados com SVD')
plt.xlabel('Componente 1')
plt.ylabel('Componente 2')
plt.show()

# 6. Identificação de outliers com base em distância
# Aqui, vamos definir um limiar baseado na distância do centro (0, 0) e identificar outliers
distances = np.sqrt(np.sum(X_svd**2, axis=1))
outlier_threshold = np.percentile(distances, 95)  # Vamos considerar os 5% mais distantes como outliers

# Identificar os índices dos outliers
outliers = np.where(distances > outlier_threshold)[0]

# 7. Visualizar os outliers
plt.scatter(X_svd[:, 0], X_svd[:, 1], label='Pontos normais')
plt.scatter(X_svd[outliers, 0], X_svd[outliers, 1], color='red', label='Outliers')
plt.title('Identificação de outliers com SVD')
plt.xlabel('Componente 1')
plt.ylabel('Componente 2')
plt.legend()
plt.show()

print(f"Outliers identificados nas seguintes linhas: {outliers}")