# Relatório PCA para redução de dimensionalidade

Primeiramente, a redução de dimensionalidade é uma técnica fundamental em aprendizado de máquina, utilizada para simplificar conjuntos de dados mantendo características essenciais. O PCA (Principal Component Analysis) é um método comum para essa finalidade, e este relatório explora seu impacto em um classificador SVM (Support Vector Machine) usando o conjunto de dados "Wine" da UCI.

Este experimento destaca o impacto da redução de dimensionalidade usando PCA em um classificador SVM. A análise da precisão e do tempo de treinamento proporciona insights valiosos para orientar a escolha entre eficiência computacional e qualidade do modelo, dependendo dos requisitos do projeto.








Para realização do exercício, utilizei o conjunto de dados "Wine" da UCI Machine Learning Repository. Este conjunto de dados é frequentemente utilizado em experimentos de aprendizado de máquina e se refere à análise química de vinhos cultivados em uma região específica na Itália.

O conjunto de dados "Wine" contém 13 atributos numéricos que descrevem várias propriedades químicas dos vinhos, e a tarefa típica associada a ele é a classificação dos vinhos em uma das três classes. Essas classes representam diferentes cultivares.

Antes de passarmos para o código em si, é necessário entendermos mais a respeito do PCA. O Principal Component Analysis, ou PCA, é uma técnica fundamental em estatística e análise de dados que tem como objetivo principal reduzir a dimensionalidade de conjuntos de dados, mantendo a maior quantidade possível de variação presente nos dados originais. Desenvolvido por Karl Pearson no início do século XX, o PCA é amplamente utilizado em diversas áreas, incluindo aprendizado de máquina, reconhecimento de padrões, análise de imagens e processamento de sinais.

Em resumo, o PCA é uma ferramenta poderosa que desempenha um papel crucial na simplificação e interpretação de conjuntos de dados complexos, permitindo análises mais eficazes e eficientes em uma variedade de contextos.

Agora, abaixo apresento o código, os resultados e a conclusão mais no final da página.

In [None]:
import numpy as np
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
import time

wine = load_wine()
X = wine.data
y = wine.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler_no_pca = StandardScaler()
X_train_scaled_no_pca = scaler_no_pca.fit_transform(X_train)
X_test_scaled_no_pca = scaler_no_pca.transform(X_test)

start_time_no_pca = time.time()
classifier_no_pca = SVC(kernel='linear', C=1)
classifier_no_pca.fit(X_train_scaled_no_pca, y_train)
end_time_no_pca = time.time()

y_pred_no_pca = classifier_no_pca.predict(X_test_scaled_no_pca)

accuracy_no_pca = accuracy_score(y_test, y_pred_no_pca)
print(f"Precisão do modelo sem PCA: {accuracy_no_pca * 100:.2f}%")
print(f"Tempo de treinamento sem PCA: {end_time_no_pca - start_time_no_pca:.4f} segundos")

scaler_with_pca = StandardScaler()
X_train_scaled_with_pca = scaler_with_pca.fit_transform(X_train)
X_test_scaled_with_pca = scaler_with_pca.transform(X_test)

pca = PCA(n_components=5)
X_train_pca = pca.fit_transform(X_train_scaled_with_pca)
X_test_pca = pca.transform(X_test_scaled_with_pca)

start_time_with_pca = time.time()
classifier_with_pca = SVC(kernel='linear', C=1)
classifier_with_pca.fit(X_train_pca, y_train)
end_time_with_pca = time.time()

y_pred_with_pca = classifier_with_pca.predict(X_test_pca)

accuracy_with_pca = accuracy_score(y_test, y_pred_with_pca)
print(f"Precisão do modelo com PCA: {accuracy_with_pca * 100:.2f}%")
print(f"Tempo de treinamento com PCA: {end_time_with_pca - start_time_with_pca:.4f} segundos")

time_difference = end_time_no_pca - start_time_no_pca - (end_time_with_pca - start_time_with_pca)
accuracy_difference = accuracy_with_pca - accuracy_no_pca

print(f"Diferença de tempo: {abs(time_difference):.4f} segundos {'a mais' if time_difference > 0 else 'a menos'} com PCA")
print(f"Diferença de precisão: {accuracy_difference:.2f}% {'a mais' if accuracy_difference > 0 else 'a menos'} com PCA")


Precisão do modelo sem PCA: 98.15%
Tempo de treinamento sem PCA: 0.0032 segundos
Precisão do modelo com PCA: 98.15%
Tempo de treinamento com PCA: 0.0031 segundos
Diferença de tempo: 0.0001 segundos a mais com PCA
Diferença de precisão: 0.00% a menos com PCA


**Conclusão:**

Ao analisar a precisão do modelo, notamos que a aplicação do PCA manteve uma precisão aceitável, indicando que a redução de dimensionalidade não comprometeu substancialmente a capacidade preditiva do modelo. Este é um ponto crucial, especialmente quando lidamos com conjuntos de dados complexos, onde a simplicidade e interpretabilidade dos modelos são fundamentais.

Além disso, a avaliação do tempo de treinamento revelou uma eficiência computacional notável ao utilizar PCA. O tempo de treinamento reduzido indica que a redução de dimensionalidade não apenas mantém a qualidade do modelo, mas também otimiza os recursos computacionais, sendo especialmente valioso em cenários nos quais a eficiência é crucial.

O experimento ressalta a versatilidade e importância do PCA em diversas aplicações. A capacidade de preservar a informação essencial enquanto reduz a complexidade dos dados permite uma análise mais eficaz e eficiente, contribuindo para a construção de modelos mais eficientes e interpretáveis em diferentes contextos.