# Redução de dimensão
---
**Aula Prática 11**: Componentes principais (PCA)

**Objetivo**: Reduzir o número de features de um dataset

Banco de dados:


**Breast cancer wisconsin dataset**


Disponível via sklearn


> Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass.  They describe characteristics of the cell nuclei present in the image.
>
> 1) ID number
>
> 2) Diagnosis (0 = malignant, 1 = benign)
>
> 3-32)
>
> Ten real-valued features are computed for each cell nucleus:
>
> a) radius (mean of distances from center to points on the perimeter)
>
> b) texture (standard deviation of gray-scale values)
>
> c) perimeter
>
> d) area
>
> e) smoothness (local variation in radius lengths)
>
> f) compactness (perimeter^2 / area - 1.0)
>
> g) concavity (severity of concave portions of the contour)
>
> h) concave points (number of concave portions of the contour)
>
> i) symmetry
>
> j) fractal dimension ("coastline approximation" - 1)


--------------------------------------------------------------
## PCA

Para realizar a decomposição com PCA utilizaremos o modulo PCA do sklearn

```python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X)

X_pac = pca.transform(X)
```

O unico parâmetro que necessitamos é o n_components número de componentes (nova dimensão) que teremos ao aplicar o PCA.

Para se obter os vetores com os pesos de cada variável que gera a componente podemos acessar utilizando o seguinte comando:

```python
pac.components_
```

Cada componente explica uma variabilidade dos dados, quanto mais componentes maior será a variabilidade explicada, para se obter o percentual de variabilidade explicada por cada componente utilize o seguinte comando:
```python
pca.explained_variance_ratio_
```

In [None]:
from sklearn.datasets import load_breast_cancer

In [None]:
cancer = load_breast_cancer()

In [None]:
##modulo para fazer a normalização dos dados
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()
scaler.fit(cancer.data)
X_scaled = scaler.transform(cancer.data)

In [None]:
cancer.data[:, 0]

In [None]:
X_scaled[:, 0]

In [None]:
###modulo para realizar a decomposição via PCA
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=2) ##n_components define o número de componentes que teremos

In [None]:
pca.fit(X_scaled)

In [None]:
X_pca = pca.transform(X_scaled)

In [None]:
X_scaled.shape

In [None]:
X_pca

## Visualizações

In [None]:
import plotly.express as px

In [None]:
target = ['benigno' if v else 'maligno' for v in cancer.target]

In [None]:
px.scatter(x=X_pca[:, 0], y=X_pca[:, 1], color=target)

In [None]:
pca.components_

In [None]:
sum(pca.explained_variance_ratio_)

In [None]:
px.imshow(pca.components_,
          x=cancer.feature_names,
          y=['primeira_componente', 'segunda_componente'],
          color_continuous_scale='RdBu_r')