# **Exemplo de aplicação de PCA no dataset Breast Cancer**

# **Breast Cancer dataset**

**O dataset [Breast Cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer) representa 2 tipos de câncer de mama (maligno e benigno) com 30 atributos/características/features**

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.datasets import load_breast_cancer

# importar os dados
bc = load_breast_cancer()

print(bc.target[[10, 50, 85]]) #mostra as classes de alguns exemplos

print(list(bc.target_names)) #apresenta as classes

print(bc.data[:5, :], end='\n\n') # os 5 primeiros exemplos com 30 features

In [None]:
X = bc.data[:,:2] # todos os exemplos com 2 features
y = bc.target

# Definir os limites dos eixos x e y (opcional)
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5

# Criar uma figura
plt.figure(2, figsize=(8, 6))
plt.clf()

# Plotar os dados de treino em 2D, considerando a base de dados X com 2 features
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1,
            edgecolor='k')
plt.xlabel('Raio')
plt.ylabel('Textura')

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()


# **Aplicação de [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA) para visualização**

**2D**

In [None]:
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.decomposition import PCA

bc = load_breast_cancer() #carrega a base de dados breast cancer

X = bc.data #essa base de dados possui 30 caracteristicas/atributos, 30 dimensoes
y = bc.target
target_names = bc.target_names

#o humano consegue visualizar apenas 1D, 2D ou 3D, entao aplicamos PCA
pca = PCA(n_components=2) #criando o meu modelo
X_r = pca.fit(X).transform(X) # treinando o meu modelo e transformando os dados (30D -> 2D)

plt.figure()
colors = ['navy', 'darkorange'] #escolher qtd de cores de acordo com #classes
lw = 2

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('PCA no dataset Breast Cancer')

plt.show()

# Porcentagem de variancia/variabilidade explicada por cada componente
print('taxa de variancia explicada (primeiros 2 componentes): %s'
      % str(pca.explained_variance_ratio_))

# Porcentagem total de variancia retida
import numpy as np
print('taxa de variancia total retida: %s'
      % str(np.sum(pca.explained_variance_ratio_)))

**3D**

In [None]:
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.decomposition import PCA
from mpl_toolkits.mplot3d import Axes3D

bc = load_breast_cancer() #carrega a base de dados breast cancer

X = bc.data #essa base de dados possui 30 caracteristicas/atributos, 30 dimensoes
y = bc.target
target_names = bc.target_names

#o humano consegue visualizar apenas 1D, 2D ou 3D, entao aplicamos PCA
pca = PCA(n_components=3)
X_r = pca.fit(X).transform(X)

fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)

ax.scatter(X_r[:, 0], X_r[:, 1], X_r[:, 2], c=y,
           cmap=plt.cm.Set1, edgecolor='k', s=40)
ax.set_title("PCA no dataset Breast Cancer")
ax.set_xlabel("Componente 1")
ax.w_xaxis.set_ticklabels([])
ax.set_ylabel("Componente 2")
ax.w_yaxis.set_ticklabels([])
ax.set_zlabel("Componente 3")
ax.w_zaxis.set_ticklabels([])
plt.show()

# Porcentagem de variancia/variabilidade explicada por cada componente
print('taxa de variancia explicada (primeiros 3 componentes): %s'
      % str(pca.explained_variance_ratio_))

# Porcentagem total de variancia retida
import numpy as np
print('taxa de variancia total retida: %s'
      % str(np.sum(pca.explained_variance_ratio_)))

# **Aplicação de [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA) para acelerar a classificação**

**Treinando e testando (dividindo a base de dados)**

In [None]:
import numpy as np
from sklearn.neural_network import MLPClassifier
from sklearn import datasets
from sklearn.model_selection import train_test_split

bc = load_breast_cancer() #carrega a base de dados breast cancer

X = bc.data #essa base de dados possui 30 caracteristicas/atributos, 30 dimensoes
y = bc.target
target_names = bc.target_names

# partir o conjunto de dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=1)
# Usar random_state

#PCA nos dados de treino
pca = PCA(n_components=2) #criando o meu modelo
X_r_treino = pca.fit(X).transform(X_treino) # treinando o meu modelo e transformando os dados (30D -> 2D)

#PCA nos dados de teste
X_r_teste = pca.transform(X_teste)

# Cria um modelo de RNA e o treina com os dados (X, y)
mlp = MLPClassifier()
%time mlp.fit(X_r_treino, y_treino)

#Verifica acurácia nos dados de treino
acc_treino = mlp.score(X_r_treino, y_treino)*100
print(f'Acurácia no treino: {acc_treino:.2f}%')

#Verifica acurácia nos dados de teste
acc_teste = mlp.score(X_r_teste, y_teste)*100
print(f'Acurácia no teste: {acc_teste:.2f}%')

**Sem PCA**

In [None]:
import numpy as np
from sklearn.neural_network import MLPClassifier
from sklearn import datasets
from sklearn.model_selection import train_test_split

# importa os dados
bc = load_breast_cancer()
X = bc.data
y = bc.target

# partir o conjunto de dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=1)
# Usar random_state

# Cria um modelo de RNA e o treina com os dados (X, y)
mlp = MLPClassifier()
%time mlp.fit(X_treino, y_treino)

#Verifica acurácia nos dados de treino
acc_treino = mlp.score(X_treino, y_treino)*100
print(f'Acurácia no treino: {acc_treino:.2f}%')

#Verifica acurácia nos dados de teste
acc_teste = mlp.score(X_teste, y_teste)*100
print(f'Acurácia no teste: {acc_teste:.2f}%')