Before you turn this problem in, make sure everything runs as expected. First, **restart the kernel** (in the menubar, select Kernel$\rightarrow$Restart) and then **run all cells** (in the menubar, select Cell$\rightarrow$Run All).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE", as well as your name and collaborators below:

In [None]:
NAME = ""
COLLABORATORS = ""

---

# Exercício Prático 3: PCA

Neste exercício vamos estudar as representações de baixa dimensão obtidas pelo PCA. O objetivo é reproduzir os resultados obtidos usando o módulo sklearn.decomposition.PCA usando apenas o numpy. Para isto, vamos utilizar os dados contidos em ```p1.txt```.

O conjunto de dados ```p1.txt``` contém recordes nacionais femininos em corridas de 100m, 200m e 400m rasos em segundos e corridas de longa distância em minutos. Os nomes das variáveis não estão incluídos.

In [None]:
# lendo os dados
import pandas as pd
import numpy as np
np.set_printoptions(precision=3)

df = pd.read_csv('p1.txt',sep='\t',header=None,names=["Country","100m","200m","400m","800m","1500m","3000m","Marathon"])
df

In [None]:
# extraindo a matriz de dados e os nomes dos países
X = df.drop('Country',axis=1).as_matrix()
countries = list(df['Country'])

## Questão resolvida

Para cada variável (coluna), calcule a média usando ```np.mean``` e a variância usando ```np.var```. Use a função ```np.round``` para arredondar o resultado para 3 casas decimais.

In [None]:
# calculando a média mu e a variância sigma2 (o ddof=1 é usado para que o denominador seja m-1)

mu = np.mean(X,axis=0)
sigma2 = np.var(X,axis=0,ddof=1)

print(mu)
print(sigma2)

## Questão resolvida

Transforme a matriz ```X``` em ```X_centered``` subtraindo a média de cada variável.

In [None]:
# neste caso, a subtração entre matriz e vetor faz com que o vetor seja subtraído de cada linha da matriz

m,n = X.shape
#Mu = mu.repeat(m).reshape((n,m)).T
X_centered = X-mu
X_centered[:5,:]

## Questão resolvida

Agora normalize a matriz ```X_centered``` dividindo cada entrada pelo seu desvio padrão. Salve o resultado em ```X_normalized```.

In [None]:
# neste caso, a divisão entre matriz e vetor faz com que cada linha da matriz seja dividida elemento-a-elemento pelo vetor

sigma = np.sqrt(sigma2)
#Sigma = sigma.repeat(m).reshape((n,m)).T
X_normalized = X_centered/np.sqrt(sigma2)
X_normalized[:5,:]

## Questão 1

Defina uma matriz que receba como entrada uma matriz $\mathbf{A}_{m \times n}$ de $m$ observações por $n$ variáveis que já foi centralizada e normalizada e retorne a matriz de covariância das variáveis. A função **não pode** utilizar a função ```numpy.cov```, mas sim utilizar a fórmula vista em sala ($m-1$ como denominador).

In [None]:
def calculaCov(A):
    # YOUR CODE HERE
    raise NotImplementedError()
    return cov

Certifique-se de que o resultado para a matriz ```X_normalized``` é igual aquele encontrado no arquivo ```cov.npz```.

In [None]:
cov = calculaCov(X_normalized)
with open('cov.npz','rb') as f: 
    saida = np.load(f)

assert np.allclose(cov,saida)

## Questão 2

Vamos construir a matriz $P = E^\top$ contendo as duas componentes principais. 
Para isso, você deve obter os dois autovetores dos maiores autovalores em módulo da matriz ```cov``` usando ```np.linalg.eig```.

O resultado obtido usando PCA é mostrado a seguir. É possível que alguns autovetores/componentes tenham sinais opostos.

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_r = pca.fit(X_normalized).transform(X_normalized)
pca.components_

In [None]:
def calculaMatrizP(cov, n_componentes):
    # YOUR CODE HERE
    raise NotImplementedError()
    return P

In [None]:
P = calculaMatrizP(cov, 2)
print(P)

assert (
    np.allclose(P[0],pca.components_[0]) or np.allclose(P[0],-pca.components_[0])
) and (
    np.allclose(P[1],pca.components_[1]) or np.allclose(P[1],-pca.components_[1])
)

## Questão 3

Calcule a porcentagem da variância total explicada pelo primeiro e segundo componentes principais. Para isto é preciso normalizar os autovalores obtidos no passo anterior pela soma de todos os $n$ autovalores.

O resultado obtido usando PCA é mostrado a seguir.

In [None]:
pca.explained_variance_ratio_

In [None]:
def calculaVarianciaExplicada(cov, n_componentes):
    # YOUR CODE HERE
    raise NotImplementedError()
    return var_explicada

In [None]:
var_explicada = calculaVarianciaExplicada(cov, 2)
assert np.allclose(var_explicada,pca.explained_variance_ratio_)

## Questão 4

As linhas de ```P``` formam uma base ortogonal. A projeção das linhas de ```X_normalized``` nas linhas de ```P``` geram uma representação para cada país no plano (PC1, PC2). Construa um diagrama de dispersão 2D das 54 observações no plano (PC1, PC2).

O resultado obtido usando PCA é mostrado a seguir.

In [None]:
X_r = pca.fit(X_normalized).transform(X_normalized)
plt.scatter(X_r[:,0],X_r[:,1])
for i in range(X_r.shape[0]):
    plt.annotate(countries[i],xy=(X_r[i,0],X_r[i,1]),xytext=(0,5),
                 textcoords='offset points', ha='center', va='bottom')

In [None]:
def plotaDiagramaDispersao(P, X_normalized):
    # YOUR CODE HERE
    raise NotImplementedError()

## Questão 5

Considerando o gráfico anterior, que país poderia ser considerado um outlier? O nome do país pode ser consultado [aqui](https://countrycode.org/).

YOUR ANSWER HERE