
# Uma breve introdução ao Machine Learning
## Problemas propostos #05

- **Dia 5**: [Adaptação de métodos lineares para problemas não lineares](https://github.com/GabrielWendell/Intro_ML/blob/main/Notebooks/Dia5.ipynb)

---

### Você vai precisar...

In [None]:
from mls import locate_data
blobs_data = pd.read_hdf(locate_data('blobs_data.hf5'))

---

## Problema 1

**a)** Revise este [`Notebook`]() do dia 5 sobre como adaptar métodos lineares a problemas não lineares. O principal *insight* aqui que será útil mais adiante no curso é o **truque do kernel**, que é responsável pela maior parte do poder expressivo das redes neurais. 

Escolha um conjunto de dados para "adotar". Seu conjunto de dados deve:

- ser de domínio público (mesmo que ainda não esteja disponível publicamente), e

- estar no formato tabular 2D padrão usado para algoritmos de ML, com colunas correspondentes a recursos e linhas a observações (amostras) e

- tem um número de recursos ($D$) e amostras ($N$) que satisfazem $D\cdot N < 1.000.000$ (portanto, corte um conjunto de dados maior, se necessário).

Eu encorajo você a usar alguns dados (reais ou simulados) relacionados à sua pesquisa, mas qualquer conjunto de dados está ok.

Preencha a função abaixo para carregar seu conjunto de dados em um dataframe pandas. Seu código pode ler um arquivo (eu recomendo o formato CSV ou HDF5) do seu repositório de trabalhos de casa, se for pequeno o suficiente (< 2 Mb) ou então baixar o arquivo de um URL público (alguns dos [leitores de pandas](https://pandas.pydata.org/pandas-docs/stable/reference/index.html) podem ler diretamente de um URL). Inclua todas as etapas necessárias para obter seu dataframe final no formato necessário.

In [None]:
def load_adopted_data():
    
    # SEU CÓDIGO AQUI
    
    raise NotImplementedError()

**b)** Aplique os *sanity tests* abaixo:

In [None]:
df = load_adopted_data()
N, D = df.shape

assert N * D < 1_000_000

**c)** Gere um resumo de alto nível dos (primeiros 10) recursos numéricos de seus dados usando:

In [None]:
numeric_features = df.select_dtypes(include=[np.number]).columns.tolist()
df[numeric_features[:10]].describe()

**e)** Realize uma visualização de alto nível de seus dados usando (sinta-se à vontade para editar vars para selecionar os recursos mais informativos):

In [None]:
valid = df.dropna()
numeric_features = valid.select_dtypes(include=[np.number]).columns.tolist()
sns.pairplot(valid.iloc[:1000], vars=numeric_features[:5]);

**f)** Realize uma visualização de alto nível de seus dados usando (sinta-se à vontade para editar vars para selecionar os recursos mais informativos):

In [None]:
valid = df.dropna()
numeric_features = valid.select_dtypes(include=[np.number]).columns.tolist()
sns.pairplot(valid.iloc[:1000], vars=numeric_features[:5]);

**g)** Encontre a melhor atribuição para 3 *clusters* usando K-means (ou altere o valor de `n_clusters` abaixo para algo mais apropriado):

In [None]:
valid = df.dropna().copy()
numeric_features = valid.select_dtypes(include=[np.number]).columns.tolist()
fit = cluster.KMeans(n_clusters=3).fit(valid[numeric_features])
valid['cluster'] = fit.labels_

for i in range(fit.n_clusters):
    print(f'Atribuído {np.count_nonzero(fit.labels_ == i)} / {len(valid)} samples para o cluster {i}.')

**h)** Refaça o gráfico de pares com amostras coloridas por sua atribuição de *cluster*:

In [None]:
sns.pairplot(valid.iloc[:1000], vars=numeric_features[:5], hue='cluster', diag_kind='hist');

---

## Problema 2

**a)** Neste problema, você implementará o núcleo dos passos E e M para o método do [modelo de mistura gaussiana (GMM)](https://scikit-learn.org/stable/modules/mixture.html). Observe as semelhanças com as etapas E e M do método K-means.

Primeiro, implemente a função abaixo para avaliar a [densidade de probabilidade gaussiana multidimensional](https://en.wikipedia.org/wiki/Multivariate_normal_distribution) para a média arbitrária $\overrightarrow{\mu}$ e matriz de covariância $C$ (consulte a aula para mais detalhes sobre a notação usada aqui):

$$G(\overrightarrow{x};\overrightarrow{\mu},C)=(2\pi)^{-D/2}|C|^{-1/2}\exp{\Bigg[-\frac{1}{2}(\overrightarrow{x}-\overrightarrow{\mu})^{T}C^{-1}(\overrightarrow{x}-\overrightarrow{\mu})}\Bigg]$$

In [None]:
def Gaussian_pdf(x, mu, C):
    """Avalie a densidade de probabilidade gaussiana.
    
    Parâmetros
    ----------
    x : array
        1D array de valores de recurso D para uma única amostra
    mu : array
        1D array de D valores médios de características para este componente.
    C : array
        2D array com shape (D, D) de elementos da matriz de covariância para este componente.
        Deve ser positivo definido (e, portanto, simétrico).
        
    Retorna
    -------
    float
        Densidade de probabilidade
    """
    x = np.asarray(x)
    mu = np.asarray(mu)
    C = np.asarray(C)
    D = len(x)
    
    assert x.shape == (D,) and mu.shape == (D,)
    assert C.shape == (D, D)
    assert np.allclose(C.T, C)
    
    # SEU CÓDIGO AQUI
    
    raise NotImplementedError()

**b)** Aplique os seguintes testes de validação:

In [None]:
assert np.allclose(Gaussian_pdf([0], [0], [[1]]), 1 / np.sqrt(2 * np.pi))
assert np.allclose(Gaussian_pdf([1], [1], [[1]]), 1 / np.sqrt(2 * np.pi))
assert np.allclose(Gaussian_pdf([0], [0], [[2]]), 1 / np.sqrt(4 * np.pi))
assert np.allclose(Gaussian_pdf([1], [0], [[1]]), np.exp(-0.5) / np.sqrt(2 * np.pi))

################################

assert np.allclose(Gaussian_pdf([0, 0], [0, 0], [[1, 0], [0, 1]]), 1 / (2 * np.pi))
assert np.allclose(Gaussian_pdf([1, 0], [1, 0], [[1, 0], [0, 1]]), 1 / (2 * np.pi))
assert np.allclose(Gaussian_pdf([1, -1], [1, -1], [[1, 0], [0, 1]]), 1 / (2 * np.pi))
assert np.allclose(Gaussian_pdf([1, 0], [1, 0], [[4, 0], [0, 1]]), 1 / (4 * np.pi))

################################

assert np.round(Gaussian_pdf([0, 0], [1, 0], [[4, +1], [+1, 1]]), 5) == 0.07778
assert np.round(Gaussian_pdf([0, 0], [1, 0], [[4, -1], [-1, 1]]), 5) == 0.07778
assert np.round(np.log(Gaussian_pdf([1, 0, -1], [1, 2, 3], [[4, -1, 0], [-1, 1, 0], [0, 0, 2]])), 5) == -10.31936

**c)** Em seguida, implemente o E-step na função abaixo. Isso consiste em calcular a probabilidade relativa de que cada amostra $x_{n}$ ($n$-ésima linha de $X$) pertença a cada componente $k$:

$$p_{nk}=\frac{\omega_{k}G(\overrightarrow{x}_{n};\overrightarrow{\mu}_{k},C_{k})}{\sum_{j=1}^{K}\omega_{j}G(\overrightarrow{x}_{n};\overrightarrow{\mu}_{j},C_{j})}$$

Observe que essas probabilidades relativas (também chamadas de *responsabilidades*) somam um sobre os componentes $k$ para cada amostra $n$. Observe também que consideramos os parâmetros $(\omega_{k},\overrightarrow{\mu}_{k},C_{k})$ de cada componente fixados durante esta etapa. 

- **Dica**: use sua função *Gaussian_pdf* aqui.

In [None]:
def E_step(X, w, mu, C):
    """Executa uma etapa E do GMM.
    
    Parâmetros
    ----------
    X : array com shape (N, D)
        Dados de entrada consistindo de N amostras em D dimensões.
    w : array com shape (K,)
        Pesos por componente.
    mu : array com shape (K, D)
        Matriz de vetores médios para cada componente.
    C : array com shape (K, D, D).
        Matriz de matrizes de covariância para cada componente.
    
    Retorna
    -------
    array com shape (K, N)
        Matriz de probabilidades relativas a que cada amostra pertence
        cada componente, normalizado para que as probabilidades por componente
        para cada soma de amostra para um.
    """
    N, D = X.shape
    K = len(w)
    
    assert w.shape == (K,)
    assert mu.shape == (K, D)
    assert C.shape == (K, D, D)
    
    # SEU CÓDIGO AQUI
    
    raise NotImplementedError()

**d)** Execute os testes abaixo para verificar a validade do seu código:

In [None]:
X = np.linspace(-1, 1, 5).reshape(-1, 1)
w = np.full(4, 0.25)
mu = np.array([[-2], [-1], [0], [1]])
C = np.ones((4, 1, 1))

# print(repr(np.round(E_step(X, w, mu, C), 3)))
assert np.all(
    np.round(E_step(X, w, mu, C), 3) ==
    [[ 0.258,  0.134,  0.058,  0.021,  0.006],
     [ 0.426,  0.366,  0.258,  0.152,  0.077],
     [ 0.258,  0.366,  0.426,  0.414,  0.346],
     [ 0.058,  0.134,  0.258,  0.414,  0.57 ]])

################################

X = np.zeros((1, 3))
w = np.ones((2,))
mu = np.zeros((2, 3))
C = np.zeros((2, 3, 3))
diag = range(3)
C[:, diag, diag] = 1

# print(repr(np.round(E_step(X, w, mu, C), 3)))
assert np.all(
    np.round(E_step(X, w, mu, C), 3) ==
    [[ 0.5], [ 0.5]])

################################

X = np.array([[0,0,0], [1,0,0]])
mu = np.array([[0,0,0], [1,0,0]])

# print(repr(np.round(E_step(X, w, mu, C), 3)))
assert np.all(
    np.round(E_step(X, w, mu, C), 3) ==
    [[ 0.622,  0.378], [ 0.378,  0.622]])

################################

gen = np.random.RandomState(seed=123)
K, N, D = 4, 1000, 5
X = gen.normal(size=(N, D))
subsample = X.reshape(K, (N//K), D)
mu = subsample.mean(axis=1)
C = np.empty((K, D, D))
w = gen.uniform(size=K)
w /= w.sum()

for k in range(K):
    C[k] = np.cov(subsample[k], rowvar=False)
    
#print(repr(np.round(E_step(X, w, mu, C)[:, :5], 3)))
assert np.all(
    np.round(E_step(X, w, mu, C)[:, :5], 3) ==
    [[ 0.422,  0.587,  0.344,  0.279,  0.19 ],
     [ 0.234,  0.11 ,  0.269,  0.187,  0.415],
     [ 0.291,  0.194,  0.309,  0.414,  0.279],
     [ 0.053,  0.109,  0.077,  0.12 ,  0.116]])

**e)** Finalmente, implemente o M-step na função abaixo. Durante esta etapa, consideramos os pesos relativos $p_{nk}$ da etapa anterior fixos e atualizamos os parâmetros de cada componente (que foram corrigidos na etapa anterior), usando:

$$\omega_{k}=\frac{1}{N}\sum_{n=1}^{N}p_{nk}$$

$$\overrightarrow{\mu}_{k}=\frac{\sum_{n=1}^{N}p_{nk}\overrightarrow{x}_{n}}{\sum_{n=1}^{N}p_{nk}}$$

$$C_{k}=\frac{\sum_{n=1}^{N}p_{nk}(\overrightarrow{x}_{n}-\overrightarrow{\mu}_{k})(\overrightarrow{x}_{n}-\overrightarrow{\mu}_{k})^{T}}{\sum_{n=1}^{N}p_{nk}}$$

Certifique-se de entender por que a última expressão produz uma matriz em vez de um produto escalar antes de entrar no código. (Se você quiser um desafio Numpy, tente implementar esta função sem nenhum loop, por exemplo, com `np.einsum`)

In [None]:
def M_step(X, p):
    """Executa uma etapa M do GMM.
    
    Parâmetros
    ----------
    X : array com shape (N, D)
        Dados de entrada consistindo de N amostras em D dimensões.
    p : array com shape (K, N)
        Array de probabilidades relativas a que cada amostra pertence
        cada componente, normalizado para que as probabilidades por componente
        para cada soma de amostra para um.
    
    Retorna
    -------
    tuple
        Tupla w, mu, C de arrays com shapes (K,), (K, D) e (K, D, D) dando
        os parâmetros de componente atualizados.
    """
    N, D = X.shape
    K = len(p)
    
    assert p.shape == (K, N)
    assert np.allclose(p.sum(axis=0), 1)
    
    # SEU CÓDIGO AQUI
    
    raise NotImplementedError()

**f)** Aplique os devidos testes de validação:

In [None]:
X = np.linspace(-1, 1, 5).reshape(-1, 1)
p = np.full(20, 0.25).reshape(4, 5)
w, mu, C = M_step(X, p)
# print(repr(np.round(w, 5)))
# print(repr(np.round(mu, 5)))
# print(repr(np.round(C, 5)))

assert np.all(np.round(w, 5) == 0.25)
assert np.all(np.round(mu, 5) == 0.0)
assert np.all(np.round(C, 5) == 0.5)

################################

gen = np.random.RandomState(seed=123)
K, N, D = 4, 1000, 5
X = gen.normal(size=(N, D))
p = gen.uniform(size=(K, N))
p /= p.sum(axis=0)
w, mu, C = M_step(X, p)
# print(repr(np.round(w, 5)))
# print(repr(np.round(mu, 5)))
# print(repr(np.round(C[0], 5)))

assert np.all(
    np.round(w, 5) == [ 0.25216,  0.24961,  0.24595,  0.25229])
assert np.all(
    np.round(mu, 5) ==
    [[ 0.06606,  0.06   , -0.00413,  0.01562,  0.00258],
     [ 0.02838,  0.01299,  0.01286,  0.03068, -0.01714],
     [ 0.03157,  0.04558, -0.01206,  0.03493, -0.0326 ],
     [ 0.05467,  0.06293, -0.01779,  0.04454,  0.00065]])
assert np.all(
    np.round(C[0], 5) ==
    [[ 0.98578,  0.01419, -0.03717,  0.01403,  0.0085 ],
     [ 0.01419,  0.95534, -0.02724,  0.03201, -0.00648],
     [-0.03717, -0.02724,  0.90722,  0.00313,  0.0299 ],
     [ 0.01403,  0.03201,  0.00313,  1.02891,  0.0813 ],
     [ 0.0085 , -0.00648,  0.0299 ,  0.0813 ,  0.922  ]])

**g)** Agora você implementou o núcleo do algoritmo GMM. Aqui está um wrapper simples que usa o K-Means para inicializar as probabilidades relativas para que todas sejam zero ou um, com base na atribuição de cluster de cada amostra:

In [None]:
from mls import GMM_pairplot

def GMM_fit(data, n_components, nsteps, init='random', seed=123):
    X = data.values
    N, D = X.shape
    gen = np.random.RandomState(seed=seed)
    p = np.zeros((n_components, N))
    if init == 'kmeans':
        # Use o KMeans para dividir os dados em clusters.
        fit = cluster.KMeans(n_clusters=n_components, random_state=gen).fit(data)
        # Inicialize os pesos relativos usando a associação de cluster.
        # Os pesos iniciais são, portanto, todos 0 ou 1.
        for k in range(n_components):
            p[k, fit.labels_ == k] = 1
    else:
        # Atribua pesos relativos iniciais em quantis do primeiro recurso.
        # Esta não é uma boa estratégia de inicialização, mas mostra como
        # o GMM converge de um ponto de partida ruim.
        x0 = X[:, 0]
        edges = np.percentile(x0, np.linspace(0, 100, n_components + 1))
        for k in range(n_components):
            quantile = (edges[k] <= x0) & (x0 <= edges[k + 1])
            p[k, quantile] = 1.
            
    # Normalize os pesos relativos.
    p /= p.sum(axis=0)
    # Execute uma etapa M inicial para inicializar os parâmetros do componente.
    w, mu, C = M_step(X, p)
    # Faça um loop sobre as iterações.
    for i in range(nsteps):
        p = E_step(X, w, mu, C)
        w, mu, C = M_step(X, p)
    # Plote os resultados
    GMM_pairplot(data, w, mu, C)

**h)** Use o 3D no `blobs_data` e mostre que ele converge perto da solução correta após 8 iterações:

In [None]:
# SEU CÓDIGO AQUI

**i)** Mostre que convergência é ainda mais rápida se você usar o KMeans para inicializar os pesos relativos (e é por isso que a maioria das implementações faz isso):

In [None]:
# SEU CÓDIGO AQUI

---

## Problema 3

**a)** Um estimador de densidade deve fornecer uma função de densidade de probabilidade $P(\overrightarrow{x})$ que é normalizada sobre seu espaço de características $\overrightarrow{x}$

$$\int \text{d}\overrightarrow{x}P(\overrightarrow{x})=1$$

Neste problema você irá verificar esta normalização para o KDE usando duas abordagens numéricas diferentes para a integral.

Primeiro, implemente a função abaixo para aceitar um objeto de ajuste 1D do KDE e estime sua integral de normalização usando a regra do trapézio com a grade especificada. 

- **Dica**: a função `np.trapz` será útil.

In [None]:
def check_grid_normalization(fit, xlo, xhi, ngrid):
    """Verifique a normalização do resultado de ajuste do estimador de densidade 1D usando a quadratura da grade.
    
    Parâmetros
    ----------
    fit : neighbors.KernelDensity fit object
        Resultado do ajuste ao conjunto de dados 1D.
    xlo : float
        Borda baixa da faixa de integração 1D.
    xhi : float
        Borda alta da faixa de integração 1D.
    ngrid : int
        Número de pontos de grade igualmente espaçados cobrindo [xlo, xhi],
        incluindo os dois pontos finais.
    """
    
    # SEU CÓDIGO AQUI
    
    raise NotImplementedError()

**b)** Aplique os *sanity tests* para validar o seu código:

In [None]:
fit = neighbors.KernelDensity(kernel='gaussian', bandwidth=0.1).fit(blobs_data.drop(columns=['x1', 'x2']))

assert np.round(check_mc_normalization(fit, [0], [15], 10), 3) == 1.129
assert np.round(check_mc_normalization(fit, [0], [15], 100), 3) == 1.022
assert np.round(check_mc_normalization(fit, [0], [15], 1000), 3) == 1.010
assert np.round(check_mc_normalization(fit, [0], [15], 10000), 3) == 0.999

################################

fit = neighbors.KernelDensity(kernel='gaussian', bandwidth=0.1).fit(blobs_data.drop(columns=['x2']))

assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 10), 3) == 1.754
assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 100), 3) == 1.393
assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 1000), 3) == 0.924
assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 10000), 3) == 1.019

################################

fit = neighbors.KernelDensity(kernel='gaussian', bandwidth=0.1).fit(blobs_data)

assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 10), 3) == 2.797
assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 100), 3) == 0.613
assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 1000), 3) == 1.316
assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 10000), 3) == 1.139

**c)** Em seguida, implemente a função abaixo para estimar uma normalização de ajuste multidimensional usando a [integração de Monte Carlo](https://en.wikipedia.org/wiki/Monte_Carlo_integration):

$$\int\text{d}\overrightarrow{x}P(\overrightarrow{x})\approxeq\frac{V}{N_{mc}}\sum_{j=1}^{N_{mc}}P(\overrightarrow{x}_{j})=V\langle P\rangle$$

onde $\overrightarrow{x}_{j}$ são distribuídos uniformemente sobre o domínio de integração e $V$ é o volume do domínio de integração. Observe que `trapz` fornece resultados mais precisos para um número fixo de avaliações de $P(\overrightarrow{x})$, mas a integração MC é muito mais fácil de generalizar para dimensões mais altas.

In [None]:
def check_mc_normalization(fit, xlo, xhi, nmc, seed = 123):
    """Verifica a normalização do resultado de ajuste do estimador de densidade usando a integração MC.
    
   Parâmetros
    ----------
    fit : neighbors.KernelDensity fit object
        Resultado do ajuste ao conjunto de dados arbitrário da dimensão D.
    xlo : array
        1D array de comprimento D com limites baixos de domínio de integração ao longo de cada dimensão.
    xhi : array
        1D array de comprimento D com altos limites de domínio de integração ao longo de cada dimensão.
    nmc : int
        Número de pontos de integração MC aleatórios dentro do domínio a ser usado.
    """
    xlo = np.asarray(xlo)
    xhi = np.asarray(xhi)
    
    assert xlo.shape == xhi.shape
    assert np.all(xhi > xlo)
    
    D = len(xlo)
    gen = np.random.RandomState(seed=seed)
    # Use gen.uniform() em sua solução, não gen.rand(), para obter números aleatórios consistentes.
    
    # SEU CÓDIGO AQUI
    
    raise NotImplementedError()

**d)** Por fim, efetue o teste de validação do seu código:

In [None]:
fit = neighbors.KernelDensity(kernel='gaussian', bandwidth=0.1).fit(blobs_data.drop(columns=['x1', 'x2']))

assert np.round(check_mc_normalization(fit, [0], [15], 10), 3) == 1.129
assert np.round(check_mc_normalization(fit, [0], [15], 100), 3) == 1.022
assert np.round(check_mc_normalization(fit, [0], [15], 1000), 3) == 1.010
assert np.round(check_mc_normalization(fit, [0], [15], 10000), 3) == 0.999

################################

fit = neighbors.KernelDensity(kernel='gaussian', bandwidth=0.1).fit(blobs_data.drop(columns=['x2']))

assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 10), 3) == 1.754
assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 100), 3) == 1.393
assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 1000), 3) == 0.924
assert np.round(check_mc_normalization(fit, [0, -4], [15, 12], 10000), 3) == 1.019

################################

fit = neighbors.KernelDensity(kernel='gaussian', bandwidth=0.1).fit(blobs_data)

assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 10), 3) == 2.797
assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 100), 3) == 0.613
assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 1000), 3) == 1.316
assert np.round(check_mc_normalization(fit, [0, -4, 2], [15, 12, 18], 10000), 3) == 1.139

---