In [1]:
import numpy as np
import scipy.stats as stats
import pandas as pd

In [2]:
np.set_printoptions(precision = 4, threshold = 5, floatmode = 'fixed')

In [3]:
np.random.seed(0)

In [4]:
N = int(1e5)

print(f'Número de Observações: {N:,}')

Número de Observações: 100,000


In [5]:
D = 2

print(f'Dimensão das Observações: {D:,}')

Dimensão das Observações: 2


In [6]:
K = 5

print(f'Número de Categorias Latentes: {K:,}')

Número de Categorias Latentes: 5


In [7]:
pi = np.random.dirichlet(alpha = [1e2]*K)

print(f'Vetor de Probabilidades:\n\n{pi}')

Vetor de Probabilidades:

[0.2231 0.1955 0.2253 0.1701 0.1860]


In [8]:
mu = np.random.normal(scale = np.sqrt(D*1e2), size = (K, D))

print(f'Vetores de Médias:\n\n{mu}')

Vetores de Médias:

[[  5.8067  35.9946]
 [ 15.2850   6.8492]
 [  8.1903  -2.5680]
 [ 19.9433  -5.2958]
 [  3.8919 -13.5871]]


In [9]:
Sigma = stats.wishart.rvs(df = D, scale = np.diag([1e0]*D)*D, size = K)

print(f'Matrizes de Covariância:\n\n{Sigma}')

Matrizes de Covariância:

[[[ 5.9530  1.3006]
  [ 1.3006  1.8563]]

 [[ 2.4363  0.0738]
  [ 0.0738 10.1450]]

 [[ 3.3613  1.7646]
  [ 1.7646  1.4433]]

 [[ 0.0759 -0.6091]
  [-0.6091  7.1479]]

 [[ 3.8455 -1.5716]
  [-1.5716  2.6185]]]


In [10]:
Parametros = {

    'pi': pi,

    'mu': mu,

    'Lambda': Sigma

}

np.save('Modelo\\Parametros.npy', Parametros)

In [11]:
z_n = np.random.choice(a = np.arange(K), p = pi, size = N)

C_k, z_k = np.unique(z_n, return_counts = True)

z_n = np.hstack([[C_k[k]]*z_k[k] for k in range(K)])

print(f'Categorais Latentes:\n\n{C_k}\n')

print(f'Quantidade de Observações por Categoria Latentes:\n\n{z_k}')

Categorais Latentes:

[0 1 2 3 4]

Quantidade de Observações por Categoria Latentes:

[22442 19430 22585 16890 18653]


In [12]:
x_n = np.vstack([

    np.random.multivariate_normal(

        mean = mu[k],

        cov = Sigma[k],

        size = z_k[k]

    ) for k in range(K)

])

print(f'Vetores Observados:\n\n{x_n}')

Vetores Observados:

[[  8.7430  35.6238]
 [  3.9648  36.7746]
 [  4.3220  35.4478]
 ...
 [  0.8230 -11.4464]
 [  1.1126 -12.6070]
 [  4.0429 -11.2880]]


In [13]:
Amostra = pd.DataFrame(x_n, columns = [f'x_{d + 1}' for d in range(D)])

Amostra['z'] = z_n

Amostra = Amostra.sample(frac = 1).reset_index(drop = True)

Amostra.to_csv('Modelo\\Amostra.csv', index = False)

In [18]:
np.array([1, 2])[:, np.newaxis] @ np.array([2, 1])[:, np.newaxis].T

array([[2, 1],
       [4, 2]])