Problema:

Propor um classificador que identifique o grupo de cada objeto.

Dados:

* $g$: número de grupos diferentes
* $n$: número de objetos (não necessariamente diferentes)
* $n_{min}$: número mínimo de objetos em um grupo
* $n_{max}$: número máximo de objetos em um grupo

Para cada Objeto:

* $c$: número de características binárias
* $c_y$: número de características de um determinado grupo
* $c_n$: número de características dos demais grupos ($c_n = c_y (g - 1)$)
* $p$: probabilidade de ativação das características de um grupo ($p > 0.5$)
* $1 - p$: probabilidade de ativação das características dos demais grupos
* $p' = 0.5$: probabilidade de ativação das características que não são de qualquer grupo
* (as características de cada grupo não tem interseção)

In [67]:
from __future__ import division
import random

In [68]:
n = 20
n_min = 2
n_max = 5
g = 5
c = 16
c_y = 3
p = 0.8

In [69]:
if c < g * c_y:
    print 'c_y too big'

In [70]:
def group_size(g, n, n_min, n_max):
    """gera a distribuição de objetos para os grupos"""
    num_g = []
    sum = 0
    for i in range(g):
        num_g.append(random.uniform(n_min,n_max))
        sum += num_g[i]
        #print 'gen ', i, num_g[i], sum
    correct = float(n)/sum
    sum = 0
    for i in range(g):
        nr = num_g[i]*correct
        num_g[i] = int(nr)
        sum += num_g[i]
        #print sum
    if sum < n:
        num_g[g-1] += 1
        
    #print 'nums: ', sum, num_g
    return num_g

In [71]:
group_size(g, n, n_min, n_max)

[4, 2, 5, 2, 6]

Nota:

* o máximo e o mínimo podem ser violados em função do fator de correção
* `int` trunca o valor para o inteiro e `sum < n+1` fazendo com que o total corrigido seja menor que `n`, violando a premissa

In [76]:
def group_mask(g, c, c_y):
    """máscara de características para cada grupo sem interseção"""
    char_g = []
    for i in range(c):
        char_g.append(-1)
    
    index = 0
    for i in range(g):
        for j in range(c_y):
            char_g[index] = i
            index += 1
    return char_g

In [73]:
group_mask(g, c, c_y)

[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, -1]

In [74]:
def generate_data(num_g, char_g, p):
    """gera objetos para os grupos seguindo a distribuição num_g,
    a márcara char_g e a probabilidade p de ativação"""
    data = []
    for i in range(len(num_g)):
        for j in range(num_g[i]):
            vect = [0 for _ in range(len(char_g))]
            for k in range(len(vect)):
                if char_g[k] == i:
                    vect[k] = 0
                    if random.uniform(0,1) < p:
                        vect[k] = 1
                elif char_g[k] != -1:
                    vect[k] = 0
                    if random.uniform(0,1) < 1-p:
                        vect[k] = 1
                else:
                    vect[k] = 0
                    if random.uniform(0,1) < 0.5:
                        vect[k] = 1
                #print i, char_g
                #print i, vect
            data.append((vect, i))
    return data

def oc152_t_instance_generator(n, c, c_y, p, g, n_min, n_max):
    """gerador de instâncias para o problema de clusterização"""
    if c < g * c_y:
        print ' c_y too big '
        return

    num_g = group_size(g, n, n_min, n_max)
    char_g = group_mask(g, c, c_y)
    data = generate_data(num_g, char_g, p)
    return data

In [75]:
oc152_t_instance_generator(n, c, c_y, p, g, n_min, n_max)

[([0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0], 0),
 ([1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1], 0),
 ([0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0], 0),
 ([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0], 0),
 ([1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0], 1),
 ([1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1], 1),
 ([0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1], 1),
 ([0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1], 2),
 ([0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0], 2),
 ([1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0], 2),
 ([0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1], 2),
 ([0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0], 3),
 ([0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0], 3),
 ([0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1], 3),
 ([0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1], 3),
 ([0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0], 4),
 ([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0], 4),
 ([1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 