In [544]:
from scipy import sparse as sp
import numpy as np

def spcategorical(n_cat_ids):
    '''
    Returns a dummy matrix given an array of categorical variables.
    Parameters
    ----------
    n_cat_ids    : array
                   A 1d vector of the categorical labels for n observations.

    Returns
    --------
    dummy        : array
                   A sparse matrix of dummy (indicator/binary) variables for the
                   categorical data.  

    '''
    if np.squeeze(n_cat_ids).ndim == 1:
        cat_set = np.unique(n_cat_ids)
        n = len(n_cat_ids)
        row_map = dict((id, np.where(cat_set == id)[0]) for id in
                n_cat_ids)
        index = np.array([row_map[row] for row in n_cat_ids]).flatten()
        indptr = np.arange(n+1, dtype=int) 
        return sp.csr_matrix((np.ones(n), index, indptr))
    else:
        raise IndexError("The index %s is not understood" % col)

def spcategorical2(n_cat_ids):
    '''
    Returns a dummy matrix given an array of categorical variables.
    Parameters
    ----------
    n_cat_ids    : array
                   A 1d vector of the categorical labels for n observations.

    Returns
    --------
    dummy        : array
                   A sparse matrix of dummy (indicator/binary) variables for the
                   categorical data.  

    '''
    if np.squeeze(n_cat_ids).ndim == 1:
        cat_set = np.unique(n_cat_ids)
        n = len(n_cat_ids)
        index = [np.where(cat_set == id)[0].tolist()[0] for id in n_cat_ids]
        indptr = np.arange(n+1, dtype=int) 
        return sp.csr_matrix((np.ones(n), index, indptr))
    else:
        raise IndexError("The index %s is not understood" % col)



In [577]:
x = np.random.randint(1,10, 25)

In [573]:
%time a = spcategorical(x)

CPU times: user 23.7 s, sys: 61 ms, total: 23.8 s
Wall time: 23.8 s


In [574]:
%time b = spcategorical2(x)

CPU times: user 21.9 s, sys: 90.5 ms, total: 22 s
Wall time: 22 s


In [514]:
np.allclose(a.toarray(), b.toarray())

True

In [588]:
def spcategorical(n_cat_ids):
    '''
    Returns a dummy matrix given an array of categorical variables.
    Parameters
    ----------
    n_cat_ids    : array
                   A 1d vector of the categorical labels for n observations.

    Returns
    --------
    dummy        : array
                   A sparse matrix of dummy (indicator/binary) variables for the
                   categorical data.  

    '''
    if np.squeeze(n_cat_ids).ndim == 1:
        cat_set = np.unique(n_cat_ids)
        n = len(n_cat_ids)
        index = [np.where(n_cat_ids == id)[0][n_cat_ids] for id in cat_set]
        print index
        index = np.array([val for sublist in index for val in sublist])
        print index
        indptr = np.arange(n+1, dtype=int)
        #print index
        return sp.csr_matrix((np.ones(n), index, indptr))
    else:
        raise IndexError("The index %s is not understood" % col)




In [589]:
%time c = spcategorical(x)

IndexError: index 6 is out of bounds for axis 1 with size 1

In [517]:
a

<25x9 sparse matrix of type '<type 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [518]:
b

<25x9 sparse matrix of type '<type 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [519]:
c

<25x10 sparse matrix of type '<type 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [520]:
print np.allclose(a.toarray(), b.toarray())
print np.allclose(a.toarray(), c.toarray())
print np.allclose(c.toarray(), b.toarray())

True


ValueError: operands could not be broadcast together with shapes (25,9) (25,10) 

In [305]:
print a

  (0, 0)	1.0
  (1, 2)	1.0
  (2, 1)	1.0
  (3, 6)	1.0
  (4, 2)	1.0
  (5, 7)	1.0
  (6, 4)	1.0
  (7, 3)	1.0
  (8, 2)	1.0
  (9, 3)	1.0
  (10, 5)	1.0
  (11, 4)	1.0
  (12, 1)	1.0
  (13, 6)	1.0
  (14, 8)	1.0
  (15, 5)	1.0
  (16, 6)	1.0
  (17, 3)	1.0
  (18, 3)	1.0
  (19, 5)	1.0
  (20, 7)	1.0
  (21, 1)	1.0
  (22, 4)	1.0
  (23, 1)	1.0
  (24, 6)	1.0


In [304]:
print b

  (0, 1)	1.0
  (1, 3)	1.0
  (2, 2)	1.0
  (3, 7)	1.0
  (4, 3)	1.0
  (5, 8)	1.0
  (6, 5)	1.0
  (7, 4)	1.0
  (8, 3)	1.0
  (9, 4)	1.0
  (10, 6)	1.0
  (11, 5)	1.0
  (12, 2)	1.0
  (13, 7)	1.0
  (14, 9)	1.0
  (15, 6)	1.0
  (16, 7)	1.0
  (17, 4)	1.0
  (18, 4)	1.0
  (19, 6)	1.0
  (20, 8)	1.0
  (21, 2)	1.0
  (22, 5)	1.0
  (23, 2)	1.0
  (24, 7)	1.0


In [340]:
id()

<function id>

In [346]:
from statsmodels.tools.tools import categorical

In [348]:
categorical(x, drop=True)

array([[ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.],
       [ 1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0

In [352]:
a.toarray()

array([[ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.

In [405]:
x

array([7, 5, 8, 8, 8, 1, 9, 1, 1, 9, 5, 3, 2, 4, 1, 4, 8, 1, 7, 9, 1, 3, 4,
       6, 2])

In [407]:
x.to

[7, 5, 8, 8, 8, 1, 9, 1, 1, 9, 5, 3, 2, 4, 1, 4, 8, 1, 7, 9, 1, 3, 4, 6, 2]

In [414]:
np.where(x == 5)[0].ipynb_checkp

[1, 10]

In [425]:
a = [1,5]

In [521]:
c.toarray()

array([[ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.