# Finding unique values and insertion points

In [2]:
import numpy as np
import numpy.random as npr
from itertools import combinations

In [9]:
available = [x[0] + x[1] + x[2] for x in combinations("ABCDEFGHJKLM",3)]
symbols = npr.choice(available, 60)
symbols

array(['CDH', 'CJM', 'CFM', 'CDG', 'BLM', 'CDF', 'BEK', 'DFH', 'FHJ',
       'ACH', 'AFK', 'BFJ', 'FKL', 'DJL', 'BJK', 'FGH', 'CEG', 'BCK',
       'GHL', 'CDE', 'EGJ', 'ELM', 'DLM', 'BGH', 'CEL', 'AGM', 'BCD',
       'ADM', 'FHJ', 'DJL', 'ADL', 'BDF', 'AEF', 'BEL', 'CEF', 'CHK',
       'CGJ', 'ACK', 'BJM', 'ABE', 'FGJ', 'BFJ', 'ABE', 'EJK', 'CGK',
       'AEJ', 'BFH', 'BDK', 'BEM', 'DFJ', 'AFL', 'CDK', 'CJK', 'CGL',
       'AJM', 'BFL', 'BDG', 'BKM', 'BDE', 'DKM'], dtype='<U3')

### Returns sorted array of unique observations

In [10]:
np.unique(symbols)

array(['ABE', 'ACH', 'ACK', 'ADL', 'ADM', 'AEF', 'AEJ', 'AFK', 'AFL',
       'AGM', 'AJM', 'BCD', 'BCK', 'BDE', 'BDF', 'BDG', 'BDK', 'BEK',
       'BEL', 'BEM', 'BFH', 'BFJ', 'BFL', 'BGH', 'BJK', 'BJM', 'BKM',
       'BLM', 'CDE', 'CDF', 'CDG', 'CDH', 'CDK', 'CEF', 'CEG', 'CEL',
       'CFM', 'CGJ', 'CGK', 'CGL', 'CHK', 'CJK', 'CJM', 'DFH', 'DFJ',
       'DJL', 'DKM', 'DLM', 'EGJ', 'EJK', 'ELM', 'FGH', 'FGJ', 'FHJ',
       'FKL', 'GHL'], dtype='<U3')

In [11]:
len(np.unique(symbols))

56

### Returns sorted array and index where observations occured

In [13]:
a, b = np.unique(symbols, return_index=True)

In [14]:
a

array(['ABE', 'ACH', 'ACK', 'ADL', 'ADM', 'AEF', 'AEJ', 'AFK', 'AFL',
       'AGM', 'AJM', 'BCD', 'BCK', 'BDE', 'BDF', 'BDG', 'BDK', 'BEK',
       'BEL', 'BEM', 'BFH', 'BFJ', 'BFL', 'BGH', 'BJK', 'BJM', 'BKM',
       'BLM', 'CDE', 'CDF', 'CDG', 'CDH', 'CDK', 'CEF', 'CEG', 'CEL',
       'CFM', 'CGJ', 'CGK', 'CGL', 'CHK', 'CJK', 'CJM', 'DFH', 'DFJ',
       'DJL', 'DKM', 'DLM', 'EGJ', 'EJK', 'ELM', 'FGH', 'FGJ', 'FHJ',
       'FKL', 'GHL'], dtype='<U3')

In [15]:
b

array([39,  9, 37, 30, 27, 32, 45, 10, 50, 25, 54, 26, 17, 58, 31, 56, 47,
        6, 33, 48, 46, 11, 55, 23, 14, 38, 57,  4, 19,  5,  3,  0, 51, 34,
       16, 24,  2, 36, 44, 53, 35, 52,  1,  7, 49, 13, 59, 22, 20, 43, 21,
       15, 40,  8, 12, 18])

### return_inverse

In [16]:
unique, index = np.unique(symbols, return_inverse=True)

In [18]:
unique[index]

array(['CDH', 'CJM', 'CFM', 'CDG', 'BLM', 'CDF', 'BEK', 'DFH', 'FHJ',
       'ACH', 'AFK', 'BFJ', 'FKL', 'DJL', 'BJK', 'FGH', 'CEG', 'BCK',
       'GHL', 'CDE', 'EGJ', 'ELM', 'DLM', 'BGH', 'CEL', 'AGM', 'BCD',
       'ADM', 'FHJ', 'DJL', 'ADL', 'BDF', 'AEF', 'BEL', 'CEF', 'CHK',
       'CGJ', 'ACK', 'BJM', 'ABE', 'FGJ', 'BFJ', 'ABE', 'EJK', 'CGK',
       'AEJ', 'BFH', 'BDK', 'BEM', 'DFJ', 'AFL', 'CDK', 'CJK', 'CGL',
       'AJM', 'BFL', 'BDG', 'BKM', 'BDE', 'DKM'], dtype='<U3')

### Return counts of observations

In [19]:
np.unique(symbols, return_counts=True)

(array(['ABE', 'ACH', 'ACK', 'ADL', 'ADM', 'AEF', 'AEJ', 'AFK', 'AFL',
        'AGM', 'AJM', 'BCD', 'BCK', 'BDE', 'BDF', 'BDG', 'BDK', 'BEK',
        'BEL', 'BEM', 'BFH', 'BFJ', 'BFL', 'BGH', 'BJK', 'BJM', 'BKM',
        'BLM', 'CDE', 'CDF', 'CDG', 'CDH', 'CDK', 'CEF', 'CEG', 'CEL',
        'CFM', 'CGJ', 'CGK', 'CGL', 'CHK', 'CJK', 'CJM', 'DFH', 'DFJ',
        'DJL', 'DKM', 'DLM', 'EGJ', 'EJK', 'ELM', 'FGH', 'FGJ', 'FHJ',
        'FKL', 'GHL'], dtype='<U3'),
 array([2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1]))

### Return the index where a value should be inserted to maintain order in sorted array

In [20]:
np.searchsorted(symbols, "BFD")

49

In [21]:
np.searchsorted(symbols, ['BDF', 'AKA', 'CBA'])

array([46,  0, 49])