# Finding Unique Values and Insertion Points

In [1]:
import numpy as np
import numpy.random as npr
from itertools import combinations

In [7]:
available = [x[0] + x[1] + x[2] for x in combinations("ABCDEFGHJKLM", 3)]
symbols = npr.choice(available, 60)
symbols

array(['CGK', 'DEG', 'FKL', 'BDE', 'DEG', 'CDH', 'AJL', 'BKL', 'HKL',
       'GHM', 'EFM', 'DHL', 'EHJ', 'DGK', 'AEL', 'BHK', 'FKM', 'ACJ',
       'EJL', 'CGJ', 'HKM', 'FLM', 'DGH', 'CGJ', 'CFM', 'EFM', 'AGJ',
       'DGJ', 'EKL', 'ABD', 'HLM', 'ABM', 'DEL', 'ABL', 'EGH', 'ACH',
       'EJM', 'DFK', 'DEH', 'EFM', 'GKM', 'FKM', 'CFL', 'EHJ', 'FJM',
       'DGJ', 'AHM', 'AEK', 'CDL', 'AHK', 'EHJ', 'AGK', 'BKM', 'CFH',
       'FHK', 'DHK', 'EJL', 'CDG', 'AGH', 'DEK'], dtype='<U3')

### Returns sorted array of unique observations

In [8]:
np.unique(symbols)

array(['ABD', 'ABL', 'ABM', 'ACH', 'ACJ', 'AEK', 'AEL', 'AGH', 'AGJ',
       'AGK', 'AHK', 'AHM', 'AJL', 'BDE', 'BHK', 'BKL', 'BKM', 'CDG',
       'CDH', 'CDL', 'CFH', 'CFL', 'CFM', 'CGJ', 'CGK', 'DEG', 'DEH',
       'DEK', 'DEL', 'DFK', 'DGH', 'DGJ', 'DGK', 'DHK', 'DHL', 'EFM',
       'EGH', 'EHJ', 'EJL', 'EJM', 'EKL', 'FHK', 'FJM', 'FKL', 'FKM',
       'FLM', 'GHM', 'GKM', 'HKL', 'HKM', 'HLM'], dtype='<U3')

In [9]:
len(np.unique(symbols))

51

### Returns sorted array and index where observation occurred

In [11]:
a, b = np.unique(symbols, return_index=True)

In [12]:
a 

array(['ABD', 'ABL', 'ABM', 'ACH', 'ACJ', 'AEK', 'AEL', 'AGH', 'AGJ',
       'AGK', 'AHK', 'AHM', 'AJL', 'BDE', 'BHK', 'BKL', 'BKM', 'CDG',
       'CDH', 'CDL', 'CFH', 'CFL', 'CFM', 'CGJ', 'CGK', 'DEG', 'DEH',
       'DEK', 'DEL', 'DFK', 'DGH', 'DGJ', 'DGK', 'DHK', 'DHL', 'EFM',
       'EGH', 'EHJ', 'EJL', 'EJM', 'EKL', 'FHK', 'FJM', 'FKL', 'FKM',
       'FLM', 'GHM', 'GKM', 'HKL', 'HKM', 'HLM'], dtype='<U3')

In [13]:
b

array([29, 33, 31, 35, 17, 47, 14, 58, 26, 51, 49, 46,  6,  3, 15,  7, 52,
       57,  5, 48, 53, 42, 24, 19,  0,  1, 38, 59, 32, 37, 22, 27, 13, 55,
       11, 10, 34, 12, 18, 36, 28, 54, 44,  2, 16, 21,  9, 40,  8, 20, 30],
      dtype=int64)

### return_inverse

In [14]:
unique, index = np.unique(symbols, return_inverse=True)

In [15]:
unique[index]

array(['CGK', 'DEG', 'FKL', 'BDE', 'DEG', 'CDH', 'AJL', 'BKL', 'HKL',
       'GHM', 'EFM', 'DHL', 'EHJ', 'DGK', 'AEL', 'BHK', 'FKM', 'ACJ',
       'EJL', 'CGJ', 'HKM', 'FLM', 'DGH', 'CGJ', 'CFM', 'EFM', 'AGJ',
       'DGJ', 'EKL', 'ABD', 'HLM', 'ABM', 'DEL', 'ABL', 'EGH', 'ACH',
       'EJM', 'DFK', 'DEH', 'EFM', 'GKM', 'FKM', 'CFL', 'EHJ', 'FJM',
       'DGJ', 'AHM', 'AEK', 'CDL', 'AHK', 'EHJ', 'AGK', 'BKM', 'CFH',
       'FHK', 'DHK', 'EJL', 'CDG', 'AGH', 'DEK'], dtype='<U3')

### Return counts of observations

In [16]:
np.unique(symbols, return_counts=True)

(array(['ABD', 'ABL', 'ABM', 'ACH', 'ACJ', 'AEK', 'AEL', 'AGH', 'AGJ',
        'AGK', 'AHK', 'AHM', 'AJL', 'BDE', 'BHK', 'BKL', 'BKM', 'CDG',
        'CDH', 'CDL', 'CFH', 'CFL', 'CFM', 'CGJ', 'CGK', 'DEG', 'DEH',
        'DEK', 'DEL', 'DFK', 'DGH', 'DGJ', 'DGK', 'DHK', 'DHL', 'EFM',
        'EGH', 'EHJ', 'EJL', 'EJM', 'EKL', 'FHK', 'FJM', 'FKL', 'FKM',
        'FLM', 'GHM', 'GKM', 'HKL', 'HKM', 'HLM'], dtype='<U3'),
 array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 2, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 3, 1, 3, 2, 1, 1, 1, 1, 1,
        2, 1, 1, 1, 1, 1, 1], dtype=int64))

### Return the index where a value should be inserted to maintain order in sorted array

In [17]:
np.searchsorted(symbols, "BFD")

4

In [18]:
np.searchsorted(symbols, ['BFD', 'AKA', 'IMO'])

array([ 4,  0, 60], dtype=int64)