# Preprocessing with NumPy

In [1]:
import numpy as np

## Checking for Missing Values

In [2]:
Numeric = np.loadtxt("Numeric.csv", delimiter = ",")

In [4]:
np.isnan(Numeric).sum()

0

In [7]:
Nan = np.genfromtxt("NAN.csv", delimiter = ";")

In [9]:
np.isnan(Nan).sum()

260

In [10]:
Nan = np.genfromtxt("NAN.csv",
                    delimiter = ";",
                     filling_values= 0)

In [11]:
np.isnan(Nan).sum()

0

In [12]:
Nan = np.genfromtxt("NAN.csv",
                    delimiter = ";")

In [14]:
fill = np.nanmax(Nan).round(2)+1


In [15]:
fill

64002.0

In [17]:
Nan = np.genfromtxt("NAN.csv",
                    delimiter = ";",
                    filling_values =fill)

In [18]:
np.isnan(Nan).sum()

0

## Substituting Missing Values

In [21]:
Nan = np.genfromtxt("NAN.csv",delimiter = ";")
Nan

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [   nan,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [22]:
mean = np.nanmean(Nan, axis=0).round(2)

In [23]:
mean[0]

2250.25

In [24]:
fill = np.nanmax(Nan).round(2)+1

Nan = np.genfromtxt("NAN.csv",
                    delimiter = ";",
                    filling_values =fill)


In [25]:
fill

64002.0

In [26]:
np.mean(Nan[:,0]).round(2)

4263.25

In [27]:
mean[0]

2250.25

In [28]:
Nan[:,0] = np.where(Nan[:,0] == fill,
                     mean[0],
                      Nan[:,0])

In [29]:
np.mean(Nan[:,0]).round(2)

2250.25

In [30]:
 for i in range(Nan.shape[1]):
    
      Nan[:,i] = np.where(Nan[:,i] == fill,
                     mean[i],
                      Nan[:,i ])

In [31]:
 for i in range(Nan.shape[1]):
    
      Nan[:,i] = np.where(Nan[:,i] < 0,
                     0,
                      Nan[:,i ])

## Reshaping

In [33]:
numeric = np.loadtxt("Numeric.csv", delimiter =",")

In [34]:
numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [36]:
numeric.shape

(1043, 6)

In [37]:
np.reshape(numeric, (6,1043))

array([[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
       [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
       [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.],
       [ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
       [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
       [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]])

In [38]:
np.transpose(numeric)

array([[ 2000.,  2000.,  1000., ...,  2000.,  1000.,  2000.],
       [   40.,    40.,    40., ...,    40.,    40.,    40.],
       [  365.,   365.,   365., ...,   365.,   365.,   365.],
       [ 3121.,  3061.,  2160., ...,  4201.,  2080.,  4601.],
       [ 4241.,  4171.,  3280., ...,  5001.,  3320.,  4601.],
       [13621., 15041., 15340., ..., 16600., 15600., 16600.]])

In [40]:
np.reshape(numeric, (2,3,1043))

array([[[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
        [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
        [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.]],

       [[ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
        [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
        [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]]])

In [41]:
numeric_reshape = np.reshape(numeric, (2,3,1043))

In [42]:
numeric.reshape(6,1043)

array([[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
       [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
       [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.],
       [ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
       [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
       [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]])

## Removing Values

In [43]:
numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [45]:
np.delete(numeric,0).shape

(6257,)

In [46]:
numeric.size

6258

In [51]:
np.delete(numeric,[0,2,4],axis=1)

array([[   40.,  3121., 13621.],
       [   40.,  3061., 15041.],
       [   40.,  2160., 15340.],
       ...,
       [   40.,  4201., 16600.],
       [   40.,  2080., 15600.],
       [   40.,  4601., 16600.]])

In [52]:
np.delete(np.delete(numeric,[0,2,4],axis=1),[0,2,-1],axis=0)

array([[   40.,  3061., 15041.],
       [   40.,  3041., 15321.],
       [   50.,  3470., 13720.],
       ...,
       [   40.,  4240., 16600.],
       [   40.,  4201., 16600.],
       [   40.,  2080., 15600.]])

## Sorting Data

In [53]:
numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [55]:
np.sort(numeric).shape

(1043, 6)

In [56]:
numeric.shape

(1043, 6)

In [61]:
np.sort(numeric,axis=None)

array([-2870., -2870., -2550., ..., 54625., 54625., 64001.])

In [59]:
np.set_printoptions(suppress=True)

In [62]:
np.sort(numeric)

array([[   40.,   365.,  2000.,  3121.,  4241., 13621.],
       [   40.,   365.,  2000.,  3061.,  4171., 15041.],
       [   40.,   365.,  1000.,  2160.,  3280., 15340.],
       ...,
       [   40.,   365.,  2000.,  4201.,  5001., 16600.],
       [   40.,   365.,  1000.,  2080.,  3320., 15600.],
       [   40.,   365.,  2000.,  4601.,  4601., 16600.]])

In [64]:
-np.sort(-numeric)

array([[13621.,  4241.,  3121.,  2000.,   365.,    40.],
       [15041.,  4171.,  3061.,  2000.,   365.,    40.],
       [15340.,  3280.,  2160.,  1000.,   365.,    40.],
       ...,
       [16600.,  5001.,  4201.,  2000.,   365.,    40.],
       [15600.,  3320.,  2080.,  1000.,   365.,    40.],
       [16600.,  4601.,  4601.,  2000.,   365.,    40.]])

In [67]:
np.sort(numeric[:,
               ])

array([[   40.,   365.,  2000.,  3121.,  4241., 13621.],
       [   40.,   365.,  2000.,  3061.,  4171., 15041.],
       [   40.,   365.,  1000.,  2160.,  3280., 15340.],
       ...,
       [   40.,   365.,  2000.,  4201.,  5001., 16600.],
       [   40.,   365.,  1000.,  2080.,  3320., 15600.],
       [   40.,   365.,  2000.,  4601.,  4601., 16600.]])

## Argument Functions

### np.argsort()

In [72]:
np.sort(numeric,axis=0)

array([[ 1000.,    35.,   365., -2870., -2870.,  -350.],
       [ 1000.,    35.,   365., -2550., -2100.,   150.],
       [ 1000.,    35.,   365., -2450., -2000.,  1100.],
       ...,
       [ 9000.,   125.,   365., 16751., 18751., 54625.],
       [ 9000.,   165.,   365., 17650., 20001., 54625.],
       [ 9000.,   165.,   365., 19001., 22001., 64001.]])

In [69]:
np.argsort(numeric)

array([[1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5],
       ...,
       [1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5]], dtype=int64)

In [70]:
np.argsort(numeric,axis=0)

array([[ 537,  443,    0,   32,   32,  482],
       [ 639,  327,  687,  166,  166,  493],
       [ 849,  432,  688,   85,   85,  166],
       ...,
       [  27,  326,  355,  568, 1019,  568],
       [ 277,   27,  357,  718, 1033,  534],
       [ 420,  408, 1042,  912,  912,   27]], dtype=int64)

In [74]:
numeric[482,5]

-350.0

In [75]:
np.argsort(numeric[:,0])

array([537, 639, 849, ...,  27, 277, 420], dtype=int64)

### np.argwhere()

## Shuffling Data

## Casting

## Stripping Data

## Stacking

## Concatenate

## Unique 