## Checking for missing values in ndarrays

In [1]:
import numpy as np

In [3]:
lending_company = np.loadtxt("Lending-company-Numeric.csv",
                            delimiter=',')
lending_company

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [4]:
# to check for missing values
np.isnan(lending_company)

array([[False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       ...,
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False]])

In [5]:
lending_company_nan = np.genfromtxt("Lending-company-Numeric-NAN.csv",
                                   delimiter = ';')

In [6]:
lending_company_nan

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [   nan,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [8]:
# Check for the number of missing values
np.isnan(lending_company_nan).sum()

260

## Substituting missing values in ndarrays

In [9]:
lending_company_nan_sub = np.genfromtxt("Lending-company-Numeric-NAN.csv",
                                   delimiter = ';',
                                    filling_values = 0)

In [16]:
lending_company_nan_sub

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [    0.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [85]:
nums_array = np.array([[11, 12,np.nan, 14],[21,np.nan,np.nan,24], [31, 32, 33, 34]])
nums_array

array([[11., 12., nan, 14.],
       [21., nan, nan, 24.],
       [31., 32., 33., 34.]])

In [82]:
print(np.nan_to_num(nums_array))

[[11. 12.  0. 14.]
 [21.  0.  0. 24.]
 [31. 32. 33. 34.]]


In [21]:
print(np.nan_to_num(nums_array, nan=-1))

[[11. 12.  0. 14.]
 [21.  0.  0. 24.]
 [31. 32. 33. 34.]]


In [22]:
np.__version__

'1.16.5'

In [25]:
np.nanmean(nums_array)

23.555555555555557

In [None]:
np.nan_to_num(nums_array, nan=np.nanmean(nums_array))

In [26]:
nums_array

array([[11., 12., nan, 14.],
       [21., nan, nan, 24.],
       [31., 32., 33., 34.]])

In [86]:
np.nan_to_num(nums_array, copy=False)

array([[11., 12.,  0., 14.],
       [21.,  0.,  0., 24.],
       [31., 32., 33., 34.]])

In [28]:
nums_array

array([[11., 12.,  0., 14.],
       [21.,  0.,  0., 24.],
       [31., 32., 33., 34.]])

### Reshaping ndarrays

In [29]:
lending_company

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [30]:
lending_company.shape

(1043, 6)

In [31]:
np.reshape(lending_company, (6, 1043))

array([[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
       [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
       [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.],
       [ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
       [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
       [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]])

In [32]:
np.reshape(lending_company, (3129, 2))

array([[ 2000.,    40.],
       [  365.,  3121.],
       [ 4241., 13621.],
       ...,
       [ 2000.,    40.],
       [  365.,  4601.],
       [ 4601., 16600.]])

In [33]:
np.reshape(lending_company, (894, 7))

array([[ 2000.,    40.,   365., ...,  4241., 13621.,  2000.],
       [   40.,   365.,  3061., ..., 15041.,  1000.,    40.],
       [  365.,  2160.,  3280., ...,  2000.,    40.,   365.],
       ...,
       [ 4240.,  5440., 16600., ...,    40.,   365.,  4201.],
       [ 5001., 16600.,  1000., ...,   365.,  2080.,  3320.],
       [15600.,  2000.,    40., ...,  4601.,  4601., 16600.]])

In [35]:
lending_company.reshape(7, 894)

array([[ 2000.,    40.,   365., ...,   300.,   850.,  6750.],
       [ 4000.,    50.,   365., ..., -2150.,  -750.,  3600.],
       [ 2000.,    40.,   365., ...,  3401.,  4101., 14041.],
       ...,
       [ 1000.,    50.,   365., ...,  7901.,  7901., 16600.],
       [ 1000.,    40.,   365., ...,  3750.,  5250., 20250.],
       [ 4000.,    50.,   365., ...,  4601.,  4601., 16600.]])

In [36]:
lending_company.transpose()

array([[ 2000.,  2000.,  1000., ...,  2000.,  1000.,  2000.],
       [   40.,    40.,    40., ...,    40.,    40.,    40.],
       [  365.,   365.,   365., ...,   365.,   365.,   365.],
       [ 3121.,  3061.,  2160., ...,  4201.,  2080.,  4601.],
       [ 4241.,  4171.,  3280., ...,  5001.,  3320.,  4601.],
       [13621., 15041., 15340., ..., 16600., 15600., 16600.]])

In [37]:
lending_company

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

### Removing Values

In [38]:
nums_array

array([[11., 12.,  0., 14.],
       [21.,  0.,  0., 24.],
       [31., 32., 33., 34.]])

In [42]:
new_nums = np.delete(nums_array, [4, 6])
new_nums

array([11., 12.,  0., 14.,  0., 24., 31., 32., 33., 34.])

In [43]:
new_nums.reshape(2, 5)

array([[11., 12.,  0., 14.,  0.],
       [24., 31., 32., 33., 34.]])

In [46]:
col1_del = np.delete(nums_array, [1, 3], axis=1)
col1_del

array([[11.,  0.],
       [21.,  0.],
       [31., 33.]])

In [47]:
row_del = np.delete(nums_array, [1], axis=0)
row_del

array([[11., 12.,  0., 14.],
       [31., 32., 33., 34.]])

In [48]:
nums_array

array([[11., 12.,  0., 14.],
       [21.,  0.,  0., 24.],
       [31., 32., 33., 34.]])

In [55]:
clean_array = np.delete(nums_array, np.where(nums_array == 0))
clean_array

array([14., 21.,  0.,  0., 24., 31., 32., 33., 34.])

In [65]:
clean_array = np.delete(nums_array.reshape(1, 12), np.where(nums_array == 23))
clean_array

array([11., 12.,  0., 14., 21.,  0.,  0., 24., 31., 32., 33., 34.])

### Sorting Data

In [66]:
np.sort(nums_array)

array([[ 0., 11., 12., 14.],
       [ 0.,  0., 21., 24.],
       [31., 32., 33., 34.]])

In [67]:
np.sort(lending_company)

array([[   40.,   365.,  2000.,  3121.,  4241., 13621.],
       [   40.,   365.,  2000.,  3061.,  4171., 15041.],
       [   40.,   365.,  1000.,  2160.,  3280., 15340.],
       ...,
       [   40.,   365.,  2000.,  4201.,  5001., 16600.],
       [   40.,   365.,  1000.,  2080.,  3320., 15600.],
       [   40.,   365.,  2000.,  4601.,  4601., 16600.]])

In [69]:
-np.sort(-lending_company)

array([[13621.,  4241.,  3121.,  2000.,   365.,    40.],
       [15041.,  4171.,  3061.,  2000.,   365.,    40.],
       [15340.,  3280.,  2160.,  1000.,   365.,    40.],
       ...,
       [16600.,  5001.,  4201.,  2000.,   365.,    40.],
       [15600.,  3320.,  2080.,  1000.,   365.,    40.],
       [16600.,  4601.,  4601.,  2000.,   365.,    40.]])

In [70]:
lending_company.sort(axis=1)

In [71]:
lending_company

array([[   40.,   365.,  2000.,  3121.,  4241., 13621.],
       [   40.,   365.,  2000.,  3061.,  4171., 15041.],
       [   40.,   365.,  1000.,  2160.,  3280., 15340.],
       ...,
       [   40.,   365.,  2000.,  4201.,  5001., 16600.],
       [   40.,   365.,  1000.,  2080.,  3320., 15600.],
       [   40.,   365.,  2000.,  4601.,  4601., 16600.]])

In [72]:
lending_company.sort(axis=0)
lending_company

array([[-2.8700e+03, -2.8700e+03, -3.5000e+02,  5.0000e+01,  3.6500e+02,
         1.0000e+03],
       [-2.5500e+03, -2.1000e+03,  5.0000e+01,  1.5000e+02,  3.6500e+02,
         1.0000e+03],
       [-2.4500e+03, -2.0000e+03,  5.0000e+01,  3.6500e+02,  1.0000e+03,
         1.1000e+03],
       ...,
       [ 1.2500e+02,  3.6500e+02,  9.0000e+03,  1.6751e+04,  1.8751e+04,
         5.4625e+04],
       [ 1.6500e+02,  3.6500e+02,  9.0000e+03,  1.7650e+04,  2.0001e+04,
         5.4625e+04],
       [ 1.6500e+02,  3.6500e+02,  9.0000e+03,  1.9001e+04,  2.2001e+04,
         6.4001e+04]])

In [73]:
np.set_printoptions(suppress=True)

In [75]:
lending_company[:100]

array([[-2870., -2870.,  -350.,    50.,   365.,  1000.],
       [-2550., -2100.,    50.,   150.,   365.,  1000.],
       [-2450., -2000.,    50.,   365.,  1000.,  1100.],
       [-2400., -1750.,    50.,   365.,  1000.,  1160.],
       [-2150., -1200.,    50.,   365.,  1000.,  1480.],
       [-2150., -1200.,    50.,   365.,  1000.,  1500.],
       [-2100.,  -910.,    50.,   365.,  1000.,  1830.],
       [-2100.,  -850.,    50.,   365.,  1000.,  2001.],
       [-2000.,  -750.,    50.,   365.,  1000.,  2420.],
       [-1980.,  -680.,    50.,   365.,  1000.,  2480.],
       [-1950.,  -550.,    50.,   365.,  1000.,  2600.],
       [-1950.,  -530.,    50.,   365.,  1000.,  2850.],
       [-1900.,  -500.,    50.,   365.,  1000.,  3135.],
       [-1900.,  -450.,    50.,   365.,  1000.,  3240.],
       [-1860.,  -450.,    50.,   365.,  1000.,  3500.],
       [-1850.,  -440.,    50.,   365.,  1000.,  3600.],
       [-1850.,  -400.,    50.,   365.,  1000.,  3801.],
       [-1850.,  -400.,    50.,

In [76]:
nums_array.sort(axis=1)

In [77]:
nums_array

array([[ 0., 11., 12., 14.],
       [ 0.,  0., 21., 24.],
       [31., 32., 33., 34.]])

In [78]:
-np.sort(-nums_array)

array([[14., 12., 11.,  0.],
       [24., 21.,  0.,  0.],
       [34., 33., 32., 31.]])

In [88]:
nums_array.sort(axis=0)

In [89]:
nums_array

array([[11.,  0.,  0., 14.],
       [21., 12.,  0., 24.],
       [31., 32., 33., 34.]])

In [90]:
nums_array.sort(axis=1)

In [91]:
nums_array

array([[ 0.,  0., 11., 14.],
       [ 0., 12., 21., 24.],
       [31., 32., 33., 34.]])