### 1. Import numpy as np and see the version

In [1]:
!pip install numpy





In [2]:
import numpy as np
print(np.__version__)

2.1.3


### 2. How to create a 1D array?

In [3]:
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


### 3. How to create a boolean array?

In [4]:
arr_bool = np.full((3,3), True , dtype=bool)
print(arr_bool)

[[ True  True  True]
 [ True  True  True]
 [ True  True  True]]


### 4. How to extract items that satisfy a given condition from 1D array?

In [5]:
arr = [int(_) for _ in np.arange(10) if _%2==1]
print(arr)

# OR
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[arr % 2 == 1]

# Ein 3D-Array erstellen
arr2 = np.array([
    [[0, 1, 2], [3, 4, 5]],
    [[6, 7, 8], [9, 10, 11]]
])

# Elemente auswählen, die bei Modulo 2 den Rest 1 haben (ungerade Zahlen)
arr2[arr2 % 2 == 1]


# 3D-Array
arr3 = np.array([
    [[0, 1, 2], [3, 4, 5]],
    [[6, 7, 8], [9, 10, 11]]
])

# Nur ungerade Zahlen beibehalten, andere durch -1 ersetzen
masked = np.where(arr3 % 2 == 1, arr3, -1)

print(masked)

[1, 3, 5, 7, 9]
[[[-1  1 -1]
  [ 3 -1  5]]

 [[-1  7 -1]
  [ 9 -1 11]]]


### 5. How to replace items that satisfy a condition with another value in numpy array?

In [6]:
arr = np.arange(10)
arr = np.where(arr % 2 == 0 , arr, -1)
print(arr)

# OR
arr2 = np.arange(10)
arr2[arr2 % 2 == 1] = -1
print(arr2)

[ 0 -1  2 -1  4 -1  6 -1  8 -1]
[ 0 -1  2 -1  4 -1  6 -1  8 -1]


### 6. How to replace items that satisfy a condition without affecting the original array?

In [7]:
arr = np.arange(10)
even = np.where(arr % 2 == 0 , arr, -1)
print(arr)
print(even)

[0 1 2 3 4 5 6 7 8 9]
[ 0 -1  2 -1  4 -1  6 -1  8 -1]


### 7. How to reshape an array?

In [8]:
arr = np.arange(10)
print(arr.shape)

arr = arr.reshape((2,-1))
print(arr)

(10,)
[[0 1 2 3 4]
 [5 6 7 8 9]]


### 8. How to stack two arrays vertically?

In [9]:
a = np.arange(10).reshape(2,-1)
b = np.repeat(1, 10).reshape(2,-1)
print(a)
print(b)

print("\n")
np.concatenate([a,b], axis=0)
print(a)
print(b)


[[0 1 2 3 4]
 [5 6 7 8 9]]
[[1 1 1 1 1]
 [1 1 1 1 1]]


[[0 1 2 3 4]
 [5 6 7 8 9]]
[[1 1 1 1 1]
 [1 1 1 1 1]]


### 9. How to stack two arrays horizontally?

In [10]:
a = np.arange(10).reshape(2,-1)
b = np.repeat(1, 10).reshape(2,-1)

# Answers
# Method 1:
np.concatenate([a, b], axis=1)

# Method 2:
np.hstack([a, b])

# Method 3:
np.c_[a, b]

array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
       [5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])

### 10. How to generate custom sequences in numpy without hardcoding?

In [11]:
a = np.array([1,2,3])
np.r_[np.repeat(a, 3), np.tile(a, 3)]

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])

### 11. How to get the common items between two python numpy arrays?

In [12]:
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])
np.intersect1d(a,b)

array([2, 4])

### 12. How to remove from one array those items that exist in another?

In [13]:
a = np.array([1,2,3,4,5])
b = np.array([5,6,7,8,9])

# From 'a' remove all of 'b'
np.setdiff1d(a,b)
#> array([1, 2, 3, 4])



array([1, 2, 3, 4])

### 13. How to get the positions where elements of two arrays match?

In [14]:
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])

np.where(a == b)
#> (array([1, 3, 5, 7]),)



(array([1, 3, 5, 7]),)

### 14. How to extract all numbers between a given range from a numpy array?

In [15]:
a = np.arange(15)

# Method 1
index = np.where((a >= 5) & (a <= 10))
a[index]

# Method 2:
index = np.where(np.logical_and(a>=5, a<=10))
a[index]
#> (array([6, 9, 10]),)

# Method 3: (thanks loganzk!)
a[(a >= 5) & (a <= 10)]



array([ 5,  6,  7,  8,  9, 10])

### 15. How to make a python function that handles scalars to work on numpy arrays?

In [16]:
def maxx(x, y):
    """Get the maximum of two items"""
    if x >= y:
        return x
    else:
        return y

pair_max = np.vectorize(maxx, otypes=[float])

a = np.array([5, 7, 9, 8, 6, 4, 5])
b = np.array([6, 3, 4, 8, 9, 7, 1])

pair_max(a, b)
#> array([ 6.,  7.,  9.,  8.,  9.,  7.,  5.])



array([6., 7., 9., 8., 9., 7., 5.])

### 16. How to swap two columns in a 2d numpy array?

In [17]:
arr = np.arange(9).reshape(3,3)

# Solution
arr[[1,0,2], :]
#> array([[3, 4, 5],
#>        [0, 1, 2],
#>        [6, 7, 8]])



array([[3, 4, 5],
       [0, 1, 2],
       [6, 7, 8]])

### 18. How to reverse the rows of a 2D array?

In [18]:
arr = np.arange(9).reshape(3,3)

# Solution
arr[::-1]

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

### 19. How to reverse the columns of a 2D array?

In [19]:
arr = np.arange(9).reshape(3,3)

# Solution
arr[:, ::-1]
#> array([[2, 1, 0],
#>        [5, 4, 3],
#>        [8, 7, 6]])

array([[2, 1, 0],
       [5, 4, 3],
       [8, 7, 6]])

### 20. How to create a 2D array containing random floats between 5 and 10?

In [20]:
arr = np.arange(9).reshape(3,3)

# Solution Method 1:
rand_arr = np.random.randint(low=5, high=10, size=(5,3)) + np.random.random((5,3))
# print(rand_arr)

# Solution Method 2:
rand_arr = np.random.uniform(5,10, size=(5,3))
print(rand_arr)
#> [[ 8.50061025  9.10531502  6.85867783]
#>  [ 9.76262069  9.87717411  7.13466701]
#>  [ 7.48966403  8.33409158  6.16808631]
#>  [ 7.75010551  9.94535696  5.27373226]
#>  [ 8.0850361   5.56165518  7.31244004]]

[[9.62960922 9.15247055 9.61212207]
 [9.35432339 7.51389311 5.5895578 ]
 [7.2191097  6.29406427 5.53990095]
 [8.7292929  5.95596342 7.29586973]
 [8.09553863 8.17094943 5.69499174]]


### 21. How to print only 3 decimal places in python numpy array?

In [21]:
rand_arr = np.random.random([5,3])

# Limit to 3 decimal places
np.set_printoptions(precision=3)
rand_arr[:4]
#> array([[ 0.443,  0.109,  0.97 ],
#>        [ 0.388,  0.447,  0.191],
#>        [ 0.891,  0.474,  0.212],
#>        [ 0.609,  0.518,  0.403]])

array([[0.174, 0.609, 0.987],
       [0.587, 0.062, 0.621],
       [0.803, 0.655, 0.861],
       [0.233, 0.463, 0.183]])

### 22. How to pretty print a numpy array by suppressing the scientific notation (like 1e10)?

In [22]:
# Reset printoptions to default
np.set_printoptions(suppress=False)

# Create the random array
np.random.seed(100)
rand_arr = np.random.random([3,3])/1e3
rand_arr
#> array([[  5.434049e-04,   2.783694e-04,   4.245176e-04],
#>        [  8.447761e-04,   4.718856e-06,   1.215691e-04],
#>        [  6.707491e-04,   8.258528e-04,   1.367066e-04]])

np.set_printoptions(suppress=True, precision=6)  # precision is optional
rand_arr
#> array([[ 0.000543,  0.000278,  0.000425],
#>        [ 0.000845,  0.000005,  0.000122],
#>        [ 0.000671,  0.000826,  0.000137]])

array([[0.000543, 0.000278, 0.000425],
       [0.000845, 0.000005, 0.000122],
       [0.000671, 0.000826, 0.000137]])

### 23. How to limit the number of items printed in output of numpy array?

In [23]:
np.set_printoptions(threshold=6)
a = np.arange(15)
a
#> array([ 0,  1,  2, ..., 12, 13, 14])



array([ 0,  1,  2, ..., 12, 13, 14])

### 24. How to print the full numpy array without truncating

In [24]:
np.set_printoptions(threshold=6)
a = np.arange(15)

# Solution
np.set_printoptions(threshold=np.inf)
a
#> array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### 25. How to import a dataset with numbers and texts keeping the text intact in python numpy?

In [25]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

# Print the first 3 rows
iris[:3]
#> array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
#>        [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
#>        [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa']], dtype=object)

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa']], dtype=object)

### 26. How to extract a particular column from 1D array of tuples?

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_1d = np.genfromtxt(url, delimiter=',', dtype=None)

species = np.array([row[4] for row in iris_1d])
species[:5]
#> (150,)
#> array([b'Iris-setosa', b'Iris-setosa', b'Iris-setosa', b'Iris-setosa',
#>        b'Iris-setosa'],
#>       dtype='|S18')

### 27. How to convert a 1d array of tuples to a 2d numpy array?

In [26]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_1d = np.genfromtxt(url, delimiter=',', dtype=None)

# Method 1: Convert each row to a list and get the first 4 items
iris_2d = np.array([row.tolist()[:4] for row in iris_1d])
iris_2d[:4]

# Alt Method 2: Import only the first 4 columns from source url
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[:4]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2]])

### 28. How to compute the mean, median, standard deviation of a numpy array?

In [27]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])

mu, med, sd = np.mean(sepallength), np.median(sepallength), np.std(sepallength)
print(mu, med, sd)

5.843333333333334 5.8 0.8253012917851409


### 29. How to normalize an array so the values range exactly between 0 and 1?

In [28]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])

Smax, Smin = sepallength.max(), sepallength.min()
S = (sepallength - Smin)/(Smax-Smin)

"""
sepallength - Smin: Verschiebt die Werte, sodass das Minimum (Smin) auf 0 gesetzt wird.
Division durch (Smax - Smin): Skaliert die Werte, sodass das Maximum (Smax) auf 1 gesetzt wird.
"""
print(S)

[0.222222 0.166667 0.111111 0.083333 0.194444 0.305556 0.083333 0.194444
 0.027778 0.166667 0.305556 0.138889 0.138889 0.       0.416667 0.388889
 0.305556 0.222222 0.388889 0.222222 0.305556 0.222222 0.083333 0.222222
 0.138889 0.194444 0.194444 0.25     0.25     0.111111 0.138889 0.305556
 0.25     0.333333 0.166667 0.194444 0.333333 0.166667 0.027778 0.222222
 0.194444 0.055556 0.027778 0.194444 0.222222 0.138889 0.222222 0.083333
 0.277778 0.194444 0.75     0.583333 0.722222 0.333333 0.611111 0.388889
 0.555556 0.166667 0.638889 0.25     0.194444 0.444444 0.472222 0.5
 0.361111 0.666667 0.361111 0.416667 0.527778 0.361111 0.444444 0.5
 0.555556 0.5      0.583333 0.638889 0.694444 0.666667 0.472222 0.388889
 0.333333 0.333333 0.416667 0.472222 0.305556 0.472222 0.666667 0.555556
 0.361111 0.333333 0.333333 0.5      0.416667 0.194444 0.361111 0.388889
 0.388889 0.527778 0.222222 0.388889 0.555556 0.416667 0.777778 0.555556
 0.611111 0.916667 0.166667 0.833333 0.666667 0.805556 0.6111

### 30. How to compute the softmax score?

In [29]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
sepallength = np.array([float(row[0]) for row in iris])

np.set_printoptions(precision=3)

def softmax(x):
    e_x = np.exp(x-np.max(x))
    return e_x / e_x.sum(axis=0)

print(softmax(sepallength))

[0.002 0.002 0.001 0.001 0.002 0.003 0.001 0.002 0.001 0.002 0.003 0.002
 0.002 0.001 0.004 0.004 0.003 0.002 0.004 0.002 0.003 0.002 0.001 0.002
 0.002 0.002 0.002 0.002 0.002 0.001 0.002 0.003 0.002 0.003 0.002 0.002
 0.003 0.002 0.001 0.002 0.002 0.001 0.001 0.002 0.002 0.002 0.002 0.001
 0.003 0.002 0.015 0.008 0.013 0.003 0.009 0.004 0.007 0.002 0.01  0.002
 0.002 0.005 0.005 0.006 0.004 0.011 0.004 0.004 0.007 0.004 0.005 0.006
 0.007 0.006 0.008 0.01  0.012 0.011 0.005 0.004 0.003 0.003 0.004 0.005
 0.003 0.005 0.011 0.007 0.004 0.003 0.003 0.006 0.004 0.002 0.004 0.004
 0.004 0.007 0.002 0.004 0.007 0.004 0.016 0.007 0.009 0.027 0.002 0.02
 0.011 0.018 0.009 0.008 0.012 0.004 0.004 0.008 0.009 0.03  0.03  0.005
 0.013 0.004 0.03  0.007 0.011 0.018 0.007 0.006 0.008 0.018 0.022 0.037
 0.008 0.007 0.006 0.03  0.007 0.008 0.005 0.013 0.011 0.013 0.004 0.012
 0.011 0.011 0.007 0.009 0.007 0.005]


### 31. How to find the percentile scores of a numpy array?

In [30]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])


np.percentile(sepallength, q=[5, 95])

array([4.6  , 7.255])

### 32. How to insert values at random positions in an array?

In [31]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')

# Method 1
i, j = np.where(iris_2d)

# i, j contain the row numbers and column numbers of 600 elements of iris_x
np.random.seed(100)
iris_2d[np.random.choice((i), 20), np.random.choice((j), 20)] = np.nan

# Method 2
np.random.seed(100)
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

# Print first 10 rows
print(iris_2d[:10])

[[b'5.1' b'3.5' b'1.4' b'0.2' b'Iris-setosa']
 [b'4.9' b'3.0' b'1.4' b'0.2' b'Iris-setosa']
 [b'4.7' b'3.2' b'1.3' b'0.2' b'Iris-setosa']
 [b'4.6' b'3.1' b'1.5' b'0.2' b'Iris-setosa']
 [b'5.0' b'3.6' b'1.4' b'0.2' b'Iris-setosa']
 [b'5.4' b'3.9' b'1.7' b'0.4' b'Iris-setosa']
 [b'4.6' b'3.4' b'1.4' b'0.3' b'Iris-setosa']
 [b'5.0' b'3.4' b'1.5' b'0.2' b'Iris-setosa']
 [b'4.4' nan b'1.4' b'0.2' b'Iris-setosa']
 [b'4.9' b'3.1' b'1.5' b'0.1' b'Iris-setosa']]


### 33. How to find the position of missing values in numpy array?

In [32]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

# Solution
print("Number of missing values: \n", np.isnan(iris_2d[:, 0]).sum())
print("Position of missing values: \n", np.where(np.isnan(iris_2d[:, 0])))
#> Number of missing values: 
#>  5
#> Position of missing values: 
#>  (array([ 39,  88,  99, 130, 147]),)

Number of missing values: 
 5
Position of missing values: 
 (array([ 38,  80, 106, 113, 121]),)


### 34. How to filter a numpy array based on two or more conditions?

In [33]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

# Solution
condition = (iris_2d[:, 2] > 1.5) & (iris_2d[:, 0] < 5.0)
iris_2d[condition]
#> array([[ 4.8,  3.4,  1.6,  0.2],
#>        [ 4.8,  3.4,  1.9,  0.2],
#>        [ 4.7,  3.2,  1.6,  0.2],
#>        [ 4.8,  3.1,  1.6,  0.2],
#>        [ 4.9,  2.4,  3.3,  1. ],
#>        [ 4.9,  2.5,  4.5,  1.7]])

array([[4.8, 3.4, 1.6, 0.2],
       [4.8, 3.4, 1.9, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [4.9, 2.4, 3.3, 1. ],
       [4.9, 2.5, 4.5, 1.7]])

### 35. How to drop rows that contain a missing value from a numpy array?

In [34]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

# Solution
# No direct numpy function for this.
# Method 1:
any_nan_in_row = np.array([~np.any(np.isnan(row)) for row in iris_2d])
iris_2d[any_nan_in_row][:5]

# Method 2: (By Rong)
iris_2d[np.sum(np.isnan(iris_2d), axis = 1) == 0][:5]
#> array([[ 4.9,  3. ,  1.4,  0.2],
#>        [ 4.7,  3.2,  1.3,  0.2],
#>        [ 4.6,  3.1,  1.5,  0.2],
#>        [ 5. ,  3.6,  1.4,  0.2],
#>        [ 5.4,  3.9,  1.7,  0.4]])

array([[4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [4.6, 3.4, 1.4, 0.3]])

In [35]:
!pip install scipy





### 36. How to find the correlation between two columns of a numpy array?

In [36]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

# Solution 1
np.corrcoef(iris[:, 0], iris[:, 2])[0, 1]

# Solution 2
from scipy.stats import pearsonr  
corr, p_value = pearsonr(iris[:, 0], iris[:, 2])
print(corr,p_value)

"""
Was bedeutet das in der Praxis?

    Sehr schwache bis keine Korrelation (∣r∣<0.1∣r∣<0.1):
        Es gibt keinen oder nur einen minimalen linearen Zusammenhang zwischen den Variablen.

    Schwache Korrelation (0.1≤∣r∣<0.30.1≤∣r∣<0.3):
        Es gibt einen erkennbaren, aber nicht besonders starken linearen Zusammenhang.

    Mäßige Korrelation (0.3≤∣r∣<0.50.3≤∣r∣<0.5):
        Die Variablen hängen spürbar linear zusammen, der Zusammenhang ist jedoch nicht perfekt.

    Starke Korrelation (0.5≤∣r∣<0.70.5≤∣r∣<0.7):
        Es besteht ein deutlicher linearer Zusammenhang. Änderungen in einer Variable sind stark mit Änderungen in der anderen verbunden.

    Sehr starke Korrelation (∣r∣≥0.7∣r∣≥0.7):
        Ein nahezu perfekter linearer Zusammenhang. Die Werte der einen Variable können fast vollständig durch die andere vorhergesagt werden.

Zusammenhang zwischen Vorzeichen und Richtung

    r>0r>0: Positive Korrelation
        Wenn eine Variable steigt, steigt die andere ebenfalls (z. B. Körpergröße und Schuhgröße).
    r<0r<0: Negative Korrelation
        Wenn eine Variable steigt, sinkt die andere (z. B. Außentemperatur und Heizkosten).

-------------------------------
Was ist der p-Wert?

Der p-Wert gibt an, wie wahrscheinlich es ist, dass die beobachtete Korrelation durch Zufall entstanden ist:

    Kleiner p-Wert (<0.01<0.01):
        Die Korrelation ist statistisch signifikant. Es ist unwahrscheinlich, dass sie durch Zufall entstanden ist.
    Großer p-Wert (>0.05>0.05):
        Die Korrelation ist nicht signifikant.

"""

0.871754157304871 1.0384540627942323e-47


'\nWas bedeutet das in der Praxis?\n\n    Sehr schwache bis keine Korrelation (∣r∣<0.1∣r∣<0.1):\n        Es gibt keinen oder nur einen minimalen linearen Zusammenhang zwischen den Variablen.\n\n    Schwache Korrelation (0.1≤∣r∣<0.30.1≤∣r∣<0.3):\n        Es gibt einen erkennbaren, aber nicht besonders starken linearen Zusammenhang.\n\n    Mäßige Korrelation (0.3≤∣r∣<0.50.3≤∣r∣<0.5):\n        Die Variablen hängen spürbar linear zusammen, der Zusammenhang ist jedoch nicht perfekt.\n\n    Starke Korrelation (0.5≤∣r∣<0.70.5≤∣r∣<0.7):\n        Es besteht ein deutlicher linearer Zusammenhang. Änderungen in einer Variable sind stark mit Änderungen in der anderen verbunden.\n\n    Sehr starke Korrelation (∣r∣≥0.7∣r∣≥0.7):\n        Ein nahezu perfekter linearer Zusammenhang. Die Werte der einen Variable können fast vollständig durch die andere vorhergesagt werden.\n\nZusammenhang zwischen Vorzeichen und Richtung\n\n    r>0r>0: Positive Korrelation\n        Wenn eine Variable steigt, steigt die a

### 37. How to find if a given array has any null values?

In [37]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

np.isnan(iris_2d).any()
#> False

np.False_

### 38. How to replace all missing values with 0 in a numpy array?

In [38]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

iris_2d[np.isnan(iris_2d)] = 0
iris_2d[:4]


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2]])

### 39. How to find the count of unique values in a numpy array?

In [39]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

# Solution
# Extract the species column as an array
species = np.array([row.tolist()[4] for row in iris])
print(species)
# Get the unique values and the counts
np.unique(species, return_counts=True)
#> (array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],
#>        dtype='|S15'), array([50, 50, 50]))

[b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iri

(array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],
       dtype='|S15'),
 array([50, 50, 50]))

### 40. How to convert a numeric to a categorical (text) array?

In [40]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

# Bin petallength 
petal_length_bin = np.digitize(iris[:, 2].astype('float'), [0, 3, 5, 10])

# Map it to respective category
label_map = {1: 'small', 2: 'medium', 3: 'large', 4: np.nan}
petal_length_cat = [label_map[x] for x in petal_length_bin]

# View
petal_length_cat[:4]
#> ['small', 'small', 'small', 'small']

"""
Numerische Werte in Kategorien einteilen:

    Verwenden von np.digitize, um numerische Werte basierend auf vordefinierten Intervallen (Bins) zu klassifizieren.

Mapping der Kategorien:

    Mit einem Dictionary (label_map) werden die numerischen Indizes in textuelle Kategorien umgewandelt.

Beispielergebnis:

    Die Petal Length-Werte des Iris-Datensatzes werden in small, medium und large eingeteilt.

"""

'\nNumerische Werte in Kategorien einteilen:\n\n    Verwenden von np.digitize, um numerische Werte basierend auf vordefinierten Intervallen (Bins) zu klassifizieren.\n\nMapping der Kategorien:\n\n    Mit einem Dictionary (label_map) werden die numerischen Indizes in textuelle Kategorien umgewandelt.\n\nBeispielergebnis:\n\n    Die Petal Length-Werte des Iris-Datensatzes werden in small, medium und large eingeteilt.\n\n'

### 41. How to create a new column from existing columns of a numpy array?

In [41]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')

# Solution
# Compute volume
sepallength = iris_2d[:, 0].astype('float')
petallength = iris_2d[:, 2].astype('float')
volume = (np.pi * petallength * (sepallength**2))/3


# Introduce new dimension to match iris_2d's
volume = volume[:, np.newaxis]
print(volume)
# Add the new column
out = np.hstack([iris_2d, volume])

# View
out[:4]
#> array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa', 38.13265162927291],
#>        [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa', 35.200498485922445],
#>        [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa', 30.0723720777127],
#>        [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa', 33.238050274980004]], dtype=object)

[[ 38.133]
 [ 35.2  ]
 [ 30.072]
 [ 33.238]
 [ 36.652]
 [ 51.912]
 [ 31.022]
 [ 39.27 ]
 [ 28.383]
 [ 37.715]
 [ 45.804]
 [ 38.604]
 [ 33.778]
 [ 21.299]
 [ 42.273]
 [ 51.035]
 [ 39.697]
 [ 38.133]
 [ 57.84 ]
 [ 40.856]
 [ 51.912]
 [ 40.856]
 [ 22.159]
 [ 46.304]
 [ 45.842]
 [ 41.888]
 [ 41.888]
 [ 42.474]
 [ 39.643]
 [ 37.012]
 [ 38.604]
 [ 45.804]
 [ 42.474]
 [ 44.349]
 [ 37.715]
 [ 31.416]
 [ 41.181]
 [ 37.715]
 [ 26.356]
 [ 40.856]
 [ 34.034]
 [ 27.567]
 [ 26.356]
 [ 41.888]
 [ 51.751]
 [ 33.778]
 [ 43.58 ]
 [ 31.022]
 [ 44.124]
 [ 36.652]
 [241.17 ]
 [193.019]
 [244.3  ]
 [126.711]
 [203.523]
 [153.106]
 [195.347]
 [ 82.973]
 [209.833]
 [110.433]
 [ 91.63 ]
 [153.102]
 [150.796]
 [183.141]
 [118.224]
 [206.838]
 [147.781]
 [144.434]
 [181.144]
 [128.076]
 [174.974]
 [155.865]
 [203.66 ]
 [183.141]
 [184.441]
 [200.71 ]
 [232.428]
 [235.043]
 [169.646]
 [119.082]
 [120.375]
 [117.208]
 [137.388]
 [192.265]
 [137.413]
 [169.646]
 [220.941]
 [182.878]
 [134.644]
 [126.711]
 [139.382]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa',
        38.13265162927291],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa',
        35.200498485922445],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa', 30.0723720777127],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa',
        33.238050274980004]], dtype=object)

### 42. How to do probabilistic sampling in numpy?

In [42]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

# Solution
# Get the species column
species = iris[:, 4]
print(species)
# Approach 1: Generate Probablistically
np.random.seed(100)
a = np.array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'])
species_out = np.random.choice(a, 150, p=[0.5, 0.25, 0.25])

# Approach 2: Probablistic Sampling (preferred)
np.random.seed(100)
probs = np.r_[np.linspace(0, 0.500, num=50), np.linspace(0.501, .750, num=50), np.linspace(.751, 1.0, num=50)]
print(probs)
index = np.searchsorted(probs, np.random.random(150))
species_out = species[index]
print(np.unique(species_out, return_counts=True))

#> (array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'], dtype=object), array([77, 37, 36]))

"""
Zusammenfassung: Warum macht man das?

Man macht solche probabilistischen Zuordnungen oder Samplings, um:

    Datensätze anzureichern (Datenaugmentation).
    Realistische Szenarien zu simulieren, die in der Praxis vorkommen könnten.
    Trainings- und Testdatensätze zu generieren, die auf bestimmte Probleme abgestimmt sind.
    Unausgeglichene Klassen zu balancieren, um bessere Modelle zu entwickeln.
    Die Robustheit von Modellen zu testen, indem sie in verschiedenen Verteilungen geprüft werden.
    Stochastik einzuführen, um Overfitting zu vermeiden und Variabilität zu erhöhen.

In der Praxis ist Ansatz 2 (Probabilistisches Sampling) oft bevorzugt, da er präziser und flexibler ist, insbesondere wenn man die Verteilung der Daten genauer steuern möchte.
--------------------------------------------------------
In der Aufgabe wird np.linspace verwendet, weil es:

    Grenzfälle klar behandelt (z. B. Werte wie 0.5 oder 0.75 landen immer eindeutig in einem Intervall).
    Flexibilität bietet, um auch komplexere oder unregelmäßige Verteilungen darzustellen.
    Robuster für größere Datenmengen und feinere Anpassungen der Wahrscheinlichkeitsverteilung ist.

Für einfache Verteilungen und kleinere Datensätze könnten feste Grenzen wie [0.0, 0.5], [0.5, 0.75], [0.75, 1.0] ausreichen. Der granularere Ansatz wird aber bevorzugt, wenn mehr Kontrolle und Präzision gefragt ist.
"""

[b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-setosa' b'Iris-setosa'
 b'Iris-setosa' b'Iris-setosa' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iris-versicolor' b'Iris-versicolor'
 b'Iris-versicolor' b'Iri

'\nZusammenfassung: Warum macht man das?\n\nMan macht solche probabilistischen Zuordnungen oder Samplings, um:\n\n    Datensätze anzureichern (Datenaugmentation).\n    Realistische Szenarien zu simulieren, die in der Praxis vorkommen könnten.\n    Trainings- und Testdatensätze zu generieren, die auf bestimmte Probleme abgestimmt sind.\n    Unausgeglichene Klassen zu balancieren, um bessere Modelle zu entwickeln.\n    Die Robustheit von Modellen zu testen, indem sie in verschiedenen Verteilungen geprüft werden.\n    Stochastik einzuführen, um Overfitting zu vermeiden und Variabilität zu erhöhen.\n\nIn der Praxis ist Ansatz 2 (Probabilistisches Sampling) oft bevorzugt, da er präziser und flexibler ist, insbesondere wenn man die Verteilung der Daten genauer steuern möchte.\n--------------------------------------------------------\nIn der Aufgabe wird np.linspace verwendet, weil es:\n\n    Grenzfälle klar behandelt (z. B. Werte wie 0.5 oder 0.75 landen immer eindeutig in einem Intervall).\

### 43. How to get the second largest value of an array when grouped by another array?

In [43]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

# Solution
# Get the species and petal length columns
petal_len_setosa = iris[iris[:, 4] == b'Iris-setosa', [2]].astype('float')

# Get the second last value
np.unique(np.sort(petal_len_setosa))[-2]
#> 1.7


"""
    iris[:, 4]: Extrahiert die Spalte 4 des Datensatzes (die Art, z. B. Iris-setosa).
    iris[:, 4] == b'Iris-setosa': Prüft, ob der Wert in der Artenspalte gleich Iris-setosa ist (wichtig: b vor dem String bedeutet "byte-String").
    iris[... , 2]: Wählt die Kronblattlängen-Spalte (Spalte 2) für alle Zeilen, bei denen die Art Iris-setosa ist.
    .astype('float'): Konvertiert die Kronblattlängen von object (stringbasiert) in float, damit numerische Berechnungen möglich sind.
------------------------------------------------------------------------------------------------------------------------------------------------
    np.sort(petal_len_setosa): Sortiert die Kronblattlängen in aufsteigender Reihenfolge.
    np.unique(...): Entfernt doppelte Werte, sodass nur die einzigartigen Kronblattlängen übrigbleiben.
    [-2]: Wählt den zweitletzten Wert aus dem Array.

Ergebnis: Der zweitletzte eindeutige Wert der sortierten Kronblattlängen wird berechnet.

Ergebnis: petal_len_setosa ist ein Array, das nur die Kronblattlängen (petal length) von Iris-setosa enthält.

SyntaxError: incomplete input (1994986890.py, line 13)

### 44. How to sort a 2D array by a column

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')



# Sort by column position 0: SepalLength
print(iris[iris[:,0].argsort()][:20])
#> [[b'4.3' b'3.0' b'1.1' b'0.1' b'Iris-setosa']
#>  [b'4.4' b'3.2' b'1.3' b'0.2' b'Iris-setosa']
#>  [b'4.4' b'3.0' b'1.3' b'0.2' b'Iris-setosa']
#>  [b'4.4' b'2.9' b'1.4' b'0.2' b'Iris-setosa']
#>  [b'4.5' b'2.3' b'1.3' b'0.3' b'Iris-setosa']
#>  [b'4.6' b'3.6' b'1.0' b'0.2' b'Iris-setosa']
#>  [b'4.6' b'3.1' b'1.5' b'0.2' b'Iris-setosa']
#>  [b'4.6' b'3.4' b'1.4' b'0.3' b'Iris-setosa']
#>  [b'4.6' b'3.2' b'1.4' b'0.2' b'Iris-setosa']
#>  [b'4.7' b'3.2' b'1.3' b'0.2' b'Iris-setosa']
#>  [b'4.7' b'3.2' b'1.6' b'0.2' b'Iris-setosa']
#>  [b'4.8' b'3.0' b'1.4' b'0.1' b'Iris-setosa']
#>  [b'4.8' b'3.0' b'1.4' b'0.3' b'Iris-setosa']
#>  [b'4.8' b'3.4' b'1.9' b'0.2' b'Iris-setosa']
#>  [b'4.8' b'3.4' b'1.6' b'0.2' b'Iris-setosa']
#>  [b'4.8' b'3.1' b'1.6' b'0.2' b'Iris-setosa']
#>  [b'4.9' b'2.4' b'3.3' b'1.0' b'Iris-versicolor']
#>  [b'4.9' b'2.5' b'4.5' b'1.7' b'Iris-virginica']
#>  [b'4.9' b'3.1' b'1.5' b'0.1' b'Iris-setosa']
#>  [b'4.9' b'3.1' b'1.5' b'0.1' b'Iris-setosa']]

"""
    iris[:, 0]: Diese Operation extrahiert die erste Spalte des Arrays (die Kelchblattlänge, sepallength).
    .argsort(): Diese Methode liefert die Indizes, die die Werte in der Spalte sepallength in aufsteigender Reihenfolge sortieren würden.
    iris[...] mit argsort: Durch Anwendung der sortierten Indizes wird das gesamte Array so umgeordnet, dass die Zeilen nach den Werten in sepallength sortiert sind.

Beispiel: Angenommen, die Spalte sepallength enthält:

"""

### 45. How to find the most frequent value in a numpy array?

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

# Solution:
vals, counts = np.unique(iris[:, 2], return_counts=True)

print(vals[np.argmax(counts)])
#> b'1.5'

### 46. How to find the position of the first occurrence of a value greater than a given value?

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

# Solution: (edit: changed argmax to argwhere. Thanks Rong!)
np.argwhere(iris[:, 3].astype(float) > 1.0)[0]
#> 50

### 47. How to replace all values greater than a given value to a given cutoff?


In [None]:
np.set_printoptions(precision=2)
np.random.seed(100)
a = np.random.uniform(1,50, 20)

# Solution 1: Using np.clip
np.clip(a, a_min=10, a_max=30)

# Solution 2: Using np.where
print(np.where(a < 10, 10, np.where(a > 30, 30, a)))
#> [ 27.63  14.64  21.8   30.    10.    10.    30.    30.    10.    29.18  30.
#>   11.25  10.08  10.    11.77  30.    30.    10.    30.    14.43]

### 48. How to get the positions of top n values from a numpy array?

In [None]:
np.random.seed(100)
a = np.random.uniform(1,50, 20)

# Solution:
print(a.argsort())
#> [18 7 3 10 15]

# Solution 2:
np.argpartition(-a, 5)[:5]
#> [15 10  3  7 18]

# Below methods will get you the values.
# Method 1:
a[a.argsort()][-5:]

# Method 2:
np.sort(a)[-5:]

# Method 3:
np.partition(a, kth=-5)[-5:]

# Method 4:
a[np.argpartition(-a, 5)][:5]

### 49. How to compute the row wise counts of all possible values in an array?

In [None]:
np.random.seed(100)
arr = np.random.randint(1,11,size=(6, 10))
arr
#> array([[ 9,  9,  4,  8,  8,  1,  5,  3,  6,  3],
#>        [ 3,  3,  2,  1,  9,  5,  1, 10,  7,  3],
#>        [ 5,  2,  6,  4,  5,  5,  4,  8,  2,  2],
#>        [ 8,  8,  1,  3, 10, 10,  4,  3,  6,  9],
#>        [ 2,  1,  8,  7,  3,  1,  9,  3,  6,  2],
#>        [ 9,  2,  6,  5,  3,  9,  4,  6,  1, 10]])

def counts_of_all_values_rowwise(arr2d):
    # Unique values and its counts row wise
    num_counts_array = [np.unique(row, return_counts=True) for row in arr2d]

    # Counts of all values row wise
    return([[int(b[a==i]) if i in a else 0 for i in np.unique(arr2d)] for a, b in num_counts_array])

# Print
print(np.arange(1,11))
counts_of_all_values_rowwise(arr)
#> [ 1  2  3  4  5  6  7  8  9 10]

#> [[1, 0, 2, 1, 1, 1, 0, 2, 2, 0],
#>  [2, 1, 3, 0, 1, 0, 1, 0, 1, 1],
#>  [0, 3, 0, 2, 3, 1, 0, 1, 0, 0],
#>  [1, 0, 2, 1, 0, 1, 0, 2, 1, 2],
#>  [2, 2, 2, 0, 0, 1, 1, 1, 1, 0],
#>  [1, 1, 1, 1, 1, 2, 0, 0, 2, 1]]

### 50. How to convert an array of arrays into a flat 1d array?

In [None]:
arr1 = np.arange(3)
arr2 = np.arange(3,7)
arr3 = np.arange(7,10)

array_of_arrays = np.array([arr1, arr2, arr3])
print('array_of_arrays: ', array_of_arrays)

# Solution 1
arr_2d = np.array([a for arr in array_of_arrays for a in arr])

# Solution 2:
arr_2d = np.concatenate(array_of_arrays)
print(arr_2d)
#> array_of_arrays:  [array([0, 1, 2]) array([3, 4, 5, 6]) array([7, 8, 9])]
#> [0 1 2 3 4 5 6 7 8 9]

### 51. How to generate one-hot encodings for an array in numpy?

In [None]:
np.random.seed(101) 
arr = np.random.randint(1,4, size=6)
arr
#> array([2, 3, 2, 2, 2, 1])
uniqs = np.unique(arr)
out = np.zeros((arr.shape[0], uniqs.shape[0]))
print(uniqs.shape[0])
print(out)
# Solution:
def one_hot_encodings(arr):
    uniqs = np.unique(arr)
    out = np.zeros((arr.shape[0], uniqs.shape[0]))
    for i, k in enumerate(arr):
        out[i, k-1] = 1
    return out

one_hot_encodings(arr)
#> array([[ 0.,  1.,  0.],
#>        [ 0.,  0.,  1.],
#>        [ 0.,  1.,  0.],
#>        [ 0.,  1.,  0.],
#>        [ 0.,  1.,  0.],
#>        [ 1.,  0.,  0.]])

# Method 2:
(arr[:, None] == np.unique(arr)).view(np.int8)

### 52. How to create row numbers grouped by a categorical variable?

In [None]:
# Input:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
species = np.genfromtxt(url, delimiter=',', dtype='str', usecols=4)
np.random.seed(100)
species_small = np.sort(np.random.choice(species, size=20))
species_small
#> array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
#>        'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
#>        'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
#>        'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
#>        'Iris-versicolor', 'Iris-virginica', 'Iris-virginica',
#>        'Iris-virginica', 'Iris-virginica', 'Iris-virginica',
#>        'Iris-virginica'],
#>       dtype='<U15')

print([i for val in np.unique(species_small) for i, grp in enumerate(species_small[species_small==val])])

### 53. How to create groud ids based on a given categorical variable?

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
species = np.genfromtxt(url, delimiter=',', dtype='str', usecols=4)
np.random.seed(100)
species_small = np.sort(np.random.choice(species, size=20))
species_small
#> array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
#>        'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
#>        'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
#>        'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
#>        'Iris-versicolor', 'Iris-virginica', 'Iris-virginica',
#>        'Iris-virginica', 'Iris-virginica', 'Iris-virginica',
#>        'Iris-virginica'],
#>       dtype='<U15')

# Solution:
output = [np.argwhere(np.unique(species_small) == s).tolist()[0][0] for val in np.unique(species_small) for s in species_small[species_small==val]]
print(output)
# Solution: For Loop version
output = []
uniqs = np.unique(species_small)

for val in uniqs:  # uniq values in group
    for s in species_small[species_small==val]:  # each element in group
        groupid = np.argwhere(uniqs == s).tolist()[0][0]  # groupid
        output.append(groupid)

print(output)
#> [0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2]

### 54. How to rank items in an array using numpy?

In [None]:
np.random.seed(10)
a = np.random.randint(10, size=5)

print(a)
print(a.argsort())
print(a.argsort().argsort())

"""
Ein Rank zeigt die Platzierung eines Elements relativ zu anderen Elementen in einem Array an.
In NumPy können Ränge mit argsort().argsort() berechnet werden.
Sie sind hilfreich, um die Reihenfolge oder relative Position von Elementen zu bestimmen, ohne das Array direkt zu sortieren.

"""

### 55. How to rank items in a multidimensional array using numpy?

In [None]:
np.random.seed(10)
a = np.random.randint(20, size=[2,5])
print(a)

print(a.ravel().argsort().argsort().reshape(a.shape))
#> [[ 9  4 15  0 17]
#>  [16 17  8  9  0]]
#> [[4 2 6 0 8]
#>  [7 9 3 5 1]]

### 56. How to find the maximum value in each row of a numpy array 2d?

In [None]:
np.random.seed(100)
a = np.random.randint(1,10, [5,3])
a

# Solution 1
np.amax(a, axis=1)

print(a)
# Solution 2
np.apply_along_axis(np.max, arr=a, axis=1)
#> array([9, 8, 6, 3, 9])

### 57. How to compute the min-by-max for each row for a numpy array 2d?

In [None]:
np.random.seed(100)
a = np.random.randint(1,10, [5,3])
a

# Solution
np.apply_along_axis(lambda x: np.min(x)/np.max(x), arr=a, axis=1)
#> array([ 0.44444444,  0.125     ,  0.5       ,  1.        ,  0.11111111])

### 58. How to find the duplicate records in a numpy array?

In [None]:
np.random.seed(100)
a = np.random.randint(0, 5, 10)

## Solution
# There is no direct function to do this as of 1.13.3

# Create an all True array
out = np.full(a.shape[0], True)

# Find the index positions of unique elements
unique_positions = np.unique(a, return_index=True)[1]
print (unique_positions)

# Mark those positions as False
out[unique_positions] = False

print(a)
print(out)
#> [False  True False  True False False  True  True  True  True]

"""
Index 0 (False): Wert 0 ist einzigartig.
Index 1 (True): Wert 0 ist ein Duplikat.
Index 2 (False): Wert 3 ist einzigartig.
Index 3 (True): Wert 0 ist ein Duplikat.
Index 4 (False): Wert 2 ist einzigartig.
Index 5 (False): Wert 4 ist einzigartig.
Index 6-9 (True): Werte 2 und 4 sind Duplikate.
"""

### 59. How to find the grouped mean in numpy?

In [None]:


# Input
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')


# Solution
# No direct way to implement this. Just a version of a workaround.
numeric_column = iris[:, 1].astype('float')  # sepalwidth
grouping_column = iris[:, 4]  # species

# List comprehension version
[[group_val, numeric_column[grouping_column==group_val].mean()] for group_val in np.unique(grouping_column)]

# For Loop version
output = []
for group_val in np.unique(grouping_column):
    output.append([group_val, numeric_column[grouping_column==group_val].mean()])

output
#> [[b'Iris-setosa', 3.418],
#>  [b'Iris-versicolor', 2.770],
#>  [b'Iris-virginica', 2.974]]



### Beipsiel zu 59

In [None]:
import numpy as np

# Beispiel-Daten
numeric_column = np.array([3.5, 2.7, 3.1, 4.0, 2.8, 3.3, 2.9])
grouping_column = np.array(['A', 'B', 'A', 'C', 'B', 'A', 'C'])

group_val = 'A'
mask = grouping_column == group_val
print(mask)
numeric_column[[ True, False,  True, False, False,  True, False]]



### 60. How to convert a PIL image to numpy array?

In [None]:
!pip install Pillow


In [44]:
from io import BytesIO
from PIL import Image
import PIL, requests

# Import image from URL
URL = 'https://upload.wikimedia.org/wikipedia/commons/8/8b/Denali_Mt_McKinley.jpg'
response = requests.get(URL)

# Read it as Image
I = Image.open(BytesIO(response.content))


# Optionally resize
I = I.resize([1150,1150])

# Convert to numpy array
arr = np.asarray(I)

# Optionaly Convert it back to an image and show
im = PIL.Image.fromarray(np.uint8(arr))
Image.Image.show(im)

print(arr.shape)

(1150, 1150, 3)


### 61. How to drop all missing values from a numpy array?

In [50]:
a = np.array([1,2,3,np.nan,5,6,7,np.nan])
print(a)
a[~np.isnan(a)]

"""
np.isnan(a): Diese Funktion überprüft jedes Element des Arrays darauf, ob es ein NaN-Wert ist, und gibt ein Boolesches Array zurück:
"""

[ 1.  2.  3. nan  5.  6.  7. nan]


array([1., 2., 3., 5., 6., 7.])

### 62. How to compute the euclidean distance between two arrays?

In [52]:
a = np.array([1,2,3,4,5])
b = np.array([4,5,6,7,8])

# Solution
dist = np.linalg.norm(a-b)
dist
#> 6.7082039324993694

np.float64(6.708203932499369)

### 63. How to find all the local maxima (or peaks) in a 1d array?

In [54]:
a = np.array([1, 3, 7, 1, 2, 6, 0, 1])
doublediff = np.diff(np.sign(np.diff(a)))
peak_locations = np.where(doublediff == -2)[0] + 1
peak_locations
#> array([2, 5])

"""
np.diff(a) berechnet [x1−x0,x2−x1,… ][x1​−x0​,x2​−x1​,…], weil es die Änderungen zwischen benachbarten Werten im Array aufzeigt. Dies ist entscheidend, um:

    Steigungen oder Veränderungen zu messen.
    Peaks oder Trends zu erkennen.
    Eine diskrete Form der Ableitung umzusetzen.

Diese Berechnung liefert einen dynamischen Überblick, wie sich die Werte im Array entwickeln!
"""

'\nnp.diff(a) berechnet [x1−x0,x2−x1,…\u2009][x1\u200b−x0\u200b,x2\u200b−x1\u200b,…], weil es die Änderungen zwischen benachbarten Werten im Array aufzeigt. Dies ist entscheidend, um:\n\n    Steigungen oder Veränderungen zu messen.\n    Peaks oder Trends zu erkennen.\n    Eine diskrete Form der Ableitung umzusetzen.\n\nDiese Berechnung liefert einen dynamischen Überblick, wie sich die Werte im Array entwickeln!\n'

### 64. How to subtract a 1d array from a 2d array, where each item of 1d array subtracts from respective row?

In [57]:
a_2d = np.array([[3,3,3],[4,4,4],[5,5,5]])
b_1d = np.array([1,2,3])

# Solution
print(a_2d - b_1d[:,None])
#> [[2 2 2]
#>  [2 2 2]
#>  [2 2 2]]

"""
Die Methode b_1d[:, None] erweitert die Dimension des 1D-Arrays b_1d, sodass es mit a_2d durch Broadcasting kompatibel wird.
Broadcasting sorgt dafür, dass die Elemente von b_1d über die Spalten hinweg wiederholt werden, sodass jedes Element des 1D-Arrays von der jeweiligen Zeile des 2D-Arrays subtrahiert wird.
Das Ergebnis ist ein 2D-Array, in dem die Differenzen elementweise berechnet wurden.

"""

[[2 2 2]
 [2 2 2]
 [2 2 2]]


'\nDie Methode b_1d[:, None] erweitert die Dimension des 1D-Arrays b_1d, sodass es mit a_2d durch Broadcasting kompatibel wird.\nBroadcasting sorgt dafür, dass die Elemente von b_1d über die Spalten hinweg wiederholt werden, sodass jedes Element des 1D-Arrays von der jeweiligen Zeile des 2D-Arrays subtrahiert wird.\nDas Ergebnis ist ein 2D-Array, in dem die Differenzen elementweise berechnet wurden.\n\n'

### 65. How to find the index of n'th repetition of an item in an array

In [58]:
x = np.array([1, 2, 1, 1, 3, 4, 3, 1, 1, 2, 1, 1, 2])
n = 5

# Solution 1: List comprehension
[i for i, v in enumerate(x) if v == 1][n-1]

# Solution 2: Numpy version
np.where(x == 1)[0][n-1]
#> 8



np.int64(8)

### 66. How to convert numpy's datetime64 object to datetime's datetime object?

In [63]:
# Input: a numpy datetime64 object
dt64 = np.datetime64('2018-02-25 22:10:10')

# Solution
from datetime import datetime
dt64.tolist()

# or

dt64.astype(datetime)
#> datetime.datetime(2018, 2, 25, 22, 10, 10)

datetime.datetime(2018, 2, 25, 22, 10, 10)

### 67. How to compute the moving average of a numpy array?

In [68]:
# Solution
# Source: https://stackoverflow.com/questions/14313510/how-to-calculate-moving-average-using-numpy
def moving_average(a, n=3) :
    ret = np.cumsum(a, dtype=float)
    ret[n:] = ret[n:] - ret[:-n]
    return ret[n - 1:] / n

np.random.seed(100)
Z = np.random.randint(10, size=10)
print('array: ', Z)
# Method 1
moving_average(Z, n=3).round(2)

# Method 2:  # Thanks AlanLRH!
# np.ones(3)/3 gives equal weights. Use np.ones(4)/4 for window size 4.
np.convolve(Z, np.ones(3)/3, mode='valid') 


#> array:  [8 8 3 7 7 0 4 2 5 2]
#> moving average:  [ 6.33  6.    5.67  4.67  3.67  2.    3.67  3.  ]

"""
Was ist ein Fenster?

Ein Fenster ist die Anzahl der Datenpunkte, die gleichzeitig berücksichtigt werden, um den Durchschnitt zu berechnen. Die Größe des Fensters wird durch nn angegeben (Fenstergröße).

    Kleine Fenstergröße (nn): Guter Fokus auf kurzfristige Schwankungen, aber weniger Glättung.
    Große Fenstergröße (nn): Mehr Glättung, aber möglicherweise weniger Details.
"""

array:  [8 8 3 7 7 0 4 2 5 2]


'\nWas ist ein Fenster?\n\nEin Fenster ist die Anzahl der Datenpunkte, die gleichzeitig berücksichtigt werden, um den Durchschnitt zu berechnen. Die Größe des Fensters wird durch nn angegeben (Fenstergröße).\n\n    Kleine Fenstergröße (nn): Guter Fokus auf kurzfristige Schwankungen, aber weniger Glättung.\n    Große Fenstergröße (nn): Mehr Glättung, aber möglicherweise weniger Details.\n'

### 68. How to create a numpy array sequence given only the starting point, length and the step?

In [71]:
length = 10
start = 5
step = 3

def seq(start, length, step):
    end = start + (step*length)
    return np.arange(start, end, step)

seq(start, length, step)
#> array([ 5,  8, 11, 14, 17, 20, 23, 26, 29, 32])



array([ 5,  8, 11, 14, 17, 20, 23, 26, 29, 32])

### 69. How to fill in missing dates in an irregular series of numpy dates?

In [78]:


# Input
dates = np.arange(np.datetime64('2018-02-01'), np.datetime64('2018-02-25'), 2)
print(dates)

# Solution ---------------
filled_in = np.array([np.arange(date, (date+d)) for date, d in zip(dates, np.diff(dates))]).reshape(-1)

# add the last day
output = np.hstack([filled_in, dates[-1]])
output

# For loop version -------
out = []
for date, d in zip(dates, np.diff(dates)):
    out.append(np.arange(date, (date+d)))

filled_in = np.array(out).reshape(-1)

# add the last day
output = np.hstack([filled_in, dates[-1]])
output
#> ['2018-02-01' '2018-02-03' '2018-02-05' '2018-02-07' '2018-02-09'
#>  '2018-02-11' '2018-02-13' '2018-02-15' '2018-02-17' '2018-02-19'
#>  '2018-02-21' '2018-02-23']

#> array(['2018-02-01', '2018-02-02', '2018-02-03', '2018-02-04',
#>        '2018-02-05', '2018-02-06', '2018-02-07', '2018-02-08',
#>        '2018-02-09', '2018-02-10', '2018-02-11', '2018-02-12',
#>        '2018-02-13', '2018-02-14', '2018-02-15', '2018-02-16',
#>        '2018-02-17', '2018-02-18', '2018-02-19', '2018-02-20',
#>        '2018-02-21', '2018-02-22', '2018-02-23'], dtype='datetime64[D]')



['2018-02-01' '2018-02-03' '2018-02-05' '2018-02-07' '2018-02-09'
 '2018-02-11' '2018-02-13' '2018-02-15' '2018-02-17' '2018-02-19'
 '2018-02-21' '2018-02-23']


array(['2018-02-01', '2018-02-02', '2018-02-03', '2018-02-04',
       '2018-02-05', '2018-02-06', '2018-02-07', '2018-02-08',
       '2018-02-09', '2018-02-10', '2018-02-11', '2018-02-12',
       '2018-02-13', '2018-02-14', '2018-02-15', '2018-02-16',
       '2018-02-17', '2018-02-18', '2018-02-19', '2018-02-20',
       '2018-02-21', '2018-02-22', '2018-02-23'], dtype='datetime64[D]')

### 70. How to create strides from a given 1D array?

In [81]:
def gen_strides(a, stride_len=5, window_len=5):
    n_strides = ((a.size-window_len)//stride_len) + 1
    # return np.array([a[s:(s+window_len)] for s in np.arange(0, a.size, stride_len)[:n_strides]])
    return np.array([a[s:(s+window_len)] for s in np.arange(0, n_strides*stride_len, stride_len)])

print(gen_strides(np.arange(15), stride_len=2, window_len=4))
#> [[ 0  1  2  3]
#>  [ 2  3  4  5]
#>  [ 4  5  6  7]
#>  [ 6  7  8  9]
#>  [ 8  9 10 11]
#>  [10 11 12 13]]


"""
    a.size: Anzahl der Elemente im Array.
    a.size - window_len: Der verfügbare Bereich, über den das Fenster geschoben werden kann.
    // stride_len: Ganzzahldivision, die bestimmt, wie oft das Fenster verschoben werden kann.
    + 1: Einschließlich des ersten Fensters.

Beispiel:

    Für a.size=15a.size=15, stride_len=2stride_len=2, window_len=4window_len=4:
    n_strides=((15−4)//2)+1=6
    n_strides=((15−4)//2)+1=6

    
np.arange(0, n_strides * stride_len, stride_len):

    Erstellt eine Liste von Startpunkten für jedes Fenster, basierend auf der Schrittweite.
    Beispiel: np.arange(0, 6*2, 2)=[0,2,4,6,8,10]np.arange(0, 6*2, 2)=[0,2,4,6,8,10].

a[s:s + window_len]:

    Schneidet für jeden Startpunkt (ss) ein Fenster der Länge window_lenwindow_len aus dem Array.
    Beispiel: Für a=[0,1,2,...,14]a=[0,1,2,...,14]:
        s=0s=0: [0,1,2,3][0,1,2,3],
        s=2s=2: [2,3,4,5][2,3,4,5],
        usw.

np.array([...]):

    Fasst die Fenster zu einem 2D-Array zusammen.
    """

[[ 0  1  2  3]
 [ 2  3  4  5]
 [ 4  5  6  7]
 [ 6  7  8  9]
 [ 8  9 10 11]
 [10 11 12 13]]


'\n    a.size: Anzahl der Elemente im Array.\n    a.size - window_len: Der verfügbare Bereich, über den das Fenster geschoben werden kann.\n    // stride_len: Ganzzahldivision, die bestimmt, wie oft das Fenster verschoben werden kann.\n    + 1: Einschließlich des ersten Fensters.\n\nBeispiel:\n\n    Für a.size=15a.size=15, stride_len=2stride_len=2, window_len=4window_len=4:\n    n_strides=((15−4)//2)+1=6\n    n_strides=((15−4)//2)+1=6\n\n    \nnp.arange(0, n_strides * stride_len, stride_len):\n\n    Erstellt eine Liste von Startpunkten für jedes Fenster, basierend auf der Schrittweite.\n    Beispiel: np.arange(0, 6*2, 2)=[0,2,4,6,8,10]np.arange(0, 6*2, 2)=[0,2,4,6,8,10].\n\na[s:s + window_len]:\n\n    Schneidet für jeden Startpunkt (ss) ein Fenster der Länge window_lenwindow_len aus dem Array.\n    Beispiel: Für a=[0,1,2,...,14]a=[0,1,2,...,14]:\n        s=0s=0: [0,1,2,3][0,1,2,3],\n        s=2s=2: [2,3,4,5][2,3,4,5],\n        usw.\n\nnp.array([...]):\n\n    Fasst die Fenster zu einem 