# 11. Η βιβλιοθήκη numpy

Η ενότητα αποτελεί μια σύντομη εισαγωγή στην βιβλιοθήκη [numpy](https://numpy.org/) η οποία χρησιμοποιείται για αριθμητική ανάλυση, αριθμητική λύση γραμμικών συστημάτων και επεξεργασία πολυδιάστατων πινάκων. Περισσότερες λεπτομέρειες για την βιβλιοθήκε παρέχονται [εδώ](https://numpy.org/doc/stable/user/whatisnumpy.html). Η θεμέλια δομή της βιβλιοθήκης είναι το ndarray δηλαδή ο πολυδιάστατος πίνακας. Είναι πολύ χρήσιμη στην επεξεργασία δεδομένων γιατί η πλειοψηφία των βιβλιοθηκών που διαχειρίζονται δορυφορικές εικόνες επιστρέφουν αντικείμενα _numpy ndarrays_.

In [1]:
import numpy as np

Ας φτιάξουμε έναν πρώτο πίνακα. Ακόμα και τα διανύσματα θα τα θεωρήσουμε σαν έναν πίνακα με μια στήλη. 
Τα στοιχεία ενός πίνακα πρέπει να είναι του ίδιου τύπου (είτε _integer_ είτε _float_ είτε _boolean_).

In [2]:
x=np.array([1,2,3,4])
print(x)

[1 2 3 4]


Για τον πίνακα αυτό μπορούμε να ανακτήσουμε μια σειρά ιδιοτήτων

Καταρχήν ας δούμε τι τύπος δεδομένων είναι ο πίνακας αυτός:

In [3]:
type(x)

numpy.ndarray

Ποιές είναι οι διαστάσεις του πίνακα;

In [4]:
print(x.shape)

(4,)


Και πόσες είναι οι διαστάσεις:

In [5]:
print(x.ndim)

1


Με την παρακάτω εντολή μπορούμε να ανακτήσουμε το μέγεθός του:

In [6]:
print(x.size)

4


Από τι τύπο δεδομένων αποτελούνται τα στοιχεία του:

In [7]:
print(x.dtype)

int64


Και πόση μνήμη καταλαμβάνει σε bytes:

In [8]:
print(x.nbytes)

32


Ο επόμενος πίνακας έχει 4 γραμμές και 1 στήλη. 

In [9]:
y=np.array([[1],[2],[3],[4]])
print(y.shape)

(4, 1)


Αν ελέγξουμε το πλήθος των διαστάσεων του, θα διαπιστώσουμε ότι έχει 2:

In [10]:
print(y.ndim)

2


Άρα ο πίνακας $x$ είναι μονοδιάστατος και ο πίνακας $y$ διάστατος. Ας επαναλάβουμε τον τρόπο σύνταξης. Δώστε προσοχή στην σύνταξη σε σχέση με τον αρχικό ορισμό που δώσαμε για τον πίνακα $x$ σε σχέση με τον τρέχοντα πίνακα $y$.

In [11]:
x=np.array([1,2,3,4])
y=np.array([[1],[2],[3],[4]])

print(f'Διαστάσεις για τον πίνακα x: {x.ndim}\nΔιαστάσεις για τον πίνακα y: {y.ndim}')

Διαστάσεις για τον πίνακα x: 1
Διαστάσεις για τον πίνακα y: 2


Μπορούμε να δημιουργήσουμε ένα numpy array μέσω μιας λίστα python:

In [12]:
l = [2, 25, 8, 1]
arr = np.asarray(l)
print(type(arr))


<class 'numpy.ndarray'>


Όπως είδαμε μέσω της εντολής `x.dtype` τα στοιχεία του πίνακα είναι ακέραιοι αριθμού (int64). 
Αν κατά την δημιουργία έστω και ένας αριθμός ήταν δεκαδικός (float), τότε όλα τα στοιχεία του πίνακα μετατρέπονται σε float.


In [13]:
x=np.array([1,2,3,4.5])
print(x.dtype)

float64


Μπορούμε ρητά να μετατρέψουμε τον τύπο δεδομένων των στοιχείων ένος πίνακα π.χ. από ακέραιο σε δεκαδικό

In [14]:
x=np.array([1,2,3,4])
print(x.dtype)

int64


In [15]:
x=x.astype(float)
print(x.dtype)

float64


**Προσοχή** στην απώλεια δεδομένων κατά την μετατροπή από ακέραιο σε δεκαδικό. Η παρακάτω μετατροπή οδηγεί σε στρογγυλοποιήσεις


In [16]:
x=np.array([1,2,3,4.5])
x=x.astype(int)
print(x)

[1 2 3 4]


Επίσης κατά την δημιουργία μπορούμε να ορίσουμε τον τύπο δεδομένων των στοιχείων:

In [17]:
x = np.array([[1,2,3],[4,5,6]], dtype = float)
print(x.dtype)

float64


Ανάλογα τον τύπο των στοιχείων αλλάζει και το μέγεθος. Αυτό μπορεί να δημιουργήσει προβλήματα μνήμης σε πολύ μεγάλα ndarrays π.χ σε μια πολυφασματική δορυφορική υψηλής ανάλυσης και μεγάλης έκτασης.
    

In [18]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.uint32)
print(x.nbytes)

24


In [19]:
print(x.astype(float).nbytes)


48


Μπορούμε να δημιουργήσουμε ένα ndarray το οποίο θα περιλαμβάνει μόνο την τιμή 1 στα στοιχεία του μέσω της συνάρτησης `np.ones`. Η παραπάνω εκτέλεση επιστρέφει float data type.

In [20]:
np.ones(5) 

array([1., 1., 1., 1., 1.])

Μπορούμε ρητά να ορίσουμε τον τύπο δεδομένων στην συνάρτηση `np.ones`.

In [21]:
np.ones(5, dtype=int)

array([1, 1, 1, 1, 1])

ή να είναι πολυδιάστατος πίνακας με στοιχεία με τιμές 1:

In [22]:
np.ones((5,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

Αντίστοιχα μπορούμε να δημιουργήσουμε ένα array που να περιλαμβάνει στοιχεία μόνο με *0*.

In [23]:
np.zeros((3,3),dtype=int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

## Πράξεις μεταξύ array

Πρόσθεση

In [24]:
x=np.array([[1,2],[3,4], [5,6]])
y=np.array([[1,1],[1,1], [2,2]])
v=x+y
print(v)

[[2 3]
 [4 5]
 [7 8]]


Αντιστοιχα μπορούμε να προσθέσουμε το array με έναν μόνο ακέραιο:


In [25]:
x=x+1
print(x)

[[2 3]
 [4 5]
 [6 7]]


Αφαίρεση

In [26]:
x=np.array([[1,2],[3,4], [5,6]])
y=np.array([[1,1],[1,1], [2,2]])
v=x-y
print(v)

[[0 1]
 [2 3]
 [3 4]]




Πολλαπλασιασμός. Σε αυτήν την περίπτωση χρησιμοποιείται η συνάρτηση `dot` και όχι το σύμβολο `*`:
Μπορούμε να πολλαπλασιάσουμε ένα πίνακα με έναν αριθμό:


In [27]:
x=np.array([[1,2],[3,4],[5,6]])
v=np.dot(x,2.5,out=None)
print(v)



[[ 2.5  5. ]
 [ 7.5 10. ]
 [12.5 15. ]]


ή με έναν άλλο πίνακα. Σε αυτήν την περίπτωση το γινόμενο $x⋅y$ δύο πινάκων $x,y$ 
ορίζεται μόνο όταν αριθμός των γραμμών του ενός πίνακα ισούται με τον αριθμό των στηλών του άλλου. Όπως παρατηρείτε στις επόμενες γραμμές κώδικα καλούμε την ιδιότητα `T` του πίνακα $y$ για να κάνουμε αντιμετάθεση τις γραμμές με τις στήλες του (*ανάστροφος* πίνακας) και να πληρείται αυτή η συνθήκη.

In [28]:
y=np.array([[1,1],[1,1],[2,2]])
v=np.dot(x,y.T,out=None)
print(v)

[[ 3  3  6]
 [ 7  7 14]
 [11 11 22]]




Διαίρεση πινάκών:

In [29]:
v = x/y
print(v)

[[1.  2. ]
 [3.  4. ]
 [2.5 3. ]]


Μπορούμε να φτιάξουμε μια ακολουθία τιμών σε έναν πίνακα numpy:np.arange(start=1, stop=10, step=3)

In [30]:
x = np.arange(start=1, stop=10, step=2) # η πιο απλά  np.arange(1, 10, 2) 
print(x)

[1 3 5 7 9]


Με την συνάρτηση `reshape` μπορούμε να αλλάξουμε τις διαστάσεις ενός πίνακα

In [31]:

x = np.arange(6)
print(x.shape)

(6,)


In [32]:
x = x.reshape(2,3)
print(x.shape)


(2, 3)


Επιπλεόν μπορούμε με εύκολο τρόπο να υπολογίσουμε στατιστικά μέτρα θέσης και μεταβλητότητας ενός πίνακα ndarray.

Ας δημιουργήσουμε ένα πίνακα με ακέραιους διαστάσεων:

In [33]:
np.random.rand(2023)
myarray= np.random.randint(1,11, size=(4,3))
print(myarray)

[[ 1  5  1]
 [10  5  5]
 [ 9  1  6]
 [ 5  1  4]]


Αν καλέσουμε τη παραπάνω εντολή θα πάρουμε το άθροισμα για τα στοιχεία που περιέχονται στο array.

In [34]:
np.sum(myarray)

53

Αν ορίσουμε την παράμετρο `axis=0` θα πάρουμε το άθροισμα για τις στήλες αν `axis=1` το άθροισμα για τις γραμμές.

In [35]:
np.sum(myarray, axis=0) # άθροισμα για τις στήλες, άξονας x

array([25, 12, 16])

In [36]:
np.sum(myarray, axis=1) # άθροισμα για τις γραμμές, άξονας y

array([ 7, 20, 16, 10])

Αντίστοιχα μπορούμε να χρησιμοποιήσουμε και άλλες συναρτήσεις:

In [37]:
np.amin(myarray)

1

In [38]:
np.amax(myarray, axis=0) # max κατά στήλη

array([10,  5,  6])

Αντί για συναρτήσεις μπορούμε να χρησιμοποιήσουμε μεθόδους από τα numpy objects που εκτελούν την αντίστοιχη λειτουργία, π.χ. για το max

In [39]:
myarray.max(axis=0)

array([10,  5,  6])

Και αντίστοιχα να πάρουμε και άλλα μέτρα όπως:

In [40]:
# μέσο όρο
np.mean(myarray)

4.416666666666667

In [41]:
# διάμεσο
np.median(myarray)

5.0

In [42]:
# τυπική απόκλιση
np.std(myarray)

2.92854723180093

In [43]:
np.percentile(myarray,25) # 25th percentile

1.0

In [44]:
np.percentile(myarray,75) # 75th percentile

5.25

In [45]:
np.percentile(myarray,50) # 50th percentile or median

5.0

Σε αρκετές περιπτώσεις στα στοιχεία ενός πίνακας μπορεί να εχουν την τιμή *NaN* που σημαίνει "*Not a number*". Η τιμή του *Nan* χρησιμοποιείται όταν δεν υπάρχουν δεδομένα (missing values). Χαρακτηριστικό παράδειγμα είναι όταν διαβάζουμε μια δορυφορική εικόνα και κάνουμε flag ως NaN τα pixels που εχουν νεφοκάλυψη για να τα αποκλείσουμε από την ανάλυση. Και γενικότερα όταν θέλουμε να εξαιρέσουμε τιμές ή στοιχεία από μαθηματικές πράξεις μπορούμε να τα θέσουμε ως *NaN*. Προσοχή, το *NaN* δεν ισούται με 0.
Να σημειωθεί ότι σε ένα array που περιέχει *NaN* στοιχεία πολλές από τις συναρτήσεις που προαναφέρθηκαν για τον υπολογισμό στατιστικών μέτρων επιστρέφουν *NaN*. Στην περίπτωση αυτή χρησιμοποιούνται παραλλαγές των συναρτήσεων (π.χ. `nansum` αντί `sum`). Για παράδειγμα έστω το παραπάνω array που περιέχει *NaN* στοιχεία μεταξύ των άλλων,

In [46]:
myarray=myarray.astype(float) #μετατροπη σε float (ακέραιο τύπο δεδομένων), αναγκαίο για να θέσουμε κάποια στοιχέια σε NaN
myarray[myarray<=4] = np.NaN # ορισμό σε NaN για όσες τιμές είναι <=4
myarray

array([[nan,  5., nan],
       [10.,  5.,  5.],
       [ 9., nan,  6.],
       [ 5., nan, nan]])

In [47]:
np.sum(myarray)

nan

In [48]:
np.nansum(myarray)

45.0

In [49]:
np.mean(myarray)

nan

In [50]:
np.nanmean(myarray)

6.428571428571429

Ανάλογη λειτουργία έχει και το module `numpy.ma` που χρησιμοποιείται για να κάνουμε mask τα στοιχεία ενός array. Δηλαδή όταν ορίσουμε κάποια στοιχεία σαν masked αυτά εξαιρούνται από τον υπολογισμό και τις διάφορες πράξεις που εκτελούνται στο array. Διαβάστε περισσότερα για τα mask arrays [εδώ](https://numpy.org/doc/stable/reference/maskedarray.html).

In [51]:
import numpy.ma as ma #εισαγωγή της απαραίτητης βιβλιοθήκης

Έστω ο παρακάρω πίνακας

In [52]:
x=np.arange(6)

Μπορούμε να δημιουργήσουμε ένα masked array μέσω της συνάρτησης *masked_array*. Στην παράμετρο mask μπορούμε να επισημάνουμε ποιά στοιχεία θα είναι masked ορίζοντας την τιμή 1 1 (ή True)

In [53]:
x_masked = ma.masked_array(x, mask=[1,0,0,0,0,0])

In [54]:
print(x)

[0 1 2 3 4 5]


In [55]:
print(x_masked)

[-- 1 2 3 4 5]


In [56]:
x_masked

masked_array(data=[--, 1, 2, 3, 4, 5],
             mask=[ True, False, False, False, False, False],
       fill_value=999999)

Το masked_array έχει μια ιδιότητα που ονομάζεται fill_value και πρόκειται για μια τιμή που θα αντικαταστήσει τα masked στοιχεία όταν καλέσουμε την μέθοδο `filled()`.

In [57]:
x_masked.filled()

array([999999,      1,      2,      3,      4,      5])

Κατά την κλήση της μπορεί να οριστεί αυτή η τιμή πέρα από την προκαθορισμένη.

In [58]:
x_masked.filled(15)

array([15,  1,  2,  3,  4,  5])

Αν και το πρώτο στοιχείο το έχουμε κάνει masked, τα πραγματικά δεδομένα εξακολουθούν να υφίστανται:

In [59]:
x_masked.data

array([0, 1, 2, 3, 4, 5])

Όμως κατά τους διάφορους υπολογισμούς τα masked στοιχεία αγνοούνται π.χ. στον μέσο όρο:

In [60]:
np.mean(x_masked)

3.0

In [61]:
print(x_masked)

[-- 1 2 3 4 5]


Επιπλέον μπορούμε να χρησιμοποιήσουμε και άλλες χρήσιμες συναρτήσεις και μεθόδους στα ndarray objects.

Με τον παρακάτω τρόπο μπορούμε να εντοπίσουμε τις μοναδικές τιμές από τα στοιχεία ενός πίνακα. Έστω ο παρακάτω πίνακας

In [62]:
np.random.rand(2)
myarray= np.random.randint(1,11, size=(10,10))
myarray

array([[ 4,  2,  4,  7,  6, 10,  5,  5,  9,  8],
       [ 4,  8,  9,  3,  9,  4, 10, 10,  2,  4],
       [ 5,  5,  4,  7,  9,  8,  7,  8, 10,  7],
       [10,  9,  1,  3,  2,  3, 10,  1,  2,  2],
       [ 6,  8,  9,  7,  5,  6,  2, 10,  8, 10],
       [ 4,  5,  8,  4, 10,  8,  5,  8,  8,  7],
       [ 5,  1,  7,  3,  5,  5, 10,  4,  6,  5],
       [ 9,  4,  4,  5,  1,  6,  8,  9,  3,  6],
       [ 9,  3, 10,  1,  2,  2,  9,  1,  8,  7],
       [ 7,  7,  6,  1,  8,  5,  2,  4,  6,  9]])

In [63]:
unique, counts = np.unique(myarray, return_counts=True)
unique, counts

(array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]),
 array([ 7,  9,  6, 12, 13,  8, 10, 13, 11, 11]))

Μπορούμε να μετατρέψουμε ένα πίνακα διαστάσεων $i⋅j$ σε διάνυσμα δηλ. σε πίνακα μιας μόνο στήλης με την χρήση της μεθόδου `flatten`.
Ο πίνακας myarray είναι διαστάσεων 10x10 και έχει 100 στοιχεία:

In [64]:
myarray.shape

(10, 10)

In [65]:
myarray.size

100

Καλώ την μέθοδο `flatten` και επιβεβαιώ τις διαστάσεις. Πλέον ολα τα στοιχεία είναι σε μια στήλη.

In [66]:
myarray_f = myarray.flatten()
myarray_f

array([ 4,  2,  4,  7,  6, 10,  5,  5,  9,  8,  4,  8,  9,  3,  9,  4, 10,
       10,  2,  4,  5,  5,  4,  7,  9,  8,  7,  8, 10,  7, 10,  9,  1,  3,
        2,  3, 10,  1,  2,  2,  6,  8,  9,  7,  5,  6,  2, 10,  8, 10,  4,
        5,  8,  4, 10,  8,  5,  8,  8,  7,  5,  1,  7,  3,  5,  5, 10,  4,
        6,  5,  9,  4,  4,  5,  1,  6,  8,  9,  3,  6,  9,  3, 10,  1,  2,
        2,  9,  1,  8,  7,  7,  7,  6,  1,  8,  5,  2,  4,  6,  9])

In [67]:
myarray_f.shape

(100,)

Σε ένα array μπορούμε να δοκιμάσουμε αν ισχύει μια συνθήκη στις τιμές της. Στην παρακάτω γραμμή κώδικα τεστάρουμε αν έστω και ένα στοιχείο περιέχει τιμές >8. Θα επιστρέψει True γιατί βλέπουμε ότι αρκετά στοιχεία έχουν την τιμή>8.


In [68]:
print(myarray)

[[ 4  2  4  7  6 10  5  5  9  8]
 [ 4  8  9  3  9  4 10 10  2  4]
 [ 5  5  4  7  9  8  7  8 10  7]
 [10  9  1  3  2  3 10  1  2  2]
 [ 6  8  9  7  5  6  2 10  8 10]
 [ 4  5  8  4 10  8  5  8  8  7]
 [ 5  1  7  3  5  5 10  4  6  5]
 [ 9  4  4  5  1  6  8  9  3  6]
 [ 9  3 10  1  2  2  9  1  8  7]
 [ 7  7  6  1  8  5  2  4  6  9]]


In [69]:
np.any(myarray > 8)

True

Αντίστοιχα μπορούμε να δοκιμάσουμε αν όλες οι τιμές ενός πίνακας πληρούν μια συνθήκη. Εδώ δοκιμάζουμε αν όλες οι τιμές του πίνακας είναι >2. Φυσικά η απάντηση είναι False γιατί υπάρχουν και τιμές <2.

In [70]:
np.all(myarray > 2)

False

Μπορούμε να κάνουμε τον αντίστοιχο έλεγχο κατά συγκεκριμένο άξονα (xaxis) δηλαδή κατά στήλη ή γραμμή. Στην επόμενη γραμμή δοκιμάζουμε σε κάθε στήλη (axis=0) αν περιλαμβάνεται έστω και μια τιμή >8. Όπως φαίνεται στην 4η και 9η στήλη δεν υπάρχει ούτε μια τιμή >8. 

In [71]:
np.any(myarray > 8, axis=0)

array([ True,  True,  True, False,  True,  True,  True,  True,  True,
        True])

Έχουμε την δυνατότητα να ενώσουμε δύο πίνακες με την συνάρτηση `concatenate`:

In [72]:
arr = np.array([4, 7, 12])
arr1 = np.array([5, 9, 15])

# Use concatenate() to join two arrays
con = np.concatenate((arr, arr1))
print(con)

[ 4  7 12  5  9 15]


Σε πολυ διάστατους πίνακες μπορούμε να κάνουμε την ένωση με βάση συγκεκριμένο άξονα (παράμετρος axis), δηλ. κατά γραμμή ή στήλη.

In [73]:
arr = np.arange(20).reshape(4,5)
arr1 = np.arange(30,50).reshape(4,5)
con = np.concatenate((arr, arr1), axis=1) # κατά στήλη
print(con)

[[ 0  1  2  3  4 30 31 32 33 34]
 [ 5  6  7  8  9 35 36 37 38 39]
 [10 11 12 13 14 40 41 42 43 44]
 [15 16 17 18 19 45 46 47 48 49]]
