# Τύποι δεδομένων

**Note:** This notebook is heavily influenced by the lectures of Dr. Thomas Erben @ University of Bonn


Η Python έχει όλους τους τύπους δεδομένων που πιθανόν να έχετε ήδη συναντήσει σε άλλες γλώσσες προγραμματισμού. Σε αυτό το σημειωματάριο θα εστιάσουμε κυρίως σε αριθμητικούς τύπους δεδομένων (ακέραιοι αριθμοί και αριθμοί κινητής υποδιαστολής) και συμβολοσειρές.

## Μεταβλητές

Μια μεταβλητή είναι ουσιαστικά ένα συμβολικό όνομα που δίνουμε στη θέση μνήμης στην οποία έχει αποθηκευτεί το δεδομένο. Αυτό μας επιτρέπει να καλούμε το περιέχομενο που βρίσκεται σε αυτή τη θέση μνήμης χρησιμοποιώντας ένα σύντομο και κατανοήτο όνομα αντί για την ταυτότητα (id) της θέσης μνήμης.

<div>
    <img src="attachment:memory_allocation.png" width=400/>
</div>


* Η εκχώρηση τιμής σε μια μεταβλητή γίνεται με τον τελεστή ``=``. Αν θέλουμε να εξετάσουμε την ισότητα δύο μεταβλητών θα πρέπει να χρησιμοποιήσουμε τον τελεστή σύγκρισης ``==``.


* Στη Python **δεν** απαιτείται να δηλώσουμε τον τύπο μιας μεταβλητής πριν τη χρησιμοποιήσουμε. Η διαχείριση της μνήμης γίνεται αυτόματα.


* Οι μεταβλητές δεν έχουν κάποιο τύπο, αλλά τα αντικείμενα στα οποία "δείχνουν" έχουν.


* Ο τύπος της μεταβλητής καθορίζεται την ώρα που εκτελείται το πρόγραμμα και όχι από πριν μέσω κάποιου μεταφραστή (static vs dynamic typing).


* Λόγω του ότι οι μεταβλητές δεν έχουν κάποιο τύπο, πολλές φορές ενδιαφερόμαστε να μάθουμε τον τύπο του αντικειμένου στο οποίο "δείχνει" μία μεταβλητή. Γι' αυτό το σκοπό μπορούμε να χρησιμοποιήσουμε τη συνάρτηση ``type(object)`` που προσφέρει η Python.


* Μία μεταβλητή μπορεί να αλλάζει από ένα τύπο σε έναν άλλο ανάλογα με το αντικείμενο στο οποίο "δείχνει" στη μνήμη.

### Εκχώρηση τιμών

Όσοι/ες είστε εξοικειωμένοι με τις γλώσσες προγραμματισμού C/C++ θα αναγνωρίσετε στο παράδειγμα που ακολουθεί τη χρήση pointers για τη διαχείριση της μνήμης.

In [None]:
# Assigning values to variables

x = 3 # assigninig the integer value 3 to variable 'x'
y = 3
z = x

# The type of the object a variable points to
# can explicitely be queried!
print(type(3), hex(id(3)))

print(type(x), hex(id(x)))
print(type(y), hex(id(y)))
print(type(z), hex(id(z)))

In [None]:
# Change both y,z by adding one
# Now we have two pointers for the variables y,z
# pointing to the same memory spot
y = 4
z = x + 1

print(type(x), hex(id(x)))
print(type(y), hex(id(y)))
print(type(z), hex(id(z)))

### Ταυτόχρονη εκχώρηση τιμών σε πολλαπλές μεταβλητές

In [None]:
# In contrast to many other languages, Python allows to simultaneously
# assign values to severtal valriables:

x = 5        # usual assignment
y, z = 1, 2  # simultaneous assignemnt to two variables
a, b, c, d = 5, 2, 8, 9 # works with arbitrarily many!

print(a, b, c, d, x, y, z)

**Challenge**

Γράψτε κώδικα ο οποίος θα ανταλλάσει τις τιμές από δύο μεταβλητές a και b.

    Hint: Αυτό είναι ένα κλασσικό πρόβλημα που πολλοί προγραμματιστές μαθαίνουν στα πρώτα τους βήματα με μια καινούργια γλώσσα. Στη C αυτό μπορεί να υλοποιηθεί σε τρεις γραμμές κώδικα. Στη Python, μπορεί να γίνει με μία γραμμή κώδικα!

In [None]:
# You can try it here

## Integer Type

### Βασικές πράξεις μεταξύ ακεραίων

Η πρόσθεση/αφαίρεση, γινόμενο και ύψωση σε κάποια δύναμη φαίνονται στο παρακάτω κελί. Αυτά θα πρέπει να σας είναι ήδη γνωστά.

In [None]:
print(a + b, a - b) # Integer addition and subtraction
print(a * b)        # Integer multiplication
print(a**b)         # 5 to the power of 2
# print(5**5460)      # 'arbitrarily accurate' integer arithmetic! 

Όσοι/ες έχετε εμπειρία με τις γλώσσες προγραμματισμού C/C++ τι περιμένετε να είναι το αποτέλεσμα αν εκτελέσουμε τον κώδικα που περιέχεται στο επόμενο κελι; Είναι αυτό που περιμένατε;

In [None]:
print(a / b)        # division

Στην έκδοση 3.XX της Python, αυτού του είδους η διαίρεση δίνει το αποτέλεσμα που θα περιμέναμε ως χρήστες, αλλά διαφέρει από το αποτέλεσμα που θα παίρναμε σε μία άλλη γλώσσα (π.χ. C/C++ ή ακόμα και την έκδοση 2 της Python).

Η ακέραια διαίρεση πραγματοποιείται μέσω του τελεστή ``//``, ενώ το modulo (υπόλοιπο) μέσω του τελεστή ``%`` όπως φαίνεται παρακάτω.

In [None]:
print(a // b)   # Integer division
print(a % b)    # modulo operation

### Προτεραιότητα πράξεων

In [None]:
# 'operator precedence' rules!
a = 20
b = 10
c = 2

print(a // b // c) # does this evaluate to (a // b) // c or
                   # a // (b // c)?
print(a + b * c, (a + b) * c)
print(a + b % c)
print(3**2**3)      # (3**2)**3 = 729; 3**(2**3) = 6561

**Σημείωση**

* Αυτοί οι κανόνες έχουν γενική ισχύ και δεν περιορίζονται μόνο στην περίπτωση των ακέραιων αριθμών.


* Συμβουλή: Χρησιμοποιήστε παρενθέσεις για να αποφύγετε σύγχηση και ασάφεια στον κώδικά σας! Θα πρέπει να γνωρίζετε τους κανόνες παρ' όλα αυτά για να μπορείτε να καταλαβαίνετε τον κώδικα που προέρχεται από άλλα άτομα.

## Float Type

In [None]:
import numpy  # 'library or module' of mathematical functions
              # and data structures.

c = 3.14159 # seen already? 
d = .1      # equal to 0.1
e = 1.2e2   # read: 1.2 times 10 to the power of 2

print(c + d, c - d, d * e, c / d)
print(numpy.cos(c))  # The cosine function is defined within the numpy module

print(d + 3)  # in mixed calculations, integer values are 'promoted' to float

print(int(c)) # cast float to integer

* Στη Python οι αριθμοί κινητής υποδιαστολής είναι προκαθορισμένα πραγματικοί αριθμοί διπλής ακρίβειας (double precision).


* Το παράδειγμα 
```python 
    print(c / d)
```
θα πρέπει να μας υπενθυμίσει ότι οι περισσότεροι αριθμοί κινητής υποδιαστολής δεν έχουν ακριβή αναπαράσταση στους υπολογιστές.

**Challenge**

Γράψτε κώδικα που να υπολογίζει τις εκφράσεις:
\begin{equation}
    2 + 4 \cdot 3,\;\; {5^{5}}^5,\;\; e^{-1},\;\; \binom{49}{6} = \frac{49!}{6! 43!}
\end{equation}


*Hint*: Μπορείτε να χρησιμοποιήσετε τις συναρτήσεις ``numpy.exp`` και ``numpy.math.factorial`` της βιβλιοθήκης numpy για το εκθετικό και τα παραγοντικά.

In [None]:
# You can try it here

## Boolean Type

Στη Python υπάρχει ένας συγκεκριμένος τύπος δεδομένων Αληθείας (boolean) που μπορούν να πάρουν μόνο δύο τιμές ``True`` και ``False``. Συνήθως χρησιμοποιούνται για τον έλεγχο κάποιας συνθήκης σε δομές ελέγχου ή επανάληψης.

In [None]:
f = False
t = True
a = 1

print(f or t)   # logical 'or'
print(f and t)  # logical 'and'
print(a == 1)   # test for equality
print(a == 2)
print(a < 5, a >= 5)

In [None]:
# Note that True == 1 and False == 0
# This property can be useful in some cases

print(True == 1)
print(False == 0)
print(False == 1)

**ΠΡΟΣΟΧΗ**

Είπαμε ότι οι δεκαδικοί αριθμοί σπάνια έχουν ακριβή αναπαράσταση στους υπολογιστές. Γι' αυτό δεν θα πρέπει **ποτέ** να συγκρίνουμε δύο δεκαδικούς αριθμούς για ισότητα. Η έννοια της ακρίβειας της αναπαράστασης είναι πολύ σημαντική!

In [None]:
d = 1.0
print(d == 1.0)
print((d - 0.6) == 0.4)
print((d - 6 * 0.1) == 0.4)

Αν πρέπει να συγκρίνετε δεκαδικούς αριθμούς, τότε θα πρέπει να το κάνετε χρησιμοποιώντας κάποια μέθοδο όπως η ``isclose()`` της βιβλιοθήκης ``numpy``.

In [None]:
import numpy as np

d = 1.0
print(np.isclose(d, 1.0))
print(np.isclose((d - 0.6), 0.4))
print(np.isclose((d - 6 * 0.1), 0.4))

## String Type

Οι συμβολοσειρές είναι μία σύνθετη δομή δεδομένων με τα δομικά τους στοιχεία να είναι οι χαρακτήρες.

* Προσφέρονται μέσω της βιβλιοθήκης ``str`` η οποία εισάγεται αυτόματα όταν ξεκινάτε την Python. Εκτός από το συγκεκριμένο τύπο δεδομένων, η βιβλιοθήκη ``str`` περιέχει και συναρτήσεις (aka μέθοδοι) που μπορούν να εφαρμοστούν στα αντικείμενα αυτής της κλάσης και να επιτελέσουν κάποια συγκεκριμένη λειτουργία.


* Οι συμβολοσειρές είναι μία ομοιογενής και διατεταγμένη ακολουθία χαρακτήρων που εσωκλείονται σε μονά ή διπλά εισαγωγικά.


* Αν ονομάσουμε με ``last_name`` μία μεταβλητή που περιέχει τη συμβολοσειρά "Einstein", τότε μπορούμε να έχουμε πρόσβαση σε κάθε χαρακτήρα αυτής της συμβολοσειράς χρησιμοποιώντας τον δείκτη (index) στον οποίο αντιστοιχεί ο χαρακτήρας: ``last_name[index]``. 

![einstein-2.png](attachment:einstein-2.png)

### Δημιουργία συμβολοσειρών

Οι συμβολοσειρές δημιουργούνται κυρίως "χειροκίνητα" ή μέσω μορφοποίησης (string formatting - δες παρακάτω).

In [None]:
# Strings can be enclosed within single or double quotes.
# Both are equivalent.
first_name = 'Albert'
last_name = "Einstein"

print(first_name)
print(last_name)

In [None]:
# The different quotes can be used to include the other quote within a string:
message_1 = "Mary's results are impressive."

# another possibility is 'quoting' as in Linux;
# use the \ to declare an escape character
message_2 = 'Mary\'s results are impressive.'

print(message_1, message_2)

In [None]:
# multiline strings are created with triple quotes:
message = """This is a longer message
over several lines."""

print(message)

### Προσπέλαση συμβολοσειράς και τεμαχισμός (slicing)

Η πρόσβαση στα στοιχεία μιας συμβολοσειράς γίνεται κυρίως μέσω της δεικτοδότησης. Σε κάθε χαρακτήρα που περιέχεται σε μια συμβολοσειρά αντιστοιχεί ένας δείκτης αρχίζοντας πάντα από το 0.


Η βασική σύνταξη έχει ως εξής: ``<str>[index]``, δηλαδή η συμβολοσειρά ακολοθούμενη από ένα ζευγάρι τετραγωνικών παρενθέσεων που περιέχει έναν ακέραιο αριθμό (δείκτη).


Ένα τμήμα μιας συμβολοσειράς μπορεί να οριστεί από το χαρακτήρα αρχής μέχρι τον	χαρακτήρα τερματισμού **χωρίς** να συμπεριλαμβάνεται ο τελευταίος. Μπορούμε να πάρουμε το τμήμα μιας συμβολοσειράς παρέχοντας 2 δείκτες. Ο πρώτος αντιστοιχεί στον δείκτη από τον οποίο θέλουμε να ξεκινήσουμε το τεμάχισμα και ο δεύτερος αντιστοιχεί στο δείκτη που θέλουμε να σταματήσουμε. Οι δύο δείκτες διαχωρίζονται με άνω-κάτω τελεία. Η βασική σύνταξη για τον τεμαχισμό μιας συμβολοσειράς έχει ως εξής: ``<str>[start:finish]``.


Ακόμα, έχουμε τη δυνατότητα να καθορίσουμε το βήμα του τεμαχισμού μιας συμβολοσειράς παρέχοντας μία τρίτη παράμετρο: ``<str>[start:finish:pace]``.

In [None]:
print(last_name)

# Access individual characters
print(last_name[0], last_name[6])

# Slice the string by providing a range
print(last_name[1:5])

# If a starting index is not provided
# that means start from the beginning
print(last_name[:4])

# Same goes for the finishing index
print(last_name[6:])

# Slice string with a pace of 2
print(last_name[::2])

# Negative numbers can be used to 
# access the string from finish to start
print(last_name[1:-3])
print(last_name[::-1])

### Πράξεις με συμβολοσειρές

Οι συμβολοσειρές είναι *αμετάβλητες* (immutable) ακολουθίες χαρακτήρων και συνεπώς δεν μπορούν να τροποποιηθούν μετά τη δημιουργία τους.

In [None]:
# Try to replace capital E in Einstein
# with lower case e
last_name[0] = 'e'

Μπορούμε όμως να εκτελέσουμε τις μαθηματικές πράξεις της πρόσθεσης και του πολλαπλασιασμού σε συμβολοσειρές. Η λειτουργία αυτών των τελεστών προφανώς δεν μπορεί να είναι η ίδια με αυτή όταν εφαρμόζονται σε αριθμητικές μεταβλητές (δες την έννοια της υπερφόρτωσης τελεστών - operator overloading).


* Η πρόσθεση δύο συμβολοσειρών οδηγεί στη συνένωσή τους σε μία ενιαία συμβολοσειρά.


* Το γινόμενο μιας συμβολοσειράς με έναν ακέραιο οδηγεί στην επανάληψη της συμβολοσειράς βάσει της αριθμητικής τιμής του ακέραιου αριθμού.

In [None]:
# Concatenate first and last name to create the full name
# Add a whitespace between first and last name as well
full_name = first_name + ' ' + last_name
print(full_name)

# multiplication with a number repeats a string
m = "Hello"

print(2 * m)
print(m * 3)

Το μήκος μιας συμβολοσειράς είναι μία ποσότητα που συχνά είναι πολύ χρήσιμη. Μπορούμε να το βρούμε κάνοντας χρήση της συνάρτησης ``len`` που παρέχεται με τη Python και η οποία μας δίνει το πλήθος των χαρακτήρων που περιέχει μια συμβολοσειρά.

![ae_full.png](attachment:ae_full.png)

In [None]:
print(len(full_name))

**Challenge**

Αναλογιστείτε τι θα πάρουμε αν εκτελέσουμε τον κώδικα
````python
full_name[len(full_name)]
````
Μπορείτε να εξηγείσετε γιατί παίρνουμε αυτό το αποτέλεσμα;

Ένας αναμενόμενος τρόπος προσπέλασης των αλφαριθμητικών χαρακτήρων σε μια συμβολοσειρά είναι μέσω ενός βρόγχου επανάληψης. Αν και δεν έχουμε αναφερθεί ακόμα σε αυτούς, η εφαρμογή μιας for-loop δεν θα πρέπει να σας είναι κάτι άγνωστο.

In [None]:
# Using a for loop 

# One way to do that is to use indexing
for i in range(0, len(last_name)):
    print(last_name[i], end=' ')
    
# Just print a newline    
print()
    

# The pythonic way
for letter in last_name:
    print(letter, end=' ')

**Challenge**

Για τις παρακάτω ασκήσεις προσπαθείστε να πραγματοποιήσετε στο μυαλό σας την εκτέλεση του κώδικα και στη συνέχεια να ελέγξετε αν η απάντηση που καταλήξατε είναι όντως η σωστή. Αν όχι, μπορείτε να εντοπίσετε που κάνατε το λάθος;

* Ποιό είναι το αποτέλεσμα του παρακάτω κώδικα;

```python
s = "Jane Doe"

print(s[1], s[2:6], s[-1])
print(s[20])
```


* Ποιό είναι το αποτέλεσμα του παρακάτω κώδικα;

```python
n = 12345
s = 0

for c in str(n):
    s = s + int(c)

print(s)
```
*Σημείωση*: Η συνάρτηση ``int`` μετατρέπει μία συμβολοσειρά σε ένα ακέραιο αριθμό (εάν γίνεται).



* Ποιό είναι το αποτέλεσμα του παρακάτω κώδικα;

```python
n = 12345
s = ""

for c in str(n):
    s = s + c

print(s)
```

In [None]:
# You can try it here

### Μέθοδοι της κλάσης \<str\>

Εκτός της συνάρτησης ``len``, έχουμε πει πως η βιβλιοθήκη ``str`` προσφέρει πολλές ακόμα συναρτήσεις που επιτελούν διάφορες λειτουργίες όταν εφαρμόζονται σε μια συμβολοσειρά όπως αναζήτηση, διάφορες μετατροπές, εξαγωγή λέξεων από κείμενο, έλεγχο αν το κείμενο περιέχει κάποια επιθυμητά χαρακτηριστικά κτλ.


* Μπορούμε να δούμε συνοπτικά τις μεθόδους της κλάσης ``str`` που μπορούν να εφαρμοστούν σε μία συμβολοσειρά μέσω της συνάρτησης ``dir``:
````python
print(dir(str))
````

* Μπορούμε επίσης να πάρουμε αναλυτική τεκμηρίωση της κάθε μεθόδου χρησιμοποιώντας τη συνάρτηση ``help``.

In [None]:
# Uncomment the following lines
# to check the functionality of dir/help

# print(dir(str))

# print(help(str))

In [None]:
message = "Hello World!"
help(message.replace)

In [None]:
# create a new string from an old one substituting some string part with something else:
message = "Hello World!"
print(message)

message.replace('World', 'Universe')
# message = message.replace('World', 'Universe')

print(message)

Είναι αυτό το αναμμενόμενο αποτέλεσμα; Γιατί ενώ καλέσαμε τη μέθοδο ``replace`` στη μεταβλητή ``message`` δεν πραγματοποιήθηκε η αντικατάσταση;

**Σημείωση**

Διαβάστε προσεκτικά τη τεκμηρίωση όσον αφορά πράξεις σε σύνθετες δομές δεδομένων! Γενικά, οι μέθοδοι που χρησιμοποιούμε μπορούν είτε να τροποποιήσουν ένα υπάρχον αντικείμενο (inplace - όχι για την περίπτωση συμβολοσειρών καθώς είναι αμετάβλητα αντικείμενα) είτε να δημιουργήσουν ένα νέο αντικείμενο.

### Μορφοποίηση συμβολοσειρών (string formatting)

Είδαμε ότι συμβολοσειρές μπορούν να προκύψουν από τη συνένωση άλλων συμβολοσειρών μέσω του τελεστή ``+``.

Είναι ενδιαφέρον (και πολύ χρήσιμο) να δούμε πως μπορούμε να δημιουργήσουμε δυναμικές συμβολοσειρές με το να εισάγουμε σε αυτές τιμές από μεταβλητές.

In [None]:
file_name = "test.txt"
error_code = 51

m1 = "I cannot read file " + file_name + "."
print(m1)

# Note the conversion of the integer 51 to a string with
# str():
m1 = m1 + " I quit with error code " + str(error_code) + "."
print(m1)

Τέτοιου είδους εργασίες μπορούν να γίνουν εύκολα με κατάλληλη διαχείριση και μορφοποίηση κάποιας συμβολοσειράς.

* Μπορούμε να μορφοποιήσουμε μία συμβολοσειρά χρησιμοποιώντας τη συνάρτηση ``format`` της κλάσης ``str`` (δες τεκμηρίωση για λεπτομέρειες). Η βασική δομή έχει ως εξής:
````python
    first_name = 'Albert'
    last_name = 'Einstein'
    
    message = 'For many, {} {} was the greatest physicist of 20th century!'.format(first_name, last_name)
    print(message)
````

* Από την έκδοση 3.6 της Python (και έπειτα) έχουν εισαχθεί οι λεγόμενες μορφοποιήσιμες συμβολοσειρές (f-strings). Αυτές μας επιτρέπουν να μορφοποιήσουμε μία συμβολοσειρά χωρίς τη χρήση της συνάρτησης ``format``. Οι μορφοποιήσιμες συμβολοσειρές υποδηλώνονται με ένα μικρό ``f`` μπροστά από τα εισαγωγικά. Έτσι, για κάποια έκδοση >= 3.6 της Python θα μπορούσαμε επίσης να γράψουμε:
````python
    first_name = 'Albert'
    last_name = 'Einstein'
    
    message = f'For many, {first_name} {last_name} was the greatest physicist of 20th century!'
    print(message)
````

In [None]:
file_name = "test.txt"
error_code = 51

# Use f-string
m1 = f"I cannot read file {file_name}. I quit with error code {error_code}."
print(m1)

Στο παράρτημα περιέχονται κάποιες επιπλέον επιλογές για το πως να μορφοποιήσουμε μία συμβολοσειρά.

### Raw strings

Τα λεγόμενα raw strings δεν μεταχειρίζονται τον χαρακτήρα backslash (\) ως έναν ειδικό χαρακτήρα. Αυτού του είδους οι συμβολοσειρές είναι εξαιρετικές χρήσιμες και τις χρησιμοποιούμε για να δημιουργήσουμε ετικέτες σε γραφήματα χρησιμοποιώντας εκφράσεις LaTeX.

Τα raw strings υποδηλώνονται με ένα μικρό ``r`` μπροστά από τα εισαγωγικά.

In [None]:
# \n is a newline character (Linux)
m1 = "Albert \n Einstein"
print(m1)

# The r marks a 'raw' string:
m2 = r"Albert \n Einstein"
print(m2)

In [None]:
# More on that later...
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0.2, 2.0 * np.pi, 100)
y = np.sin(x) / x

# Without using a raw string, the following
# lines throws an error:
plt.title(r'$\frac {\sin(x)}{x}$')
plt.plot(x, y)

## Παράρτημα: Επιπλέον επιλογές μορφοποίησης συμβολοσειρών

Χωρίς μορφοποίηση:

In [None]:
x = 2. / 3.

f"Two thirds are {x}"

Στρογγυλοποίηση του αριθμού μετά το τρίτο δεκαδικό:

In [None]:
x = 2. / 3.

# The 'f' stands for float.
f"Two thirds are {x:.3f}"

Στρογγυλοποίηση του αριθμού μετά το τρίτο δεκαδικό και εκτύπωση του αριθμού με συνολικό μήκος 10 χαρακτήρων:

In [None]:
f"Two thirds are {x:10.3f}"

Μπορούμε να κάνουμε κάτι παρόμοιο με ακεραίους (χωρίς να προσδιορίσουμε αριθμό δεκαδικών ψηφίων):

In [None]:
n = 42

# The 'd' stands for digit
f"The truth is {n:10d}"

Μπορούμε να προσθέσουμε υστερούντα μηδενικά (trailing zeros):

In [None]:
n = 42
f"The truth is {n:010d}"

Ή να κάνουμε στοίχιση στα αριστερά:

In [None]:
n = 42
f"The truth is {n:<10d}. This we must accept!"