# 13 Διάβασμα και εγγραφή αρχείων

<div class="alert alert-block alert-info" style="margin-top: 20px">


<b>ΣΥΝΟΠΤΙΚΑ</b>

Σε αυτό το μάθημα θα μάθετε πως να διαβάζετε δεδομένα από αρχεία, και πως να αποθηκεύετε τα αποτελέσματά σας. Θα δείτε πως μπορείτε να χρησιμοποιήσετε τις μεθόδους που έχει η ίδια η βασική βιβλιοθήκη της Python καθώς και οι δυνατότητες μέσω της `NumPy` (`np.loadtxt` , `np.genfromtxt`).    
</div>

---

## 13.1 Εισαγωγή 

Ότι είδαμε μέχρι στιγμής περιελάμβανε δεδομένα που ήταν πάντα μέρος του σημειωματαρίου μας. Στην πραγματικότητα όμως είναι πολύ συνηθισμένο μετρήσεις και δεδομένα να έρχοναι με ξεχωριστά αρχεία και με διαφορετικά formats. Οπότε είναι σημαντικό να είσαστε σε θέση να μπορείτε να ανοίγετε τα αρχεία, να παίρνετε τα δεδομένα, να τα επεξεργάζεστε και να τα οπτικοποιείτε, και τέλος να σώζετε σε κάποιο αρχείο όποια αποτελέσματα χρειάζονται. Για όλα αυτά η Python προσφέρει όλα τα απαραίτητα εργαλεία είτε μέσα από τις βασικές (build-in) της βιβλιοθήκες είτε άλλες (π.χ. `NumPy`, `pandas`).

### 13.1.1 Διαφορετικοί τρόποι διαχείρισης αρχείων

Υπάρχουν δύο τρόποι με τους οποίους μπορούμε να διαβάσουμε (αλλά και να σώσουμε) τα περιεχόμενα ενός αρχείου.  

In [None]:
# remember that you can run unix commands by preceding each command with !
!cat data_files/basic.csv

Για να το διαβάσουμε με την Python:

In [None]:
# open file in 'r'ead mode 
f = open('data_files/basic.csv', 'r')

# readline reads the very first line of the file
print(f.readline())

f.close()

_Σημείωση:_ Το πρώτο όρισμα είναι το όνομα του αρχείου (μαζί με το φάκελο) ενώ το δεύτερο εξαρτάται από τι θέλουμε να κάνουμε με το αρχείο. Όταν παραλείπεται εννοείτε το `r` (read mode) που σημαίνει ότι μόνο διαβάζουμε το αρχείο. Αν χρησιμοποιηθεί το `w` (write mode) τότε γράφουμε στο αρχείο (αν υπάρχει ήδη ένα αρχείο με το ίδιο όνομα τότε το νέο αρχείο γράφεται πάνω από αυτό). Με το `a` (append mode) ανοίγει το αρχείο και οποιαδήποτε εγγραφή προστιθεται στο τέλος. Υπάρχει και η επιλογή `r+` που σημαίνει ότι το αρχείο ανοίγει τόσο για διάβασμα όσο και για εγγραφή.

<div class="alert alert-block alert-info" style="margin-top: 20px">
    
&#9755; **ΠΡΟΣΟΧΗ:**  Με αυτή την μέθοδο θα πρέπει πάντα _ΕΣΕΙΣ_ να είστε αυτοί/αυτές που θα κλείσετε το αρχείο. Αν δεν το κάνετε το αρχείο θα κλείσει κάποια στιγμή αλλά χωρίς - απαραίτητα - το αναμενόμενο αποτέλεσμα. Οπότε θα πρέπει _πάντα_ να κλείνει το αρχείο ([περισσότερα](https://realpython.com/why-close-file-python/)).
     
</div>

_**Πως μπορούμε να το αποφύγουμε;**_

Χρησιμοποιώντας την εντολή `with` η οποία εξασφαλίζει την έξοδο από οποιαδήποτε δήλωση/μέθοδο το συνοδεύει. Δηλαδή φροντίζει αυτόματα να κλείσει το αρχείο, καθώς ο κώδικας εμπεριέχεται μέσα σε αυτή.

In [None]:
with open('data_files/basic.csv', 'r') as infile: 
    # readline reads the very first line of the file
    print(infile.readline())


**Εγγραφή σε αρχείο**

Αν θέλουμε να γράψουμε δεδομένα / αποτελέσματα σε ένα αρχείο χρησιμοποιούμε την ίδια εντολή αλλά με διαφορετικό τρόπο λειτουργίας.

In [None]:
with open('data_files/new_file.csv', 'w') as outfile: 
    # this is the header of the file
    outfile.write('# X data, Y data\n')
    # create some data
    xvalues = list(range(0,10,1))
    yvalues = list(range(100,200,10))
    for m,n in zip( xvalues, yvalues ):
        # print the line before writing to the file
        print(m,n)
        # we parse a string to the file
        # note the '\n' character to add a new line
        outfile.write(f'{m},{n}\n')

Προσέξτε ότι για να γράψουμε κάτι στο αρχείο πρέπει να είναι **τύπου συμβολοσειράς**. Επίσης θα πρέπει πάντα να προσθέτουμε στο τέλος τον χαρακτήρα `\n` έτσι ώστε να αλλάζει σειρά και να τυπώνονται όλα σε γραμμές. 

Ας δούμε το καινούργιο μας αρχείο:

In [None]:
!cat 'data_files/new_file.csv'

## 13.2 Χρησιμοποιώντας μόνο Python

Η πρώτη προσέγγιση χρησιμοποιεί μόνο βασικές εντολές για να ανοίξουμε και να διαβάσουμε ένα αρχείο. Η διαδικασία περιλαμβάνει την διαχείριση των συμβολοσειρών που προκύπτουν από το περιεχόμενο του αρχείου. Η Python μπορεί να διαβάζει κάθε γραμμή του αρχείου αλλά εμείς καλούμαστε να επιλέξουμε πως πρέπει να την "τεμαχίσουμε" για να πάρουμε αυτό που θέλουμε. Αυτό γίνεται πολύ αποτελεσματικά συνδυάζοντας και την μέθοδο [`split()`](https://docs.python.org/3/library/stdtypes.html#str.split) της κλάσσης str. 

In [None]:
# Initialize two empty lists that will populate with the contents of each column in the data set
x_data, y_data = [], []

# Read the file line by line
with open("data_files/basic.csv", "r") as f:
    
    # Skip the first row that contains the header
    next(f)
    
    # Each line is read as a string. We handle this to extract the data.
    for line in f:
        # lets see how does each line look like
        print(line)
        # split into columns
        cols = line.split(',')
        # print the columns
        print(cols)
        # handle the x and y
        x = float(cols[0])
        y = float(cols[1]) 
        print(x,y)
        # append to lists to create the dataset
        x_data.append(x)
        y_data.append(y) 
        
        print('----')
        
print("x data:", x_data)
print("y data:", y_data)        
       

Με μια πιο "pythonic" προσέγγιση (δηλαδή συμπιέζοντας τον κώδικα όσο γίνετα, εκμεταλλευόμενοι τις δυνατότητες της γλώσσας):

In [None]:
# Initialize two empty lists that will populate with the contents of each column in the data set
x_data, y_data = [], []

# Read the file line by line
with open("data_files/basic.csv", "r") as f:
    
    # Skip the first row that contains the header
    next(f)
    
    # Each line is read as a string. We handle this to extract the data.
    for line in f:       
        print(line)
        # a more "pythonic" way to do it:
        x_data.append( float(line.split(",")[0]))
        y_data.append( float(line.split(",")[1]))        
        print('----')
        
print("x data:", x_data)
print("y data:", y_data)             

Έχοντας διαβάσει τα δεδομένα από το αρχείο μας μπορούμε να τα επεξεργαστούμε και να τα οπτικοποιήσουμε περαιτέρω και ανάλογα με τις ανάγκες μας.

In [None]:
import matplotlib.pyplot as plt
plt.rc('font', size=20) 

plt.plot(x_data,y_data, 'r*')

plt.title('A simple plot')
plt.xlabel('x values')
plt.ylabel('y values')

Και ένα λίγο πιο πολύπλοκο παράδειγμα. Σε αυτή την περίπτωση οι στήλες χωρίζονται με κενά ' ' και όχι με ',' όπως προηγούμενως (csv: comma separated values). Αλλά από τη στιγμή που διβάζουμε το αρχείο σαν συμβολοσειρές δεν μας επηρεάζει, αλλά πρεπει να προσαρμοστούμε στο αρχείο.

In [None]:
!cat data_files/basic22.txt

In [None]:
# Initialize five empty lists that will populate with the contents of each column in the data set
ids, x_data, y_data, classes, directions = [], [], [], [], [] 

# Read the file line by line
with open("data_files/basic22.txt", "r") as f:
    
    # Skip the first row that contains the header
    next(f)
    
    # Each line is read as a string. We handle this to extract the data.
    for line in f:
        # lets see how does each line look like
        print(line)
        # split into columns, now with empty spaces
        cols = line.split(' ')
        # print the columns
        print(cols)
        # handle the x and y
        i = cols[0]
        x = float(cols[1])
        y = float(cols[2])
        c = cols[3].strip()
        d = cols[4].strip()
        print(i, x, y, c, d)
#         # append to lists to create the dataset
        ids.append(i)
        x_data.append(x)
        y_data.append(y)
        classes.append(c)
        directions.append(d)

print('-----\n')        
print("IDs:", ids)
print("x data:", x_data)
print("y data:", y_data)        
print("Number of class A items:", len([i for i in classes if i=='A']) )
print("Number of left directions:", len([d for d in directions if d=='left']) )


plt.plot(x_data,y_data, 'r*')

for p, x, y in zip(ids, x_data, y_data):
    plt.text(x,y, " "+p)

plt.title('A simple plot')
plt.xlabel('x values')
plt.ylabel('y values') 
plt.xlim(0,11)
plt.ylim(-5, 110)
    
plt.show()


_Σημείωση:_ To `plt.text` είνα μια [μέθοδος](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.text.html) με την οποία μπορούμε να βάλουμε κείμενο πάνω στο διάγραμμά μας. Στη συγκεκριμένη εφαρμομογή το χρησιμοποιήσαμε σαν μια ταυτοποίηση των σημείων αλλά υπάρχει και καλύτερη προσέγγιση (δείτε σχετικά για τα [annotations](https://matplotlib.org/stable/users/explain/quick_start.html#annotations)).

_Σημείωση:_ Υπάρχει η [build-in βιβλιοθήκη](https://docs.python.org/3/library/csv.html) `csv` (που πρέπει όμως να εισαχθεί όπως οι υπόλοιπες, δηλαδή θα πρέπει να βάλουμε `import csv`) η οποία παρέχει τα απαραίτητα εργαλεία (`csv.reader` και `csv.writer`) για το άνοιγμα και εγγραφή αρχείων αυτού του τύπου. Ωστόσο, δεδομένης της ύπαρξης και της μεγαλύτερης ευελιξίας που προσφέρουν οι άλλες βιβλιοθήκες (ιδιαίτερα η `pandas`) δεν θα ασχοληθούμε περαιτέρω εδώ.

## 13.3 Χρησιμοποιώντας `NumPy`

Μια άλλη προσέγγιση είναι να χρησιμοποιήσουμε μεθόδους που προσφέρει η `NumPy`. Το πλεονέκτημα εδώ είναι ότι όταν πρόκειται για νούμερα η προσέγγιση μέσω της `NumPy` έχει περισσότερα πλεονεκτήματα στην περαιτέρω διαχείριση και επεξεργασία, ιδιαίτερα όταν μεγαλώνει σημαντικά ο όγκος των δεδομένων. 

### 13.3.1 Διάβασμα αρχείων

#### `numpy.loadtxt`

Η συνάρτηση `numpy.loadtxt` αποτελεί τον πιο απλό τρόπο για να διαβαστεί ένα αρχείο ([περισσότερα](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html)). Ουσιαστικά επιστρέφει ένα `ndarray`αντικείμενο το οποίο ξέρουμε πως να διαχειριστούμε.   

In [None]:
import numpy as np

# we explicitly set the delimiter, and avoid the header
data = np.loadtxt("data_files/basic.csv", 
                  delimiter=',', 
                  skiprows=1)

print(data)
print(type(data))
print()

xdata = data[:,0]
ydata = data[:,1]

print(xdata)
print(ydata)


Μπορούμε να ξεπακετάρουμε και απευθείας τα δεδομένα μας, χρησιμοποιώντας την παράμετρο `unpack=True`:

In [None]:
xdata, ydata = np.loadtxt("data_files/basic.csv", 
                          delimiter=',', 
                          skiprows=1, 
                          unpack=True)

print(xdata)
print(ydata)

Ας δοκιμάσουμε και το άλλο αρχείο (basic22.txt), όπου ο διαχωρισμός των στηλών γίνεται με το κενό (' '). 

In [None]:
# we explicitly set the delimiter, and avoid the header
data22 = np.loadtxt("data_files/basic22.txt", 
                    delimiter=' ', 
                    skiprows=1)

print(data)


Εδώ η μέθοδος αποτυγχάνει γιατί προσπαθεί να μετατρέψει αυτόματα όλες τις στήλες σε πραγματικούς αριθμούς. Για να το λύσουμε αυτό θα πρέπει να δώσουμε το τύπο της κάθε στήλης χρησιμοποιώντας το `dtype`. 

In [None]:
# we explicitly define the type of each column
data22 = np.loadtxt("data_files/basic22.txt", 
                    delimiter=' ', 
                    skiprows=1,
        dtype=[('ID', int), ('Xval', float), 
               ('Yval', float), ('Class', 'U1'), 
               ('Dir', 'U6')] )

print(data22)
print()
print(data22.shape)

Αυτός ο πίνακας τώρα έχει ένα σχήμα με 10 γραμμές και μια στήλη! Ενώ εμείς "βλέπουμε" 10 γραμμές και 5 στήλες, γιατί;

Ο τρόπος που διαβάσαμε το αρχείο και ιδιαίτερα η χρήση του `dtype` όπου δώσαμε και ονόματα σε κάθε στήλη μας οδήγησε στην δημιουργία ενός  **stuctured array** (δομημένου πίνακα, [περισσότερα](https://numpy.org/doc/stable/user/basics.rec.html)). Έχοντας τα ονόματα ανά στήλη μπορούμε να καλέσουμε κάθε μία από αυτές πιο εύκολα με την χρήση του ονόματός της. Έχοντας αυτό και τις δυνατότητες της `NumPy` μπορούμε να κάνουμε πιο ευέλικτα και αποτελεσματικά την επεξεργασία των δεδομένων μας.  

In [None]:
# printing each column based on its name
print('- IDs :', data22['ID'])
print('- Class :', data22['Class'])

#  can assign columns to separate variables for easiness
xvals22, yvals22 = data22['Xval'], data22['Yval']
ids22 = data22['ID']
cls22 = data22['Class']
dir22 = data22['Dir']

print('- Sum of A class:', np.sum( (cls22=='A')) )
print('- Sum of left directions:', np.sum( (dir22=='left')) )

In [None]:
plt.plot(xvals22, yvals22, 'r*')

for p, x, y in zip(ids22, xvals22, yvals22):
    plt.text(x,y, " "+str(p))

plt.title('A simple plot')
plt.xlabel('x values')
plt.ylabel('y values') 
plt.xlim(0,11)
plt.ylim(-5, 110)
    

#### `numpy.genfromtxt`

Η συνάρτηση `numpy.genfromtxt` αποτελεί μια πιο εξελιγμένη μέθοδο για το διάβασμα αρχείων ([περισσότερα](https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html#numpy-genfromtxt)), που προσφέρει πολύ περισσότερη ευελιξία σε σχέση με την `numpy.loadtxt`. 

Σημαντικές πλεονεκτήματα είναι ότι επιστρέφει ένα πίνακα που είναι πιο κοντά σε αυτό που περιμένουμε (σαν άνθρωποι), μπορεί να διαχειριστεί τιμές που λείπουν (`missing_values`) ή/και να τις συμπληρώσει (`filling_values`). 

In [None]:
data333 = np.genfromtxt("data_files/basic333.txt", 
                        delimiter=',', 
                        skip_header=1)

print(data333)
print()
print(data333.shape)

Εδώ το τελικό αποτέλεσμα του πίνακα είναι αυτό που θα περιμέναμε. Βέβαια, χωρίς να δοθούν λεπτομέρειες σχετικά με τον τύπο της κάθε στήλης η μέθοδος `np.genfromtxt` υποθέτει για όλες ότι ο τύπος τους είναι `float` (όπως και το `np.loadtxt`) και για όσες δεν μπορεί να γίνει αυτό μετατρεπει τις τιμές τους σε `NaN` (Not a Number). Επίσης, αυτό έχει κάνει και για τις τιμές που λείπουν. 

In [None]:
xvals333 = data333[:,1]
yvals333 = data333[:,2]

print(xvals333)
print(yvals333)

H `NumPy` διαχειρίζεται αυτόματα τις `nan` τιμές. Οπότε μπορούμε να προχωρήσουμε στο διάγραμμα κανονικά όπως και πριν και απλά δεν εμφανίζονται τα σημεία των οποίων οι τιμές αντιστοιχούν σε `nan`.

In [None]:
# final plot
plt.plot(xvals333, yvals333, 'r*')

plt.title('A simple plot')
plt.xlabel('x values')
plt.ylabel('y values')

Ένας τρόπος για να αυτοματοποιήσουμε τον καθορισμό του τύπου των στηλών είναι να χρησιμοποιήσουμε `dtype=None`. Αυτό θα επιστρέψει ένα structured array όπως το `np.loadtxt` 

In [None]:
data333a = np.genfromtxt("data_files/basic333.txt", 
                         delimiter=',', 
                         skip_header=1, 
                         dtype=None)

print(data333a)
print()
print(data333a.shape)

Μια (κάποια) λύση είναι να διαβάσουμε όλο το αρχείο σαν συμβολοσειρά χρησιμοποιώντας το `dtype='unicode'`. Με αυτό τον τρόπο πετυχαίνουμε τόσο το να διαβαστούν και οι στήλες που δεν περιέχουν νούμερα, αλλά και να κρατήσουμε το σχήμα του πίνακα που περιμένουμε. Σε αυτή την περίπτωση θα πρέπει να αλλάξουμε τον τύπο στις στήλες που μας ενδιαφέρουν σαν νούμερα. 

In [None]:
data333b = np.genfromtxt("data_files/basic333.txt", 
                         delimiter=',', 
                         skip_header=1, 
                         dtype='unicode')

print(data333b)
print()
print(data333b.shape)

Οπότε σε αυτή την περίπτωση αρκεί να αλλάξουμε τον τύπο δεδομένων για τους πίνακες που περιέχουν τις τιμές x , y. Εφόσον όμως δεν υπάρχουν τιμές για κάποια σημεία το `array.dtype(float)` θα αποτύχει. Σε αυτή την περίπτωση θα πρέπει να ελέγξουμε και να αφαιρέσουμε τα προβληματικά σημεία.

In [None]:
xvals333b = data333b[:,1]
yvals333b = data333b[:,2]
print('Original arrays:')
print(xvals333b)
print(yvals333b)
print()

# handling again for missing values, 
# but this time we are looking for empty values ('')
xind333b = np.where(xvals333b=='')[0]
yind333b = np.where(yvals333b=='')[0]

# # combining indexes of missing values from both axes
ind2remove333b = np.concatenate((xind333b, yind333b))
print('Index of missing values:')
print(ind2remove333b)
print()

# deleting elements (pairs) and converting to float
xvals333b = np.delete(xvals333b, ind2remove333b).astype(float)
yvals333b = np.delete(yvals333b, ind2remove333b).astype(float)

# new arrays
print('Final arrays:')
print(xvals333b)
print(yvals333b)


<div class="alert alert-block alert-info" style="margin-top: 20px">
    
&#9755; **Συμπέρασμα:** Από τα παραπάνω φαίνεται ότι ο πιο ευέλικτος τρόπος ανοίγματος αρχείων και διαχείρισης δεδομένων είναι μέσω της `np.genfromtxt`. Θα δούμε όμως ότι υπάρχει ακόμα μια πιο δυνατή και ευέλικτη βιβλιοθήκη (`pandas`) σε απόμενο μάθημα. 
     
</div>

### 13.3.2 Εγγραφή σε αρχεία - `numpy.savetxt`

Αφού ολοκληρώσουμε την όποια επεξεργασία έχουμε κάνει για να γράψουμε τα αποτελέσματά μας, συνήθως σε μορρφή ενός πίνακα, σε ένα αρχείο χρησιμοποιούμε την εντολή `np.savetxt()` ([περισσότερα](https://numpy.org/doc/stable/reference/generated/numpy.savetxt.html)). Θα πρέπει να δηλώσουμε το όνομα και φυσικά τον πίνακα που θέλουμε να γράψουμε.  

In [None]:
x = y = z = np.arange(0.0,5.0,1.0)
print(x)
print(x.shape)

# writting a 1d array to a file, with a specific format
np.savetxt('data_files/write-1d.out', 
           x, 
           fmt="%0.2f")  

In [None]:
!cat data_files/write-1d.out

In [None]:
# writting a 3d array to a file, with a specific format, delimiter, and header
np.savetxt('data_files/write-3d.out', (x,y,z), 
           delimiter=',', 
           fmt="%0.2f", 
           header="x,y,z") 

In [None]:
!cat data_files/write-3d.out

Αν παρατηρήσουμε προσεχτικά το παραπάνω αρχείο θα δούμε ότι ο κάθε πίνακας έχει εγγραφεί σαν μια γραμμή.  Αυτό μπορεί να μην είναι το επιθυμητό αποτέλεσμα καθώς (συνήθως) θέλουμε να γράφουμε τον κάθε πίνακα σε μια στήλη για να έχουμε πρόσβαση σε όλα τις στήλες (π.χ. ιδιότητες) ανα γραμμή (π.χ. αντικείμενο). Οπότε θα πρέπει να συνδυάσουμε τους πίνακες σε ένα 2d τελικό πίνακα που θα δοθεί σαν όρισμα στον `np.savetxt`. 

Για αυτό πρέπει πρώτα να μετατρέψουμε τον κάθε πίνακα σε ένα πίνακα με μια στήλη και γραμμές όσα τα στοιχεία του (`.reshape(-1,1)` και μετά να τους συνδυάσουμε με βάση τις στήλες (`np.hstack( (arr1,arr2,...) )`). 

In [None]:
# reshape arrays (taking advantage that they are the same)
x = x.reshape(-1,1)
y = x
z = x

print(x)
print(x.shape)

In [None]:
# combine them all into one single 2d array
print(np.hstack((x,y,z)))

In [None]:
# writting the 2d array to a file
np.savetxt('data_files/write-3d_22.out', 
           np.hstack((x,y,z)), 
           delimiter=',', 
           fmt="%0.2f", 
           header="x,y,z") 

In [None]:
!cat data_files/write-3d_22.out

## 13.4 Ασκήσεις

<div class="alert alert-block alert-warning" style="margin-top: 20px">
    <b>Άσκηση 13.1</b>

Στο αρχείο "data_files/superconductivity/train.csv"\* θα βρείτε βασικές ιδιότητες για έναν αριθμό υπεραγωγών. Σκοπός σας είναι να διαβάσετε όλο το αρχείο και να κάνετε ένα ιστόγραμμα των κρίσιμων θερμοκρασιών τους, που είναι η τελευταία στήλη. 
    
_\*Τα δεδομένα αυτά προέρχονται από [UC Irvine Machine Learning Repository](https://archive.ics.uci.edu/dataset/464/superconductivty+data)_.


In [None]:
# You can try it here
# If you are struggling you can click on details below for the solution

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<details>

<b><summary>Μια λύση</summary></b>
    
    
```python 
import numpy as np
import matplotlib.pyplot as plt

data = np.loadtxt("data_files/superconductivty/train.csv", delimiter=',', skiprows=1)

print(data)

# histogram of the 'critical temperature' which is the last column
plt.hist(data[:,-1], histtype='step')

plt.xlabel('Critical temperature')
plt.ylabel('Number')
plt.grid()
plt.show()
```

   
</details>

<div class="alert alert-block alert-warning" style="margin-top: 20px">
    <b>Άσκηση 13.2</b>

Το αρχείο "data_files/transmittance.csv"\* την διαπερατότητα τεσσάρων υλικών (ITO - Indium Tin Oxygen,, CdS - Cadmium Sulfide, Si, GaAs - Gallium Arsenide)  που χρησιμοποιούνται σε διάφορες εφαρμογές μικροηλεκτρονικής. Σκοπός σας να διαβάσετε όλες τις στήλες και να κάνετε ένα διάγραμμα της διαπερατότητας για όλα τα στοιχεία. Μπορείτε να επιλέξετε όποιον από τους παραπάνω τρόπους θέλετε. 
    
Μετά το διάγραμμα σώστε τους πίνακες για το μήκος κύματος και την διαπερατότητα για το GaAs μόνο σε ένα ξεχωριστό αρχείο. 
    
_\*Τα δεδομένα αυτά προέρχονται από το εισαγωγικό μάθημα της [Lucy Whalley - Python Novice](https://lucydot.github.io/python_novice/)_.
    
> **TIP:** Σχετικά με την εγγραφή στο αρχείο προσέξτε τι θα δώσετε σαν array για να γράψει. Θυμηθείτε την αλλαγή διασστάσεων και τον συνδυασμό πινάκων.

In [None]:
# You can try it here
# If you are struggling you can click on details below for the solution

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<details>

<b><summary>Κάποιες λύσεις</summary></b>
    
    
```python 
# OPTION 1 - loadtxt
import numpy as np
import matplotlib.pyplot as plt

data = np.loadtxt("data_files/transmittance.csv", delimiter=',', skiprows=1)
print(data)

# a way to automate how to get column names
with open("data_files/transmittance.csv") as inf:
    header = inf.readline().split(',')
print(header)

# cycle of colors (adding one to have consistent lenght with data)
colors = ['blue', 'tab:blue', 'tab:orange', 'tab:red', 'tab:green']

plt.figure(figsize=(14,8))

for i in range(1, len(header)):
    plt.plot(data[:, 0], data[:, i], '-', c=colors[i], label=header[i].split(' ')[1])

plt.xlabel(header[0].replace('_',' '))
plt.ylabel('Transmittancce (%)')
plt.legend()
plt.show()
    
# saving to a file    
# all data are 1d arrays, meaning 1 row and x numbser of columns
# we reshape each array to an x rows and 1 column array
wav = data[:,0].reshape(-1,1)     # -1 means take all and put them in 1 column
gaas = data[:,4].reshape(-1,1)

# form a 2d array to parse to savetxt
table_2d = np.hstack( (wav,gaas) )
print(wav, gaas)
print(table_2d)

np.savetxt('data_files/gaas_transmittance.txt', 
           table_2d, 
           delimiter=',', 
           header='wavelength (nm), transmittance (%)')    
```

```
# OPTION 2 - genfromtxt
import numpy as np
import matplotlib.pyplot as plt

data = np.genfromtxt("data_files/transmittance.csv", delimiter=',', 
                        names=True            # include the name of the columns 
                    )

# header names
header =  data.dtype.names
print(header)

# cycle of colors (adding one to have consistent lenght with data)
colors = ['blue', 'tab:blue', 'tab:orange', 'tab:red', 'tab:green']

plt.figure(figsize=(14,8))

for i in range(1, len(header)):
    plt.plot(data[header[0]], data[header[i]], '-', c=colors[i], label=header[i].split('_')[1])

plt.xlabel(header[0].replace('_',' '))
plt.ylabel('Transmittancce (%)')
plt.legend()
plt.show() 
    
# saving to a file
# all data are 1d arrays, meaning 1 row and x numbser of columns
# we reshape each array to an x rows and 1 column array
wav = data[header[0]].reshape(-1,1)     # -1 means take all and put them in 1 column
gaas = data[header[4]].reshape(-1,1)

# form a 2d array to parse to savetxt
table_2d = np.hstack( (wav,gaas) )
print(wav, gaas)
print(table_2d)

np.savetxt('data_files/gaas_transmittance.txt', 
           table_2d, 
           delimiter=',', 
           header='wavelength (nm), transmittance (%)')      
    
```

   
</details>

In [None]:
# EOF