# Διαχείριση αρχείων

## Η βιβλιοθήκη ``csv``

Τα αρχεία csv (comma separated values) είναι ένας πολύ συνηθισμένος τύπος αρχείου για μεταφορά δεδομένων. Αυτό σημαίνει ότι μπορούμε να εξάγουμε τα δεδομένα που έχουμε συλλέξει (π.χ. από ένα πείραμα) σε ένα τέτοιο αρχείο και στη συνέχεια να μοιράσουμε
το εν λόγω αρχείο σε οποιονδήποτε ενδιαφέρεται να αναλύσει τα δεδομένα μας.

Αυτός ο τύπος δεδομένων είναι ιδιαίτερα δημοφιλής και συναντάται σε προγράμματα όπως το Excel και οι βάσεις δεδομένων. Όπως υποδηλώνει το όνομά του, κάθε τιμή διαχωρίζεται από μία άλλη μέσω της χρήσης ενός κόμματος.

In [None]:
! head -5 'data/sample.csv'

### Διάβασμα αρχείου

Έχοντας λοιπόν ένα τέτοιο αρχείο κειμένου, μπορούμε να το προσπελάσουμε με το μπλοκ κώδικα:

````python
with open('text_file.ext', 'r') as file:
    for line in file:
        print(line)
````

Το αρχείο διαβάζεται όπως υποδηλώνεται από την παράμετρο ``r`` (read-mode), ενώ σε κάθε επανάληψη του βρόγχου εκτυπώνεται μία συμβολοσειρά που περιέχει ολόκληρη τη γραμμή του κειμένου. Αυτό συνεχίζεται μέχρι να τελειώσουν οι γραμμές από τις οποίες αποτελείται το κείμενο του αρχείου.

Έχοντας αυτή τη συμβολοσειρά μπορούμε να εκτελέσουμε τις γνωστές μεθόδους που ισχύσουν για την κλάση ``str`` ώστε να εξάγουμε τα δεδομένα που θέλουμε.

Παρ' όλα αυτα, υπάρχει και ένας άλλος τρόπος να προσπελάσουμε ένα αρχείο και αυτός είναι χρησιμοποιώντας κάποιον διαχειριστή αρχείου. Η προεγκατεστημένη βιβλιοθήκη ``csv`` μας προσφέρει έναν τέτοιο διαχειριστή. Αυτός ο διαχειριστής είναι ουσιαστικά ένα αντικείμενο της βιβλιοθήκης ``csv`` όπου μπορούμε να πραγματοποιήσουμε κάποια επανάληψη επί αυτού (είναι δηλαδή iterable) και να πάρουμε τις γραμμές του αρχείου csv, ως λίστες με τις τιμές που περιέχει η κάθε γραμμή.

**Προσοχή**: Οι τιμές που περιέχει η κάθε λίστα είναι συμβολοσειρές ακόμα και αν τα δεδομένα που υπάρχουν στο αρχείο είναι αριθμητικά. Αν θέλουμε περαιτέρω επεξεργασία των δεδομένων, πρέπει να πάμε στις αντίστοιχες θέσεις και να τα μετατρέψουμε σε αριθμητικά δεδομένα. 

Ουσιαστικά, χρησιμοποιώντας έναν διαχειριστή κειμένου μετατρέψαμε το πρόβλημα της εξαγωγής δεδομένων από αρχείο σε πρόβλημα επεξεργασίας λιστών και τίποτα παραπάνω. Πολλές φορές είναι προτιμότερο να δουλεύουμε με τα δεδομένα μας να είναι αποθηκευμένα σε κάποια λίστα παρά να μας παρέχονται με τη μορφή συμβολοσειράς.

In [None]:
import csv

In [None]:
# Open the file in read mode
with open('data/sample.csv', 'r') as data_file:
    
    # This object is the iterator
    csv_reader = csv.reader(data_file)
    
    # Print the first 5 rows of the text file
    n=0
    for line in csv_reader:
        n+=1
        if n<=5:
            print(line)
        else: break

Παρατηρούμε ότι η πρώτη λίστα περιέχει μία επικεφαλίδα (header) όπου περιγράφει τι είδους δεδομένα έχει η κάθε στήλη. Επειδή μπορεί να θέλουμε μόνο τα δεδομένα που περιέχει το αρχείο, χωρίς το header, μπορούμε να προσπεράσουμε την πρώτη γραμμή του αρχείου χρησιμοποιώντας την συνάρτηση ``next``. Αυτή είναι μία συνάρτηση που αφορά τους iterators όπως είναι το αντικείμενο ``csv_reader`` που δημιουργήσαμε.

In [None]:
# Open the file in read mode
with open('data/sample.csv', 'r') as data_file:
    
    # This object is the iterator
    csv_reader = csv.reader(data_file)
    
    # Skip first line
    next(data_file)
    
    # Print the first 5 rows of the text file
    n=0
    for line in csv_reader:
        n+=1
        if n<=5:
            print(line)
        else: break

### Εγγραφή δεδομένων σε αρχείο

Έχοντας επεξεργαστεί με όποιον τρόπο επιθυμούμε τα δεδομένα μας, μπορούμε με τη σειρά μας, να αποθηκεύσουμε τα νέα δεδομένα σε ένα καινούργιο αρχείο csv.

Η διαδικασία εγγραφής σε ένα αρχείο κειμένου είναι αντίστοιχη με αυτή του διαβάσματος του αρχείου. Αυτή τη φορά όμως θα χρησιμοποιήσουμε έναν διαχειριστή ``writer`` (αντί του ``reader``).

Στο συγκεκριμένο παράδειγμα θα προσθέσουμε μία ακόμα στήλη που θα περιέχει έναν τυχαίο αριθμό (0 ή 1). Επίσης θα αποθηκεύσουμε τα δεδομένα σε ένα νέο αρχείο χρησιμοποιώντας όμως ως διαχωριστή (delimiter) ένα tab-space αντί του κόμματος.

In [None]:
import random

# In the first iteration we will create the header info
# for the new column
first_run = True # flag variable

# Open original data in read mode
with open('data/sample.csv', 'r') as data_old:
    
    csv_reader = csv.reader(data_old)
    
    # Open a new file in write mode
    with open('data/new_sample.csv', 'w') as data_new:
        
        csv_writer = csv.writer(data_new, delimiter='\t')
        
        for line in csv_reader:
            if first_run:
                line.append('random_number')
                csv_writer.writerow(line) # write the header info
                first_run = False
            else:
                line.append(random.randint(0,1))
                csv_writer.writerow(line) # write the data

In [None]:
! head -5 'data/new_sample.csv'

Παρατηρείστε ότι τώρα οι τιμές στο αρχείο κειμένου διαχωρίζονται με ένα tab-space αντί για κόμμα, αλλά το αρχείο εξακολουθεί να είναι csv. 

Τι θα γίνει αν προσπαθήσουμε να ανοίξουμε ένα τέτοιο αρχείο χωρίς να προσδιορίσουμε τον τρόπο με τον οποίο διαχωρίζονται τα δεδομένα;

In [None]:
with open('data/new_sample.csv', 'r') as file:
    csv_reader = csv.reader(file) # By default it assumes a comma delimiter
    
    n=0
    for row in csv_reader:
        n+=1
        if n<=5:
            print(row)
        else: break

Παρατηρούμε ότι πλέον κάθε λίστα περιέχει μία μόνο τιμή. Συγκεκριμένα περιέχει μία μόνο συμβολοσειρά που είναι ολόκληρη η γραμμή του αρχείου. Αυτο συμβαίνει γιατί η προεπιλογή για τον διαχειριστή του αρχείου είναι να περιμένει το κόμμα ως τον διαχωριστή για τις τιμές.

Αν έχουμε ένα αρχείο που χρησιμοποιεί κάτι άλλο, εκτός του κόμματος, για να διαχωρίσει τις τιμές του αρχείου τότε πρέπει να δώσουμε ως όρισμα ποιόν διαχωριστή να χρησιμοποιήσει όταν διαβάζει το αρχείο.

Για το παράδειγμα με το καινούργιο αρχείο που δημιουργήσαμε, αυτός ο διαχωριστής είναι το tap-space.

In [None]:
with open('data/new_sample.csv', 'r') as file:
    reader = csv.reader(file, delimiter='\t')
    
    n=0
    for line in reader:
        n+=1
        if n<=5:
            print(line)
        else: break

**Challenge**

Ο διαχειριστής αρχείων που προσφέρεται από τη βιβλιοθήκη ``csv`` δεν περιορίζεται μόνο σε αρχεία που έχουν κατάληξη ".csv".
Για να διαπιστώσετε ότι αυτό που χρειάζεται να ξέρει ο διαχειριστής είναι μόνο ο τρόπος με τον οποίο διαχωρίζονται τα δεδομένα σε ένα αρχείο, θα εξετάσετε το αρχείο κειμένου ``words.txt``.

Το συγκεκριμένο αρχείο είναι ένα είδους "λεξικό" που περιέχει έναν μεγάλο αριθμό λέξεων. **Διαβάστε** το εν λόγω αρχείο χρησιμοποιώντας την βιβλιοθήκη ``csv`` και προσέχοντας να δώσετε τον κατάλληλο διαχωριστή.

Έχοντας διαβάσει το αρχείο, **γράψτε κώδικα που θα εξετάζει αν μία λέξη της επιλογής σας υπάρχει στο "λεξικό"**. Εαν υπάρχει τότε να εκτυπώνει ένα συγχαρητήριο μήνυμα που θα βεβαιώνει ότι **υπάρχει** η λέξη. Εάν η λέξη δεν υπάρχει τότε θα τυπώνει ένα μήνυμα όπου θα βεβαιώνει τον χρήστη ότι η συγκεκριμένη λέξη **δεν υπάρχει** στο λεξικό.

In [None]:
lookup_word = 'python'
found = False

with open('data/words.txt', 'r') as file:
    reader = csv.reader(file, delimiter='-')
    
    for line_list in reader: # line_list is a list of strings
        if lookup_word.lower() in line_list:
            print('Congrats! The word \'{}\' exists in the dictionary!'.format(lookup_word))
            found = True
            break
            
    if not found: print("The word '{}' does not exist in the dictionary!".format(lookup_word))

## Η βιβλιοθήκη ``pandas``

Η βιβλιοθήκη ``pandas`` είναι μία βιβλιοθήκη για την ανάλυση δεδομένων που μας επιτρέπει να διαβάζουμε και να επεξεργαζόμαστε εύκολα διαφόρων τύπων αρχείων και δεδομένων. Επιπροσθέτως, η απόδοσή της είναι πολύ υψηλή καθώς είναι βασισμένη πάνω στη βιβλιοθήκη ``numpy``.

In [None]:
try:
    import pandas as pd
except ImportError:
    ! pip install pandas

### Εισαγωγή: Τα αντικείμενα ``DataFrame`` και ``Series``

Με τη βιβλιοθήκη ``pandas`` μπορούμε πολύ εύκολα να διαβάσουμε διαφόρων τύπων αρχεία (π.χ. csv, xsl, κτλ) μέσα σε μία γραμμή κώδικα. Το αντικείμενο που επιστρέφεται αποτελεί τη βασική δομή της βιβλιοθήκης και ονομάζεται **DataFrame**. Το αντικείμενο αυτό δεν είναι τίποτα περισσότερο από μία 2D απεικόνιση δεδομένων, δηλαδή ένας πίνακας που αποτελείται από γραμμές και στήλες.

Μία τέτοια δομή δεδομένων δεν μας είναι άγνωστη. Ειδικά, αν σκεφτούμε ότι οι στήλες αναφέρονται σε κάποια ποσότητα ή μετρήσιμο μέγεθος, ενώ οι γραμμές αναφέρονται στις τιμές αυτής της ποσότητας/μεγέθους, αυτός ο συνδυασμός θυμίζει ένα ζευγάρι key-value όπως είδαμε στην περίπτωση των λεξικών.

Άρα, μπορεί κάποιος να σκεφτεί ένα DataFrame σαν ένα λεξικό που έχει τέτοια ζευγάρια κλειδιών-τιμών όπου η τιμή είναι μία λίστα που περιέχει το σύνολο των τιμών/γραμμών για το δεδομένο κλειδί.

Έχοντας ένα λεξικό μπορούμε εύκολα λοιπόν να το εκφράσουμε ως DataFrame χρησιμοποιώντας τη βασική μέθοδο της βιβλιοθήκης ``pandas.DataFrame``.

In [None]:
tutors = {
    "first_name": ["Savvas", "Elias", "Nikos"],
    "last_name": ["Chanlaridis", "Kyritsis", "Mandarakas"],
    "email": ["schanlaridis@physics.uoc.gr", "ekyritsis@physics.uoc.gr", "nmandarakas@physics.uoc.gr"],
    "office": [232, 230, 230],
    "research_field": ["Astrophysics", "Astrophysics", "Astrophysics"] 
}

In [None]:
type(tutors)

In [None]:
# Access a key (column)
tutors["email"]

In [None]:
df = pd.DataFrame(tutors)
df

In [None]:
type(df)

Παρατηρείστε ότι το DataFrame έχει αριστέρα του πίνακα κάτι που μοιάζει με μία στήλη χωρίς όνομα. Αυτό ονομάζεται **δείκτης (index)**. Ο δείκτης κάθε γραμμής είναι ουσιαστικά ένας ακέραιος αριθμός και αποτελεί ένα είδους "ταυτότητα" για τη συγκεκριμένη γραμμή.

In [None]:
df.index

Μπορούμε να έχουμε πρόσβαση στις τιμές μίας στήλης ενός DataFrame με το ίδιο συντακτικό που χρησιμοποιούμε και στα λεξικά.

In [None]:
# Access a column (key)
df["email"]

Προσέξτε ότι η στήλη που πήραμε από το DataFrame δεν είναι ακριβώς η ίδια με το αποτέλεσμα που πήραμε από το απλό λεξικό. Αυτό συμβαίνει γιατί μία στήλη από ένα DataFrame είναι ένα άλλο αντικείμενο που ονομάζεται **Series**.

Αντικείμενα τύπου Series αποτελούν μία 1D αναπαράσταση δεδομένων, παρόμοια με μία λίστα ή ένα μονοδιάστατο array. Παρ' όλα αυτά, όπως και στην περίπτωση του DataFrame σε σχέση με ένα λεξικό, ένα αντικείμενο τύπου Series συνοδεύεται από πολλές και ποικίλες δυνατότητες συγκριτικά με μία λίστα. 

Άρα μπορεί να σκεφτεί κανείς ότι ένα DataFrame είναι μία συλλογή από πολλά αντικείμενα τύπου Series.

In [None]:
type(df["email"])

### Πρόσβαση σε πολλαπλές στήλες ενός DataFrame

Σε αντίθεση με τα λεξικά, σε ένα DataFrame μπορούμε να έχουμε πρόσβαση σε ένα μεμονωμένο σύνολο στηλών που μας ενδιαφέρουν δίνοντας σαν όρισμα **μία λίστα** με τα ονόματα των στηλών που θέλουμε. Αυτό που θα επιστραφεί είναι ουσιαστικά μία φιλτραρισμένη εκδοχή του αρχικού DataFrame.

In [None]:
# Notice the double brackets and the order the
# columns appear compared to original df
df[["research_field", "first_name"]]

### Πρόσβαση στις γραμμές ενός DataFrame

Για να έχουμε πρόσβαση στις γραμμές ενός DataFrame χρησιμοποιούμε τους δείκτες ``loc`` ή ``iloc``.

- Ο δείκτης ``loc``: αναφέρεται στη θέση της γραμμής μέσα στο DataFrame όταν αυτή έχει κάποια ετικέτα (location -> loc).

- Ο δείκτης ``iloc``: αναφέρεται στη θέση της γραμμής μέσα στο DataFrame βάσει του δείκτη (integer location -> iloc).


Χρησιμοποιώντας αυτούς τους δείκτες μπορούμε να πάρουμε τις γραμμές και από συγκεκριμένες στήλες δίνοντας σαν δεύτερο όρισμα το όνομα (στην περίπτωση του δείκτη loc) ή τον δείκτη της στήλης (στην περίπτωση του δείκτη iloc).

Γενικά ισχύει:

    df.loc[[rows_label], [columns_name]]
    
    df.iloc[[rows_indexes], [columns_indexes]]
    
Οι παραπάνω έννοιες φαίνονται πολύπλοκες αλλά είναι πιο εύκολα κατανοητές μέσω παραδειγμάτων.

#### Χρήση του ``iloc``

In [None]:
# Note: iloc/loc are indexers => use of square brackets
df.iloc[[1]]

# Access multiple rows
# df.iloc[[1,2]]

# # or...

# df.iloc[0:2]

# df.iloc[:]

In [None]:
# This will fetch the last two rows of the second column
df.iloc[1:3, 1]

# # THIS WON'T WORK WITH iloc!
# df.iloc[1:3, "last_name"]

#### Χρήση του ``loc``

In [None]:
df.loc[1:3]

In [None]:
# Notice that we used the column name with the loc indexer
df.loc[1:3, "last_name"]

# df.loc[1:3, "last_name":"office"]

# # THIS WON'T WORK WITH loc!
# df.loc[1:3, 1]

### Αλλαγή του δείκτη (index)

Μερικές φορές (ανάλογα με το σύνολο δεδομένων) συμφέρει, αντί να χρησιμοποιήσουμε έναν ακέραιο αριθμό για να ταυτοποιήσουμε και να αναφερόμαστε σε κάθε γραμμή, να χρησιμοποιήσουμε κάτι άλλο για την ταυτοποίησή της. Αυτό μπορεί να είναι μία *ετικέτα* (label) με κάποια μοναδική τιμή που θα χαρακτηρίζει τη συγκεκριμένη γραμμή.

Στο συγκεκριμένο παράδειγμα μία καλή επιλογή για μία ετικέτα θα ήταν το email καθώς είναι κάτι το μοναδικό και θα μπορούσε να μας βοηθήσει να αναφερόμαστε σε κάποια γραμμή βάσει αυτού.


**Προσοχή**: Προκειμένου να μας προστατέψει από το να κάνουμε αλλαγές που δεν θέλουμε στο αρχικό DataFrame, το ``pandas`` σχεδόν ποτέ δεν αλλάζει το αρχικό DataFrame εκτός αν συμπεριλάβουμε την παράμετρο ``inplace=True``. Αν έχουμε την προεπιλεγμένη τιμή ``inplace=False`` τότε θα μας επιστρέψει μία "εικόνα" της αλλαγής αφήνοντας το αρχικό DataFrame ανεπηρέαστο.

In [None]:
df.set_index('email', inplace=True)
df

In [None]:
df.index

Πλέον η στήλη με τα email δεν αποτελεί μέρος των δεδομένων αλλά χρησιμοποιείται ως ετικέτα για την κάθε γραμμή.

Τώρα μπορεί να φαίνεται πιο καθαρά η διαφορά μεταξύ των ``loc`` και ``iloc``.

In [None]:
# email serves as label and is not included in columns anymore
df.columns

# # THIS WON'T WORK SINCE email IS NOT A COLUMN!
# df["email"]

In [None]:
df.iloc[1:3, 0:2]

In [None]:
# Use of labels in loc
df.loc["ekyritsis@physics.uoc.gr":"nmandarakas@physics.uoc.gr", "first_name":"last_name"]

In [None]:
# Let's reset the index
df.reset_index(inplace=True)
df

---

### Ανάλυση δεδομένων

### Φιλτράρισμα δεδομένων

### Διαχείριση μη-έγκυρων τιμών