# Διαχείριση αρχείων

## Η βιβλιοθήκη ``csv``

Τα αρχεία csv (comma separated values) είναι ένας πολύ συνηθισμένος τύπος αρχείου για μεταφορά δεδομένων. Αυτό σημαίνει ότι μπορούμε να εξάγουμε τα δεδομένα που έχουμε συλλέξει (π.χ. από ένα πείραμα) σε ένα τέτοιο αρχείο και στη συνέχεια να μοιράσουμε
το εν λόγω αρχείο σε οποιονδήποτε ενδιαφέρεται να αναλύσει τα δεδομένα μας.

Αυτός ο τύπος δεδομένων είναι ιδιαίτερα δημοφιλής και συναντάται σε προγράμματα όπως το Excel και οι βάσεις δεδομένων. Όπως υποδηλώνει το όνομά του, κάθε τιμή διαχωρίζεται από μία άλλη μέσω της χρήσης ενός κόμματος.

In [None]:
! head -5 'data/sample.csv'

### Διάβασμα αρχείου

Έχοντας λοιπόν ένα τέτοιο αρχείο κειμένου, μπορούμε να το προσπελάσουμε με το μπλοκ κώδικα:

````python
with open('text_file.ext', 'r') as file:
    for line in file:
        print(line)
````

Το αρχείο διαβάζεται όπως υποδηλώνεται από την παράμετρο ``r`` (read-mode), ενώ σε κάθε επανάληψη του βρόγχου εκτυπώνεται μία συμβολοσειρά που περιέχει ολόκληρη τη γραμμή του κειμένου. Αυτό συνεχίζεται μέχρι να τελειώσουν οι γραμμές από τις οποίες αποτελείται το κείμενο του αρχείου.

Έχοντας αυτή τη συμβολοσειρά μπορούμε να εκτελέσουμε τις γνωστές μεθόδους που ισχύσουν για την κλάση ``str`` ώστε να εξάγουμε τα δεδομένα που θέλουμε.

Παρ' όλα αυτα, υπάρχει και ένας άλλος τρόπος να προσπελάσουμε ένα αρχείο και αυτός είναι χρησιμοποιώντας κάποιον διαχειριστή αρχείου. Η προεγκατεστημένη βιβλιοθήκη ``csv`` μας προσφέρει έναν τέτοιο διαχειριστή. Αυτός ο διαχειριστής είναι ουσιαστικά ένα αντικείμενο της βιβλιοθήκης ``csv`` όπου μπορούμε να πραγματοποιήσουμε κάποια επανάληψη επί αυτού (είναι δηλαδή iterable) και να πάρουμε τις γραμμές του αρχείου csv, ως λίστες με τις τιμές που περιέχει η κάθε γραμμή.

**Προσοχή**: Οι τιμές που περιέχει η κάθε λίστα είναι συμβολοσειρές ακόμα και αν τα δεδομένα που υπάρχουν στο αρχείο είναι αριθμητικά. Αν θέλουμε περαιτέρω επεξεργασία των δεδομένων, πρέπει να πάμε στις αντίστοιχες θέσεις και να τα μετατρέψουμε σε αριθμητικά δεδομένα. 

Ουσιαστικά, χρησιμοποιώντας έναν διαχειριστή κειμένου μετατρέψαμε το πρόβλημα της εξαγωγής δεδομένων από αρχείο σε πρόβλημα επεξεργασίας λιστών και τίποτα παραπάνω. Πολλές φορές είναι προτιμότερο να δουλεύουμε με τα δεδομένα μας να είναι αποθηκευμένα σε κάποια λίστα παρά να μας παρέχονται με τη μορφή συμβολοσειράς.

In [None]:
import csv

In [None]:
# Open the file in read mode
with open('data/sample.csv', 'r') as data_file:
    
    # This object is the iterator
    csv_reader = csv.reader(data_file)
    
    # Print the first 5 rows of the text file
    n=0
    for line in csv_reader:
        n+=1
        if n<=5:
            print(line)
        else: break

Παρατηρούμε ότι η πρώτη λίστα περιέχει μία επικεφαλίδα (header) όπου περιγράφει τι είδους δεδομένα έχει η κάθε στήλη. Επειδή μπορεί να θέλουμε μόνο τα δεδομένα που περιέχει το αρχείο, χωρίς το header, μπορούμε να προσπεράσουμε την πρώτη γραμμή του αρχείου χρησιμοποιώντας την συνάρτηση ``next``. Αυτή είναι μία συνάρτηση που αφορά τους iterators όπως είναι το αντικείμενο ``csv_reader`` που δημιουργήσαμε.

In [None]:
# Open the file in read mode
with open('data/sample.csv', 'r') as data_file:
    
    # This object is the iterator
    csv_reader = csv.reader(data_file)
    
    # Skip first line
    next(data_file)
    
    # Print the first 5 rows of the text file
    n=0
    for line in csv_reader:
        n+=1
        if n<=5:
            print(line)
        else: break

### Εγγραφή δεδομένων σε αρχείο

Έχοντας επεξεργαστεί με όποιον τρόπο επιθυμούμε τα δεδομένα μας, μπορούμε με τη σειρά μας, να αποθηκεύσουμε τα νέα δεδομένα σε ένα καινούργιο αρχείο csv.

Η διαδικασία εγγραφής σε ένα αρχείο κειμένου είναι αντίστοιχη με αυτή του διαβάσματος του αρχείου. Αυτή τη φορά όμως θα χρησιμοποιήσουμε έναν διαχειριστή ``writer`` (αντί του ``reader``).

Στο συγκεκριμένο παράδειγμα θα προσθέσουμε μία ακόμα στήλη που θα περιέχει έναν τυχαίο αριθμό (0 ή 1). Επίσης θα αποθηκεύσουμε τα δεδομένα σε ένα νέο αρχείο χρησιμοποιώντας όμως ως διαχωριστή (delimiter) ένα tab-space αντί του κόμματος.

In [None]:
import random

# In the first iteration we will create the header info
# for the new column
first_run = True # flag variable

# Open original data in read mode
with open('data/sample.csv', 'r') as data_old:
    
    csv_reader = csv.reader(data_old)
    
    # Open a new file in write mode
    with open('data/new_sample.csv', 'w') as data_new:
        
        csv_writer = csv.writer(data_new, delimiter='\t')
        
        for line in csv_reader:
            if first_run:
                line.append('random_number')
                csv_writer.writerow(line) # write the header info
                first_run = False
            else:
                line.append(random.randint(0,1))
                csv_writer.writerow(line) # write the data

In [None]:
! head -5 'data/new_sample.csv'

Παρατηρείστε ότι τώρα οι τιμές στο αρχείο κειμένου διαχωρίζονται με ένα tab-space αντί για κόμμα, αλλά το αρχείο εξακολουθεί να είναι csv. 

Τι θα γίνει αν προσπαθήσουμε να ανοίξουμε ένα τέτοιο αρχείο χωρίς να προσδιορίσουμε τον τρόπο με τον οποίο διαχωρίζονται τα δεδομένα;

In [None]:
with open('data/new_sample.csv', 'r') as file:
    csv_reader = csv.reader(file) # By default it assumes a comma delimiter
    
    n=0
    for row in csv_reader:
        n+=1
        if n<=5:
            print(row)
        else: break

Παρατηρούμε ότι πλέον κάθε λίστα περιέχει μία μόνο τιμή. Συγκεκριμένα περιέχει μία μόνο συμβολοσειρά που είναι ολόκληρη η γραμμή του αρχείου. Αυτο συμβαίνει γιατί η προεπιλογή για τον διαχειριστή του αρχείου είναι να περιμένει το κόμμα ως τον διαχωριστή για τις τιμές.

Αν έχουμε ένα αρχείο που χρησιμοποιεί κάτι άλλο, εκτός του κόμματος, για να διαχωρίσει τις τιμές του αρχείου τότε πρέπει να δώσουμε ως όρισμα ποιόν διαχωριστή να χρησιμοποιήσει όταν διαβάζει το αρχείο.

Για το παράδειγμα με το καινούργιο αρχείο που δημιουργήσαμε, αυτός ο διαχωριστής είναι το tap-space.

In [None]:
with open('data/new_sample.csv', 'r') as file:
    reader = csv.reader(file, delimiter='\t')
    
    n=0
    for line in reader:
        n+=1
        if n<=5:
            print(line)
        else: break

**Challenge**

Ο διαχειριστής αρχείων που προσφέρεται από τη βιβλιοθήκη ``csv`` δεν περιορίζεται μόνο σε αρχεία που έχουν κατάληξη ".csv".
Για να διαπιστώσετε ότι αυτό που χρειάζεται να ξέρει ο διαχειριστής είναι μόνο ο τρόπος με τον οποίο διαχωρίζονται τα δεδομένα σε ένα αρχείο, θα εξετάσετε το αρχείο κειμένου ``words.txt``.

Το συγκεκριμένο αρχείο είναι ένα είδους "λεξικό" που περιέχει έναν μεγάλο αριθμό λέξεων. **Διαβάστε** το εν λόγω αρχείο χρησιμοποιώντας την βιβλιοθήκη ``csv`` και προσέχοντας να δώσετε τον κατάλληλο διαχωριστή.

Έχοντας διαβάσει το αρχείο, **γράψτε κώδικα που θα εξετάζει αν μία λέξη της επιλογής σας υπάρχει στο "λεξικό"**. Εαν υπάρχει τότε να εκτυπώνει ένα συγχαρητήριο μήνυμα που θα βεβαιώνει ότι **υπάρχει** η λέξη. Εάν η λέξη δεν υπάρχει τότε θα τυπώνει ένα μήνυμα όπου θα βεβαιώνει τον χρήστη ότι η συγκεκριμένη λέξη **δεν υπάρχει** στο λεξικό.

In [None]:
lookup_word = 'python'
found = False

with open('data/words.txt', 'r') as file:
    reader = csv.reader(file, delimiter='-')
    
    for line_list in reader: # line_list is a list of strings
        if lookup_word.lower() in line_list:
            print('Congrats! The word \'{}\' exists in the dictionary!'.format(lookup_word))
            found = True
            break
            
    if not found: print("The word '{}' does not exist in the dictionary!".format(lookup_word))

## Παράρτημα: Σύνδεση με το λειτουργικό σύστημα

### Οι βιβλιοθήκες ``os`` και ``glob``