# Παράδειγμα Χειρισμού Δεδομένων από Αρχείο

Τις περισσότερες φορές τα δεδομένα μας προέρχονται από αρχεία και βάσεις 
δεδομένων και όχι από είσοδο των χρηστών. Τουλάχιστον αυτά που είναι μεγάλα 
σε πληροφορία.
Έτσι, όταν βλέπουμε εκφωνήσεις "διαβάσει ονόματα και βαθμολογία 100 
φοιτητών", το διάβασμα όπως είναι φυσικό γίνεται από αρχείο και όχι από έναν 
χρήστη που τα πληκτρολογεί ένα-ένα.

Σε αυτό το παράδειγμα διαβάζουμε ένα αρχείο με τα ονόματα 16 φοιτητών και τη 
βαθμολογία τους σε τέσσερα τεστ και στο τελικό διαγώνισμα.
Το αρχείο είνα csv (comma separated values), δηλαδή, κάθε τιμή διαχωρίζεται 
με την επόμενη βάζοντας ανάμεσα ένα κόμμα.
Η τελευταία τιμή σε κάθε γραμμή δεν έχει κόμμα αλλά αλλαγή γραμμής.

**Σημείωση:** Χρησιμοποιούμε το άρθρωμα [pandas](https://pandas.pydata.org/) 
για να διαβάσουμε και να δείξουμε σε μορφή πίνακα το αρχείο. Αυτό *δεν* είναι
απαραίτητο. Το pandas μας δίνει πολλές δυνατότητες επεξεργασίας αρχείων που 
έχουν δομή πίνακα.

Αν δεν υπάρχει εγκατεστημένο στο σύστημά σας, μπορείτε να το εγκαταστήσετε ως
εξής:
 ```bash
$ pip install pandas
```

Αν τρέχετε το σημειωματάριο με το `mybinder` τότε η εγκατάσταση θα γίνει 
αυτόματα.

Τα περιεχόμενα, λοιπόν, του αρχείου είναι:

In [1]:
import pandas

data = pandas.read_csv('./files/grades.csv')
data

Unnamed: 0,Last name,First name,SSN,Test1,Test2,Test3,Test4,Final
0,Alfalfa,Aloysius,123-45-6789,40,90,100,83,49
1,Alfred,University,123-12-1234,41,97,96,97,48
2,Gerty,Gramma,567-89-0123,41,80,60,40,44
3,Android,Electric,087-65-4321,42,23,36,45,47
4,Bumpkin,Fred,456-78-9012,43,78,88,77,45
5,Rubble,Betty,234-56-7890,44,90,80,90,46
6,Noshow,Cecil,345-67-8901,45,11,1,4,43
7,Buff,Bif,632-79-9939,46,20,30,40,50
8,Airpump,Andrew,223-45-6789,49,1,90,100,83
9,Backus,Jim,143-12-1234,48,1,97,96,97


Το αρχείο έχει μια επικεφαλίδα, την πρώτη γραμμή.
Οι τρεις πρώτες στήλες έχουν το επώνυμο, το όνομα και τον αριθμό μητρώου του 
φοιτητή.
Ακολουθούν πέντε στήλες με τις βαθμολογίες.

# Υπολογισμός Μέσων Όρων
Το ζητούμενο είναι να υπολογίσουμε το μέσο όρο κάθε φοιτητή.
Αυτό ισοδυναμεί με τον υπολογισμό των βαθμών *ανά γραμμή*.
Για να το επιτύχουμε αυτό, βολεύει να διαβάσουμε το αρχείο γραμμή γραμμή.
Σε κάθε γραμμή πρέπει να διαχωρήσουμε τις 8 τιμές της (ο πίνακας παραπάνω 
έχει 8 στήλες, η πρώτη είναι απλά μια αρίθμηση).
Από τις 8 τιμές μας ενδιαφέρουν οι πέντε τελευταίες που είναι οι βαθμολογίες.

Για το διαχωρισμό της γραμμής χρησιμοποιούμε τη συνάρτηση `split(sep)` η 
οποία χωρίζει μια συμβολοσειρά στον χαρακτήρα `sep`. 
Επιστρέφει μία λίστα με τα διαχωρισμένα τμήματα της συμβολοσειράς.

Παράδειγμα:

In [2]:
example_line = 'Fergadis,Aris,451-12-8430,60,46,78,90,81\n'
values = example_line.split(',')
print(values)

['Fergadis', 'Aris', '451-12-8430', '60', '46', '78', '90', '81\n']


Παρατηρούμε ότι όλα τα αντικείμενα της λίστας είναι συμβολοσειρές.
Αυτό σημαίνει ότι για να υπολογίσουμε τον μέσο όρο, θα πρέπει να μετατρέψουμε
σε αριθμούς εκείνες που αντιστοιχούν στις βαθμολογίες.
 
Τελευταία λεπτομέρεια είναι ότι η πρώτη γραμμή έχει τα ονόματα των στηλών του
πίνακα, οπότε δε θα πρέπει να κάνουμε κάτι γι' αυτήν.

Συνολικά ο κώδικας έχει ως εξής:

In [3]:
first_line = True
for line in open('./files/grades.csv'):
    if first_line:
        first_line = False
        continue  # Πήγαινε στην επόμενη γραμμή.
    values = line.split(',')  # Χωρίζουμε τη γραμμή στα κόμματα.
    # Κρατάμε το επώνυμο και το όνομα για να τα εμφανίσουμε παρακάτω.
    last_name = values[0]
    first_name = values[1]
    
    student_sum = 0  # Το άθροισμα των βαθμών του φοιτητή, δηλαδή, της γραμμής.
    for grade in values[3:]:  # Θέλουμε τις τιμές από τη θέση τρία και μετά.
        # Ισοδύναμα, αφού θέλουμε τις τελευταίες 5 τιμές, μπορούμε να γράψουμε
        # for grade in values[-5:]:
        student_sum += int(grade)  # Η grade είναι str.
        
    # Υπολογισμός του μέσου όρου:
    student_avg = student_sum / 5.0
    
    # Εκτύπωση του αποτελέσματος.
    print(last_name + ' ' + first_name + ': ' + str(student_avg))
    

Alfalfa Aloysius: 72.4
Alfred University: 75.8
Gerty Gramma: 53.0
Android Electric: 38.6
Bumpkin Fred: 66.2
Rubble Betty: 70.0
Noshow Cecil: 20.8
Buff Bif: 37.2
Airpump Andrew: 64.6
Backus Jim: 67.8
Carnivore Art: 45.0
Dandy Jim: 30.4
Elephant Ima: 57.8
Franklin Benny: 62.2
George Boy: 11.4
Heffalump Harvey: 24.2


# Ασκήσεις
## #1
Υπολόγισε τον μέσο όρων όλων των φοιτητών, δηλαδή των βαθμολογιών που 
υπολογίσαμε παραπάνω. Το αποτέλεσμά σου πρέπει να είναι 49.8375

In [4]:
# Γράψε εδώ τον κώδικά σου.

## #2
Στο παράδειγμα ξέραμε ότι είχαμε πέντε βαθμολογίες και στον μέσο όρο κάναμε 
τη διαίρεση με το 5.
Αν γνωρίζουμε ότι οι τρεις πρώτες στήλες έχουν επώνυμο, όνομα και αριθμό 
μητρώου και ακολουθούν N (N>1) βαθμοί, πως πρέπει να αλλάξει ο κώδικας ώστε 
να υπολογίζει τους μέσους όρους;

In [5]:
# Γράψε εδώ τον κώδικά σου.

## #3
Υπολόγισε τον μέσο όρο των φοιτητών ανά τεστ. Δηλαδή, το μέσο όρο της στήλης 
Test1, της Test2 κ.ο.κ.

Το αποτέλεσμά σου πρέπει να είναι: 
```
Test1: 43.4375
Test2: 31.0625
Test3: 61.25
Test4: 60.4375
Final: 53.0
```

In [6]:
# Γράψε εδώ τον κώδικά σου.


