Skip to content

Latest commit

 

History

History

WORKSHOP Data Analytics & Mining with R (hands-on session)

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

WORKSHOP: Data Analytics & Mining with R (hands-on session)


Χάρης Γεωργίου


Fosscomm 2019

Γενική Περιγραφή

Στόχος του workshop είναι η παρουσίαση, εξοικείωση και η πρακτική εξάσκηση (hands-on) στις σύγχρονες μεθόδους Αναλυτικής Δεδομένων (Data Analytics) και Εξόρυξης Γνώσης (Knowledge Mining), μέσω εφαρμογής μεθόδων Στατιστικής, Μηχανικής Μάθησης και βασικής Επεξεργασίας Σήματος σε σύνολα δεδομένων από πραγματικά προβλήματα.

Για τους σκοπούς του workshop οι συμμετέχοντες θα χρησιμοποιήσουν εργαλεία πειραματικής δοκιμής έτοιμων αλγορίθμων σε περιβάλλον WEKA, καθώς και προσαρμογής νέων τεχνικών σε περιβάλλον πειραματικής ανάπτυξης κατάλληλων υλοποιήσεων (code prototyping) σε γλώσσα R. Έστω ότι θέλουμε να αναλύσουμε ένα σύνολο δεδομένων που σχετίζονται με κάποιο συγκεκριμένο πρόβλημα Ιατρικής ή Μηχανικής. Αρχικά αντιμετωπίζουμε το πρόβλημα της προπαρασκευής δεδομένων (data preprocessing), ώστε να κρατήσουμε όσα μας ενδιαφέρουν για τους σκοπούς της ανάλυσης. Κατόπιν εκτελούμε διάφορες λειτουργίες Εξόρυξης Γνώσης (classification, clustering, feature selection, association rules, outlier detection κλπ.) έχοντας προκαθορίσει το σκοπό της ανάλυσής μας.

Η παραπάνω διαδικασία ενδέχεται να επαναληφθεί αρκετές φορές μέχρι το αποτέλεσμα της ανάλυσης να είναι ικανοποιητικό και η γνώση μας για τα δεδομένα να είναι επαρκής, άρα και άμεσα χρήσιμη (actionable) από τους υπεύθυνους αποφάσεων των εκάστοτε εφαρμογών. Η παραπάνω διαδικασία είναι επαναληπτική (iterative R&D process) και συνήθως περιλαμβάνει ενδιάμεσα στάδια ανάπτυξης, αξιολόγησης και προσαρμογής της αρχικής σχεδίασης, όπως για παράδειγμα τον καθαρισμό των πρωτογενών δεδομένων (data cleansing) αφότου η αρχική επισκόπησή τους αποκαλύπτει συγκεκριμένα προβλήματα ποιότητας, όπως θόρυβο, artifacts, trends, bias, κτλ. Η Αναλυτική Δεδομένων συνδέεται άμεσα, όχι μόνο με την εξαγωγή των τελικών συμπερασμάτων, αλλά και με αυτά τα ενδιάμεσα στάδια επισκόπησης και βελτίωσης των δεδομένων.

Λογισμικό

Το λογισμικό που θα χρησιμοποιηθεί είναι αποκλειστικά ΕΛ/ΛΑΚ (ανοικτό) και διαθέσιμο σε κάθε δημοφιλές λειτουργικό σύστημα:

Προαπαιτούμενα

Το workshop είναι ανοικτό προς όλους. Τα προαπαιτούμενα για τη βέλτιστη δυνατή συμμετοχή είναι:

  • Διαθέσιμος προσωπικός Η/Υ (laptop) που θα φέρει ο κάθε συμμετέχοντας
  • Προεγκατεστημένες οι πιο πρόσφατες εκδόσεις των παραπάνω λογισμικών
  • Καλή γνώση αγγλικών, για την κατανόηση των παρουσιάσεων (slides)
  • Διαθέσιμες 2 ώρες για την παρακολούθηση όλου του υλικού

Διαδικασία

Το workshop περιλαμβάνει 2 ως 3 επαναληπτικά βήματα (iterations) της διαδικασίας (pipeline), κάθε φορά σε κάποιο λίγο δυσκολότερο ή πιο σύνθετο πρόβλημα-στόχο με βάση τα διαθέσιμα σύνολα δεδομένων (datasets), εξειδικεύοντας και επεκτείνοντας κάθε φορά τις μεθόδους και τις τεχνικές που εφαρμόζονται. Κάθε επανάληψη θα περιλαμβάνει 15-20 λεπτά παρουσίαση των θεμάτων, σε θεωρητικό και πρακτικό επίπεδο με παραδείγματα, και αντίστοιχα 15-20 λεπτά πρακτικής εξάσκησης από κάθε συμμετέχοντα στο δικό του Η/Υ, με την καθοδήγηση φυσικά του εισηγητή όπου χρειάζεται επεξήγηση ή βοήθεια.


Για οποιαδήποτε διευκρίνηση ή πληροφορία ισχύουν οι επίσημοι τρόποι επικοινωνίας του συνεδρίου.