# Προετοιμασία Δεδομένων

[Αρχική πηγή Notebook από *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Εξερεύνηση πληροφοριών του `DataFrame`

> **Στόχος μάθησης:** Μέχρι το τέλος αυτής της υποενότητας, θα πρέπει να είστε άνετοι με την εύρεση γενικών πληροφοριών για τα δεδομένα που είναι αποθηκευμένα σε pandas DataFrames.

Μόλις φορτώσετε τα δεδομένα σας στο pandas, είναι πολύ πιθανό να βρίσκονται σε ένα `DataFrame`. Ωστόσο, αν το σύνολο δεδομένων στο `DataFrame` σας έχει 60.000 γραμμές και 400 στήλες, πώς μπορείτε καν να αρχίσετε να κατανοείτε με τι δουλεύετε; Ευτυχώς, το pandas παρέχει μερικά βολικά εργαλεία για να δείτε γρήγορα συνολικές πληροφορίες για ένα `DataFrame`, καθώς και τις πρώτες και τελευταίες γραμμές.

Για να εξερευνήσουμε αυτή τη λειτουργικότητα, θα εισάγουμε τη βιβλιοθήκη Python scikit-learn και θα χρησιμοποιήσουμε ένα εμβληματικό σύνολο δεδομένων που κάθε επιστήμονας δεδομένων έχει δει εκατοντάδες φορές: το σύνολο δεδομένων *Iris* του Βρετανού βιολόγου Ronald Fisher, που χρησιμοποιήθηκε στο άρθρο του το 1936 "Η χρήση πολλαπλών μετρήσεων σε ταξινομικά προβλήματα":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Έχουμε φορτώσει το Iris Dataset στη μεταβλητή `iris_df`. Πριν εξετάσουμε τα δεδομένα, θα ήταν χρήσιμο να γνωρίζουμε τον αριθμό των σημείων δεδομένων που έχουμε και το συνολικό μέγεθος του συνόλου δεδομένων. Είναι χρήσιμο να δούμε τον όγκο των δεδομένων που επεξεργαζόμαστε.


In [2]:
iris_df.shape

(150, 4)

Λοιπόν, έχουμε να κάνουμε με 150 γραμμές και 4 στήλες δεδομένων. Κάθε γραμμή αντιπροσωπεύει ένα σημείο δεδομένων και κάθε στήλη αντιπροσωπεύει ένα χαρακτηριστικό που σχετίζεται με το πλαίσιο δεδομένων. Ουσιαστικά, υπάρχουν 150 σημεία δεδομένων που περιέχουν από 4 χαρακτηριστικά το καθένα.

Το `shape` εδώ είναι ένα χαρακτηριστικό του πλαισίου δεδομένων και όχι μια συνάρτηση, γι' αυτό δεν τελειώνει με ένα ζευγάρι παρενθέσεων.


### `DataFrame.columns`
Ας εξετάσουμε τώρα τις 4 στήλες δεδομένων. Τι ακριβώς αντιπροσωπεύει η κάθε μία; Η ιδιότητα `columns` θα μας δώσει τα ονόματα των στηλών στο dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Όπως μπορούμε να δούμε, υπάρχουν τέσσερις (4) στήλες. Το χαρακτηριστικό `columns` μας λέει το όνομα των στηλών και ουσιαστικά τίποτα άλλο. Αυτό το χαρακτηριστικό αποκτά σημασία όταν θέλουμε να προσδιορίσουμε τα χαρακτηριστικά που περιέχει ένα σύνολο δεδομένων.


### `DataFrame.info`
Η ποσότητα των δεδομένων (που δίνεται από το χαρακτηριστικό `shape`) και τα ονόματα των χαρακτηριστικών ή στηλών (που δίνονται από το χαρακτηριστικό `columns`) μας λένε κάτι για το σύνολο δεδομένων. Τώρα, θα θέλαμε να εμβαθύνουμε περισσότερο στο σύνολο δεδομένων. Η συνάρτηση `DataFrame.info()` είναι αρκετά χρήσιμη για αυτό.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Από εδώ, μπορούμε να κάνουμε μερικές παρατηρήσεις:
1. Ο τύπος δεδομένων κάθε στήλης: Σε αυτό το σύνολο δεδομένων, όλα τα δεδομένα αποθηκεύονται ως αριθμοί κινητής υποδιαστολής 64-bit.
2. Αριθμός μη μηδενικών τιμών: Η διαχείριση των μηδενικών τιμών είναι ένα σημαντικό βήμα στην προετοιμασία δεδομένων. Θα αντιμετωπιστεί αργότερα στο σημειωματάριο.


### DataFrame.describe()
Ας υποθέσουμε ότι έχουμε πολλά αριθμητικά δεδομένα στο σύνολο δεδομένων μας. Μονομεταβλητοί στατιστικοί υπολογισμοί, όπως ο μέσος όρος, η διάμεσος, τα τεταρτημόρια κ.λπ., μπορούν να γίνουν ξεχωριστά για κάθε στήλη. Η συνάρτηση `DataFrame.describe()` μας παρέχει μια στατιστική σύνοψη των αριθμητικών στηλών ενός συνόλου δεδομένων.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Η παραπάνω έξοδος δείχνει τον συνολικό αριθμό σημείων δεδομένων, τη μέση τιμή, την τυπική απόκλιση, την ελάχιστη τιμή, το κατώτερο τεταρτημόριο (25%), τη διάμεσο (50%), το ανώτερο τεταρτημόριο (75%) και τη μέγιστη τιμή κάθε στήλης.


### `DataFrame.head`
Με όλες τις παραπάνω συναρτήσεις και ιδιότητες, έχουμε αποκτήσει μια συνολική εικόνα του συνόλου δεδομένων. Γνωρίζουμε πόσα σημεία δεδομένων υπάρχουν, πόσα χαρακτηριστικά υπάρχουν, τον τύπο δεδομένων κάθε χαρακτηριστικού και τον αριθμό των μη μηδενικών τιμών για κάθε χαρακτηριστικό.

Τώρα είναι η ώρα να δούμε τα ίδια τα δεδομένα. Ας δούμε πώς φαίνονται οι πρώτες γραμμές (τα πρώτα σημεία δεδομένων) του `DataFrame` μας:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Ως το αποτέλεσμα εδώ, μπορούμε να δούμε πέντε (5) εγγραφές του συνόλου δεδομένων. Αν κοιτάξουμε τον δείκτη στα αριστερά, διαπιστώνουμε ότι αυτές είναι οι πρώτες πέντε σειρές.


### Άσκηση:

Από το παραπάνω παράδειγμα, είναι ξεκάθαρο ότι, από προεπιλογή, η μέθοδος `DataFrame.head` επιστρέφει τις πρώτες πέντε γραμμές ενός `DataFrame`. Στο παρακάτω κελί κώδικα, μπορείτε να βρείτε έναν τρόπο να εμφανίσετε περισσότερες από πέντε γραμμές;


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Ένας άλλος τρόπος να δούμε τα δεδομένα είναι από το τέλος (αντί για την αρχή). Η αντίθετη λειτουργία του `DataFrame.head` είναι το `DataFrame.tail`, το οποίο επιστρέφει τις τελευταίες πέντε γραμμές ενός `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Στην πράξη, είναι χρήσιμο να μπορείτε να εξετάσετε εύκολα τις πρώτες ή τις τελευταίες γραμμές ενός `DataFrame`, ιδιαίτερα όταν ψάχνετε για ακραίες τιμές σε ταξινομημένα σύνολα δεδομένων.

Όλες οι συναρτήσεις και οι ιδιότητες που παρουσιάστηκαν παραπάνω με τη βοήθεια παραδειγμάτων κώδικα, μας βοηθούν να αποκτήσουμε μια εικόνα και αίσθηση των δεδομένων.

> **Συμπέρασμα:** Ακόμα και μόνο κοιτάζοντας τα μεταδεδομένα σχετικά με τις πληροφορίες σε ένα DataFrame ή τις πρώτες και τελευταίες τιμές του, μπορείτε να αποκτήσετε άμεσα μια ιδέα για το μέγεθος, τη μορφή και το περιεχόμενο των δεδομένων που επεξεργάζεστε.


### Ελλιπή Δεδομένα
Ας εξετάσουμε τα ελλιπή δεδομένα. Ελλιπή δεδομένα εμφανίζονται όταν δεν έχει αποθηκευτεί κάποια τιμή σε ορισμένες στήλες.

Ας πάρουμε ένα παράδειγμα: ας πούμε ότι κάποιος είναι ευαίσθητος σχετικά με το βάρος του και δεν συμπληρώνει το πεδίο του βάρους σε μια έρευνα. Τότε, η τιμή του βάρους για αυτό το άτομο θα λείπει.

Τις περισσότερες φορές, σε σύνολα δεδομένων του πραγματικού κόσμου, εμφανίζονται ελλιπείς τιμές.

**Πώς το Pandas διαχειρίζεται τα ελλιπή δεδομένα**

Το Pandas διαχειρίζεται τις ελλιπείς τιμές με δύο τρόπους. Ο πρώτος τρόπος, τον οποίο έχετε δει σε προηγούμενες ενότητες, είναι το `NaN`, ή Not a Number. Αυτό είναι στην πραγματικότητα μια ειδική τιμή που αποτελεί μέρος της προδιαγραφής IEEE floating-point και χρησιμοποιείται μόνο για να υποδείξει ελλιπείς τιμές κινητής υποδιαστολής.

Για ελλιπείς τιμές εκτός από αριθμούς κινητής υποδιαστολής, το Pandas χρησιμοποιεί το αντικείμενο `None` της Python. Παρόλο που μπορεί να φαίνεται μπερδεμένο ότι θα συναντήσετε δύο διαφορετικά είδη τιμών που ουσιαστικά λένε το ίδιο πράγμα, υπάρχουν βάσιμοι προγραμματιστικοί λόγοι για αυτήν την επιλογή σχεδίασης και, στην πράξη, αυτή η προσέγγιση επιτρέπει στο Pandas να προσφέρει έναν καλό συμβιβασμό για τη συντριπτική πλειονότητα των περιπτώσεων. Παρ' όλα αυτά, τόσο το `None` όσο και το `NaN` έχουν περιορισμούς που πρέπει να έχετε υπόψη σας σχετικά με το πώς μπορούν να χρησιμοποιηθούν.


### `None`: μη αριθμητικά δεδομένα που λείπουν
Επειδή το `None` προέρχεται από την Python, δεν μπορεί να χρησιμοποιηθεί σε πίνακες NumPy και pandas που δεν έχουν τύπο δεδομένων `'object'`. Θυμηθείτε, οι πίνακες NumPy (και οι δομές δεδομένων στις pandas) μπορούν να περιέχουν μόνο έναν τύπο δεδομένων. Αυτό είναι που τους δίνει τη μεγάλη τους δύναμη για επεξεργασία δεδομένων μεγάλης κλίμακας και υπολογιστική εργασία, αλλά περιορίζει επίσης την ευελιξία τους. Τέτοιοι πίνακες πρέπει να μετατρέπονται στον "χαμηλότερο κοινό παρονομαστή", δηλαδή τον τύπο δεδομένων που θα περιλαμβάνει όλα τα στοιχεία του πίνακα. Όταν το `None` βρίσκεται στον πίνακα, σημαίνει ότι εργάζεστε με αντικείμενα της Python.

Για να το δείτε στην πράξη, εξετάστε τον παρακάτω παράδειγμα πίνακα (προσέξτε το `dtype` του):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Η πραγματικότητα των ανυψωμένων τύπων δεδομένων συνοδεύεται από δύο παρενέργειες. Πρώτον, οι λειτουργίες θα εκτελούνται στο επίπεδο του ερμηνευμένου κώδικα Python αντί για τον μεταγλωττισμένο κώδικα NumPy. Ουσιαστικά, αυτό σημαίνει ότι οποιεσδήποτε λειτουργίες που περιλαμβάνουν `Series` ή `DataFrames` με `None` θα είναι πιο αργές. Αν και πιθανότατα δεν θα παρατηρήσετε αυτήν την πτώση απόδοσης, για μεγάλα σύνολα δεδομένων μπορεί να γίνει πρόβλημα.

Η δεύτερη παρενέργεια προκύπτει από την πρώτη. Επειδή το `None` ουσιαστικά "τραβάει" τα `Series` ή τα `DataFrame` πίσω στον κόσμο της απλής Python, η χρήση συναθροίσεων NumPy/pandas όπως `sum()` ή `min()` σε πίνακες που περιέχουν μια τιμή ``None`` θα παράγει γενικά ένα σφάλμα:


In [10]:
example1.sum()

TypeError: ignored

**Κύριο συμπέρασμα**: Η πρόσθεση (και άλλες πράξεις) μεταξύ ακέραιων αριθμών και τιμών `None` είναι απροσδιόριστη, κάτι που μπορεί να περιορίσει τις δυνατότητες επεξεργασίας συνόλων δεδομένων που τις περιέχουν.


### `NaN`: έλλειψη τιμών float

Σε αντίθεση με το `None`, το NumPy (και κατά συνέπεια το pandas) υποστηρίζει το `NaN` για τις γρήγορες, διανυσματικές λειτουργίες και ufuncs. Το αρνητικό είναι ότι οποιαδήποτε αριθμητική πράξη που εκτελείται με `NaN` πάντα καταλήγει σε `NaN`. Για παράδειγμα:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Τα καλά νέα: οι συναθροίσεις που εκτελούνται σε πίνακες με `NaN` μέσα τους δεν εμφανίζουν σφάλματα. Τα κακά νέα: τα αποτελέσματα δεν είναι ομοιόμορφα χρήσιμα:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Άσκηση:


In [11]:
# What happens if you add np.nan and None together?


Θυμήσου: `NaN` είναι μόνο για ελλείποντα δεκαδικά (floating-point) δεδομένα· δεν υπάρχει αντίστοιχο `NaN` για ακέραιους, συμβολοσειρές ή λογικές τιμές.


### `NaN` και `None`: τιμές null στο pandas

Παρόλο που το `NaN` και το `None` μπορεί να συμπεριφέρονται κάπως διαφορετικά, το pandas έχει σχεδιαστεί ώστε να τα χειρίζεται εναλλακτικά. Για να καταλάβετε τι εννοούμε, σκεφτείτε μια `Series` από ακέραιους αριθμούς:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Άσκηση:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Κατά τη διαδικασία αναβάθμισης τύπων δεδομένων για την καθιέρωση ομοιογένειας δεδομένων σε `Series` και `DataFrame`s, το pandas μπορεί να αλλάξει πρόθυμα τις ελλείπουσες τιμές μεταξύ `None` και `NaN`. Λόγω αυτής της σχεδιαστικής λειτουργίας, είναι χρήσιμο να σκεφτόμαστε το `None` και το `NaN` ως δύο διαφορετικές μορφές "κενών" στο pandas. Πράγματι, ορισμένες από τις βασικές μεθόδους που θα χρησιμοποιήσετε για να διαχειριστείτε ελλείπουσες τιμές στο pandas αντικατοπτρίζουν αυτήν την ιδέα στα ονόματά τους:

- `isnull()`: Δημιουργεί μια μάσκα Boolean που υποδεικνύει τις ελλείπουσες τιμές
- `notnull()`: Αντίθετο του `isnull()`
- `dropna()`: Επιστρέφει μια φιλτραρισμένη έκδοση των δεδομένων
- `fillna()`: Επιστρέφει ένα αντίγραφο των δεδομένων με τις ελλείπουσες τιμές συμπληρωμένες ή υπολογισμένες

Αυτές είναι σημαντικές μέθοδοι που πρέπει να μάθετε και να εξοικειωθείτε, οπότε ας τις εξετάσουμε καθεμία πιο αναλυτικά.


### Εντοπισμός κενών τιμών

Τώρα που έχουμε κατανοήσει τη σημασία των ελλειπόντων τιμών, πρέπει να τις εντοπίσουμε στο σύνολο δεδομένων μας, πριν τις διαχειριστούμε. 
Οι μέθοδοι `isnull()` και `notnull()` είναι οι κύριες μέθοδοι σας για τον εντοπισμό κενών δεδομένων. Και οι δύο επιστρέφουν μάσκες Boolean πάνω στα δεδομένα σας.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Κοιτάξτε προσεκτικά το αποτέλεσμα. Σας εκπλήσσει κάτι από αυτό; Παρόλο που το `0` είναι μια αριθμητική τιμή null, παραμένει ένας απολύτως καλός ακέραιος αριθμός και το pandas το αντιμετωπίζει ως τέτοιο. Το `''` είναι λίγο πιο λεπτό. Ενώ το χρησιμοποιήσαμε στην Ενότητα 1 για να εκπροσωπήσουμε μια κενή συμβολοσειρά, παραμένει ένα αντικείμενο συμβολοσειράς και όχι μια αναπαράσταση του null σύμφωνα με το pandas.

Τώρα, ας το δούμε από την αντίθετη πλευρά και ας χρησιμοποιήσουμε αυτές τις μεθόδους με τρόπο που μοιάζει περισσότερο με τον τρόπο που θα τις χρησιμοποιείτε στην πράξη. Μπορείτε να χρησιμοποιήσετε Boolean μάσκες απευθείας ως δείκτη ``Series`` ή ``DataFrame``, κάτι που μπορεί να είναι χρήσιμο όταν προσπαθείτε να εργαστείτε με απομονωμένες τιμές που λείπουν (ή που υπάρχουν).

Αν θέλουμε τον συνολικό αριθμό των τιμών που λείπουν, μπορούμε απλώς να κάνουμε ένα άθροισμα πάνω στη μάσκα που παράγεται από τη μέθοδο `isnull()`.


In [19]:
example3.isnull().sum()

2

### Άσκηση:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Βασικό συμπέρασμα**: Τόσο οι μέθοδοι `isnull()` όσο και `notnull()` παράγουν παρόμοια αποτελέσματα όταν τις χρησιμοποιείτε σε DataFrames: δείχνουν τα αποτελέσματα και τον δείκτη αυτών των αποτελεσμάτων, κάτι που θα σας βοηθήσει σημαντικά καθώς επεξεργάζεστε τα δεδομένα σας.


### Αντιμετώπιση ελλιπών δεδομένων

> **Στόχος μάθησης:** Μέχρι το τέλος αυτής της υποενότητας, θα πρέπει να γνωρίζετε πώς και πότε να αντικαθιστάτε ή να αφαιρείτε κενές τιμές από DataFrames.

Τα μοντέλα Μηχανικής Μάθησης δεν μπορούν να επεξεργαστούν μόνα τους ελλιπή δεδομένα. Επομένως, πριν περάσουμε τα δεδομένα στο μοντέλο, πρέπει να αντιμετωπίσουμε αυτές τις ελλείψεις.

Ο τρόπος με τον οποίο χειριζόμαστε τα ελλιπή δεδομένα περιλαμβάνει λεπτές συμβιβαστικές αποφάσεις, που μπορούν να επηρεάσουν την τελική ανάλυση και τα αποτελέσματα στον πραγματικό κόσμο.

Υπάρχουν κυρίως δύο τρόποι αντιμετώπισης ελλιπών δεδομένων:

1.   Διαγραφή της γραμμής που περιέχει την ελλιπή τιμή
2.   Αντικατάσταση της ελλιπούς τιμής με κάποια άλλη τιμή

Θα συζητήσουμε και τις δύο αυτές μεθόδους καθώς και τα πλεονεκτήματα και μειονεκτήματά τους λεπτομερώς.


### Αφαίρεση κενών τιμών

Η ποσότητα των δεδομένων που περνάμε στο μοντέλο μας έχει άμεση επίδραση στην απόδοσή του. Η αφαίρεση κενών τιμών σημαίνει ότι μειώνουμε τον αριθμό των σημείων δεδομένων και, κατά συνέπεια, το μέγεθος του συνόλου δεδομένων. Επομένως, είναι προτιμότερο να αφαιρούμε γραμμές με κενές τιμές όταν το σύνολο δεδομένων είναι αρκετά μεγάλο.

Μια άλλη περίπτωση μπορεί να είναι ότι μια συγκεκριμένη γραμμή ή στήλη έχει πολλές ελλείπουσες τιμές. Σε αυτή την περίπτωση, μπορεί να αφαιρεθούν, καθώς δεν θα προσθέσουν ιδιαίτερη αξία στην ανάλυσή μας, αφού τα περισσότερα δεδομένα λείπουν για αυτή τη γραμμή/στήλη.

Πέρα από την αναγνώριση ελλειπουσών τιμών, το pandas παρέχει έναν εύχρηστο τρόπο για την αφαίρεση κενών τιμών από `Series` και `DataFrame`s. Για να το δούμε στην πράξη, ας επιστρέψουμε στο `example3`. Η συνάρτηση `DataFrame.dropna()` βοηθά στην αφαίρεση των γραμμών με κενές τιμές.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Σημειώστε ότι αυτό θα πρέπει να μοιάζει με το αποτέλεσμα από `example3[example3.notnull()]`. Η διαφορά εδώ είναι ότι, αντί απλώς να γίνεται ευρετηρίαση στις τιμές που έχουν μάσκα, το `dropna` έχει αφαιρέσει αυτές τις ελλείπουσες τιμές από το `Series` `example3`.

Επειδή τα DataFrames έχουν δύο διαστάσεις, προσφέρουν περισσότερες επιλογές για την αφαίρεση δεδομένων.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Παρατηρήσατε ότι το pandas ανέβασε δύο από τις στήλες σε τύπο float για να φιλοξενήσει τα `NaN`;)

Δεν μπορείτε να αφαιρέσετε μία μόνο τιμή από ένα `DataFrame`, οπότε πρέπει να αφαιρέσετε ολόκληρες γραμμές ή στήλες. Ανάλογα με το τι κάνετε, μπορεί να θέλετε να κάνετε το ένα ή το άλλο, και έτσι το pandas σας δίνει επιλογές και για τα δύο. Επειδή στην επιστήμη δεδομένων οι στήλες γενικά αντιπροσωπεύουν μεταβλητές και οι γραμμές αντιπροσωπεύουν παρατηρήσεις, είναι πιο πιθανό να αφαιρέσετε γραμμές δεδομένων. Η προεπιλεγμένη ρύθμιση για το `dropna()` είναι να αφαιρεί όλες τις γραμμές που περιέχουν οποιεσδήποτε κενές τιμές:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Εάν είναι απαραίτητο, μπορείτε να αφαιρέσετε τις τιμές NA από τις στήλες. Χρησιμοποιήστε `axis=1` για να το κάνετε:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Σημειώστε ότι αυτό μπορεί να αφαιρέσει πολλά δεδομένα που ίσως θέλετε να διατηρήσετε, ιδιαίτερα σε μικρότερα σύνολα δεδομένων. Τι γίνεται αν θέλετε απλώς να αφαιρέσετε γραμμές ή στήλες που περιέχουν αρκετές ή ακόμα και όλες τις τιμές null; Μπορείτε να ορίσετε αυτές τις ρυθμίσεις στο `dropna` με τις παραμέτρους `how` και `thresh`.

Από προεπιλογή, `how='any'` (αν θέλετε να το ελέγξετε μόνοι σας ή να δείτε ποιες άλλες παραμέτρους έχει η μέθοδος, εκτελέστε `example4.dropna?` σε ένα κελί κώδικα). Εναλλακτικά, μπορείτε να ορίσετε `how='all'` ώστε να αφαιρέσετε μόνο γραμμές ή στήλες που περιέχουν όλες τις τιμές null. Ας επεκτείνουμε το παράδειγμα `DataFrame` για να δούμε αυτό στην πράξη στην επόμενη άσκηση.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Βασικά σημεία:
1. Η αφαίρεση κενών τιμών είναι καλή ιδέα μόνο αν το σύνολο δεδομένων είναι αρκετά μεγάλο.
2. Πλήρεις γραμμές ή στήλες μπορούν να αφαιρεθούν αν λείπουν τα περισσότερα δεδομένα τους.
3. Η μέθοδος `DataFrame.dropna(axis=)` βοηθά στην αφαίρεση κενών τιμών. Το όρισμα `axis` υποδεικνύει αν θα αφαιρεθούν γραμμές ή στήλες.
4. Μπορεί επίσης να χρησιμοποιηθεί το όρισμα `how`. Από προεπιλογή είναι ρυθμισμένο στο `any`. Έτσι, αφαιρεί μόνο εκείνες τις γραμμές/στήλες που περιέχουν οποιαδήποτε κενή τιμή. Μπορεί να ρυθμιστεί στο `all` για να καθορίσει ότι θα αφαιρέσουμε μόνο εκείνες τις γραμμές/στήλες όπου όλες οι τιμές είναι κενές.


### Άσκηση:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Η παράμετρος `thresh` σας δίνει πιο λεπτομερή έλεγχο: ορίζετε τον αριθμό των *μη μηδενικών* τιμών που μια γραμμή ή στήλη πρέπει να έχει για να διατηρηθεί:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Εδώ, η πρώτη και η τελευταία σειρά έχουν αφαιρεθεί, επειδή περιέχουν μόνο δύο μη μηδενικές τιμές.


### Συμπλήρωση κενών τιμών

Μερικές φορές έχει νόημα να συμπληρώσουμε τις ελλείπουσες τιμές με τιμές που θα μπορούσαν να είναι έγκυρες. Υπάρχουν μερικές τεχνικές για τη συμπλήρωση κενών τιμών. Η πρώτη είναι η χρήση Γνώσης του Τομέα (γνώση του αντικειμένου στο οποίο βασίζεται το σύνολο δεδομένων) για να προσεγγίσουμε με κάποιο τρόπο τις ελλείπουσες τιμές.

Μπορείτε να χρησιμοποιήσετε το `isnull` για να το κάνετε αυτό απευθείας, αλλά αυτό μπορεί να είναι κουραστικό, ειδικά αν έχετε πολλές τιμές να συμπληρώσετε. Επειδή αυτή είναι μια τόσο συνηθισμένη εργασία στην επιστήμη δεδομένων, το pandas παρέχει τη μέθοδο `fillna`, η οποία επιστρέφει ένα αντίγραφο του `Series` ή του `DataFrame` με τις ελλείπουσες τιμές αντικαταστημένες με μία της επιλογής σας. Ας δημιουργήσουμε ένα άλλο παράδειγμα `Series` για να δούμε πώς λειτουργεί αυτό στην πράξη.


### Κατηγορικά Δεδομένα (Μη αριθμητικά)
Ας εξετάσουμε πρώτα τα μη αριθμητικά δεδομένα. Στα σύνολα δεδομένων, υπάρχουν στήλες με κατηγορικά δεδομένα, π.χ. Φύλο, Αληθές ή Ψευδές κ.λπ.

Στις περισσότερες από αυτές τις περιπτώσεις, αντικαθιστούμε τις ελλείπουσες τιμές με τη `mode` της στήλης. Για παράδειγμα, αν έχουμε 100 σημεία δεδομένων και 90 έχουν δηλώσει Αληθές, 8 έχουν δηλώσει Ψευδές και 2 δεν έχουν συμπληρώσει, τότε μπορούμε να συμπληρώσουμε τα 2 με Αληθές, λαμβάνοντας υπόψη ολόκληρη τη στήλη.

Εδώ μπορούμε επίσης να χρησιμοποιήσουμε τη γνώση του πεδίου. Ας εξετάσουμε ένα παράδειγμα συμπλήρωσης με τη mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Τώρα, ας βρούμε πρώτα τη διάμεσο πριν συμπληρώσουμε την τιμή `None` με τη διάμεσο.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Λοιπόν, θα αντικαταστήσουμε το None με True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Όπως μπορούμε να δούμε, η τιμή null έχει αντικατασταθεί. Περιττό να πούμε ότι θα μπορούσαμε να είχαμε γράψει οτιδήποτε στη θέση του `'True'` και θα είχε αντικατασταθεί.


### Αριθμητικά Δεδομένα
Τώρα, ας μιλήσουμε για τα αριθμητικά δεδομένα. Εδώ, έχουμε δύο κοινές μεθόδους για την αντικατάσταση των ελλειπόντων τιμών:

1. Αντικατάσταση με τη Διάμεσο της γραμμής
2. Αντικατάσταση με τον Μέσο Όρο της γραμμής

Αντικαθιστούμε με τη Διάμεσο σε περίπτωση δεδομένων με ασυμμετρία και ακραίες τιμές. Αυτό συμβαίνει επειδή η διάμεσος είναι ανθεκτική στις ακραίες τιμές.

Όταν τα δεδομένα είναι κανονικοποιημένα, μπορούμε να χρησιμοποιήσουμε τον μέσο όρο, καθώς σε αυτή την περίπτωση, ο μέσος όρος και η διάμεσος θα είναι αρκετά κοντά.

Αρχικά, ας πάρουμε μια στήλη που ακολουθεί κανονική κατανομή και ας συμπληρώσουμε την ελλείπουσα τιμή με τον μέσο όρο της στήλης.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Ο μέσος όρος της στήλης είναι


In [33]:
np.mean(fill_with_mean[0])

0.0

Συμπλήρωση με μέσο όρο


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Όπως μπορούμε να δούμε, η τιμή που έλειπε έχει αντικατασταθεί με τον μέσο όρο της.


Τώρα ας δοκιμάσουμε ένα άλλο dataframe, και αυτή τη φορά θα αντικαταστήσουμε τις τιμές None με τη διάμεσο της στήλης.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Η διάμεσος της δεύτερης στήλης είναι


In [36]:
fill_with_median[1].median()

4.0

Συμπλήρωση με διάμεσο


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Όπως μπορούμε να δούμε, η τιμή NaN έχει αντικατασταθεί από τη διάμεσο της στήλης


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Μπορείτε να συμπληρώσετε όλες τις κενές εγγραφές με μία μόνο τιμή, όπως `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Βασικά σημεία:
1. Η συμπλήρωση των ελλειπόντων τιμών πρέπει να γίνεται είτε όταν υπάρχουν λίγα δεδομένα είτε όταν υπάρχει στρατηγική για τη συμπλήρωση των ελλειπόντων δεδομένων.
2. Η γνώση του πεδίου μπορεί να χρησιμοποιηθεί για τη συμπλήρωση ελλειπόντων τιμών μέσω προσέγγισης.
3. Για κατηγορικά δεδομένα, συνήθως οι ελλείπουσες τιμές αντικαθίστανται με τη συχνότερη τιμή της στήλης (mode).
4. Για αριθμητικά δεδομένα, οι ελλείπουσες τιμές συνήθως συμπληρώνονται με τον μέσο όρο (για κανονικοποιημένα σύνολα δεδομένων) ή τη διάμεσο της στήλης.


### Άσκηση:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Μπορείτε να **συμπληρώσετε προς τα εμπρός** τις κενές τιμές, δηλαδή να χρησιμοποιήσετε την τελευταία έγκυρη τιμή για να συμπληρώσετε μια κενή:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Μπορείτε επίσης να **συμπληρώσετε προς τα πίσω** για να προωθήσετε την επόμενη έγκυρη τιμή προς τα πίσω ώστε να συμπληρώσετε μια κενή τιμή:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Όπως ίσως μαντέψετε, αυτό λειτουργεί το ίδιο με τα DataFrames, αλλά μπορείτε επίσης να καθορίσετε έναν `άξονα` κατά μήκος του οποίου να συμπληρώσετε τις κενές τιμές:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Παρατηρήστε ότι όταν δεν υπάρχει προηγούμενη τιμή για συμπλήρωση προς τα εμπρός, η τιμή null παραμένει.


### Άσκηση:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Μπορείτε να είστε δημιουργικοί σχετικά με το πώς χρησιμοποιείτε το `fillna`. Για παράδειγμα, ας δούμε ξανά το `example4`, αλλά αυτή τη φορά ας συμπληρώσουμε τις ελλείπουσες τιμές με τον μέσο όρο όλων των τιμών στο `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Παρατηρήστε ότι η στήλη 3 εξακολουθεί να είναι χωρίς τιμές: η προεπιλεγμένη κατεύθυνση είναι να γεμίζονται οι τιμές κατά γραμμές.

> **Συμπέρασμα:** Υπάρχουν πολλοί τρόποι για να αντιμετωπίσετε τις ελλείπουσες τιμές στα σύνολα δεδομένων σας. Η συγκεκριμένη στρατηγική που θα χρησιμοποιήσετε (αφαίρεση, αντικατάσταση ή ακόμα και ο τρόπος αντικατάστασης) θα πρέπει να καθορίζεται από τις ιδιαιτερότητες αυτών των δεδομένων. Θα αναπτύξετε καλύτερη αίσθηση για το πώς να χειρίζεστε τις ελλείπουσες τιμές όσο περισσότερο ασχολείστε και αλληλεπιδράτε με σύνολα δεδομένων.


### Κωδικοποίηση Κατηγορικών Δεδομένων

Τα μοντέλα μηχανικής μάθησης επεξεργάζονται μόνο αριθμούς και οποιαδήποτε μορφή αριθμητικών δεδομένων. Δεν μπορούν να καταλάβουν τη διαφορά μεταξύ ενός Ναι και ενός Όχι, αλλά μπορούν να διακρίνουν μεταξύ του 0 και του 1. Έτσι, αφού συμπληρώσουμε τις ελλείπουσες τιμές, πρέπει να κωδικοποιήσουμε τα κατηγορικά δεδομένα σε κάποια αριθμητική μορφή ώστε το μοντέλο να τα κατανοήσει.

Η κωδικοποίηση μπορεί να γίνει με δύο τρόπους. Θα τους συζητήσουμε στη συνέχεια.


**ΚΩΔΙΚΟΠΟΙΗΣΗ ΕΤΙΚΕΤΩΝ**

Η κωδικοποίηση ετικετών είναι ουσιαστικά η μετατροπή κάθε κατηγορίας σε έναν αριθμό. Για παράδειγμα, ας πούμε ότι έχουμε ένα σύνολο δεδομένων με επιβάτες αεροπορικών εταιρειών και υπάρχει μια στήλη που περιέχει την κατηγορία τους ανάμεσα στις εξής ['business class', 'economy class', 'first class']. Εάν γίνει κωδικοποίηση ετικετών σε αυτό, θα μετατραπεί σε [0,1,2]. Ας δούμε ένα παράδειγμα μέσω κώδικα. Καθώς θα μάθουμε το `scikit-learn` στα επόμενα σημειωματάρια, δεν θα το χρησιμοποιήσουμε εδώ.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Για να εκτελέσουμε κωδικοποίηση ετικετών στην 1η στήλη, πρέπει πρώτα να περιγράψουμε μια αντιστοίχιση από κάθε κατηγορία σε έναν αριθμό, πριν την αντικατάσταση


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Όπως μπορούμε να δούμε, το αποτέλεσμα ταιριάζει με αυτό που περιμέναμε να συμβεί. Λοιπόν, πότε χρησιμοποιούμε την κωδικοποίηση ετικετών; Η κωδικοποίηση ετικετών χρησιμοποιείται σε μία ή και στις δύο από τις ακόλουθες περιπτώσεις:
1. Όταν ο αριθμός των κατηγοριών είναι μεγάλος
2. Όταν οι κατηγορίες έχουν σειρά.


**ΚΩΔΙΚΟΠΟΙΗΣΗ ONE HOT**

Ένας άλλος τύπος κωδικοποίησης είναι η Κωδικοποίηση One Hot. Σε αυτόν τον τύπο κωδικοποίησης, κάθε κατηγορία της στήλης προστίθεται ως ξεχωριστή στήλη και κάθε δεδομένο λαμβάνει τιμή 0 ή 1 ανάλογα με το αν περιέχει αυτήν την κατηγορία. Έτσι, αν υπάρχουν n διαφορετικές κατηγορίες, n στήλες θα προστεθούν στο dataframe.

Για παράδειγμα, ας πάρουμε το ίδιο παράδειγμα με τις κατηγορίες αεροπλάνου. Οι κατηγορίες ήταν: ['business class', 'economy class', 'first class']. Επομένως, αν εφαρμόσουμε την κωδικοποίηση one hot, οι εξής τρεις στήλες θα προστεθούν στο dataset: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Ας εκτελέσουμε one hot encoding στην πρώτη στήλη


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Κάθε στήλη με one hot encoding περιέχει 0 ή 1, που καθορίζει αν αυτή η κατηγορία υπάρχει για αυτό το δεδομένο.


Πότε χρησιμοποιούμε το one hot encoding; Το one hot encoding χρησιμοποιείται σε μία ή και στις δύο από τις παρακάτω περιπτώσεις:

1. Όταν ο αριθμός των κατηγοριών και το μέγεθος του συνόλου δεδομένων είναι μικρότερο.
2. Όταν οι κατηγορίες δεν ακολουθούν κάποια συγκεκριμένη σειρά.


> Βασικά Σημεία:
1. Η κωδικοποίηση γίνεται για τη μετατροπή μη αριθμητικών δεδομένων σε αριθμητικά δεδομένα.
2. Υπάρχουν δύο τύποι κωδικοποίησης: Κωδικοποίηση Ετικετών και Κωδικοποίηση One Hot, οι οποίες μπορούν να πραγματοποιηθούν ανάλογα με τις απαιτήσεις του συνόλου δεδομένων.


## Αφαίρεση διπλών δεδομένων

> **Στόχος μάθησης:** Μέχρι το τέλος αυτής της υποενότητας, θα πρέπει να είστε εξοικειωμένοι με την αναγνώριση και την αφαίρεση διπλών τιμών από DataFrames.

Εκτός από τα ελλιπή δεδομένα, συχνά θα συναντήσετε διπλά δεδομένα σε σύνολα δεδομένων πραγματικού κόσμου. Ευτυχώς, το pandas παρέχει έναν εύκολο τρόπο για την ανίχνευση και την αφαίρεση διπλών εγγραφών.


### Εντοπισμός διπλότυπων: `duplicated`

Μπορείτε εύκολα να εντοπίσετε διπλότυπες τιμές χρησιμοποιώντας τη μέθοδο `duplicated` στο pandas, η οποία επιστρέφει μια μάσκα Boolean που δείχνει αν μια εγγραφή σε ένα `DataFrame` είναι διπλότυπη με κάποια προηγούμενη. Ας δημιουργήσουμε ένα άλλο παράδειγμα `DataFrame` για να το δούμε αυτό στην πράξη.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Αφαίρεση διπλότυπων: `drop_duplicates`
Το `drop_duplicates` επιστρέφει απλώς ένα αντίγραφο των δεδομένων για τα οποία όλες οι τιμές `duplicated` είναι `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Τόσο οι `duplicated` όσο και οι `drop_duplicates` από προεπιλογή λαμβάνουν υπόψη όλες τις στήλες, αλλά μπορείτε να καθορίσετε ότι εξετάζουν μόνο ένα υποσύνολο στηλών στο `DataFrame` σας:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Συμπέρασμα:** Η αφαίρεση διπλότυπων δεδομένων είναι ένα απαραίτητο μέρος σχεδόν κάθε έργου επιστήμης δεδομένων. Τα διπλότυπα δεδομένα μπορούν να αλλάξουν τα αποτελέσματα των αναλύσεών σας και να σας δώσουν ανακριβή αποτελέσματα!


## Έλεγχοι Ποιότητας Δεδομένων στον Πραγματικό Κόσμο

> **Στόχος μάθησης:** Μέχρι το τέλος αυτής της ενότητας, θα πρέπει να είστε εξοικειωμένοι με την ανίχνευση και διόρθωση κοινών προβλημάτων ποιότητας δεδομένων στον πραγματικό κόσμο, όπως ασυνεπείς κατηγοριακές τιμές, μη φυσιολογικές αριθμητικές τιμές (ακραίες τιμές) και διπλότυπες οντότητες με παραλλαγές.

Ενώ οι ελλείπουσες τιμές και τα ακριβή διπλότυπα είναι συνηθισμένα προβλήματα, τα σύνολα δεδομένων στον πραγματικό κόσμο συχνά περιέχουν πιο λεπτές δυσκολίες:

1. **Ασυνεπείς κατηγοριακές τιμές**: Η ίδια κατηγορία γραμμένη διαφορετικά (π.χ., "USA", "U.S.A", "United States")
2. **Μη φυσιολογικές αριθμητικές τιμές**: Ακραίες τιμές που υποδεικνύουν σφάλματα καταχώρησης δεδομένων (π.χ., ηλικία = 999)
3. **Σχεδόν διπλότυπες γραμμές**: Εγγραφές που αντιπροσωπεύουν την ίδια οντότητα με μικρές παραλλαγές

Ας εξερευνήσουμε τεχνικές για την ανίχνευση και αντιμετώπιση αυτών των προβλημάτων.


### Δημιουργία ενός Δείγματος "Μη Καθαρού" Συνόλου Δεδομένων

Αρχικά, ας δημιουργήσουμε ένα δείγμα συνόλου δεδομένων που περιέχει τους τύπους προβλημάτων που συναντάμε συχνά σε δεδομένα πραγματικού κόσμου:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Εντοπισμός Ασυνεπών Τιμών Κατηγορίας

Παρατηρήστε ότι η στήλη `country` έχει πολλαπλές αναπαραστάσεις για τις ίδιες χώρες. Ας εντοπίσουμε αυτές τις ασυνέπειες:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Τυποποίηση Κατηγορικών Τιμών

Μπορούμε να δημιουργήσουμε έναν χάρτη για να τυποποιήσουμε αυτές τις τιμές. Μια απλή προσέγγιση είναι να μετατρέψουμε σε πεζά και να δημιουργήσουμε ένα λεξικό αντιστοίχισης:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Εναλλακτική: Χρήση Ασαφούς Αντιστοίχισης**

Για πιο σύνθετες περιπτώσεις, μπορούμε να χρησιμοποιήσουμε την ασαφή αντιστοίχιση συμβολοσειρών με τη βιβλιοθήκη `rapidfuzz` για να εντοπίσουμε αυτόματα παρόμοιες συμβολοσειρές:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Εντοπισμός Αφύσικων Αριθμητικών Τιμών (Ακραίες Τιμές)

Κοιτάζοντας τη στήλη `age`, παρατηρούμε κάποιες ύποπτες τιμές όπως 199 και -5. Ας χρησιμοποιήσουμε στατιστικές μεθόδους για να εντοπίσουμε αυτές τις ακραίες τιμές.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Χρήση της Μεθόδου IQR (Ενδοτεταρτημοριακό Εύρος)

Η μέθοδος IQR είναι μια αξιόπιστη στατιστική τεχνική για την ανίχνευση ακραίων τιμών, η οποία είναι λιγότερο ευαίσθητη σε ακραίες τιμές:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Χρήση της Μεθόδου Z-Score

Η μέθοδος Z-score εντοπίζει τις ακραίες τιμές με βάση τις τυπικές αποκλίσεις από τον μέσο όρο:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Διαχείριση Ακραίων Τιμών

Μόλις εντοπιστούν, οι ακραίες τιμές μπορούν να διαχειριστούν με διάφορους τρόπους:
1. **Αφαίρεση**: Διαγραφή γραμμών με ακραίες τιμές (αν πρόκειται για σφάλματα)
2. **Περιορισμός**: Αντικατάσταση με οριακές τιμές
3. **Αντικατάσταση με NaN**: Θεώρηση ως ελλιπή δεδομένα και χρήση τεχνικών συμπλήρωσης
4. **Διατήρηση**: Αν είναι νόμιμες ακραίες τιμές


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Εντοπισμός Σχεδόν Διπλότυπων Γραμμών

Παρατηρήστε ότι το σύνολο δεδομένων μας έχει πολλαπλές εγγραφές για τον "John Smith" με ελαφρώς διαφορετικές τιμές. Ας εντοπίσουμε πιθανά διπλότυπα με βάση την ομοιότητα των ονομάτων.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Εύρεση Σχεδόν Διπλότυπων με Ασαφή Αντιστοίχιση

Για πιο εξελιγμένη ανίχνευση διπλότυπων, μπορούμε να χρησιμοποιήσουμε την ασαφή αντιστοίχιση για να βρούμε παρόμοια ονόματα:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Διαχείριση Διπλότυπων

Αφού εντοπιστούν, πρέπει να αποφασίσετε πώς να διαχειριστείτε τα διπλότυπα:
1. **Διατήρηση της πρώτης εμφάνισης**: Χρησιμοποιήστε `drop_duplicates(keep='first')`
2. **Διατήρηση της τελευταίας εμφάνισης**: Χρησιμοποιήστε `drop_duplicates(keep='last')`
3. **Συγκέντρωση πληροφοριών**: Συνδυάστε πληροφορίες από διπλότυπες γραμμές
4. **Χειροκίνητη ανασκόπηση**: Σημειώστε για ανθρώπινη ανασκόπηση


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Περίληψη: Ολοκληρωμένη Διαδικασία Καθαρισμού Δεδομένων

Ας τα συνδυάσουμε όλα σε μια ολοκληρωμένη διαδικασία καθαρισμού:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Άσκηση Πρόκλησης

Τώρα είναι η σειρά σου! Παρακάτω υπάρχει μια νέα γραμμή δεδομένων με πολλαπλά προβλήματα ποιότητας. Μπορείς:

1. Να εντοπίσεις όλα τα προβλήματα σε αυτή τη γραμμή
2. Να γράψεις κώδικα για να διορθώσεις κάθε πρόβλημα
3. Να προσθέσεις τη διορθωμένη γραμμή στο σύνολο δεδομένων

Εδώ είναι τα προβληματικά δεδομένα:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Βασικά Σημεία

1. **Ασυνεπείς κατηγορίες** είναι συχνές σε δεδομένα του πραγματικού κόσμου. Ελέγξτε πάντα τις μοναδικές τιμές και τυποποιήστε τις χρησιμοποιώντας αντιστοιχίσεις ή μεθόδους ασαφούς αντιστοίχισης.

2. **Ακραίες τιμές** μπορούν να επηρεάσουν σημαντικά την ανάλυσή σας. Χρησιμοποιήστε γνώση του πεδίου σε συνδυασμό με στατιστικές μεθόδους (IQR, Z-score) για να τις εντοπίσετε.

3. **Σχεδόν διπλότυπα** είναι πιο δύσκολο να εντοπιστούν από τα ακριβή διπλότυπα. Σκεφτείτε να χρησιμοποιήσετε ασαφή αντιστοίχιση και να κανονικοποιήσετε τα δεδομένα (μετατροπή σε πεζά, αφαίρεση κενών) για να τα αναγνωρίσετε.

4. **Ο καθαρισμός δεδομένων είναι επαναληπτικός**. Ίσως χρειαστεί να εφαρμόσετε πολλαπλές τεχνικές και να αναθεωρήσετε τα αποτελέσματα πριν ολοκληρώσετε το καθαρισμένο σύνολο δεδομένων.

5. **Καταγράψτε τις αποφάσεις σας**. Κρατήστε σημειώσεις για τα βήματα καθαρισμού που εφαρμόσατε και τους λόγους, καθώς αυτό είναι σημαντικό για την αναπαραγωγιμότητα και τη διαφάνεια.

> **Καλύτερη Πρακτική:** Πάντα να κρατάτε ένα αντίγραφο των αρχικών "ακαθάριστων" δεδομένων σας. Μην αντικαθιστάτε ποτέ τα αρχεία πηγής σας - δημιουργήστε καθαρισμένες εκδόσεις με σαφείς ονομασίες, όπως `data_cleaned.csv`.



---

**Αποποίηση ευθύνης**:  
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτόματες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.
