# Καθαρισμός δεδομένων (Data Cleansing)

Καθαρισμός δεδομένων σημαίνει διόρθωση "προβληματικών" δεδομένων ενός dataset

Τα κακά δεδομένα θα μπορούσαν να είναι:

    Κενά κελιά (missing data)
    Δεδομένα σε λάθος μορφή (wrong format data)
    Λάθος δεδομένα (wrong data)
    Διπλές εγγραφές (duplictates)

In [12]:
import pandas as pd
#Αν το animals.csv είναι στον ίδιο φάκελο με το αρχείο '5. Cleaning Data'
#δεν θα χρειαστεί το full path του csv, όπως φαίνεται παρακάτω
df = pd.read_csv('animals.csv', delimiter =",")
df

Unnamed: 0,animal,id,age,weight,length
0,hamster,1,1.0,7,
1,alligator,2,9.0,13,6.0
2,alligator,2,9.0,13,6.0
3,hamster,3,5.0,8,9.0
4,cat,3,13.0,12,1.0
5,ssnake,5,14.0,11,8.0
6,cat,6,10.0,8,9.0
7,hamster,7,2.0,10,5.0
8,cat,8,4.0,14,6.0
9,cat,9,14.0,9,6.0


In [13]:
#Έστω ότι ξέρουμε πως η ανάλυσή μας πρέπει να γίνει συγκεκριμένα για τα παρακάτω ζώα 
correct_animals = ['hamster', 'alligator', 'cat', 'snake', 'snake']

#ότι η ηλικία (age) πρέπει να είναι ακέραιος
#και ότι η τιμή id είναι ακέραιος μοναδικός αριθμός

<ol>
    
  <li>Στο id = 1 αντί να είναι αριθμητική η τιμή έχει περαστεί ως συμβολοσειρά</li>
    <li>
        To dataframe περιέχει κενή τιμή (missing value) στη γραμμή 0 length = ΝaN</li>

  <li>To dataframe έχει λάθος τιμή (ορθογραφικό) στη γραμμή 6, animal = ssnake αντί για snake</li>

  <li>To dataframe έχει διπλή εγγραφή για τον alligator με id = 2</li>
    <li>H τελευταία εγγραφή δεν μοιάζει σωστή, οι υπόλοιπες εγγραφές περιγράφουν ζώα</li>
  
  </ol>

### Αν "γνωρίσουμε" καλύτερα τα data μας

In [14]:
df.info()
#βλέπουμε ότι στη στήλη length έχουμε missing values αφού 12 από τα 14 κελιά περιέχουν τιμή

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   animal  14 non-null     object 
 1   id      14 non-null     object 
 2   age     14 non-null     float64
 3   weight  14 non-null     object 
 4   length  12 non-null     float64
dtypes: float64(2), object(3)
memory usage: 688.0+ bytes


In [15]:
# η μέθοδος isnull ελέγχει την τιμή κάθε κελιού αν έχει missing value,
# στη συνέχεια η any() ομαδοποιεί ανά στήλες τα δεδομένα και γυρίζει True αν βρει έστω ένα missing value 
df.isnull().any()

animal    False
id        False
age       False
weight    False
length     True
dtype: bool

In [16]:
df.describe()#id και length δεν έχουν αναγνωριστεί ως αριθμοί

Unnamed: 0,age,length
count,14.0,12.0
mean,11.785714,6.083333
std,13.457503,2.108784
min,1.0,1.0
25%,5.5,5.75
50%,9.0,6.0
75%,13.75,6.5
max,56.0,9.0


In [17]:
df.dtypes
#οι στήλες id, weight και age δεν έχουν το τύπο δεδομένων που θέλουμε

animal     object
id         object
age       float64
weight     object
length    float64
dtype: object

### Χειρισμός κενών τιμών

#### Εναλλακτική 1 : Διαγραφή γραμμών με κενές τιμές

In [21]:
#H dropna() διαγράφει στήλες (axis = 1) ή γραμμές (axis = 0) που περιέχει ΝaΝ. 
#H dropna() επιστρέφει ένα καινούριο DataFrame δεν αλλάζει το αρχικό
#εκτός κι αν οριστει με το όρισμα inplace = True

#Ο καθαρισμός αποθηκεύεται σε νέο dataframe για να κρατήσουμε ανέπαφο το αρχικό
new_df = df.dropna(axis=0)#axis = 0  σημαίνει διέγραψε γραμμές

new_df #Δεν υπάρχουν πια γραμμές(rows) με NaN

Unnamed: 0,animal,id,age,weight,length
1,alligator,2,9.0,13,6.0
2,alligator,2,9.0,13,6.0
3,hamster,3,5.0,8,9.0
4,cat,3,13.0,12,1.0
5,ssnake,5,14.0,11,8.0
6,cat,6,10.0,8,9.0
7,hamster,7,2.0,10,5.0
8,cat,8,4.0,14,6.0
9,cat,9,14.0,9,6.0
10,snake,10,7.0,11,6.0


####  Εναλλακτική 2 : Αντικατάσταση των ΝaN με κάποια τιμή π.χ το μέσο όρο

In [22]:
df# χρησιμοποιούμε ξανά το αρχικό dataset με τα ΝaN στη στήλη length

Unnamed: 0,animal,id,age,weight,length
0,hamster,1,1.0,7,
1,alligator,2,9.0,13,6.0
2,alligator,2,9.0,13,6.0
3,hamster,3,5.0,8,9.0
4,cat,3,13.0,12,1.0
5,ssnake,5,14.0,11,8.0
6,cat,6,10.0,8,9.0
7,hamster,7,2.0,10,5.0
8,cat,8,4.0,14,6.0
9,cat,9,14.0,9,6.0


In [23]:
#υπολογισμός του μέσου όρου της στήλης length 
#των εγγραφών που έχουν στη στήλη animal την τιμή hamster

mean = df[df['animal'] == 'hamster']['length'].mean()#μέσος όρος μήκους των χάμστερς
print("Μέσος όρος μήκους των χάμστερς = ",mean)#πολλά τα ψηφία μετά την υποδιαστολή...

round_mean = mean.round(2)#στρογγύλοποίηση στα 2 ψηφία
print("Μέσος όρος μήκους των χάμστερς = ",round_mean)

Μέσος όρος μήκους των χάμστερς =  6.666666666666667
Μέσος όρος μήκους των χάμστερς =  6.67


In [24]:
#Αντιγραφή του αρχικού dataframe (df) στο new_df2 για να κρατήσουμε ανέπαφο το αρχικό
new_df2 = df

# αντικατάσταση της τιμής της στήλης length της γραμμής 0 με τον στογγυλοποιημένο μέσο που υπολογίσαμε παραπάνω
new_df2.at[0,'length'] = round_mean
#new_df2.loc[0,'length'] = round_mean #ίδιο αποτέλεσμα με την πάνω γραμμή, εναλλακτική συνταξη

print(new_df2)#βλέπουμε ότι η αντικατάσταση πραγματοποιήθηκε επιτυχώς

       animal    id   age weight  length
0     hamster     1   1.0      7    6.67
1   alligator     2   9.0     13    6.00
2   alligator     2   9.0     13    6.00
3     hamster     3   5.0      8    9.00
4         cat     3  13.0     12    1.00
5      ssnake     5  14.0     11    8.00
6         cat     6  10.0      8    9.00
7     hamster     7   2.0     10    5.00
8         cat     8   4.0     14    6.00
9         cat     9  14.0      9    6.00
10      snake    10   7.0     11    6.00
11    hamster    11  14.0     10    6.00
12  alligator    12   7.0     14    5.00
13       book   AFG  56.0   True     NaN


In [25]:
#Σε αυτή την περίπτωση είχαμε μόνο μια εγγραφή hamster με κενή την τιμή του μήκους
#Οπότε ήταν εύκολη η αντιμετώπιση με χρήση της 'at' ή της 'loc' όπως είδαμε παραπάνω
#Όμως θα μπορούσε να υπάρχουν περισσότερα κενά και μάλιστα σε ενα dataframe εκατομμυρίων εγγραφών
#Για αυτό θα χρησιμοποιήσουμε μια πιο γενική σύνταξη


for x in df.index: #για κάθε ένα από τα index του dataframe [0,13]
# αν το περιεχόμενου του συνδυασμού index και του περιεχόμένου της στήλης animal ισουται με 'hamster'
# και παράλληλα το περιεχόμενο της στήλη length για το ίδιο index ισουται με null (NaN)
    if df.loc[x,'animal']=='hamster' and pd.isnull(df.loc[x,'length']): 
        df.loc[x, "length"] = round_mean# τότε αντικατέστησε το περιεχόμενο του κελιού με τον στρογγυλοποιημένο μέσο
df #πλέον έχουμε περάσει την αντικατάσταση στο αρχικό dataframe το df

Unnamed: 0,animal,id,age,weight,length
0,hamster,1,1.0,7,6.67
1,alligator,2,9.0,13,6.0
2,alligator,2,9.0,13,6.0
3,hamster,3,5.0,8,9.0
4,cat,3,13.0,12,1.0
5,ssnake,5,14.0,11,8.0
6,cat,6,10.0,8,9.0
7,hamster,7,2.0,10,5.0
8,cat,8,4.0,14,6.0
9,cat,9,14.0,9,6.0


### Διόρθωσε τιμή 

In [26]:
print(df['animal'].unique())# επιστρέφει λίστα με τις μοναδικές τιμές της στήλης animal
print(df['animal'].nunique(), ' μοναδικά ζώα στη στήλη')# επιστρέφει τον αριθμό των μοναδικών τιμών της στήλης animal
#πρέπει να διορθώσουμε το ssnake και για διαγράψουμε την εγγραφή με το "book"

['hamster' 'alligator' 'cat' 'ssnake' 'snake' 'book']
6  μοναδικά ζώα στη στήλη


In [27]:
#Αντικατάσταση τιμών
#Αντικατάσταση στη στήλη "animal", όπου υπάρχει το str 'ssnake" με το str '':

for x in df.index: #για κάθε ένα από τα index του dataframe [0,13]
    if df.at[x, "animal"] == "ssnake" :#έλεγξε αν το κελί του animal ισούται με ssnake
        df.at[x,"animal"] = "snake"    #αντικατέστησε το περιεχόμενο αυτού του κελιού με snake
    
#το ίδιο αποτέλεσμα με αυτό της for αλλά πιο συπτηγμένη (και πολύπλοκη) σύνταξη
#df['animal'].replace(['ssnake'],['snake'],inplace=True) 

In [28]:
df['age'].round()
df['age'] = df['age'].astype(int)

### Διέγραψε γραμμές βάσει συνθήκης

In [29]:
print('Λίστα επιτρεπτών ζώων : ',correct_animals)

print('Λίστα ζώων αυτή τη στιγμή στο df: ',df['animal'].unique())# Βλέπουμε ότι δεν υπάρχει πια το 'book'

Λίστα επιτρεπτών ζώων :  ['hamster', 'alligator', 'cat', 'snake', 'snake']
Λίστα ζώων αυτή τη στιγμή στο df:  ['hamster' 'alligator' 'cat' 'snake' 'book']


In [30]:
#Διαγραφή γραμμών
#Διέγραψε όσες εγγραφές έχουν τιμή στη στήλη animal που δεν περιέχεται στη λίστα με τα "σωστά ζώα"
for x in df.index: #για κάθε ένα από τα index του dataframe [0,13]
    if df.at[x, "animal"] not in correct_animals :# αν το περιεχόμενο του κελιού στη στήλη animal δεν περιέχεται στη λίστα
        df.drop(x, inplace = True) #απευθείας διαγραφή της εγγραφής

In [31]:
df['animal'].unique()# Βλέπουμε ότι δεν υπάρχει πια το 'book'

array(['hamster', 'alligator', 'cat', 'snake'], dtype=object)

### Διαγραφή διπλότιμων

In [32]:
#Η μέθοδος duplicated() βρίσκει πανοποιμότυτες εγγραφές. 
#Αν γυρίσει True σημαίνει ότι η εγγραφή επαναλαμβάνεται

print(df.duplicated())

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
dtype: bool


In [33]:
#Διαγραφή διπλότιμων
df.drop_duplicates(inplace = True)# απευθείας αντικατάσταση στο df
df

Unnamed: 0,animal,id,age,weight,length
0,hamster,1,1,7,6.67
1,alligator,2,9,13,6.0
3,hamster,3,5,8,9.0
4,cat,3,13,12,1.0
5,snake,5,14,11,8.0
6,cat,6,10,8,9.0
7,hamster,7,2,10,5.0
8,cat,8,4,14,6.0
9,cat,9,14,9,6.0
10,snake,10,7,11,6.0


In [40]:
print(df.duplicated())#καμία διπλότιμη εγγραφή (όλα false)

0     False
1     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
dtype: bool


In [41]:
#Αν δεν μας ενδιαφέρει να βρούμε ακριβώς ποια γραμμή περιέχει διπλότιμη εγγραφή
#Μπορούμε να χρησιμοποιήσουμε μετά τη μέθοδο duplicated() την μέθοδο any()
#Αν υπάρχει έστω και ένα True στο αποτέλεσμα της duplicated η any θα επιστρέψει True, αλλιώς False

print(df.duplicated().any())#Υπάρχει έστω και μια διπλοεγγραφή; - Οχι

False


### Αλλαγή τύπου (dtype) σε στήλη

In [42]:
df.dtypes #ανατρέχοντας στο csv φαίνεται ότι το id = "1" έχει αυτάκια άρα η python το διάβασε ως string

animal     object
id         object
age         int32
weight     object
length    float64
dtype: object

In [43]:
df['id'] = df['id'].astype(int)#μετατροπή του id από οbject σε int, αυτό μπορεί να γίνει τώρα που έχει διαγραφεί η γραμμή book που είχε ως id το AFG

In [44]:
df.dtypes # πλέον το id έχει είναι  data type  ακεραίων

animal     object
id          int32
age         int32
weight     object
length    float64
dtype: object

### Ταξινόμησε βάσει του ID 

In [45]:
#Σόρταρε τις εγγραφές του df βάζει της στήλης 'id' με αύξοντα τρόπο
df.sort_values(by='id', ascending=True, axis=0, inplace = True) #inplace=False by default
df

Unnamed: 0,animal,id,age,weight,length
0,hamster,1,1,7,6.67
1,alligator,2,9,13,6.0
3,hamster,3,5,8,9.0
4,cat,3,13,12,1.0
5,snake,5,14,11,8.0
6,cat,6,10,8,9.0
7,hamster,7,2,10,5.0
8,cat,8,4,14,6.0
9,cat,9,14,9,6.0
10,snake,10,7,11,6.0


### Ασκήσεις

In [46]:
#Φορτώστε το αρχείο animals2 και εκτελέστες τις παρακάτω ενέργειες (μην κάνετε αντικατάσταση το αρχικό df εκτός αν ζητηθεί)
import pandas as pd
df = pd.read_csv('animals2.csv', delimiter =",")
df

Unnamed: 0,animal,id,age,weight,length
0,hamster,1,1,7,
1,alligator,2,9,13,6.0
2,alligator,2,9,13,6.0
3,hamster,3,4,8,
4,cat,3,13,12,1.0
5,cat,-5,56.0,0,
6,ssnake,5,14,11,8.0
7,cat,6,10,8,9.0
8,cat,6,10,8,9.0
9,hamster,7,2,10,5.0


In [47]:
#Ποια προβλήματα εντοπίζετε;

In [48]:
#Διαγράψετε όλες τις εγγραφές με κενά κελιά

In [29]:
#Αντικαταστείτε τα κενά κελιά με την τιμή μηδέν - 0

In [30]:
#Διαγράψετε όλες τις διπλοεγγραφές - με απευθείας αντικατάσταση στο αρχικό df

In [31]:
# Αλλάξτε τον τύπο της στήλης length σε int - με αντικατάσταση του αρχικού df

In [32]:
# Αλλάξτε την τιμή γάτα σε cat - με αντικατάσταση του αρχικού df

In [33]:
# Αλλάξτε την τιμή 'ten' σε 10 - με αντικατάσταση του αρχικού df

In [34]:
# Ταξιμoνήστε το df βάσει length, από τη μεγαλύτερη προς τη μικρότερη τιμή

In [35]:
# Αντικαταστήστε το -5 στο id του row 5 με την επόμενη διαθέσιμη τιμή του id 
# προσπαθήστε να μην γράψετε καρφωτά 13 αλλά να το υπολογίσετε από το dataset

In [36]:
#Επιστρέψετε όλες τις εγγραφές που έχουν ηλικία άνω των 10

In [37]:
#Επιστρέψετε το ΜΟ των ηλικιών ανά είδος ζώου (με τη βοήθεια του group_by)

In [38]:
#Εκτυπώστε τον αριθμό των ζώων που υπάρχει σε κάθε ομάδα