    Τμήμα Πληροφορικής και Τηλεπικοινωνιών - Άρτα 
    Πανεπιστήμιο Ιωαννίνων 

    Γκόγκος Χρήστος 
    http://chgogos.github.io/
    
    Τελευταία ενημέρωση: 1/3/2022

# Pandas



In [14]:
import numpy as np
from pandas import Series, DataFrame

## Series

Πρόκειται για μονοδιάστατες σειρές δεδομένων, ένας πίνακας δεδομένων μαζί με ένα πίνακα ετικετών (δεικτών)

In [15]:
s1 = Series([1,2,3,4,5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [16]:
s1.values, s1.index

(array([1, 2, 3, 4, 5], dtype=int64), RangeIndex(start=0, stop=5, step=1))

In [17]:
# ορισμός custom δεικτών

s2 = Series([1, 2, 3, 4, 5], ["a", "b", "c", "d", "e"])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [18]:
# προσπέλαση στοιχείων με δείκτες και custom δείκτες

print(s2[0]) 
print(s2[0:3])
print(s2['a'])
print(s2[['a','e']]) 
print(s2['b':'e'])

1
a    1
b    2
c    3
dtype: int64
1
a    1
e    5
dtype: int64
b    2
c    3
d    4
e    5
dtype: int64


In [19]:
# δημιουργία Series από λεξικό
a_dict = {
    "nikos": 10,
    "maria": 9,
    "petros": 4
}

s3 = Series(a_dict)

# ανάθεση ονόματος στη σειρά και ονόματος στο δείκτη της σειράς
s3.name = "grades"
s3.index.name = "name"
s3

name
nikos     10
maria      9
petros     4
Name: grades, dtype: int64

In [20]:
# επαναδεικτοδότηση σε σειρές

np.random.seed(1234)
s4 = Series(np.random.randn(5), index = ['a','b','c','d', 'e'])
print(s4)
s4 = s4.reindex(['a','b','c','d', 'e','f','g'])
print(s4)
s4 = s4.reindex(['a','b','c','d', 'e','f','g','h','i'], fill_value=-1)
s4

a    0.471435
b   -1.190976
c    1.432707
d   -0.312652
e   -0.720589
dtype: float64
a    0.471435
b   -1.190976
c    1.432707
d   -0.312652
e   -0.720589
f         NaN
g         NaN
dtype: float64


a    0.471435
b   -1.190976
c    1.432707
d   -0.312652
e   -0.720589
f         NaN
g         NaN
h   -1.000000
i   -1.000000
dtype: float64

In [21]:
# Διαγραφή στοιχείων από σειρά

s4 = s4.drop(['f','g'])
s4

a    0.471435
b   -1.190976
c    1.432707
d   -0.312652
e   -0.720589
h   -1.000000
i   -1.000000
dtype: float64

## DataFrames

Τα DataFrames είναι δομές δεδομένων σε μορφή πίνακα. Περιέχουν μια διατεταγμένη λίστα στηλών με κάθε στήλη να μπορεί να έχει διαφορετικό τύπο δεδομένων. Επίσης, διαθέτει δείκτες τόσο για τις στήλες όσο και για τις γραμμές του πίνακα.

In [22]:
# Δημιουργία DataFrame από λεξικό
# Τα κλειδία του λεξικού αποτελούν τις στήλες του DataFrame,
# πρέπει να περιέχουν ως values λίστες με ίδιο πλήθος στοιχείων

data = {
    "name": ["nikos", "maria", "petros"],
    "grade": [10, 9, 4],
    "absences": [0, 1, 2],
}
df_grades = DataFrame(data)
df_grades

Unnamed: 0,name,grade,absences
0,nikos,10,0
1,maria,9,1
2,petros,4,2


In [23]:
# αλλαγή σειράς στηλών, προσθήκη νέας στήλης

df_grades2 = DataFrame(data, columns = ['name', 'absences', 'grade', 'semester'])
df_grades2

Unnamed: 0,name,absences,grade,semester
0,nikos,0,10,
1,maria,1,9,
2,petros,2,4,


In [24]:
# ορισμός custom δεικτών γραμμών

df_grades3 = DataFrame(data, index=[1234, 1235, 1236])
df_grades3

Unnamed: 0,name,grade,absences
1234,nikos,10,0
1235,maria,9,1
1236,petros,4,2


In [25]:
# ορισμός κλειδιών λεξικού ως δεικτών γραμμών

df_grades4 = DataFrame(data, columns=['grade', 'absences'], index=data['name'])
df_grades4

Unnamed: 0,grade,absences
nikos,10,0
maria,9,1
petros,4,2


In [26]:
# πρόσβαση στα δεδομένα μιας στήλης ως σειρά δεδομένων (με 2 τρόπους)

print(df_grades4['grade']) 
print(df_grades4.grade)

nikos     10
maria      9
petros     4
Name: grade, dtype: int64
nikos     10
maria      9
petros     4
Name: grade, dtype: int64


In [27]:
# ανάκτηση δεδομένων συγκεκριμένης σειράς (row) του DataFrame με loc και iloc

df_grades4.loc['nikos'], df_grades4.iloc[0] 

(grade       10
 absences     0
 Name: nikos, dtype: int64,
 grade       10
 absences     0
 Name: nikos, dtype: int64)

In [28]:
# αλλαγή τιμών στήλης (όλες οι γραμμές λαμβάνουν την ίδια τιμή)

df_grades4['grade'] = 10
df_grades4

Unnamed: 0,grade,absences
nikos,10,0
maria,10,1
petros,10,2


In [29]:
# αλλαγή τιμών στήλης 

df_grades4['grade'] = [10,9,5]
df_grades4

Unnamed: 0,grade,absences
nikos,10,0
maria,9,1
petros,5,2


In [30]:
# προσθήκη νέας στήλης 

df_grades4['semester'] = "unknown"
df_grades4

Unnamed: 0,grade,absences,semester
nikos,10,0,unknown
maria,9,1,unknown
petros,5,2,unknown


In [31]:
# προσθήκη νέας στήλης ορίζοντας περιεχόμενα ανά γραμμή

df_grades4['semester'] = [1,1,2]
df_grades4

Unnamed: 0,grade,absences,semester
nikos,10,0,1
maria,9,1,1
petros,5,2,2


In [32]:
# επιλογή συγκεκριμένων στηλών

df_grades4[['absences','semester']] 

Unnamed: 0,absences,semester
nikos,0,1
maria,1,1
petros,2,2


In [33]:
# διαγραφή γραμμής

df_grades4 = df_grades4.drop('maria')
df_grades4

Unnamed: 0,grade,absences,semester
nikos,10,0,1
petros,5,2,2


In [34]:
# διαγραφή στηλών 
df_grades4 = df_grades4.drop(['absences', 'semester'], axis=1)
df_grades4

Unnamed: 0,grade
nikos,10
petros,5


In [35]:
# Στοίχιση (aligning)

df1 = DataFrame(np.arange(12).reshape(4,3), index = ['r1', 'r2', 'r3', 'r4'],  columns = ['a', 'b', 'c'])
df1

Unnamed: 0,a,b,c
r1,0,1,2
r2,3,4,5
r3,6,7,8
r4,9,10,11


In [36]:
# Mapping (μετατροπή της στήλης name σε κεφαλαία)

df_grades5 = df_grades
df_grades5['name'] = df_grades5['name'].apply(lambda x:x.upper())
df_grades5

Unnamed: 0,name,grade,absences
0,NIKOS,10,0
1,MARIA,9,1
2,PETROS,4,2


In [37]:
# ταξινόμηση με βάση το index (δείκτες σειρών) σε φθίνουσα σειρά

df_grades5.sort_index(ascending=False)

Unnamed: 0,name,grade,absences
2,PETROS,4,2
1,MARIA,9,1
0,NIKOS,10,0


In [38]:
# ταξινόμηση με βάση το column (ετικέτες στηλών)

df_grades5.sort_index(axis=1)

Unnamed: 0,absences,grade,name
0,0,10,NIKOS
1,1,9,MARIA
2,2,4,PETROS


In [39]:
# ταξινόμηση με βάση τα περιεχόμενα στήλης

df_grades5.sort_values('name')

Unnamed: 0,name,grade,absences
1,MARIA,9,1
0,NIKOS,10,0
2,PETROS,4,2


In [45]:
# stack

df_grades6 = df_grades5.stack()
df_grades6

0  name         NIKOS
   grade           10
   absences         0
1  name         MARIA
   grade            9
   absences         1
2  name        PETROS
   grade            4
   absences         2
dtype: object

In [46]:
#unstack

df_grades6.unstack()

Unnamed: 0,name,grade,absences
0,NIKOS,10,0
1,MARIA,9,1
2,PETROS,4,2


## Φόρτωση δεδομένων από αρχεία κειμένου

In [41]:
import pandas as pd
import numpy as np

In [42]:
fn = "../../../datasets/greek_cities.csv"
df = pd.read_csv(fn)
df

Unnamed: 0,City,Perfecture,Population
0,ΑΘΗΝΑ,ΑΤΤΙΚΗΣ,3218218
1,ΘΕΣΣΑΛΟΝΙΚΗ,ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ,789191
2,ΠΑΤΡΑ,ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ,168202
3,ΗΡΑΚΛΕΙΟ,ΚΡΗΤΗΣ,153653
4,ΛΑΡΙΣΑ,ΘΕΣΣΑΛΙΑ,144651
5,ΒΟΛΟΣ,ΘΕΣΣΑΛΙΑ,118707
6,ΙΩΑΝΝΙΝΑ,ΗΠΕΙΡΟΣ,65574
7,ΤΡΙΚΑΛΑ,ΘΕΣΣΑΛΙΑ,61653
8,ΧΑΛΚΙΔΑ,ΣΤΕΡΕΑΣ ΕΛΛΑΔΑΣ,59125
9,ΣΕΡΡΕΣ,ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ,58287


In [43]:
# hierarchical indexing

df = pd.read_csv(fn, index_col=['Perfecture','City'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Population
Perfecture,City,Unnamed: 2_level_1
ΑΤΤΙΚΗΣ,ΑΘΗΝΑ,3218218
ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ,ΘΕΣΣΑΛΟΝΙΚΗ,789191
ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ,ΠΑΤΡΑ,168202
ΚΡΗΤΗΣ,ΗΡΑΚΛΕΙΟ,153653
ΘΕΣΣΑΛΙΑ,ΛΑΡΙΣΑ,144651
ΘΕΣΣΑΛΙΑ,ΒΟΛΟΣ,118707
ΗΠΕΙΡΟΣ,ΙΩΑΝΝΙΝΑ,65574
ΘΕΣΣΑΛΙΑ,ΤΡΙΚΑΛΑ,61653
ΣΤΕΡΕΑΣ ΕΛΛΑΔΑΣ,ΧΑΛΚΙΔΑ,59125
ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ,ΣΕΡΡΕΣ,58287


In [44]:
df.loc['ΘΕΣΣΑΛΙΑ']

Unnamed: 0_level_0,Population
City,Unnamed: 1_level_1
ΛΑΡΙΣΑ,144651
ΒΟΛΟΣ,118707
ΤΡΙΚΑΛΑ,61653
