# Pandas Essentials (Series, DataFrame, I/O, Cleaning) (2–3 ώρες)

In [1]:
import pandas as pd
import numpy as np

1) Φόρτωμα & Επιθεώρηση

In [2]:
df = pd.read_csv("transactions_sample.csv")

df.head()         # πρώτες 5 γραμμές
df.tail()         # τελευταίες 5 γραμμές
df.sample(5)      # τυχαίο δείγμα
df.shape          # (rows, cols)
df.info()         # πληροφορίες στηλών
df.dtypes         # τύποι
df.describe()     # αριθμητικά στατιστικά
df.describe(include="all")  # όλα τα είδη στηλών


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   transaction_id  50 non-null     int64  
 1   date            50 non-null     object 
 2   amount          50 non-null     float64
 3   currency        50 non-null     object 
 4   country         50 non-null     object 
 5   merchant        50 non-null     object 
 6   merchant_id     50 non-null     int64  
 7   class           50 non-null     int64  
dtypes: float64(1), int64(3), object(4)
memory usage: 3.3+ KB


Unnamed: 0,transaction_id,date,amount,currency,country,merchant,merchant_id,class
count,50.0,50,50.0,50,50,50,50.0,50.0
unique,,50,,3,5,5,,
top,,2024-01-01,,EUR,GR,Netflix,,
freq,,1,,23,14,14,,
mean,25.5,,268.18,,,,2.8,0.18
std,14.57738,,143.52909,,,,1.324803,0.388088
min,1.0,,25.0,,,,1.0,0.0
25%,13.25,,154.5,,,,2.0,0.0
50%,25.5,,268.5,,,,3.0,0.0
75%,37.75,,386.75,,,,4.0,0.0


Μετατροπές τύπων

In [3]:
df["date"] = pd.to_datetime(df["date"])
df["amount"] = df["amount"].astype(float)

2) Επιλογές / Φιλτράρισμα / Νέες Στήλες (≈45’)

Επιλογές

In [4]:
df["amount"]                # μία στήλη (Series)
df[["amount","country"]]    # πολλές στήλες
df.loc[0:5, ["amount","country"]]  # με labels
df.iloc[0:5, 0:2]           # με index θέσεις

Unnamed: 0,transaction_id,date
0,1,2024-01-01
1,2,2024-01-02
2,3,2024-01-03
3,4,2024-01-04
4,5,2024-01-05


Φιλτράρισμα

In [5]:
df[df["amount"] > 100]

df[(df["amount"] > 100) & (df["country"] == "GR")]


Unnamed: 0,transaction_id,date,amount,currency,country,merchant,merchant_id,class
2,3,2024-01-03,353.0,USD,GR,IKEA,3,0
10,11,2024-01-11,471.0,EUR,GR,Spotify,2,1
11,12,2024-01-12,219.0,USD,GR,Spotify,4,0
12,13,2024-01-13,335.0,EUR,GR,Netflix,5,0
13,14,2024-01-14,463.0,EUR,GR,eBay,1,0
17,18,2024-01-18,364.0,USD,GR,IKEA,5,0
20,21,2024-01-21,154.0,GBP,GR,Netflix,4,0
25,26,2024-01-26,418.0,USD,GR,Netflix,4,0
27,28,2024-01-28,390.0,EUR,GR,Amazon,3,1
30,31,2024-01-31,281.0,EUR,GR,Spotify,4,0


Νέες στήλες

In [6]:
df["amount_eur"] = df["amount"] * 0.92

Missing values

In [7]:
df.isna().sum()
df["country"].fillna("Unknown", inplace=True)
df.dropna(subset=["merchant"], inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["country"].fillna("Unknown", inplace=True)


In [8]:
print(df.columns)


Index(['transaction_id', 'date', 'amount', 'currency', 'country', 'merchant',
       'merchant_id', 'class', 'amount_eur'],
      dtype='object')


3) Ομαδοποιήσεις / Στατιστικά / Ταξινομήσεις

- Ομαδοποίηση & συναθροίσεις

In [11]:
df.groupby("merchant")["amount"].agg(["count","mean","sum"])\
  .sort_values("sum", ascending=False)

Unnamed: 0_level_0,count,mean,sum
merchant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Netflix,14,304.571429,4264.0
Amazon,13,282.615385,3674.0
Spotify,9,251.555556,2264.0
IKEA,9,200.333333,1803.0
eBay,5,280.8,1404.0


- Κατανομή κατηγορίας (ποσοστά)

In [None]:
df["country"].value_counts(normalize=True)
# Επιστρέφει Series με το ποσοστό εμφάνισης κάθε χώρας (άθροισμα = 1.0). Χωρίς normalize=True παίρνεις απόλυτους αριθμούς.

country
GR    0.28
DE    0.24
IT    0.18
FR    0.16
US    0.14
Name: proportion, dtype: float64

- Μεγαλύτερα ποσά – 2 ισοδύναμοι δρόμοι

In [None]:
df.sort_values("amount", ascending=False).head(5)  # top 5 γραμμές με βάση amount, επιστρέφει ολόκληρες γραμμές (DataFrame)


Unnamed: 0,transaction_id,date,amount,currency,country,merchant,merchant_id,class,amount_eur
24,25,2024-01-25,496.0,EUR,US,eBay,5,0,456.32
42,43,2024-02-12,480.0,GBP,US,Netflix,4,0,441.6
39,40,2024-02-09,479.0,EUR,DE,Amazon,2,0,440.68
10,11,2024-01-11,471.0,EUR,GR,Spotify,2,1,433.32
44,45,2024-02-14,468.0,GBP,GR,Amazon,1,0,430.56


In [17]:
df["amount"].nlargest(5)                           # top 5 τιμές της στήλης amount, επιστρέφει μόνο τις τιμές (Series). nlargest είναι συνήθως πιο γρήγορο και βολικό όταν σε νοιάζουν μόνο οι τιμές (ή μαζί με index).

24    496.0
42    480.0
39    479.0
10    471.0
44    468.0
Name: amount, dtype: float64

4) Joins / Merge

In [None]:
df_merchants = pd.DataFrame({
    "merchant_id": [1, 2, 3],
    "category": ["food", "electronics", "travel"]
}) # Δημιουργεί ένα μικρό lookup table με merchants: κάθε merchant_id έχει κατηγορία (food, electronics, travel)..

merged = pd.merge(df, df_merchants, # pd.merge = “join” όπως στη SQL.
                  on="merchant_id", # ενώνει τις δύο πηγές πάνω στη στήλη merchant_id.
                  how="left") # κρατάει όλες τις γραμμές του df, και αν υπάρχει matching merchant_id στο df_merchants φέρνει την category. Αν δεν υπάρχει, βάζει NaN.
merged.head()


Unnamed: 0,transaction_id,date,amount,currency,country,merchant,merchant_id,class,amount_eur,category
0,1,2024-01-01,107.0,GBP,IT,Amazon,4,0,98.44,
1,2,2024-01-02,440.0,GBP,US,Netflix,2,0,404.8,electronics
2,3,2024-01-03,353.0,USD,GR,IKEA,3,0,324.76,travel
3,4,2024-01-04,275.0,GBP,FR,Netflix,1,0,253.0,food
4,5,2024-01-05,111.0,USD,FR,IKEA,5,0,102.12,


5) Mini-Ασκήσεις

5.1 Μέτρημα ποσοστού απάτης “class 1” (fraud ratio) στο dataset

In [None]:
fraud_ratio = df["class"].value_counts(normalize=True).get(1, 0) # normalize=True → αντί για απόλυτους αριθμούς δίνει ποσοστά (τα counts διαιρεμένα με το σύνολο). Συνήθως σε datasets για fraud detection, class = 0 σημαίνει κανονική συναλλαγή, class = 1 σημαίνει fraud.
fraud_ratio # Επιστρέφει έναν αριθμό (float) π.χ. 0.018 → σημαίνει ότι το 1.8% των συναλλαγών είναι απάτες (class 1). Αν δεν υπάρχει καθόλου class 1, επιστρέφει 0 χάρη στο get(1, 0).

np.float64(0.18)

5.2 Top-5 merchants κατά median amount

In [26]:
df.groupby("merchant")["amount"].median().nlargest(5)

merchant
Amazon     298.0
Netflix    294.0
Spotify    240.0
eBay       179.0
IKEA       126.0
Name: amount, dtype: float64

1. df.groupby("merchant")
- Ομαδοποιεί το DataFrame ανά merchant.
- Δηλαδή “όλες οι συναλλαγές του merchant Α μαζί, όλες του Β μαζί, κ.ο.κ.”.
2. ["amount"].median()
- Σε κάθε ομάδα (merchant) παίρνει τη διάμεσο της στήλης amount.
- Η διάμεσος (median) είναι το μεσαίο ποσό όταν ταξινομήσεις τις συναλλαγές.
- Είναι πιο “ανθεκτική” σε ακραίες τιμές από τον μέσο όρο (mean).
Παράδειγμα: αν ο merchant Α έχει amounts [10, 15, 1000] →
- mean = 341.7 (τραβηγμένο προς τα πάνω λόγω outlier),
- median = 15 (πιο “αντιπροσωπευτικό”).
3. .nlargest(5)
- Παίρνει τους 5 μεγαλύτερους merchants με βάση τη διάμεσο.
- Επιστρέφει Series όπου index=merchant, value=median amount.

5.3 Mean amount ανά ώρα ημέρας

In [30]:
df["hour_of_day"] = df["date"].dt.hour # Το .dt σου δίνει “πρόσβαση” σε κομμάτια της ημερομηνίας (year, month, day, hour, minute, κλπ.)
df.groupby("hour_of_day")["amount"].mean() # Μέσο ποσό ανά ώρα της ημέρας (0-23). Το αποτέλεσμα είναι μια Series με index=ώρα, value=μέσο ποσό 

hour_of_day
0    268.18
Name: amount, dtype: float64

Με αυτές τις 2 γραμμές βρίσκεις ποια ώρα της ημέρας τείνουν να είναι πιο “ακριβές” οι συναλλαγές. Πολύ χρήσιμο για fraud analysis, π.χ. αν η απάτη συμβαίνει κυρίως σε περίεργες ώρες (π.χ. 2–3 τα ξημερώματα).