# Chapter 1: Transforming DataFrames
Σε αυτό το κεφάλαιο μαθαίνουμε πώς να εξερευνούμε, να ταξινομούμε και να φιλτράρουμε δεδομένα σε ένα DataFrame.


## 1. Εξερεύνηση του DataFrame
Πριν ξεκινήσουμε την επεξεργασία, πρέπει να καταλάβουμε τη δομή των δεδομένων:
* `.head()`: Επιστρέφει τις πρώτες λίγες γραμμές.
* `.info()`: Δείχνει ονόματα στηλών, τύπους δεδομένων (Dtype) και αν υπάρχουν κενές τιμές (non-null).
* `.shape`: Επιστρέφει τον αριθμό γραμμών και στηλών (attribute, χωρίς παρενθέσεις).
* `.describe()`: Υπολογίζει βασικά στατιστικά (mean, std, min, max) για αριθμητικές στήλες.
* `.values`: Τα δεδομένα σε μορφή NumPy array.
* `.columns`: Τα ονόματα των στηλών.
* `.index`: Τα labels των γραμμών (row numbers).


In [None]:
import pandas as pd

# Δημιουργία ενός test DataFrame (σαν αυτό με τα σκυλιά)
data = {
    "name": ["Bella", "Charlie", "Lucy", "Cooper"],
    "breed": ["Labrador", "Poodle", "Chow Chow", "Schnauzer"],
    "color": ["Black", "Brown", "White", "Gray"],
    "height_cm": [56, 43, 46, 49],
    "weight_kg": [25, 10, 22, 17],
    "date_of_birth": ["2013-07-01", "2016-09-16", "2014-08-25", "2011-12-11"]
}
dogs = pd.DataFrame(data)

# Δοκίμασε τις εντολές
print(dogs.head())
print(dogs.info())
print(dogs.shape)


## 2. Ταξινόμηση και Subsetting
### Ταξινόμηση (Sorting)
* `df.sort_values("column")`: Ταξινόμηση αύξουσα.
* `ascending=False`: Για φθίνουσα ταξινόμηση.

### Επιλογή Στηλών & Γραμμών (Subsetting)
* `df["column"]`: Επιλογή μίας στήλης.
* `df[["col1", "col2"]]`: Επιλογή πολλαπλών στηλών (διπλές αγκύλες).
* `df[df["col"] > x]`: Φιλτράρισμα γραμμών με βάση συνθήκη.
* `.isin([list])`: Φιλτράρισμα για πολλαπλές τιμές σε μία στήλη.

In [None]:
# 1. Ταξινόμηση κατά βάρος (φθίνουσα)
dogs_heavy = dogs.sort_values("weight_kg", ascending=False)

# 2. Φιλτράρισμα: Σκυλιά πιο ψηλά από 45cm
tall_dogs = dogs[dogs["height_cm"] > 45]

# 3. Χρήση .isin(): Μόνο Labradors και Poodles
lab_poodle = dogs[dogs["breed"].isin(["Labrador", "Poodle"])]

print(lab_poodle)

## 3. Προσθήκη Νέων Στηλών (Mutating)
Μπορούμε να δημιουργήσουμε νέες στήλες κάνοντας πράξεις στις υπάρχουσες.
* `df["new_col"] = df["old_col"] / 100`

In [None]:
# Προσθήκη ύψους σε μέτρα
dogs["height_m"] = dogs["height_cm"] / 100

# Υπολογισμός BMI (weight / height^2)
dogs["bmi"] = dogs["weight_kg"] / (dogs["height_m"] ** 2)

print(dogs.head())

> **DE Tip:** Πάντα να ελέγχεις το `.info()` πριν και μετά τον μετασχηματισμό δεδομένων. 
> Στο Data Engineering, πρέπει να είμαστε σίγουροι ότι οι τύποι δεδομένων (π.χ. ημερομηνίες) 
> είναι σωστοί για να μην "κρασάρει" το database schema μας αργότερα.