## Dataframe
Η βιβλιοθήκη pandas βοηθάει στην οργάνωση και την ανάλυση δεδομένων ευκολότερα από τη χρήση μόνο Python ή numpy. Συνήθως την εισάγουμε με το nickname "pd"

To documentation θα το βρούμε εδώ https://pandas.pydata.org/

In [None]:
import pandas as pd
df = pd.read_csv("titanic.csv")
print(type(df))

### .head(x)

Για μια γρήγορα ματιά στο dataframe χρησιμοποιούμε τo df.head(x) όπου x είναι ο αριθμός των γραμμών που θέλουν να τυπωθούν

In [None]:
df.head(5)

Ή από το τέλος

In [None]:
df.tail(5)

### A summary of columns
Μία από τις σημαντικότερες εντολές είναι η describe() όπου μας δίνει μια γενική εικόνα του dataset

In [None]:
df.describe()

In [None]:
df.dtypes

In [None]:
df.info()

### .loc

Για να επιστρέψουμε συγκεκριμένη σειρά του dataframe αρκεί να χρησιμοποιήσουμε τη df.loc[x] όπου x o αριθμός της σειράς ξεκινώντας από το 0

In [None]:
dt = df.loc[3]
dt

Με τον ίδιο τρόπο μπορούμε να πάρουμε slice του dataframe χρησιμοποιώντας την ίδια τεχνική index με τις λίστες. Βλέπεις κάτι διαφορετικό όμως;

In [None]:
df.loc[:3]

Ή να επιλέξουμε συγκεκριμένες σειρές

In [None]:
df.loc[[0,5,10,20]]

Αντίστοιχα με το len() στις λίστες, έχουμε το shape για το μέγεθος του dataframe

In [None]:
df.shape

### Επιλογή στηλών
Μπορώ να επιλέξω μία στήλη

In [None]:
df = pd.read_csv('populations.csv')
df.head()

In [None]:
df['country']

Ή ένα υποσύνολο του dataframe, με περισσότερες στήλες

In [None]:
df[['country', 'pop']]

In [None]:
new_df = df[['city','pop']]
new_df.head(5)

Για να δω τα ονόματα των στηλών, μπορώ απλά να καλέσω την .columns ή αν χρειάζομαι τις στήλες σε μορφή λίστας την .columns.toList()

In [None]:
df.columns

In [None]:
df.columns.tolist()

### Πράξεις
Μπορώ να κάνω πράξεις σε ολόκληρη την στήλη

In [None]:
pop = df['pop']/1000
pop

In [None]:
df['pop']

In [None]:
city_country = df['city'] + '-' +  df['country']
city_country

### max, min, sum, mean

In [None]:
print(df['pop'].max())
print(df['pop'].min())
print(df['pop'].sum())
print(df['pop'].mean())

### Αναζήτηση

In [None]:
df[df['pop']>1000]

In [None]:
df[df['country'] == 'Afghanistan']

### Ταξινόμηση

In [None]:
df.sort_values('pop',ascending=True)

### NaN everywhere!!!

Όταν μία τιμή λείπει από τα δεδομένα μας, η pandas τη δηλώνει ως NaN για να μας διευκολύνει. Οπότε κάτι πρέπει να κάνουμε με αυτές τις τιμές :(

In [None]:
df = pd.read_csv("titanic.csv")

In [None]:
pd.isnull(df['Cabin'])[:5]

In [None]:
cabin_nulls = df[pd.isnull(df['Cabin'])]
cabin_nulls[:5]

In [None]:
df.shape

In [None]:
age_mean = df['Age'].mean()

In [None]:
df['age'] = df['Age'].fillna(age_mean)
print(len(pd.isnull(df['Age'])))

In [None]:
df['Fare'] = df['Fare'].fillna(df['Fare'].median())
print(len(pd.isnull(df['Fare'])))

In [None]:
df.dropna(how='any').shape

### Reset index after drop

In [None]:
df = df.reset_index(drop=True)
df

### Pivot table
By default επιστρέφει τη μέση τιμή της στήλης

In [None]:
df.pivot_table(index="Pclass", values="Survived")

In [None]:
import numpy as np
df.pivot_table(index="Embarked", values=["Fare","Survived"], aggfunc=np.sum)

In [None]:
df.groupby('Pclass')['Survived'].count()

### Apply

Πολλές φορές χρειάζεται να εφαρμώσουμε περισσότερες των μία πράξεων στις στήλες. Σε αυτό βοηθάει η εντολή apply

In [None]:
df['ageSQRT'] = df['Age'].apply(np.sqrt)
df.head(5)

In [None]:
df['powFare'] = df['Fare'].apply(lambda x: x**2)
df.head(5)

Προσθέτοντας την παράμετρο axis=1 μπορούμε να εφαρμώσουμε την apply ανά σειρά

In [None]:
def is_a_baby(row):
    if row["Age"] < 5:
        return 1
    else:
        return 0

df['isBaby'] = df.apply(is_a_baby, axis=1)
df.head(5)

### Μοναδικές τιμές μιας στήλης

In [None]:
df['Embarked'].unique()

### Διαγραφή στήλης

In [None]:
del df['Cabin']
df.head()

### Άσκηση

1. Να διαβάσετε το αρχείο nba-players.csv
2. Να μετατρέψετε τη στήλη Height από inches σε cm
3. Να μετατρέψετε τη στήλη Weight από lbs σε kg
4. Να υπολογίσετε τον δείκτη μάζας (weight/height^2)*10000

### Pandas Profiling. A great (not-so-popular) package!

Πρώτα πρέπει να κάνουμε εγκατάσταση το pandas-profiling package που δεν είναι by default μέσα στο environment μας. (sudo conda install pandas-profiling)

In [None]:
import pandas_profiling

In [None]:
df = pd.read_csv("titanic.csv")

In [None]:
pfr = pandas_profiling.ProfileReport(df)
pfr.to_file("report.html")