# Pandas

---

## Contents

- [Creare una *Series* da un array o da un dizionario](#series-array)
- [Creare un DataFrame da un dizionario](#df-dict)
- [Data Selection nelle *Series* con *loc* e *iloc*](#series-loc)
- [Data Selection nei *DataFrame* con *loc* e *iloc*](#df-loc)
- [Nuova colonna come concatenazione delle altre](#df-col-concat)
- [Eliminare una o più colonne](#drop)
- [Ordinare il *DataFrame* in base ai valori delle colonne](#df-sort)
- [Swappare indici e colonne di un *DataFrame*](#df-t)
- [Creare una categorica con *cut* e *qcut*](#cut-qcut)
- [Contare i Null](#count-nulls)
- [Estrarre le righe che contengono valori nulli](#null-rows)
- [Estrarre le righe che non contengono valori nulli](#not-null-rows)
- [Estrarre le colonne che contengono valori nulli](#null-cols)
- [Estrarre le colonne che non contengono valori nulli](#not-null-cols)
- [Eliminare tutte le righe con valori nulli](#dropna-rows)
- [Eliminare tutte le colonne con valori nulli](#dropna-cols)
- [Sostituire i valori nulli con delle costanti](#fillna)
- [Analisi delle variabili numeriche escludendo i nulli](#not-null-describe)
- [Concatenare *DataFrame* per righe o per colonne](#df-concat)
- [Join su *DataFrame*](#df-join)
- [Basic Groupby + Aggregation](#basic-groupby-agg)
- [Groupby + Describe](#groupby-describe)
- [Groupby + Multiple Aggregations](#groupby-agg)
- [Groupby + Filter](#groupby-filter)
- [Groupby + Transform](#groupby-transform)
- [Groupby + Apply](#groupby-apply)
- [Trasformare Groupby in *DataFrame*](#groupby-to-df)
- [Basic Pivot Tables](#basic-pivots)

---

## Import

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")
titanic = sns.load_dataset("titanic")

---

<a id="series-array"></a>
# Creare una *Series* da un array o da un dizionario

In [2]:
x = np.array([1, 2, 3, 4])

s = pd.Series(data = x,
              index = ["a", "b", "c", "d"],
              name = "series-example",
              dtype = "float")
s

a    1.0
b    2.0
c    3.0
d    4.0
Name: series-example, dtype: float64

In [3]:
# Gli attributi fondamentali

s.values, s.index

(array([1., 2., 3., 4.]), Index(['a', 'b', 'c', 'd'], dtype='object'))

In [4]:
# Posso accedere agli elementi in entrambi i modi

s[0], s["a"]

(1.0, 1.0)

In [5]:
# Posso crearla anche partendo da un dizionario!

d = {"a": 100, "b": 200, "c": 300, "d": 400}

s = pd.Series(data = d)
s

a    100
b    200
c    300
d    400
dtype: int64

---

<a id="df-dict"></a>
# Creare un DataFrame da un dizionario

In [6]:
# Primo metodo:
# Due dizionari classici uniti da un terzo dizionario direttamente nel costruttore

population = {"California": 38, "Texas": 26, "New York": 19,
              "Florida": 19, "Illinois": 12}

area = {"California": 42, "Texas": 69, "New York": 14,
        "Florida": 17, "Illinois": 15}

df = pd.DataFrame({"population": population, "area": area})
df

Unnamed: 0,population,area
California,38,42
Texas,26,69
New York,19,14
Florida,19,17
Illinois,12,15


In [7]:
# Metodo alternativo:
# Un solo dizionario ma i valori devono essere in lista!

d = {"state": ["California", "Texas", "New York", "Florida", "Illinoi"],
     "population": [38, 26, 19, 19, 12],
     "area": [42, 69, 14, 17, 15]}

pd.DataFrame(data = d)

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
2,New York,19,14
3,Florida,19,17
4,Illinoi,12,15


---

<a id="series-loc"></a>
# Data Selection nelle *Series* con *loc* e *iloc*

In [8]:
s = pd.Series(data = range(10), index = list("abcdefghij"))
s

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int64

In [9]:
# Controllo se alcuni indici fanno parte della series

"g" in s, "u" in s

(True, False)

In [10]:
# Posso modificare la series come fosse un dizionario

s["h"] = 100
s

a      0
b      1
c      2
d      3
e      4
f      5
g      6
h    100
i      8
j      9
dtype: int64

In [11]:
# A loc devo passare sempre un index

s.loc["f"]

5

In [12]:
# Posso anche usare più index non consecutivi

s.loc[["f", "a"]]

f    5
a    0
dtype: int64

In [13]:
# Ad iloc devo passare sempre indici posizionali

s.iloc[3:6]

d    3
e    4
f    5
dtype: int64

---

<a id="df-loc"></a>
# Data Selection nei *DataFrame* con *loc* e *iloc*

In [14]:
df = pd.DataFrame(data = {
     "state":      ["California", "Texas", "New York", "Florida", "Illinois"],
     "population": [38, 26, 19, 19, 12],
     "area":       [42, 69, 14, 17, 15]})
df

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
2,New York,19,14
3,Florida,19,17
4,Illinois,12,15


In [15]:
# Se estraggo una sola colonna ottengo una series

df["area"]

0    42
1    69
2    14
3    17
4    15
Name: area, dtype: int64

In [16]:
# Se estraggo due colonne ottengo sempre un df

df[["area", "state"]]

Unnamed: 0,area,state
0,42,California
1,69,Texas
2,14,New York
3,17,Florida
4,15,Illinois


In [17]:
# Con loc devo sempre indicare gli indici e le colonne che voglio selezionare

df.loc[:3, ["population", "state"]]

Unnamed: 0,population,state
0,38,California
1,26,Texas
2,19,New York
3,19,Florida


In [18]:
# Posso usarlo anche per creare nuove colonne

df.loc[:, "new_col"] = 100
df

Unnamed: 0,state,population,area,new_col
0,California,38,42,100
1,Texas,26,69,100
2,New York,19,14,100
3,Florida,19,17,100
4,Illinois,12,15,100


In [19]:
# Posso usarlo anche per modificare i valori del df

df.loc[2, "area"] = 999
df

Unnamed: 0,state,population,area,new_col
0,California,38,42,100
1,Texas,26,69,100
2,New York,19,999,100
3,Florida,19,17,100
4,Illinois,12,15,100


In [20]:
# Posso usarlo anche come boolean mask

df.loc[df.area > 20, ["state"]]

Unnamed: 0,state
0,California
1,Texas
2,New York


In [21]:
# Con iloc posso usare solo indici posizionali
# Sia per gli index che per le colonne

df.iloc[:3, [0, 1]]

Unnamed: 0,state,population
0,California,38
1,Texas,26
2,New York,19


In [22]:
# Tutte le righe (cioè tutti gli index)
# Ma evito la prima colonna

df.iloc[:, 1:]

Unnamed: 0,population,area,new_col
0,38,42,100
1,26,69,100
2,19,999,100
3,19,17,100
4,12,15,100


---

<a id="df-col-concat"></a>
# Nuova colonna come concatenazione delle altre

In [23]:
df = tips.copy()
df["new_column"] = df["day"].astype(str) + "-" + df["sex"].astype(str)
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,new_column
0,16.99,1.01,Female,No,Sun,Dinner,2,Sun-Female
1,10.34,1.66,Male,No,Sun,Dinner,3,Sun-Male
2,21.01,3.5,Male,No,Sun,Dinner,3,Sun-Male
3,23.68,3.31,Male,No,Sun,Dinner,2,Sun-Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Sun-Female


---

<a id="drop"></a>
# Eliminare una o più colonne

In [24]:
df = tips.copy()
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [25]:
df.drop("sex", axis = 1, inplace = True)
df.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


In [26]:
df.drop(["time", "size"], axis = 1, inplace = True)
df.head()

Unnamed: 0,total_bill,tip,smoker,day
0,16.99,1.01,No,Sun
1,10.34,1.66,No,Sun
2,21.01,3.5,No,Sun
3,23.68,3.31,No,Sun
4,24.59,3.61,No,Sun


---

<a id="df-sort"></a>
# Ordinare il *DataFrame* in base ai valori delle colonne

In [27]:
df = pd.DataFrame(data = {
     "state":      ["California", "Texas", "New York", "Florida", "Illinois"],
     "population": [38, 26, 19, 19, 12],
     "area":       [42, 69, 14, 17, 15]})
df

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
2,New York,19,14
3,Florida,19,17
4,Illinois,12,15


In [28]:
# Singola colonna

df.sort_values(by = "population", ascending = False, inplace = False)

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
2,New York,19,14
3,Florida,19,17
4,Illinois,12,15


In [29]:
# Due colonne, entrambe con lo stesso criterio

df.sort_values(by = ["population", "area"], ascending = False, inplace = False)

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
3,Florida,19,17
2,New York,19,14
4,Illinois,12,15


In [30]:
# Due colonne, ognuna col proprio criterio di ordinamento

df.sort_values(by = ["population", "area"], ascending = (False, True), inplace = False)

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
2,New York,19,14
3,Florida,19,17
4,Illinois,12,15


In [31]:
# Ordinamento custom tramite dizionario!

custom_order = {"Thur": 0, "Fri": 1, "Sat": 2, "Sun": 3}

df = tips.copy() 
df["day_sorted"] = df["day"].map(custom_order)

df.sort_values(by = "day_sorted", ascending = True).head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,day_sorted
121,13.42,1.68,Female,No,Thur,Lunch,2,0
133,12.26,2.0,Female,No,Thur,Lunch,2,0
132,11.17,1.5,Female,No,Thur,Lunch,2,0
131,20.27,2.83,Female,No,Thur,Lunch,2,0
130,19.08,1.5,Male,No,Thur,Lunch,2,0


---

<a id="df-t"></a>
# Swappare indici e colonne di un *DataFrame*

In [32]:
df = pd.DataFrame(data = {
     "state":      ["California", "Texas", "New York", "Florida", "Illinois"],
     "population": [38, 26, 19, 19, 12],
     "area":       [42, 69, 14, 17, 15]})
df

Unnamed: 0,state,population,area
0,California,38,42
1,Texas,26,69
2,New York,19,14
3,Florida,19,17
4,Illinois,12,15


In [33]:
df.T

Unnamed: 0,0,1,2,3,4
state,California,Texas,New York,Florida,Illinois
population,38,26,19,19,12
area,42,69,14,17,15


---

<a id="cut-qcut"></a>
## Creare una categorica con *cut* e *qcut*

In [34]:
# N.B. 5 bins = 6 bin edges, 5 bins = 5 bin labels
# Sempre include_lowest = True, altrimenti il minimo non è incluso

df = tips.copy()
df["tips_bin"] = pd.cut(x = tips["tip"],
                        bins = [0, 2, 4, 6, 8, 10],
                        right = True,
                        include_lowest = True,
                        labels = ["xs", "s", "m", "l", "xl"])

In [35]:
# Possiamo già avere informazioni sulla densità della distribuzione

df.tips_bin.value_counts()

s     125
xs     78
m      34
l       5
xl      2
Name: tips_bin, dtype: int64

In [36]:
# Uso qcut per dividere direttamente in quantili, senza dover creare io gli edges
# Nel parametro "q" inseriamo 4 per i quartili, 10 per i decili e così via
# Uso anche retbins perché al contrario del cut semplice voglio capire quali sono i bin edges calcolati

df = tips.copy()
df["tips_bin"], tot_bill_bins = pd.qcut(x = tips["total_bill"],
                                        q = 4,
                                        retbins = True,
                                        labels = [
                                            "first_quartile",
                                            "second_quartile",
                                            "third_quartile",
                                            "fourth_quartile"])

In [37]:
# Ovviamente gli edges sono cinque perché includono anche il minimo e il massimo
# Il secondo elemento è il primo quartile, il terzo elemento è il secondo quartile e così via

tot_bill_bins

array([ 3.07  , 13.3475, 17.795 , 24.1275, 50.81  ])

In [38]:
# Non usando le labels il risultato sarebbe così

df = tips.copy()
df["tips_bin"] = pd.qcut(x = tips["total_bill"], q = 4)
df.tips_bin.value_counts()

(24.127, 50.81]     61
(17.795, 24.127]    61
(13.348, 17.795]    61
(3.069, 13.348]     61
Name: tips_bin, dtype: int64

In [39]:
# In alternativa, al parametro "q" posso passare dei quantili custom miei
# Come si vede dalla distro finale, rischio di sbagliare e non avere dei bin della stessa dimensione

df = tips.copy()
df["tips_bin"] = pd.qcut(x = tips["total_bill"], q = [0, 0.33, 0.66, 1])
df.tips_bin.value_counts()

(20.954, 50.81]     83
(3.069, 15.016]     81
(15.016, 20.954]    80
Name: tips_bin, dtype: int64

---

<a id="count-nulls"></a>
# Contare i Null

In [40]:
df = pd.DataFrame([[1, np.nan, 2], [2, 3, 5],
                   [None, 4, 6], [np.nan, np.nan, np.nan]])
df

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


In [41]:
# Ci sono cinque valori nulli!

np.sum(df.isnull()).sum()

5

---

<a id="null-rows"></a>
# Estrarre le righe che contengono valori nulli

In [42]:
df = pd.DataFrame([[1, np.nan, 2], [2, 3, 5],
                   [None, 4, 6], [np.nan, np.nan, np.nan]])
df

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


In [43]:
# Ecco il df contenente solo le righe con almeno un valore nullo

df[df.isnull().any(axis = 1)]

Unnamed: 0,0,1,2
0,1.0,,2.0
2,,4.0,6.0
3,,,


In [44]:
# Quante righe hanno almeno un valore nullo?

len(df[df.isnull().any(axis = 1)])

3

---

<a id="not-null-rows"></a>
# Estrarre le righe che non contengono valori nulli

In [45]:
df = pd.DataFrame([[1, np.nan, 2], [2, 3, 5],
                   [None, 4, 6], [np.nan, np.nan, np.nan]])
df

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


In [46]:
# Solo una riga si salva!

df[df.notnull().all(axis = 1)]

Unnamed: 0,0,1,2
1,2.0,3.0,5.0


In [47]:
# Quante righe hanno almeno un valore nullo?

len(df[df.notnull().all(axis = 1)])

1

---

<a id="null-cols"></a>
# Estrarre le colonne che contengono valori nulli

In [48]:
df = pd.DataFrame([[1, np.nan, 2, 7, np.nan], [2, 3, 5, 8, np.nan],
                   [None, 4, 6, 9, np.nan], [np.nan, np.nan, np.nan, 10, np.nan]])
df

Unnamed: 0,0,1,2,3,4
0,1.0,,2.0,7,
1,2.0,3.0,5.0,8,
2,,4.0,6.0,9,
3,,,,10,


In [49]:
# Quante colonne hanno almeno un valore nullo?

len(df.columns[df.isnull().any()])

4

In [50]:
# Quante colonne hanno tutti valori nulli?

len(df.columns[df.isnull().all()])

1

In [51]:
# Selezioniamo solo le colonne con almeno un nullo

df.loc[:, df.isnull().any()]

Unnamed: 0,0,1,2,4
0,1.0,,2.0,
1,2.0,3.0,5.0,
2,,4.0,6.0,
3,,,,


In [52]:
# Selezioniamo solo le colonne con tutti valori nulli

df.loc[:, df.isnull().all()]

Unnamed: 0,4
0,
1,
2,
3,


---

<a id="not-null-cols"></a>
# Estrarre le colonne che non contengono valori nulli

In [53]:
df = pd.DataFrame([[1, np.nan, 2, 7, np.nan], [2, 3, 5, 8, np.nan],
                   [None, 4, 6, 9, np.nan], [np.nan, np.nan, np.nan, 10, np.nan]])
df

Unnamed: 0,0,1,2,3,4
0,1.0,,2.0,7,
1,2.0,3.0,5.0,8,
2,,4.0,6.0,9,
3,,,,10,


In [54]:
# Quante colonne non hanno alcun valore nullo?

len(df.columns[df.notnull().all()])

1

In [55]:
# Selezioniamo solo le colonne senza valori nulli

df.loc[:, df.notnull().all()]

Unnamed: 0,3
0,7
1,8
2,9
3,10


---

<a id="dropna-rows"></a>
# Eliminare tutte le righe con valori nulli

In [56]:
df = pd.DataFrame([[1, np.nan, 2, 7], [2, 3, 5, 8],
                   [None, 4, 6, 9], [np.nan, np.nan, np.nan, 10]])
df

Unnamed: 0,0,1,2,3
0,1.0,,2.0,7
1,2.0,3.0,5.0,8
2,,4.0,6.0,9
3,,,,10


In [57]:
df.dropna(axis = 0, inplace = True)
df

Unnamed: 0,0,1,2,3
1,2.0,3.0,5.0,8


---

<a id="dropna-cols"></a>
# Eliminare tutte le colonne con valori nulli

In [58]:
df = pd.DataFrame([[1, np.nan, 2, 7], [2, 3, 5, 8],
                   [None, 4, 6, 9], [np.nan, np.nan, np.nan, 10]])
df

Unnamed: 0,0,1,2,3
0,1.0,,2.0,7
1,2.0,3.0,5.0,8
2,,4.0,6.0,9
3,,,,10


In [59]:
df.dropna(axis = 1, inplace = True)
df

Unnamed: 0,3
0,7
1,8
2,9
3,10


---

<a id="fillna"></a>
# Sostituire i valori nulli con delle costanti

In [60]:
df = pd.DataFrame([[1, np.nan, 2, 7], [2, 3, 5, 8],
                   [None, 4, 6, 9], [np.nan, np.nan, np.nan, 10]])
df

Unnamed: 0,0,1,2,3
0,1.0,,2.0,7
1,2.0,3.0,5.0,8
2,,4.0,6.0,9
3,,,,10


In [61]:
df.fillna(999, inplace = True)
df

Unnamed: 0,0,1,2,3
0,1.0,999.0,2.0,7
1,2.0,3.0,5.0,8
2,999.0,4.0,6.0,9
3,999.0,999.0,999.0,10


---

<a id="not-null-describe"></a>
# Analisi delle variabili numeriche escludendo i nulli

In [62]:
tips.dropna().describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


---

<a id="df-concat"></a>
# Concatenare *DataFrame* per righe o per colonne

In [63]:
# Funzioni di supporto

def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

class display(object):
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_()) for a in self.args)
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a)) for a in self.args)

In [64]:
df1 = make_df("AB", [1, 2])
df2 = make_df("AB", [3, 4])

In [65]:
# Usando concat con asse zero mi permette di unire i df per righe
# In questo caso il risultato è ottimo perché i due df hanno già le stesse colonne e indici diversi

display("df1", "df2", "pd.concat([df1, df2], axis = 0)")

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [66]:
df1 = make_df("AB", [1, 2])
df2 = make_df("AB", [3, 4])

In [67]:
# Se concateno per colonne il risultato non è così buono
# Ci sono colonne duplicate e indici diversi, che portano alla creazione di NaNs

display("df1", "df2", "pd.concat([df1, df2], axis = 1)")

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B,A.1,B.1
1,A1,B1,,
2,A2,B2,,
3,,,A3,B3
4,,,A4,B4


In [68]:
df1 = make_df("AB", [0, 1])
df2 = make_df("CD", [0, 1])

In [69]:
# In questo esempio va meglio, perché ho già colonne tutte diverse ed indici uguali

display("df1", "df2", "pd.concat([df1, df2], axis = 1)")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,C,D
0,C0,D0
1,C1,D1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


In [70]:
df1 = make_df("AB", [0, 1])
df2 = make_df("AB", [2, 3])

In [71]:
# Faccio in modo che gli indici coincidano

df2.index = df1.index

# Concatenando per righe ho indici ripetuti, il che può essere un problema

display("df1", "df2", "pd.concat([df1, df2], axis = 0)")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


In [72]:
# Risolvo utilizzando ignore_index!

display("df1", "df2", "pd.concat([df1, df2], axis = 0, ignore_index = True)")

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,A,B
0,A2,B2
1,A3,B3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [73]:
df1 = make_df("ABC", [1, 2])
df2 = make_df("BCD", [3, 4])

In [74]:
# Se concateno per righe duedf con alcune colonne in comune ed altre diverse, avrò dei NaN

display("df1", "df2", "pd.concat([df1, df2], axis = 0)")

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


In [75]:
# Posso usare il parametro join, indicando "inner", per forzare la concatenazione solo sulle colonne in comune
# In questo modo sono sicuro di non avere NaN nel risultato

display("df1", "df2", "pd.concat([df1, df2], join = 'inner')")

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


---

<a id="df-join"></a>
# Join su *DataFrame*

In [76]:
df1 = pd.DataFrame({"employee": ["Bob", "Jake", "Lisa", "Sue"],
                    "group": ["Accounting", "Engineering", "Engineering", "HR"]})

df2 = pd.DataFrame({"employee": ["Lisa", "Bob", "Jake", "Sue"],
                    "hire_date": [2004, 2008, 2012, 2014]})

df3 = pd.DataFrame({"name": ["Bob", "Jake", "Lisa", "Sue"],
                    "salary": [70000, 80000, 120000, 90000]})

In [77]:
# Esempio semplice in cui la colonna di join ha lo stesso nome

display("df1", "df2", "pd.merge(df1, df2, on='employee')")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [78]:
# Esempio con colonna di join dal nome differente
# E' necessario l'utilizzo di left_on e right_on

display("df1", "df3", "pd.merge(df1, df3, left_on='employee', right_on='name')")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [79]:
# Notiamo che quando usiamo left_on e right_on avremo una colonna duplicata
# Possiamo eliminarla con drop indicando la colonna di right_on

display("df1", "df3", "pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis = 1)")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [80]:
df1 = pd.DataFrame({"name": ["Peter", "Paul", "Mary"],
                    "food": ["fish", "beans", "bread"]},
                   columns=["name", "food"])

df2 = pd.DataFrame({"name": ["Mary", "Joseph"],
                    "drink": ["wine", "beer"]},
                   columns=["name", "drink"])

In [81]:
# Inner Join! Da notare che non ho specificato chiavi di join

display("df1", "df2", "pd.merge(df1, df2, how='inner')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [82]:
# Outer Join! Notiamo l'aggiunta del nuovo nome Joseph e del drink wine associato a Mary
# della quale già conoscevamo il food

display("df1", "df2", "pd.merge(df1, df2, how='outer')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [83]:
# Left Join! Riesco solo ad associare wine a Mary

display("df1", "df2", "pd.merge(df1, df2, how='left')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


In [84]:
# Right Join! Riesco solo ad associare bread a Mary

display("df1", "df2", "pd.merge(df1, df2, how='right')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer


In [85]:
df1 = pd.DataFrame({"name": ["Bob", "Jake", "Lisa", "Sue"],
                    "rank": [1, 2, 3, 4]})

df2 = pd.DataFrame({"name": ["Bob", "Jake", "Lisa", "Sue"],
                    "rank": [3, 1, 4, 2]})

In [86]:
# Uso suffixes per dare dei suffissi più parlanti alle colonne che presentano stesso nome
# e non fanno parte della chiave di join

display("df1", "df2", "pd.merge(df1, df2, on = 'name', suffixes = ['_L', '_R'])")

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2

Unnamed: 0,name,rank_L,rank_R
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


---

<a id="basic-groupby-agg"></a>
# Basic Groupby + Aggregation

In [87]:
# Semplice count di una categorica

tips.groupby("day").size()

day
Thur    62
Fri     19
Sat     87
Sun     76
dtype: int64

In [88]:
# Media di una numerica raggruppata per categorica
# Qui possiamo utilizzare tutte le aggregazioni numeriche come median, sum, ecc.

tips.groupby("day").mean()

Unnamed: 0_level_0,total_bill,tip,size
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,17.682742,2.771452,2.451613
Fri,17.151579,2.734737,2.105263
Sat,20.441379,2.993103,2.517241
Sun,21.41,3.255132,2.842105


In [89]:
# Se voglio isolare una sola numerica...

tips.groupby("day")["tip"].mean()

day
Thur    2.771452
Fri     2.734737
Sat     2.993103
Sun     3.255132
Name: tip, dtype: float64

---

<a id="groupby-describe"></a>
# Groupby + Describe

In [90]:
tips.groupby("day")["tip"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Thur,62.0,2.771452,1.240223,1.25,2.0,2.305,3.3625,6.7
Fri,19.0,2.734737,1.019577,1.0,1.96,3.0,3.365,4.73
Sat,87.0,2.993103,1.631014,1.0,2.0,2.75,3.37,10.0
Sun,76.0,3.255132,1.23488,1.01,2.0375,3.15,4.0,6.5


---

<a id="groupby-agg"></a>
# Groupby + Multiple Aggregations

In [91]:
# Ad aggregate posso passare una lista di stringhe o di funzioni (quindi anche custom!)

tips.groupby("day").aggregate(["min", np.median, max])

Unnamed: 0_level_0,total_bill,total_bill,total_bill,tip,tip,tip,size,size,size
Unnamed: 0_level_1,min,median,max,min,median,max,min,median,max
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Thur,7.51,16.2,43.11,1.25,2.305,6.7,1,2,6
Fri,5.75,15.38,40.17,1.0,3.0,4.73,1,2,4
Sat,3.07,18.24,50.81,1.0,2.75,10.0,1,2,5
Sun,7.25,19.63,48.17,1.01,3.15,6.5,2,2,6


In [92]:
# Focus solo su una colonna numerica

tips.groupby("day")["total_bill"].aggregate(["min", np.median, max])

Unnamed: 0_level_0,min,median,max
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,7.51,16.2,43.11
Fri,5.75,15.38,40.17
Sat,3.07,18.24,50.81
Sun,7.25,19.63,48.17


In [93]:
# Esempio con funzione di aggregazione custom!

def custom_sum(x):
    return np.sum(x.dropna())

tips.groupby("day")["total_bill"].aggregate(["sum", custom_sum])

Unnamed: 0_level_0,sum,custom_sum
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,1096.33,1096.33
Fri,325.88,325.88
Sat,1778.4,1778.4
Sun,1627.16,1627.16


In [94]:
# Esiste anche questa possibilità per dare direttamente nomi alle colonne
# Non molto utile per ora, perché potremmo anche chiamare solo min & max
# E cambiare il nome delle colonne in seguito

tips.groupby("day").aggregate(
    min_tot_bill_per_day = pd.NamedAgg(column = "total_bill", aggfunc=np.min),
    max_tot_bill_per_day = pd.NamedAgg(column = "total_bill", aggfunc=np.max))

Unnamed: 0_level_0,min_tot_bill_per_day,max_tot_bill_per_day
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,7.51,43.11
Fri,5.75,40.17
Sat,3.07,50.81
Sun,7.25,48.17


---

<a id="groupby-filter"></a>
# Groupby + Filter

In [95]:
# Mostriamo la media delle numeriche raggruppate per giorno

tips.groupby("day").mean()

Unnamed: 0_level_0,total_bill,tip,size
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,17.682742,2.771452,2.451613
Fri,17.151579,2.734737,2.105263
Sat,20.441379,2.993103,2.517241
Sun,21.41,3.255132,2.842105


In [96]:
# Questa funzione agisce sulle osservazioni che compongono un gruppo
# Non sulle istanze singole del df

def remove_low_means(x):
    return x["total_bill"].mean() > 20

In [97]:
# Il groupby mi permette di creare dei sub_df a partire dal df
# Passo ciascuno dei sub_df alla funzione di filtering
# Il df totale restituito contiene solo le istanze dei gruppi la cui media di total_bill è superiore a 20

tips.groupby("day").filter(remove_low_means)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
238,35.83,4.67,Female,No,Sat,Dinner,3
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2


In [98]:
# Notiamo come il filtro ci abbia portato semplicemente ad isolare i Sabati e le Domeniche

tips.groupby("day").filter(remove_low_means).day.unique()

['Sun', 'Sat']
Categories (2, object): ['Sun', 'Sat']

---

<a id="groupby-transform"></a>
# Groupby + Transform

In [99]:
# Mostriamo la media delle numeriche raggruppate per giorno

tips.groupby("day").mean()

Unnamed: 0_level_0,total_bill,tip,size
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thur,17.682742,2.771452,2.451613
Fri,17.151579,2.734737,2.105263
Sat,20.441379,2.993103,2.517241
Sun,21.41,3.255132,2.842105


In [100]:
# Sottraggo a ciascuna colonna il valore medio della colonna stessa
# però calcolato sul giorno a cui l'istanza fa riferimento

# Ad esempio, alla riga "0" ho sottratto i valori medi di "Sun"
# Perché tale riga ha "day" valorizzato a "Sun"

tips.groupby("day").transform(lambda x: x - x.mean())

Unnamed: 0,total_bill,tip,size
0,-4.420000,-2.245132,-0.842105
1,-11.070000,-1.595132,0.157895
2,-0.400000,0.244868,0.157895
3,2.270000,0.054868,-0.842105
4,3.180000,0.354868,1.157895
...,...,...,...
239,8.588621,2.926897,0.482759
240,6.738621,-0.993103,-0.517241
241,2.228621,-0.993103,-0.517241
242,-2.621379,-1.243103,-0.517241


---

<a id="groupby-apply"></a>
# Groupby + Apply

In [101]:
# Divido i valori delle numeriche per il loro massimo

def normalize(x):
    x["total_bill"] /= np.max(x["total_bill"])
    x["tip"] /= np.max(x["tip"])
    return x

tips.groupby("day").apply(normalize)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,0.352709,0.155385,Female,No,Sun,Dinner,2
1,0.214656,0.255385,Male,No,Sun,Dinner,3
2,0.436164,0.538462,Male,No,Sun,Dinner,3
3,0.491592,0.509231,Male,No,Sun,Dinner,2
4,0.510484,0.555385,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,0.571344,0.592000,Male,No,Sat,Dinner,3
240,0.534934,0.200000,Female,Yes,Sat,Dinner,2
241,0.446172,0.200000,Male,Yes,Sat,Dinner,2
242,0.350718,0.175000,Male,No,Sat,Dinner,2


---

<a id="groupby-to-df"></a>
# Trasformare Groupby in *DataFrame*

In [102]:
data = tips.groupby("day")["total_bill"].aggregate(np.mean)
data

day
Thur    17.682742
Fri     17.151579
Sat     20.441379
Sun     21.410000
Name: total_bill, dtype: float64

In [103]:
data = pd.DataFrame({data.index.name: data.index,
                     data.name: data.values})
data

Unnamed: 0,day,total_bill
0,Thur,17.682742
1,Fri,17.151579
2,Sat,20.441379
3,Sun,21.41


In [104]:
data = tips.groupby(["day","smoker"])["total_bill"].aggregate(np.mean)
data

day   smoker
Thur  Yes       19.190588
      No        17.113111
Fri   Yes       16.813333
      No        18.420000
Sat   Yes       21.276667
      No        19.661778
Sun   Yes       24.120000
      No        20.506667
Name: total_bill, dtype: float64

In [105]:
data.reset_index()

Unnamed: 0,day,smoker,total_bill
0,Thur,Yes,19.190588
1,Thur,No,17.113111
2,Fri,Yes,16.813333
3,Fri,No,18.42
4,Sat,Yes,21.276667
5,Sat,No,19.661778
6,Sun,Yes,24.12
7,Sun,No,20.506667


---

<a id="basic-pivots"></a>
# Basic Pivot Tables

In [106]:
# Con values indico la colonna focus della pivot
# Con index e columns indico le colonna di raggruppamento
# Da notare come la funzione di aggregazione implicita della pivot sia la mean

titanic.pivot_table(values = "survived",
                    index = "sex",
                    columns = "class",
                    margins = True)

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


In [107]:
# Pivot quadri-dimensionale con due categoriche custom costruite da delle numeriche

age_bins = pd.cut(titanic["age"], [0, 18, 80])
fare_bins = pd.qcut(titanic["fare"], q = 2)

titanic.pivot_table(values = "survived",
                    index = ["sex", age_bins],
                    columns = [fare_bins, "class"],
                    fill_value = 0,
                    dropna = True)

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",0,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",0,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",0,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0,0.098039,0.125,0.391304,0.030303,0.192308


In [108]:
# Al posto di usare il parametro "values" uso "aggfunc"
# Così posso analizzare due colonne e assegnare a ciascuna
# l'aggregazione d'interesse

titanic.pivot_table(index = "sex",
                    columns = "class",
                    aggfunc = {"survived": np.sum,
                               "fare": np.mean})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


---