# Pandas 1

In [1]:
import pandas as pd
import numpy as np

### Creare una serie
Proviamo a creare una serie pandas utilizzando dei numeri casuali generati con la libreria numpy. <br>
Utilizziamo la proprietà random, con cui è possibile generare numeri pseudocasuali: specificando il medesimo seed è possibile generare sempre gli stessi numeri pseudocasuali (in questo caso utilizziamo sempre "1" come seed).

In [2]:
np.random.seed(1)
s = pd.Series(np.random.randn(100))

In [3]:
s.head(21) # restituisce i primi 21 valori della serie (da 0 a 20)

0     1.624345
1    -0.611756
2    -0.528172
3    -1.072969
4     0.865408
5    -2.301539
6     1.744812
7    -0.761207
8     0.319039
9    -0.249370
10    1.462108
11   -2.060141
12   -0.322417
13   -0.384054
14    1.133769
15   -1.099891
16   -0.172428
17   -0.877858
18    0.042214
19    0.582815
20   -1.100619
dtype: float64

In [4]:
s[2] # restituisce il terzo elemento della serie (le serie sono indicizzate a partire da 0)

-0.5281717522634557

In [5]:
s[[2,5,20]] # è possibile passare tra le quadre un array di posizioni per far restituire soltanto le posizioni di interesse

2    -0.528172
5    -2.301539
20   -1.100619
dtype: float64

In [6]:
s[3:8] # restituisce gli elementi compresi tra le posizioni specificate (estremo finale escluso)

3   -1.072969
4    0.865408
5   -2.301539
6    1.744812
7   -0.761207
dtype: float64

In [7]:
s.tail(10) # restituisce gli ultimi 10 elementi della serie

90    1.198918
91    0.185156
92   -0.375285
93   -0.638730
94    0.423494
95    0.077340
96   -0.343854
97    0.043597
98   -0.620001
99    0.698032
dtype: float64

In [8]:
s.index # proprietà che permette di conoscere come la serie è indicizzata

RangeIndex(start=0, stop=100, step=1)

In [9]:
s.values # proprietà che elenca i valori della serie in un array

array([ 1.62434536, -0.61175641, -0.52817175, -1.07296862,  0.86540763,
       -2.3015387 ,  1.74481176, -0.7612069 ,  0.3190391 , -0.24937038,
        1.46210794, -2.06014071, -0.3224172 , -0.38405435,  1.13376944,
       -1.09989127, -0.17242821, -0.87785842,  0.04221375,  0.58281521,
       -1.10061918,  1.14472371,  0.90159072,  0.50249434,  0.90085595,
       -0.68372786, -0.12289023, -0.93576943, -0.26788808,  0.53035547,
       -0.69166075, -0.39675353, -0.6871727 , -0.84520564, -0.67124613,
       -0.0126646 , -1.11731035,  0.2344157 ,  1.65980218,  0.74204416,
       -0.19183555, -0.88762896, -0.74715829,  1.6924546 ,  0.05080775,
       -0.63699565,  0.19091548,  2.10025514,  0.12015895,  0.61720311,
        0.30017032, -0.35224985, -1.1425182 , -0.34934272, -0.20889423,
        0.58662319,  0.83898341,  0.93110208,  0.28558733,  0.88514116,
       -0.75439794,  1.25286816,  0.51292982, -0.29809284,  0.48851815,
       -0.07557171,  1.13162939,  1.51981682,  2.18557541, -1.39

È possibile decidiere di indicizzare una serie in maniera diversa da quella default

In [10]:
s2 = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])
s2

a    1
b    2
c    3
d    4
dtype: int64

Anche a partire da un dizionario chiave:valore può essere creata una serie, in cui la chiave di ciascun elemento del dizionario corrisponderà all'indice di tale elemento nella serie

In [11]:

s3 = pd.Series({'a':1, 'b':2, 'c':3, 'd':4})

Il numero di elementi di una serie può essere determinato utilizzando la funzione `len()`.

In [12]:
s = pd.Series([10,0,1,1,2,3,4,5,6,np.nan])
s

0    10.0
1     0.0
2     1.0
3     1.0
4     2.0
5     3.0
6     4.0
7     5.0
8     6.0
9     NaN
dtype: float64

In [13]:
len(s)

10

Un altro modo per determinare la dimensione di una serie è utilizzare la proprietà `shape` che restituisce una tupla con le dimensioni, numero righe e numero colonne.<br>
Nel caso di una serie avente una sola dimensione, si ottiene una tupla contenente un solo valore.

In [14]:
s.shape

(10,)

Nella serie di esempio abbiamo un valore che non è un numero (np.nan): per contare solo i valori numerici si utilizza il metodo `count()`.

In [15]:
s.count()

9

Per conoscere invece i valori unici di una serie si utilizza il metodo `unique()`.

In [16]:
s.unique()

array([10.,  0.,  1.,  2.,  3.,  4.,  5.,  6., nan])

E per contare invece il numero di volte in cui appaiono tali valori unici nella serie si usa il metodo `value_counts()`, il quale restituisce i valori già ordinati in ordine decrescente.

In [17]:
s.value_counts()

1.0     2
10.0    1
0.0     1
2.0     1
3.0     1
4.0     1
5.0     1
6.0     1
Name: count, dtype: int64

__NB__: una differenza fondamentale fra gli array di Numpy e le serie di Pandas è che le serie sono in grado di effettuare l'allineamento automatico sulla base dell'etichette poste come indici; questo significa che gli elementi appartenenti a due diverse serie vengono fatti corrispondere sulla base dell'etichetta, non sulla base della sola posizione come invece avviene negli array Numpy.

In [18]:
s3 = pd.Series([1,2,3,4], index = ['a','b','c','d'])

In [19]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [20]:
s4 = pd.Series([4,3,2,1], index = ['d','c','b','a'])
s4

d    4
c    3
b    2
a    1
dtype: int64

Avendo gli stessi indici è possibile sommare le due serie, ottenendo una nuova serie contenente in ciascun elemento la somma degli elementi delle due serie sommate. <br>
__NB__: nonostante le etichette siano state assegnate agli indici in un ordine differente nelle due serie, la somma avviene comunque facendo combaciare tali etichette.

In [21]:
s3 + s4

a    2
b    4
c    6
d    8
dtype: int64

Negli array Numpy invece, l'operazione viene effettuata solo sulla base della posizione: sommare due array significa quindi ottenere un nuovo array dove ciascun elemento è dato dalla somma degli elementi posti in nella medesima posizione nei due array.

In [22]:
np3 = np.array([1,2,3,4])
np4 = np.array([4,3,2,1])

In [23]:
np3 + np4

array([5, 5, 5, 5])

### Creare un dataframe

Un DataFrame può essere creato combinando diversi array Numpy.

In [24]:
pd.DataFrame(np.array([[10,11],[20,21],[30,31]]))

Unnamed: 0,0,1
0,10,11
1,20,21
2,30,31


Se non si specificano i valori degli indici e i nomi delle colonne, Pandas utilizza numeri interi.

Un DataFrame può anche essere creato combinando diverse serie Pandas.

In [25]:
df1 = pd.DataFrame([pd.Series(np.arange(10,15)),
                   pd.Series(np.arange(15,20))])
df1

Unnamed: 0,0,1,2,3,4
0,10,11,12,13,14
1,15,16,17,18,19


Per conoscere le dimensioni di un DataFrame è possibile nuovamente fare uso della proprietà `shape`. <br>
__NB__: un DataFrame ha solo due dimensioni, quindi `shape` restituisce sempre una tupla del tipo (numero_righe, numero_colonne).

In [26]:
df1.shape

(2, 5)

Per associare un nome alle colonne si fa uso del parametro `columns`.

In [27]:
df = pd.DataFrame(np.array([[10,11],[20,21],[30,31]]), columns = ['a','b'])
df

Unnamed: 0,a,b
0,10,11
1,20,21
2,30,31


E per conoscere il nome delle colonne di un DataFrame si usa l'omonima proprietà.

In [28]:
df.columns

Index(['a', 'b'], dtype='object')

__NB__: è possibile sovrascrivere i nomi delle colonne di un DataFrame assegnando i nuovi nomi alla sua proprietà `columns`.

In [29]:
df.columns = ['c1', 'c2']
df

Unnamed: 0,c1,c2
0,10,11
1,20,21
2,30,31


__NB__: vale lo stesso identico discorso per le righe, questa volta usando la proprietà `index`.

In [30]:
df.index = ['r1', 'r2', 'r3']
df

Unnamed: 0,c1,c2
r1,10,11
r2,20,21
r3,30,31


La proprietà `index` serve anche per conoscere i nomi degli indici del DataFrame.

In [31]:
df.index

Index(['r1', 'r2', 'r3'], dtype='object')

### Esempi

Creiamo un DataFrame partendo da un file csv che contiene dati sulle 500 società che costituiscono l'indice della borsa americana Standard & Poors 500.<br>
Con il parametro `index_col` specifichiamo quale colonna del file csv dovrà rappresentare l'indice del DataFrame che stiamo creando: in questo caso scegliamo la colonna "Symbol", che contiene i tickers dei titoli.

In [32]:
sp500 = pd.read_csv("sp500.csv", index_col='Symbol')

In [33]:
sp500.shape # dimensioni del dataframe: 500 righe e 14 colonne

(500, 14)

In [34]:
sp500.index # indici del dataframe, ovvero i tickers dei titoli

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

In [35]:
sp500.columns

Index(['Name', 'Sector', 'Price', 'Dividend Yield', 'Price/Earnings',
       'Earnings/Share', 'Book Value', '52 week low', '52 week high',
       'Market Cap', 'EBITDA', 'Price/Sales', 'Price/Book', 'SEC Filings'],
      dtype='object')

Per ora ci interessano solo alcune colonne: per filtrarle possiamo agire in due modi. <br>
Il primo modo è leggere il file csv indicando quali colonne ci interessano con il parametro `usecols`.

In [36]:
sp500_1 = pd.read_csv("sp500.csv", index_col='Symbol', usecols = [0, 2, 3])

In [37]:
sp500_1.head(10)

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
ABT,Health Care,39.6
ABBV,Health Care,53.95
ACN,Information Technology,79.79
ACE,Financials,102.91
ACT,Health Care,213.77
ADBE,Information Technology,64.3
AES,Utilities,13.61
AET,Health Care,76.39
AFL,Financials,61.31


In [38]:
sp500_2 = sp500[['Sector','Price','Book Value']]

In [39]:
sp500_2.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


Possiamo anche usare la proprietà `iloc` che consente di specificare quali righe e colonne si vuole selezionare all'interno del DataFrame: nel nostro caso vogliamo selezionare tutte le righe (e specifichiamo `:` alla proprietà proprio per dire questo) e vogliamo selezionare le sole colonne nelle posizioni 1, 2 e 6.

In [40]:
sp500_3 = sp500.iloc[:,[1,2,6]] # la sintassi è iloc[righe, colonne]

In [41]:
sp500_3

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
...,...,...,...
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZMH,Health Care,101.84,37.181
ZION,Financials,28.43,30.191


__NB__: i DataFrame creati fino a questo momento non sono nuovi DataFrame, ma sono soltanto viste che fanno riferimento a quello originale; per creare effettivamente un nuovo DataFrame occorre invocare il metodo `copy()`.

In [42]:
sp500_4 = sp500.iloc[:,[1,2,6]].copy()

Le colonne di un DataFrame di Pandas altro non sono che delle serie, motivo per cui è possibile estrapolare una serie a partire da una colonna di un DataFrame (questo però è possibile soltanto se il nome della colonna è privo di spazi).

In [43]:
sp500.Price

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

In [44]:
sp500.BookValue # errore, perché il nome della colonna è Book Value (con lo spazio)

AttributeError: 'DataFrame' object has no attribute 'BookValue'

### Selezionare righe in un DataFrame

Per selezionare determinate righe in un DataFrame ci sono tre modi:
- individuare una fetta di DataFrame ("slicing") con []
- cercare gli elementi sulla base dell'etichetta o del numero indice con gli operatori `loc` e `iloc`
- ricerca scalare con gli operatori `at` e `iat`

L'utilizzo dell'operatore [] va bene per selezionare elementi di una serie, tuttavia è sconsigliato (fatto salvo per casi particolari) per selezionare righe di un DataFrame.

Selezione delle prime tre righe utilizzando l'operatore []:

In [None]:
sp500_1[:3] # la sintassi è [start:end] dove l'indice di inizio è omesso in questo caso (di default si parte da indice 0)

Selezione delle righe che vanno da XYL a YUM utilizzando l'operatore []:

In [45]:
sp500_1['XYL':'YUM']

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
XYL,Industrials,38.42
YHOO,Information Technology,35.02
YUM,Consumer Discretionary,74.77


Selezione utilizzando `loc[]` e `iloc[]`:
- `loc` basa la selezione sull'etichetta 
- `iloc` basa la selezione sull'indice (di posizione)

In [46]:
sp500_1.loc['MMM']

Sector    Industrials
Price          141.14
Name: MMM, dtype: object

In [47]:
sp500_1.loc[['MMM','MSFT']]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
MSFT,Information Technology,40.12


__NB__: scrivendo ad esempio `sp500_1.loc[3]` si sta chiedendo di selezionare la riga avente come _etichetta_ 3, non la riga in _posizione_ 3.

In [48]:
sp500_1.iloc[[0,5]]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
ACT,Health Care,213.77


In [49]:
sp500_1.iloc[0:5]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
ABT,Health Care,39.6
ABBV,Health Care,53.95
ACN,Information Technology,79.79
ACE,Financials,102.91


Con il metodo `index.get_loc` si può sapere qual è il valore dell'indice (di posizione) associato a una specifica etichetta.

In [50]:
sp500_1.index.get_loc('MSFT')

302

In [51]:
i1 = sp500_1.index.get_loc('MMM')
i2 = sp500_1.index.get_loc('A')
i1, i2

(0, 10)

In [52]:
sp500_1.iloc[[i1,i2]]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
A,Health Care,56.18


Ricerca scalare utilizzando `at[]` e `iat[]`:
- `at[]` effettua la ricerca sulla base delle etichette di riga e colonna specificate
- `iat[]` effettua la ricerca sulla base degli indici numerici di posizione di riga e colonna specificati

In [53]:
sp500_1.head()

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,Industrials,141.14
ABT,Health Care,39.6
ABBV,Health Care,53.95
ACN,Information Technology,79.79
ACE,Financials,102.91


In [54]:
sp500_1.at['MMM', 'Sector']

'Industrials'

In [55]:
sp500_1.iat[0,1]

141.14

C'è anche la possibilità di effettuare una selezione che comprenda soltanto le righe che soddisfano una determinata condizione booleana.

In [56]:
sp500_1[sp500_1.Price < 20]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
AES,Utilities,13.61
AA,Materials,13.52
AVP,Consumer Staples,14.14
BAC,Financials,14.72
BEAM,Consumer Discretionary,0.0
BSX,Health Care,12.83
CVC,Consumer Discretionary,17.45
CLF,Materials,16.34
DNR,Energy,16.71
F,Consumer Discretionary,16.02


Le ricerche poi possono diventare anche più dettagliate, combinando condizioni booleani e altre tipologie di selezione.

In [57]:
sp500_1[(sp500_1.Price < 20) & (sp500_1.Price > 10)][['Sector','Price']]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
AES,Utilities,13.61
AA,Materials,13.52
AVP,Consumer Staples,14.14
BAC,Financials,14.72
BSX,Health Care,12.83
CVC,Consumer Discretionary,17.45
CLF,Materials,16.34
DNR,Energy,16.71
F,Consumer Discretionary,16.02
GNW,Financials,17.28


### Operazioni su DataFrame

Le operazioni aritmetiche che coinvolgono il DataFrame ed uno scalare vengono effettuate su tutte le celle del DataFrame.

In [58]:
np.random.seed(123456)

In [59]:
df = pd.DataFrame(np.random.randn(5,4), columns = ['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,0.469112,-0.282863,-1.509059,-1.135632
1,1.212112,-0.173215,0.119209,-1.044236
2,-0.861849,-2.104569,-0.494929,1.071804
3,0.721555,-0.706771,-1.039575,0.27186
4,-0.424972,0.56702,0.276232,-1.087401


In [60]:
df*2 # ogni valore presente nelle celle del DataFrame viene moltiplicato per 2

Unnamed: 0,A,B,C,D
0,0.938225,-0.565727,-3.018117,-2.271265
1,2.424224,-0.346429,0.238417,-2.088472
2,-1.723698,-4.209138,-0.989859,2.143608
3,1.44311,-1.413542,-2.07915,0.54372
4,-0.849945,1.134041,0.552464,-2.174801


Si possono effettuare operazioni sul DataFrame a partire dai valori contenuti in una sua riga.

In [61]:
df - df.iloc[0] # ad ogni riga del DataFrame sottrai i valori contenuti nella prima riga (facendo corrispondere le celle)

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,0.743,0.109649,1.628267,0.091396
2,-1.330961,-1.821706,1.014129,2.207436
3,0.252443,-0.423908,0.469484,1.407492
4,-0.894085,0.849884,1.785291,0.048232


Nel caso in cui si voglia effettuare operazioni a partire dai valori contenuti in una porzione del DataFrame, è possibile creare un nuovo DataFrame che sia un "sotto-dataframe" di quello originale: per farlo, effettuiamo la selezione delle righe e colonne di interesse mediante l'operatore [].

In [62]:
subframe = df[1:4][['B','C']]
subframe

Unnamed: 0,B,C
1,-0.173215,0.119209
2,-2.104569,-0.494929
3,-0.706771,-1.039575


In [63]:
df - subframe # l'operazione viene effettuata solo dove ci sono valori da sottrarre, altrimenti rerstituisce NaN

Unnamed: 0,A,B,C,D
0,,,,
1,,0.0,0.0,
2,,0.0,0.0,
3,,0.0,0.0,
4,,,,


__NB__: il DataFrame `df` ha dimensioni 5x4, mentre il DataFrame `subframe` ha dimensioni 3x2; questo implica che per alcune celle di `df` non è presente il corrispondente valore di `subframe` da sottrarre, quindi il risultato è un DataFrame 5x4 in cui le celle dove non è stato possibile effettuare l'operazione contengono NaN (Not a Number).

Si possono anche effettuare operazioni che coinvolgono intere colonne.

In [64]:
a_col = df['A']

In [65]:
df.sub(a_col, axis=0) # sottrae il contenuto della colonna 'A' a tutte le altre colonne del DataFrame

Unnamed: 0,A,B,C,D
0,0.0,-0.751976,-1.978171,-1.604745
1,0.0,-1.385327,-1.092903,-2.256348
2,0.0,-1.24272,0.36692,1.933653
3,0.0,-1.428326,-1.76113,-0.449695
4,0.0,0.991993,0.701204,-0.662428


__NB__: il parametro `axis` consente di decidere lungo quale asse eseguire l'operazione: axis=0 significa "esegui l'operazione lungo l'asse delle righe", mentre axis=1 significa "esegui l'operazione lungo l'asse delle colonne". <br>
__PER CAPIRE__: con axis=0 agisco sulle colonne, con axis=1 agisco sulle righe.

### Reindicizzazione
Reindicizzare un DataFrame significa applicare delle modifiche alle etichette delle sue righe e/o colonne.

Il processo di reindicizzazione:
- riordina i dati per farli corrispondere a un nuovo insieme di etichette fornito
- inserisce NaN laddove viene inserita una nuova etichetta e quindi mancano dei dati
- inserisce NaN laddove mancano alcuni dati in celle appartenenti a etichette già esistenti

In [66]:
np.random.seed(1)
s = pd.Series(np.random.randn(5))
s.index = ['a','b','c','d','e']
s

a    1.624345
b   -0.611756
c   -0.528172
d   -1.072969
e    0.865408
dtype: float64

Il metodo `reindex()` permette di effettuare la reindicizzazione di una serie: utilizzandolo si può creare una nuova serie di lunghezza diversa.

In [67]:
s2 = s.reindex(['a','c','e','g']) # g è una nuova etichetta, ad essa corrisponderà valore NaN
s2

a    1.624345
c   -0.528172
e    0.865408
g         NaN
dtype: float64

In [68]:
s2['a']

1.6243453636632417

__NB__: come abbiamo detto, Pandas è in grado di far corrispondere le righe sulla base delle etichette/indici; bisogna però fare attenzione a fare in modo che gli indici siano nello stesso formato (ad esempio, l'indice numerico 1 è diverso dalla stringa '1').

In [69]:
s1 = pd.Series([0,1,2], index = [0,1,2])
s2 = pd.Series([3,4,5], index = ['0','1','2'])
s1+s2
# non effettua l'addizione gli indici perché i primi sono numeri interi e i secondi stringhe

0   NaN
1   NaN
2   NaN
0   NaN
1   NaN
2   NaN
dtype: float64

Con il metodo `astype` si possono fare le dovute conversioni di tipo.

In [70]:
s2.index = s2.index.values.astype(int)
s1+s2

0    3
1    5
2    7
dtype: int64

### Reindicizzare e inserire valori mancanti

In [71]:
s2 = s.copy()
s2.reindex(['a', 'f'], fill_value = 0) # i valori mancanti verranno rimpiazzati con il valore di default 0

a    1.624345
f    0.000000
dtype: float64

In [72]:
s3 = pd.Series(['red', 'green', 'blue'], index = [0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

Dopo aver passato le nuove etichette come primo parametro, al metodo `reindex()` è possibile specificare il metodo con cui deve procedere alla sostituzione dei valori mancanti. <br>
I due che vediamo noi sono:
- _forward fill_, in cui i valori mancanti sono sostituiti con il valore esattamente precedente nella serie (NaN se non presente)
- _backward fill_, in cui i valori mancanti sono sostiuiti con il valore esattamente successivo nella serie (NaN se non presente)

In [73]:
s3.reindex(np.arange(0,7), method = 'ffill') # inizia a riempire sostituendo i valori mancati dall'inizio verso la fine della serie

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object

In [74]:
s3.reindex(np.arange(0,7), method = 'bfill') # inizia a riempire sostituendo i valori mancanti dalla fine verso l'inizio della serie

0      red
1    green
2    green
3    green
4     blue
5     blue
6      NaN
dtype: object

### Riorganizzare e aggregare i dati

In [75]:
import datetime
import yfinance as yf # libreria per scaricare dati da yahoo finance

In [76]:
start = datetime.datetime(2012, 1, 1)
end = datetime.datetime(2012, 12, 30)

In [77]:
msft = yf.download('MSFT', start, end) # dati presi da yahoo finance relativi a microsoft anno 2012
aapl = yf.download('AAPL', start, end) # dati presi da yahoo finance relativi a apple anno 2012


[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed


In [78]:
msft.to_csv("msft.csv")
aapl.to_csv("aapl.csv")

In [79]:
msft.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,26.549999,26.959999,26.389999,26.77,21.238752,64731500
2012-01-04,26.82,27.469999,26.780001,27.4,21.738577,80516100
2012-01-05,27.379999,27.73,27.290001,27.68,21.960726,56081400
2012-01-06,27.530001,28.190001,27.530001,28.110001,22.30188,99455500
2012-01-09,28.049999,28.1,27.719999,27.74,22.008327,59706800


In [80]:
msft.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-12-21,27.450001,27.49,27.0,27.450001,22.394159,98776500
2012-12-24,27.200001,27.25,27.0,27.059999,22.075994,20842400
2012-12-26,27.030001,27.200001,26.700001,26.860001,21.912836,31631100
2012-12-27,26.889999,27.09,26.57,26.959999,21.994408,39394000
2012-12-28,26.709999,26.9,26.549999,26.549999,21.659929,28239900


In [81]:
msft = pd.read_csv("msft.csv", index_col = 0, parse_dates = True)
aapl = pd.read_csv("aapl.csv", index_col = 0, parse_dates = True)

In [82]:
msft[:3] # slicing dalla posizione 0 alla posizione 3 (esclusa), ovvero prendi i primi 3 elementi del DataFrame

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,26.549999,26.959999,26.389999,26.77,21.238752,64731500
2012-01-04,26.82,27.469999,26.780001,27.4,21.738577,80516100
2012-01-05,27.379999,27.73,27.290001,27.68,21.960726,56081400


In [83]:
aapl[:3] # slicing dalla posizione 0 alla posizione 3 (esclusa), ovvero prendi i primi 3 elementi del DataFrame

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,14.621429,14.732143,14.607143,14.686786,12.433827,302220800
2012-01-04,14.642857,14.81,14.617143,14.765714,12.500645,260022000
2012-01-05,14.819643,14.948214,14.738214,14.929643,12.639426,271269600


### Concatenare i DF

Prendiamo le due porzioni di DataFrame relative rispettivamente alla chiusura aggiustata di gennaio e febbraio 2012 di Microsoft.

In [84]:
msftA01 = msft.loc['2012-01'][['Adj Close']]
msftA02 = msft.loc['2012-02'][['Adj Close']]

In [85]:
msftA01[:3]

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-01-03,21.238752
2012-01-04,21.738577
2012-01-05,21.960726


In [86]:
msftA02[:3]

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-02-01,23.714096
2012-02-02,23.761702
2012-02-03,23.991781


Vogliamo concatenare i due DataFrame (limitandoci alle prime 3 righe in questo caso) che in questo caso hanno indici diversi, usiamo quindi il metodo `concat()` a cui passiamo le porzioni di DataFrame da concatenare (sotto forma di lista).

In [87]:
pd.concat([msftA01.head(3),msftA02.head(3)])

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-01-03,21.238752
2012-01-04,21.738577
2012-01-05,21.960726
2012-02-01,23.714096
2012-02-02,23.761702
2012-02-03,23.991781


Proviamo ora a concatenare due DataFrame (limitandoci sempre alle prime 3 righe) che questa volta hanno gli stessi indici di riga; inoltre, prendiamo questa volta due porzioni di DataFrame che fanno riferimento ai due diversi titoli (sia Apple che Microsoft). 

In [88]:
aaplA01 = aapl.loc['2012-01'][['Adj Close']]
withDups = pd.concat([msftA01[:3], aaplA01[:3]])
withDups

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-01-03,21.238752
2012-01-04,21.738577
2012-01-05,21.960726
2012-01-03,12.433827
2012-01-04,12.500645
2012-01-05,12.639426


In [89]:
withDups.loc['2012-01-03']

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-01-03,21.238752
2012-01-03,12.433827


Applicando la concatenazione abbiamo perso l'informazione relativa al titolo a cui i prezzi si riferiscono. <br>
Per ovviare al problema si può effettuare una concatenazione a indice multiplo, ottenendo così un DataFrame avente più di una colonna indice (in questo caso, il ticker e la data). <br>
__PER CAPIRE__: prima l'indice era solo la data, la quale non ci permetteva di distinguere a quale titolo il prezzo fosse riferito.

In [90]:
closes = pd.concat([msftA01[:3], aaplA01[:3]], keys = ['MSFT','AAPL'])
closes

Unnamed: 0_level_0,Unnamed: 1_level_0,Adj Close
Unnamed: 0_level_1,Date,Unnamed: 2_level_1
MSFT,2012-01-03,21.238752
MSFT,2012-01-04,21.738577
MSFT,2012-01-05,21.960726
AAPL,2012-01-03,12.433827
AAPL,2012-01-04,12.500645
AAPL,2012-01-05,12.639426


In [91]:
closes.loc['MSFT'][:3]

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-01-03,21.238752
2012-01-04,21.738577
2012-01-05,21.960726


La concatenazione può anche avvenire su più colonne.

In [92]:
msftAV = msft[['Adj Close','Volume']]
aaplAV = aapl[['Adj Close', 'Volume']]
pd.concat([msftAV,aaplAV])

Unnamed: 0_level_0,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-01-03,21.238752,64731500
2012-01-04,21.738577,80516100
2012-01-05,21.960726,56081400
2012-01-06,22.301880,99455500
2012-01-09,22.008327,59706800
...,...,...
2012-12-21,15.841752,596268400
2012-12-24,15.867369,175753200
2012-12-26,15.648661,302436400
2012-12-27,15.711497,455120400


Nel caso in cui i due DataFrame concatenati non dovessero avere le stesse colonne, Pandas effettua l'allineamento sulle etichette delle colonne in comune ai due DataFrame, mentre per le altre inserisce valori NaN laddove sono presenti celle aventi valore mancante.

__PER CAPIRE__: nell'esempio vengono concatenati due DataFrame, il primo ha come colonne Adj Close e Volume, mentre il secondo ha soltanto la colonna Adj Close: in questo caso, Pandas fa corrispondere le due colonne Adj Close comuni ad entrambi i DataFrame e mette NaN in tutte le celle corrispondenti alla colonna Volume appartenenti alle righe del secondo DataFrame (dato che il secondo DataFrame ha il dato mancante nella colonna Volume, allora Pandas mette NaN).

In [93]:
aaplA = aapl[['Adj Close']]
pd.concat([msftAV, aaplA]).tail(10)

Unnamed: 0_level_0,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-12-14,15.550741,
2012-12-17,15.826492,
2012-12-18,16.286194,
2012-12-19,16.054676,
2012-12-20,15.914969,
2012-12-21,15.841752,
2012-12-24,15.867369,
2012-12-26,15.648661,
2012-12-27,15.711497,
2012-12-28,15.544631,


Se invece vogliamo fare in modo che il risultato contenga soltanto ciò che i due DataFrame hanno in comune (intersezione), allora specifichiamo come parametro il metodo con cui deve essere fatto il join (la funzione assume quindi un comportamento simile a quello del JOIN in SQL).

In [94]:
pd.concat([msftAV, aaplA], join='inner') # viene presa solo la colonna Adj Close comune ad entrambi i df

Unnamed: 0_level_0,Adj Close
Date,Unnamed: 1_level_1
2012-01-03,21.238752
2012-01-04,21.738577
2012-01-05,21.960726
2012-01-06,22.301880
2012-01-09,22.008327
...,...
2012-12-21,15.841752
2012-12-24,15.867369
2012-12-26,15.648661
2012-12-27,15.711497


Anche in questo caso si può andare a modificare l'asse lungo il quale avviene il concatenamento: modificando l'asse lungo il quale avviene il concatenamento possiamo vedere le colonne affiancate.

__PER CAPIRE__: invece che concatenare le righe del secondo DataFrame sotto quelle del primo DataFrame, esse vengono poste di fianco.

In [95]:
msftA = msft[['Adj Close']]
closes = pd.concat([msftA, aaplA], axis = 1)
closes[:3]

Unnamed: 0_level_0,Adj Close,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-01-03,21.238752,12.433827
2012-01-04,21.738577,12.500645
2012-01-05,21.960726,12.639426


In [96]:
closes = pd.concat([msftA, aaplA], axis = 1, keys = ['MSFT','AAPL'])
closes[:3]

Unnamed: 0_level_0,MSFT,AAPL
Unnamed: 0_level_1,Adj Close,Adj Close
Date,Unnamed: 1_level_2,Unnamed: 2_level_2
2012-01-03,21.238752,12.433827
2012-01-04,21.738577,12.500645
2012-01-05,21.960726,12.639426


In [97]:
pd.concat([msftAV[:5], aaplAV[:3]], axis = 1, keys = ['MSFT','AAPL'])

Unnamed: 0_level_0,MSFT,MSFT,AAPL,AAPL
Unnamed: 0_level_1,Adj Close,Volume,Adj Close,Volume
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2012-01-03,21.238752,64731500,12.433827,302220800.0
2012-01-04,21.738577,80516100,12.500645,260022000.0
2012-01-05,21.960726,56081400,12.639426,271269600.0
2012-01-06,22.30188,99455500,,
2012-01-09,22.008327,59706800,,


Si può anche concatenare le due serie ignorando l'indice.

In [98]:
pd.concat([msftAV[:3], aaplAV[:3]], ignore_index = True)

Unnamed: 0,Adj Close,Volume
0,21.238752,64731500
1,21.738577,80516100
2,21.960726,56081400
3,12.433827,302220800
4,12.500645,260022000
5,12.639426,271269600


### Fondere i DataFrame

La funzione `merge()` combina i dati basandosi sui valori di una colonna (chiave): a differenza del concatenamento, in cui i dati vengono semplicemente "incollati" lungo l'asse desiderato senza effetutare corrispondenze tra etichette o colonne, il merge è un'operazione che combina i dati provenienti da due diversi DataFrame sulla base della corrispondenza di una colonna (colonna chiave).

In [99]:
msftAR = msftA.reset_index() # DataFrame contenente i dati relativi alla chisura aggiustata giornaliera di Microsoft
msftAR

Unnamed: 0,Date,Adj Close
0,2012-01-03,21.238752
1,2012-01-04,21.738577
2,2012-01-05,21.960726
3,2012-01-06,22.301880
4,2012-01-09,22.008327
...,...,...
244,2012-12-21,22.394159
245,2012-12-24,22.075994
246,2012-12-26,21.912836
247,2012-12-27,21.994408


In [100]:
msftVR = msft[['Volume']].reset_index() # DataFrame contenente i dati relativi al volume giornaliero di Microsoft
msftVR

Unnamed: 0,Date,Volume
0,2012-01-03,64731500
1,2012-01-04,80516100
2,2012-01-05,56081400
3,2012-01-06,99455500
4,2012-01-09,59706800
...,...,...
244,2012-12-21,98776500
245,2012-12-24,20842400
246,2012-12-26,31631100
247,2012-12-27,39394000


L'obiettivo del merge è quello di prendere i dati di questi due DataFrame ed unirli facendo combaciare la colonna chiave, che in questo caso è rappresenta dalla data: facendo combaciare le date, si ottiene un nuovo DataFrame in cui per ogni riga (ogni giorno) si ha il corrispondente dato relativo alla chiusura aggiustata e al volume scambiato.

In [101]:
msftCVR = pd.merge(msftAR, msftVR)
msftCVR.head()

Unnamed: 0,Date,Adj Close,Volume
0,2012-01-03,21.238752,64731500
1,2012-01-04,21.738577,80516100
2,2012-01-05,21.960726,56081400
3,2012-01-06,22.30188,99455500
4,2012-01-09,22.008327,59706800


Si nota facilmente la somiglianza di questa operazione con il JOIN SQL.
Il funzionamento dei vari tipi di join pandas è simile a quello SQL:
- left - usa le chiavi del df di sinistra (SQL LEFT-OUTER JOIN)
- right - usa le chiavi del df a destra (SQL RISHT-OUTER JOIN)
- outer - usa l'unione delle chiavi dei due df (SQL FULL OUTER JOIN)
- inner - usa l'intersezione delle chiavi dei due df (SQL INNER JOIN)

In [102]:
msftAR0_5 = msftAR[0:5]
msftAR0_5

Unnamed: 0,Date,Adj Close
0,2012-01-03,21.238752
1,2012-01-04,21.738577
2,2012-01-05,21.960726
3,2012-01-06,22.30188
4,2012-01-09,22.008327


In [103]:
msftVR2_4 = msftVR[2:4]
msftVR2_4

Unnamed: 0,Date,Volume
2,2012-01-05,56081400
3,2012-01-06,99455500


In [104]:
pd.merge(msftAR0_5, msftVR2_4)

Unnamed: 0,Date,Adj Close,Volume
0,2012-01-05,21.960726,56081400
1,2012-01-06,22.30188,99455500


In [105]:
pd.merge(msftAR0_5, msftVR2_4, how = 'outer')

Unnamed: 0,Date,Adj Close,Volume
0,2012-01-03,21.238752,
1,2012-01-04,21.738577,
2,2012-01-05,21.960726,56081400.0
3,2012-01-06,22.30188,99455500.0
4,2012-01-09,22.008327,


__NB__: come in SQL, la tipologia di join applicata di default è l'inner join.

### Pivoting

Il pivoting è una tecnica che consente di riformattare un DataFrame trasformando i valori di una colonna in nuove colonne e riorganizzando di conseguenza i dati.

__PER CAPIRE__: il pivoting serve a trasformare i dati da un formato "lungo" ad un formato "largo" per poterli visualizzare e analizzare diversamente.

In [106]:
msft.insert(0, 'Symbol', 'MSFT') # inserimento della colonna Symbol in posizione 0 con valore MSFT
msft

Unnamed: 0_level_0,Symbol,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-01-03,MSFT,26.549999,26.959999,26.389999,26.770000,21.238752,64731500
2012-01-04,MSFT,26.820000,27.469999,26.780001,27.400000,21.738577,80516100
2012-01-05,MSFT,27.379999,27.730000,27.290001,27.680000,21.960726,56081400
2012-01-06,MSFT,27.530001,28.190001,27.530001,28.110001,22.301880,99455500
2012-01-09,MSFT,28.049999,28.100000,27.719999,27.740000,22.008327,59706800
...,...,...,...,...,...,...,...
2012-12-21,MSFT,27.450001,27.490000,27.000000,27.450001,22.394159,98776500
2012-12-24,MSFT,27.200001,27.250000,27.000000,27.059999,22.075994,20842400
2012-12-26,MSFT,27.030001,27.200001,26.700001,26.860001,21.912836,31631100
2012-12-27,MSFT,26.889999,27.090000,26.570000,26.959999,21.994408,39394000


In [107]:
aapl.insert(0, 'Symbol', 'AAPL') # inserimento della colonna Symbol in posizione 0 con valore AAPL
aapl

Unnamed: 0_level_0,Symbol,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-01-03,AAPL,14.621429,14.732143,14.607143,14.686786,12.433827,302220800
2012-01-04,AAPL,14.642857,14.810000,14.617143,14.765714,12.500645,260022000
2012-01-05,AAPL,14.819643,14.948214,14.738214,14.929643,12.639426,271269600
2012-01-06,AAPL,14.991786,15.098214,14.972143,15.085714,12.771556,318292800
2012-01-09,AAPL,15.196429,15.276786,15.048214,15.061786,12.751299,394024400
...,...,...,...,...,...,...,...
2012-12-21,AAPL,18.302500,18.559643,18.222857,18.547501,15.841752,596268400
2012-12-24,AAPL,18.583929,18.723213,18.525356,18.577499,15.867369,175753200
2012-12-26,AAPL,18.535713,18.552143,18.254286,18.321428,15.648661,302436400
2012-12-27,AAPL,18.340714,18.437500,18.023571,18.395000,15.711497,455120400


In [108]:
combined = pd.concat([msft, aapl]).sort_index() # concateniamo i due DataFrame e ordiniamo le righe sulla base della data
combined

Unnamed: 0_level_0,Symbol,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-01-03,MSFT,26.549999,26.959999,26.389999,26.770000,21.238752,64731500
2012-01-03,AAPL,14.621429,14.732143,14.607143,14.686786,12.433827,302220800
2012-01-04,MSFT,26.820000,27.469999,26.780001,27.400000,21.738577,80516100
2012-01-04,AAPL,14.642857,14.810000,14.617143,14.765714,12.500645,260022000
2012-01-05,MSFT,27.379999,27.730000,27.290001,27.680000,21.960726,56081400
...,...,...,...,...,...,...,...
2012-12-26,MSFT,27.030001,27.200001,26.700001,26.860001,21.912836,31631100
2012-12-27,AAPL,18.340714,18.437500,18.023571,18.395000,15.711497,455120400
2012-12-27,MSFT,26.889999,27.090000,26.570000,26.959999,21.994408,39394000
2012-12-28,MSFT,26.709999,26.900000,26.549999,26.549999,21.659929,28239900


In [109]:
s4p = combined.reset_index() # per praticità invece che avere la data come indice, manteniamo degli indici numerici ordinati
s4p.head()

Unnamed: 0,Date,Symbol,Open,High,Low,Close,Adj Close,Volume
0,2012-01-03,MSFT,26.549999,26.959999,26.389999,26.77,21.238752,64731500
1,2012-01-03,AAPL,14.621429,14.732143,14.607143,14.686786,12.433827,302220800
2,2012-01-04,MSFT,26.82,27.469999,26.780001,27.4,21.738577,80516100
3,2012-01-04,AAPL,14.642857,14.81,14.617143,14.765714,12.500645,260022000
4,2012-01-05,MSFT,27.379999,27.73,27.290001,27.68,21.960726,56081400


In [110]:
closes= s4p.pivot(index = 'Date', columns = 'Symbol', values = 'Adj Close')
closes.head()

Symbol,AAPL,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-01-03,12.433827,21.238752
2012-01-04,12.500645,21.738577
2012-01-05,12.639426,21.960726
2012-01-06,12.771556,22.30188
2012-01-09,12.751299,22.008327


In questo modo effettuiamo il pivoting specificando la colonna che deve fungere da indice, la colonna i cui valori devono diventare i titoli delle nuove colonne e la colonna da cui attingere i valori da visualizzare. <br>

### Stacking e unstacking

Il comando `stack()` consente di trasformare le colonne di un DataFrame in righe: il nome della colonna diventa l'indice di riga (che insieme all'indice che era presente in precedenza compone il multi index del DataFrame).
Il comando `unstack()` invece consente di fare l'operazione opposta, ovvero trasformare le righe di un DataFrame in colonne: i diversi valori che compaiono nelle righe diventano  nuove colonne. 

In [111]:
stackedCloses = closes.stack()
stackedCloses

Date        Symbol
2012-01-03  AAPL      12.433827
            MSFT      21.238752
2012-01-04  AAPL      12.500645
            MSFT      21.738577
2012-01-05  AAPL      12.639426
                        ...    
2012-12-26  MSFT      21.912836
2012-12-27  AAPL      15.711497
            MSFT      21.994408
2012-12-28  AAPL      15.544631
            MSFT      21.659929
Length: 498, dtype: float64

In [112]:
stackedCloses.loc['2012-01-03','AAPL']

12.43382740020752

In [113]:
stackedCloses.loc['2012-08-31']

Symbol
AAPL    20.200354
MSFT    24.938541
dtype: float64

In [114]:
stackedCloses.loc[:,'MSFT']

Date
2012-01-03    21.238752
2012-01-04    21.738577
2012-01-05    21.960726
2012-01-06    22.301880
2012-01-09    22.008327
                ...    
2012-12-21    22.394159
2012-12-24    22.075994
2012-12-26    21.912836
2012-12-27    21.994408
2012-12-28    21.659929
Length: 249, dtype: float64

In [115]:
unstackedCloses = stackedCloses.unstack()
unstackedCloses.head()

Symbol,AAPL,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-01-03,12.433827,21.238752
2012-01-04,12.500645,21.738577
2012-01-05,12.639426,21.960726
2012-01-06,12.771556,22.30188
2012-01-09,12.751299,22.008327


### Melting


In [116]:
melted = pd.melt(s4p, id_vars = ['Date', 'Symbol'])
melted.head()

Unnamed: 0,Date,Symbol,variable,value
0,2012-01-03,MSFT,Open,26.549999
1,2012-01-03,AAPL,Open,14.621429
2,2012-01-04,MSFT,Open,26.82
3,2012-01-04,AAPL,Open,14.642857
4,2012-01-05,MSFT,Open,27.379999


In [117]:
melted[(melted.Date == '2012-01-03') & (melted.Symbol == 'MSFT')]

Unnamed: 0,Date,Symbol,variable,value
0,2012-01-03,MSFT,Open,26.55
498,2012-01-03,MSFT,High,26.96
996,2012-01-03,MSFT,Low,26.39
1494,2012-01-03,MSFT,Close,26.77
1992,2012-01-03,MSFT,Adj Close,21.23875
2490,2012-01-03,MSFT,Volume,64731500.0


### Split - Combine - Apply

In [118]:
s4g = combined[['Symbol', 'Adj Close']].reset_index()
s4g

Unnamed: 0,Date,Symbol,Adj Close
0,2012-01-03,MSFT,21.238752
1,2012-01-03,AAPL,12.433827
2,2012-01-04,MSFT,21.738577
3,2012-01-04,AAPL,12.500645
4,2012-01-05,MSFT,21.960726
...,...,...,...
493,2012-12-26,MSFT,21.912836
494,2012-12-27,AAPL,15.711497
495,2012-12-27,MSFT,21.994408
496,2012-12-28,MSFT,21.659929


In [119]:
s4g.insert(1,'Year',pd.DatetimeIndex(s4g['Date']).year)

In [120]:
s4g.insert(2,'Month',pd.DatetimeIndex(s4g['Date']).month)
s4g

Unnamed: 0,Date,Year,Month,Symbol,Adj Close
0,2012-01-03,2012,1,MSFT,21.238752
1,2012-01-03,2012,1,AAPL,12.433827
2,2012-01-04,2012,1,MSFT,21.738577
3,2012-01-04,2012,1,AAPL,12.500645
4,2012-01-05,2012,1,MSFT,21.960726
...,...,...,...,...,...
493,2012-12-26,2012,12,MSFT,21.912836
494,2012-12-27,2012,12,AAPL,15.711497
495,2012-12-27,2012,12,MSFT,21.994408
496,2012-12-28,2012,12,MSFT,21.659929


In [121]:
s4g.groupby('Symbol')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001DDCB5EB8B0>