# Pandas 1

In [None]:
import pandas as pd
import numpy as np

### Creare una serie
Proviamo a creare una serie pandas utilizzando dei numeri casuali generati con la libreria numpy. <br>
Utilizziamo la proprietà random, con cui è possibile generare numeri pseudocasuali: specificando il medesimo seed è possibile generare sempre gli stessi numeri pseudocasuali (in questo caso utilizziamo sempre "1" come seed).

In [None]:
np.random.seed(1)
s = pd.Series(np.random.randn(100))

In [None]:
s.head(21) # restituisce i primi 21 valori della serie (da 0 a 20)

In [None]:
s[2] # restituisce il terzo elemento della serie (le serie sono indicizzate a partire da 0)

In [None]:
s[[2,5,20]] # è possibile passare tra le quadre un array di posizioni per far restituire soltanto le posizioni di interesse

In [None]:
s[3:8] # restituisce gli elementi compresi tra le posizioni specificate (estremo finale escluso)

In [None]:
s.tail(10) # restituisce gli ultimi 10 elementi della serie

In [None]:
s.index # proprietà che permette di conoscere come la serie è indicizzata

In [None]:
s.values # proprietà che elenca i valori della serie in un array

È possibile decidiere di indicizzare una serie in maniera diversa da quella default

In [None]:
s2 = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])
s2

Anche a partire da un dizionario chiave:valore può essere creata una serie, in cui la chiave di ciascun elemento del dizionario corrisponderà all'indice di tale elemento nella serie

In [None]:

s3 = pd.Series({'a':1, 'b':2, 'c':3, 'd':4})

Il numero di elementi di una serie può essere determinato utilizzando la funzione `len()`.

In [None]:
s = pd.Series([10,0,1,1,2,3,4,5,6,np.nan])
s

In [None]:
len(s)

Un altro modo per determinare la dimensione di una serie è utilizzare la proprietà `shape` che restituisce una tupla con le dimensioni, numero righe e numero colonne.<br>
Nel caso di una serie avente una sola dimensione, si ottiene una tupla contenente un solo valore.

In [None]:
s.shape

Nella serie di esempio abbiamo un valore che non è un numero (np.nan): per contare solo i valori numerici si utilizza il metodo `count()`.

In [None]:
s.count()

Per conoscere invece i valori unici di una serie si utilizza il metodo `unique()`.

In [None]:
s.unique()

E per contare invece il numero di volte in cui appaiono tali valori unici nella serie si usa il metodo `value_counts()`, il quale restituisce i valori già ordinati in ordine decrescente.

In [None]:
s.value_counts()

__NB__: una differenza fondamentale fra gli array di Numpy e le serie di Pandas è che le serie sono in grado di effettuare l'allineamento automatico sulla base dell'etichette poste come indici; questo significa che gli elementi appartenenti a due diverse serie vengono fatti corrispondere sulla base dell'etichetta, non sulla base della sola posizione come invece avviene negli array Numpy.

In [None]:
s3 = pd.Series([1,2,3,4], index = ['a','b','c','d'])

In [None]:
s3

In [None]:
s4 = pd.Series([4,3,2,1], index = ['d','c','b','a'])
s4

Avendo gli stessi indici è possibile sommare le due serie, ottenendo una nuova serie contenente in ciascun elemento la somma degli elementi delle due serie sommate. <br>
__NB__: nonostante le etichette siano state assegnate agli indici in un ordine differente nelle due serie, la somma avviene comunque facendo combaciare tali etichette.

In [None]:
s3 + s4

Negli array Numpy invece, l'operazione viene effettuata solo sulla base della posizione: sommare due array significa quindi ottenere un nuovo array dove ciascun elemento è dato dalla somma degli elementi posti in nella medesima posizione nei due array.

In [None]:
np3 = np.array([1,2,3,4])
np4 = np.array([4,3,2,1])

In [None]:
np3 + np4

### Creare un dataframe

Un DataFrame può essere creato combinando diversi array Numpy.

In [None]:
pd.DataFrame(np.array([[10,11],[20,21],[30,31]]))

Se non si specificano i valori degli indici e i nomi delle colonne, Pandas utilizza numeri interi.

Un DataFrame può anche essere creato combinando diverse serie Pandas.

In [None]:
df1 = pd.DataFrame([pd.Series(np.arange(10,15)),
                   pd.Series(np.arange(15,20))])
df1

Per conoscere le dimensioni di un DataFrame è possibile nuovamente fare uso della proprietà `shape`. <br>
__NB__: un DataFrame ha solo due dimensioni, quindi `shape` restituisce sempre una tupla del tipo (numero_righe, numero_colonne).

In [None]:
df1.shape

Per associare un nome alle colonne si fa uso del parametro `columns`.

In [None]:
df = pd.DataFrame(np.array([[10,11],[20,21],[30,31]]), columns = ['a','b'])
df

E per conoscere il nome delle colonne di un DataFrame si usa l'omonima proprietà.

In [None]:
df.columns

__NB__: è possibile sovrascrivere i nomi delle colonne di un DataFrame assegnando i nuovi nomi alla sua proprietà `columns`.

In [None]:
df.columns = ['c1', 'c2']
df

__NB__: vale lo stesso identico discorso per le righe, questa volta usando la proprietà `index`.

In [None]:
df.index = ['r1', 'r2', 'r3']
df

La proprietà `index` serve anche per conoscere i nomi degli indici del DataFrame.

In [None]:
df.index

### Esempi

Creiamo un DataFrame partendo da un file csv che contiene dati sulle 500 società che costituiscono l'indice della borsa americana Standard & Poors 500.<br>
Con il parametro `index_col` specifichiamo quale colonna del file csv dovrà rappresentare l'indice del DataFrame che stiamo creando: in questo caso scegliamo la colonna "Symbol", che contiene i tickers dei titoli.

In [None]:
sp500 = pd.read_csv("sp500.csv", index_col='Symbol')

In [None]:
sp500.shape # dimensioni del dataframe: 500 righe e 14 colonne

In [None]:
sp500.index # indici del dataframe, ovvero i tickers dei titoli

In [None]:
sp500.columns

Per ora ci interessano solo alcune colonne: per filtrarle possiamo agire in due modi. <br>
Il primo modo è leggere il file csv indicando quali colonne ci interessano con il parametro `usecols`.

In [None]:
sp500_1 = pd.read_csv("sp500.csv", index_col='Symbol', usecols = [0, 2, 3])

In [None]:
sp500_1.head(10)

In [None]:
sp500_2 = sp500[['Sector','Price','Book Value']]

In [None]:
sp500_2.head()

Possiamo anche usare la proprietà `iloc` che consente di specificare quali righe e colonne si vuole selezionare all'interno del DataFrame: nel nostro caso vogliamo selezionare tutte le righe (e specifichiamo `:` alla proprietà proprio per dire questo) e vogliamo selezionare le sole colonne nelle posizioni 1, 2 e 6.

In [None]:
sp500_3 = sp500.iloc[:,[1,2,6]] # la sintassi è iloc[righe, colonne]

In [None]:
sp500_3

__NB__: i DataFrame creati fino a questo momento non sono nuovi DataFrame, ma sono soltanto viste che fanno riferimento a quello originale; per creare effettivamente un nuovo DataFrame occorre invocare il metodo `copy()`.

In [None]:
sp500_4 = sp500.iloc[:,[1,2,6]].copy()

Le colonne di un DataFrame di Pandas altro non sono che delle serie, motivo per cui è possibile estrapolare una serie a partire da una colonna di un DataFrame (questo però è possibile soltanto se il nome della colonna è privo di spazi).

In [None]:
sp500.Price

In [None]:
sp500.BookValue # errore, perché il nome della colonna è Book Value (con lo spazio)

### Selezionare righe in un DataFrame

Per selezionare determinate righe in un DataFrame ci sono tre modi:
- individuare una fetta di DataFrame ("slicing") con []
- cercare gli elementi sulla base dell'etichetta o del numero indice con gli operatori `loc` e `iloc`
- ricerca scalare con gli operatori `at` e `iat`

L'utilizzo dell'operatore [] va bene per selezionare elementi di una serie, tuttavia è sconsigliato (fatto salvo per casi particolari) per selezionare righe di un DataFrame.

Selezione delle prime tre righe utilizzando l'operatore []:

In [None]:
sp500_1[:3] # la sintassi è [start:end] dove l'indice di inizio è omesso in questo caso (di default si parte da indice 0)

Selezione delle righe che vanno da XYL a YUM utilizzando l'operatore []:

In [None]:
sp500_1['XYL':'YUM']

Selezione utilizzando `loc[]` e `iloc[]`:
- `loc` basa la selezione sull'etichetta 
- `iloc` basa la selezione sull'indice (di posizione)

In [None]:
sp500_1.loc['MMM']

In [None]:
sp500_1.loc[['MMM','MSFT']]

__NB__: scrivendo ad esempio `sp500_1.loc[3]` si sta chiedendo di selezionare la riga avente come _etichetta_ 3, non la riga in _posizione_ 3.

In [None]:
sp500_1.iloc[[0,5]]

In [None]:
sp500_1.iloc[0:5]

Con il metodo `index.get_loc` si può sapere qual è il valore dell'indice (di posizione) associato a una specifica etichetta.

In [None]:
sp500_1.index.get_loc('MSFT')

In [None]:
i1 = sp500_1.index.get_loc('MMM')
i2 = sp500_1.index.get_loc('A')
i1, i2

In [None]:
sp500_1.iloc[[i1,i2]]

Ricerca scalare utilizzando `at[]` e `iat[]`:
- `at[]` effettua la ricerca sulla base delle etichette di riga e colonna specificate
- `iat[]` effettua la ricerca sulla base degli indici numerici di posizione di riga e colonna specificati

In [None]:
sp500_1.head()

In [None]:
sp500_1.at['MMM', 'Sector']

In [None]:
sp500_1.iat[0,1]

C'è anche la possibilità di effettuare una selezione che comprenda soltanto le righe che soddisfano una determinata condizione booleana.

In [None]:
sp500_1[sp500_1.Price < 20]

Le ricerche poi possono diventare anche più dettagliate, combinando condizioni booleani e altre tipologie di selezione.

In [None]:
sp500_1[(sp500_1.Price < 20) & (sp500_1.Price > 10)][['Sector','Price']]

### Operazioni su DataFrame

Le operazioni aritmetiche che coinvolgono il DataFrame ed uno scalare vengono effettuate su tutte le celle del DataFrame.

In [None]:
np.random.seed(123456)

In [None]:
df = pd.DataFrame(np.random.randn(5,4), columns = ['A','B','C','D'])
df

In [None]:
df*2 # ogni valore presente nelle celle del DataFrame viene moltiplicato per 2

Si possono effettuare operazioni sul DataFrame a partire dai valori contenuti in una sua riga.

In [None]:
df - df.iloc[0] # ad ogni riga del DataFrame sottrai i valori contenuti nella prima riga (facendo corrispondere le celle)

Nel caso in cui si voglia effettuare operazioni a partire dai valori contenuti in una porzione del DataFrame, è possibile creare un nuovo DataFrame che sia un "sotto-dataframe" di quello originale: per farlo, effettuiamo la selezione delle righe e colonne di interesse mediante l'operatore [].

In [None]:
subframe = df[1:4][['B','C']]
subframe

In [None]:
df - subframe # l'operazione viene effettuata solo dove ci sono valori da sottrarre, altrimenti rerstituisce NaN

__NB__: il DataFrame `df` ha dimensioni 5x4, mentre il DataFrame `subframe` ha dimensioni 3x2; questo implica che per alcune celle di `df` non è presente il corrispondente valore di `subframe` da sottrarre, quindi il risultato è un DataFrame 5x4 in cui le celle dove non è stato possibile effettuare l'operazione contengono NaN (Not a Number).

Si possono anche effettuare operazioni che coinvolgono intere colonne.

In [None]:
a_col = df['A']

In [None]:
df.sub(a_col, axis=0) # sottrae il contenuto della colonna 'A' a tutte le altre colonne del DataFrame

__NB__: il parametro `axis` consente di decidere lungo quale asse eseguire l'operazione: axis=0 significa "esegui l'operazione lungo l'asse delle righe", mentre axis=1 significa "esegui l'operazione lungo l'asse delle colonne". <br>
__PER CAPIRE__: con axis=0 agisco sulle colonne, con axis=1 agisco sulle righe.

### Reindicizzazione
Reindicizzare un DataFrame significa applicare delle modifiche alle etichette delle sue righe e/o colonne.

Il processo di reindicizzazione:
- riordina i dati per farli corrispondere a un nuovo insieme di etichette fornito
- inserisce NaN laddove viene inserita una nuova etichetta e quindi mancano dei dati
- inserisce NaN laddove mancano alcuni dati in celle appartenenti a etichette già esistenti

In [None]:
np.random.seed(1)
s = pd.Series(np.random.randn(5))
s.index = ['a','b','c','d','e']
s

Il metodo `reindex()` permette di effettuare la reindicizzazione di una serie: utilizzandolo si può creare una nuova serie di lunghezza diversa.

In [None]:
s2 = s.reindex(['a','c','e','g']) # g è una nuova etichetta, ad essa corrisponderà valore NaN
s2

In [None]:
s2['a']

__NB__: come abbiamo detto, Pandas è in grado di far corrispondere le righe sulla base delle etichette/indici; bisogna però fare attenzione a fare in modo che gli indici siano nello stesso formato (ad esempio, l'indice numerico 1 è diverso dalla stringa '1').

In [None]:
s1 = pd.Series([0,1,2], index = [0,1,2])
s2 = pd.Series([3,4,5], index = ['0','1','2'])
s1+s2
# non effettua l'addizione gli indici perché i primi sono numeri interi e i secondi stringhe

Con il metodo `astype` si possono fare le dovute conversioni di tipo.

In [None]:
s2.index = s2.index.values.astype(int)
s1+s2

### Reindicizzare e inserire valori mancanti

In [None]:
s2 = s.copy()
s2.reindex(['a', 'f'], fill_value = 0) # i valori mancanti verranno rimpiazzati con il valore di default 0

In [None]:
s3 = pd.Series(['red', 'green', 'blue'], index = [0, 3, 5])
s3

Dopo aver passato le nuove etichette come primo parametro, al metodo `reindex()` è possibile specificare il metodo con cui deve procedere alla sostituzione dei valori mancanti. <br>
I due che vediamo noi sono:
- _forward fill_, in cui i valori mancanti sono sostituiti con il valore esattamente precedente nella serie (NaN se non presente)
- _backward fill_, in cui i valori mancanti sono sostiuiti con il valore esattamente successivo nella serie (NaN se non presente)

In [None]:
s3.reindex(np.arange(0,7), method = 'ffill') # inizia a riempire sostituendo i valori mancati dall'inizio verso la fine della serie

In [None]:
s3.reindex(np.arange(0,7), method = 'bfill') # inizia a riempire sostituendo i valori mancanti dalla fine verso l'inizio della serie

### Riorganizzare e aggregare i dati

In [None]:
import datetime
import yfinance as yf # libreria per scaricare dati da yahoo finance

In [None]:
start = datetime.datetime(2012, 1, 1)
end = datetime.datetime(2012, 12, 30)

In [None]:
msft = yf.download('MSFT', start, end) # dati presi da yahoo finance relativi a microsoft anno 2012
aapl = yf.download('AAPL', start, end) # dati presi da yahoo finance relativi a apple anno 2012


In [None]:
msft.to_csv("msft.csv")
aapl.to_csv("aapl.csv")

In [None]:
msft.head()

In [None]:
msft.tail()

In [None]:
msft = pd.read_csv("msft.csv", index_col = 0, parse_dates = True)
aapl = pd.read_csv("aapl.csv", index_col = 0, parse_dates = True)

In [None]:
msft[:3] # slicing dalla posizione 0 alla posizione 3 (esclusa), ovvero prendi i primi 3 elementi del DataFrame

In [None]:
aapl[:3] # slicing dalla posizione 0 alla posizione 3 (esclusa), ovvero prendi i primi 3 elementi del DataFrame

### Concatenare i DF

Prendiamo le due porzioni di DataFrame relative rispettivamente alla chiusura aggiustata di gennaio e febbraio 2012 di Microsoft.

In [None]:
msftA01 = msft.loc['2012-01'][['Adj Close']]
msftA02 = msft.loc['2012-02'][['Adj Close']]

In [None]:
msftA01[:3]

In [None]:
msftA02[:3]

Vogliamo concatenare i due DataFrame (limitandoci alle prime 3 righe in questo caso) che in questo caso hanno indici diversi, usiamo quindi il metodo `concat()` a cui passiamo le porzioni di DataFrame da concatenare (sotto forma di lista).

In [None]:
pd.concat([msftA01.head(3),msftA02.head(3)])

Proviamo ora a concatenare due DataFrame (limitandoci sempre alle prime 3 righe) che questa volta hanno gli stessi indici di riga; inoltre, prendiamo questa volta due porzioni di DataFrame che fanno riferimento ai due diversi titoli (sia Apple che Microsoft). 

In [None]:
aaplA01 = aapl.loc['2012-01'][['Adj Close']]
withDups = pd.concat([msftA01[:3], aaplA01[:3]])
withDups

In [None]:
withDups.loc['2012-01-03']

Applicando la concatenazione abbiamo perso l'informazione relativa al titolo a cui i prezzi si riferiscono. <br>
Per ovviare al problema si può effettuare una concatenazione a indice multiplo, ottenendo così un DataFrame avente più di una colonna indice (in questo caso, il ticker e la data). <br>
__PER CAPIRE__: prima l'indice era solo la data, la quale non ci permetteva di distinguere a quale titolo il prezzo fosse riferito.

In [None]:
closes = pd.concat([msftA01[:3], aaplA01[:3]], keys = ['MSFT','AAPL'])
closes

In [None]:
closes.loc['MSFT'][:3]

La concatenazione può anche avvenire su più colonne.

In [None]:
msftAV = msft[['Adj Close','Volume']]
aaplAV = aapl[['Adj Close', 'Volume']]
pd.concat([msftAV,aaplAV])

Nel caso in cui i due DataFrame concatenati non dovessero avere le stesse colonne, Pandas effettua l'allineamento sulle etichette delle colonne in comune ai due DataFrame, mentre per le altre inserisce valori NaN laddove sono presenti celle aventi valore mancante.

__PER CAPIRE__: nell'esempio vengono concatenati due DataFrame, il primo ha come colonne Adj Close e Volume, mentre il secondo ha soltanto la colonna Adj Close: in questo caso, Pandas fa corrispondere le due colonne Adj Close comuni ad entrambi i DataFrame e mette NaN in tutte le celle corrispondenti alla colonna Volume appartenenti alle righe del secondo DataFrame (dato che il secondo DataFrame ha il dato mancante nella colonna Volume, allora Pandas mette NaN).

In [None]:
aaplA = aapl[['Adj Close']]
pd.concat([msftAV, aaplA]).tail(10)

Se invece vogliamo fare in modo che il risultato contenga soltanto ciò che i due DataFrame hanno in comune (intersezione), allora specifichiamo come parametro il metodo con cui deve essere fatto il join (la funzione assume quindi un comportamento simile a quello del JOIN in SQL).

In [None]:
pd.concat([msftAV, aaplA], join='inner') # viene presa solo la colonna Adj Close comune ad entrambi i df

Anche in questo caso si può andare a modificare l'asse lungo il quale avviene il concatenamento: modificando l'asse lungo il quale avviene il concatenamento possiamo vedere le colonne affiancate.

__PER CAPIRE__: invece che concatenare le righe del secondo DataFrame sotto quelle del primo DataFrame, esse vengono poste di fianco.

In [None]:
msftA = msft[['Adj Close']]
closes = pd.concat([msftA, aaplA], axis = 1)
closes[:3]

In [None]:
closes = pd.concat([msftA, aaplA], axis = 1, keys = ['MSFT','AAPL'])
closes[:3]

In [None]:
pd.concat([msftAV[:5], aaplAV[:3]], axis = 1, keys = ['MSFT','AAPL'])

Si può anche concatenare le due serie ignorando l'indice.

In [None]:
pd.concat([msftAV[:3], aaplAV[:3]], ignore_index = True)

### Fondere i DataFrame

La funzione `merge()` combina i dati basandosi sui valori di una colonna (chiave): a differenza del concatenamento, in cui i dati vengono semplicemente "incollati" lungo l'asse desiderato senza effetutare corrispondenze tra etichette o colonne, il merge è un'operazione che combina i dati provenienti da due diversi DataFrame sulla base della corrispondenza di una colonna (colonna chiave).

In [None]:
msftAR = msftA.reset_index() # DataFrame contenente i dati relativi alla chisura aggiustata giornaliera di Microsoft
msftAR

In [None]:
msftVR = msft[['Volume']].reset_index() # DataFrame contenente i dati relativi al volume giornaliero di Microsoft
msftVR

L'obiettivo del merge è quello di prendere i dati di questi due DataFrame ed unirli facendo combaciare la colonna chiave, che in questo caso è rappresenta dalla data: facendo combaciare le date, si ottiene un nuovo DataFrame in cui per ogni riga (ogni giorno) si ha il corrispondente dato relativo alla chiusura aggiustata e al volume scambiato.

In [None]:
msftCVR = pd.merge(msftAR, msftVR)
msftCVR.head()

Si nota facilmente la somiglianza di questa operazione con il JOIN SQL.
Il funzionamento dei vari tipi di join pandas è simile a quello SQL:
- left - usa le chiavi del df di sinistra (SQL LEFT-OUTER JOIN)
- right - usa le chiavi del df a destra (SQL RISHT-OUTER JOIN)
- outer - usa l'unione delle chiavi dei due df (SQL FULL OUTER JOIN)
- inner - usa l'intersezione delle chiavi dei due df (SQL INNER JOIN)

In [None]:
msftAR0_5 = msftAR[0:5]
msftAR0_5

In [None]:
msftVR2_4 = msftVR[2:4]
msftVR2_4

In [None]:
pd.merge(msftAR0_5, msftVR2_4)

In [None]:
pd.merge(msftAR0_5, msftVR2_4, how = 'outer')

__NB__: come in SQL, la tipologia di join applicata di default è l'inner join.

### Pivoting

Il pivoting è una tecnica che consente di riformattare un DataFrame trasformando i valori di una colonna in nuove colonne e riorganizzando di conseguenza i dati.

__PER CAPIRE__: il pivoting serve a trasformare i dati da un formato "lungo" ad un formato "largo" per poterli visualizzare e analizzare diversamente.

In [None]:
msft.insert(0, 'Symbol', 'MSFT') # inserimento della colonna Symbol in posizione 0 con valore MSFT
msft

In [None]:
aapl.insert(0, 'Symbol', 'AAPL') # inserimento della colonna Symbol in posizione 0 con valore AAPL
aapl

In [None]:
combined = pd.concat([msft, aapl]).sort_index() # concateniamo i due DataFrame e ordiniamo le righe sulla base della data
combined

In [None]:
s4p = combined.reset_index() # per praticità invece che avere la data come indice, manteniamo degli indici numerici ordinati
s4p.head()

In [None]:
closes= s4p.pivot(index = 'Date', columns = 'Symbol', values = 'Adj Close')
closes.head()

In questo modo effettuiamo il pivoting specificando la colonna che deve fungere da indice, la colonna i cui valori devono diventare i titoli delle nuove colonne e la colonna da cui attingere i valori da visualizzare. <br>

### Stacking e unstacking
Si possono usare i comandi `stack()` e `unstack()` per passare dalla forma "larga" (prodotta dal pivoting) a quella "lunga" (smontando quindi il pivoting) e viceversa.

In [None]:
stackedCloses = closes.stack()
stackedCloses

In [None]:
stackedCloses.loc['2012-01-03','AAPL']

In [None]:
stackedCloses.loc['2012-08-31']

In [None]:
stackedCloses.loc[:,'MSFT']

In [None]:
unstackedCloses = stackedCloses.unstack()
unstackedCloses.head()

### Melting


In [None]:
melted = pd.melt(s4p, id_vars = ['Date', 'Symbol'])
melted.head()

In [None]:
melted[(melted.Date == '2012-01-03') & (melted.Symbol == 'MSFT')]

### Split - Combine - Apply

In [None]:
s4g = combined[['Symbol', 'Adj Close']].reset_index()
s4g

In [None]:
s4g.insert(1,'Year',pd.DatetimeIndex(s4g['Date']).year)

In [None]:
s4g.insert(2,'Month',pd.DatetimeIndex(s4g['Date']).month)
s4g

In [None]:
s4g.groupby('Symbol')