# Terza lezione

In [1]:
# This cell loads some html style files (it may be run/ignored/deleted)
from IPython.core.display import HTML
with open( 'style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

Leggiamo la stessa tabella delle lezioni scorse. 

In [2]:
import pandas as pd
df = pd.read_csv('../dati/Cork_Airport.csv', 
                 skiprows=24,
                 usecols=['date', 'maxtp', 'mintp'],
                )
df.head() # questo solo per controllo

Unnamed: 0,date,maxtp,mintp
0,01-jan-1962,2.8,-2.5
1,02-jan-1962,2.8,-3.7
2,03-jan-1962,2.3,-3.8
3,04-jan-1962,6.6,0.6
4,05-jan-1962,9.3,0.6


I valori della colonna `date` sono semplici stringhe di caratteri. La funzione `pd.to_datetime()` li trasforma in valori temporali.

facciamo un esempio.

In [3]:
pd.to_datetime('12.01.2001') 

Timestamp('2001-12-01 00:00:00')

Notiamo che (sciaguratamente) le date vengono lette all'americana (mese-giorno-anno).

Per correggere dobbiamo dire esplicitamente che il primo dato è il giorno.

In [4]:
pd.to_datetime('12.01.2001', dayfirst=True)

Timestamp('2001-01-12 00:00:00')

Possiamo applicare la funzione `pd.to_datetime()` a tutta una colonna di dati.

In [5]:
df['date'] = pd.to_datetime( df['date'] )
df.tail()

Unnamed: 0,date,maxtp,mintp
20845,2019-01-27,6.4,3.0
20846,2019-01-28,6.3,2.5
20847,2019-01-29,4.0,-2.0
20848,2019-01-30,3.4,-2.1
20849,2019-01-31,6.4,1.3


Per mostrare le possibilità offerte dal questo formato temporale di dati vediamo come spezziare la colonna `date` in tre colonne una per l'anno una per il mese una per il giorno.


In [6]:
df['day'] = df['date'].map(lambda x: x.day)
df['month'] =  df['date'].map(lambda x: x.month)
df['year'] =  df['date'].map(lambda x: x.year)
# df['wday'] =  df['date'].map(lambda x: x.strftime('%A') )# per il giorno della settimana
df.tail()

Unnamed: 0,date,maxtp,mintp,day,month,year
20845,2019-01-27,6.4,3.0,27,1,2019
20846,2019-01-28,6.3,2.5,28,1,2019
20847,2019-01-29,4.0,-2.0,29,1,2019
20848,2019-01-30,3.4,-2.1,30,1,2019
20849,2019-01-31,6.4,1.3,31,1,2019


In [7]:
pd.to_datetime('12.01.2001', dayfirst=True) 

Timestamp('2001-01-12 00:00:00')

In [8]:
mask = df['date'].map(lambda x: x > pd.to_datetime('12.01.2001') )
df[mask].head()

Unnamed: 0,date,maxtp,mintp,day,month,year
14580,2001-12-02,10.0,2.9,2,12,2001
14581,2001-12-03,10.9,8.2,3,12,2001
14582,2001-12-04,10.0,5.2,4,12,2001
14583,2001-12-05,12.9,6.3,5,12,2001
14584,2001-12-06,12.4,6.2,6,12,2001


Importiamo una libreria per la gestione della grafica interattiva.

In [9]:
from bokeh.plotting import figure, show, output_notebook
output_notebook()

La funzione `figure()` crea un continitore per i dati che servono a descrivere una figura. Nel seguito con *figura* intenderemo una struttura dati, o i dati contenuti in questa struttura.

`show()` reasforma questi dati un codice `html + javascript` che il browser sa interpretare per mostrarci una vera e propria immagine (con tanto di funzionalità interattive).

La funzione `output_notebook()` serve a dirigere l'immagine nella stessa pagina del browser in cui viene mostrato il notebook (invece che aprire una nuova finestra/tab del browser)

La funzione `figure()`, chiamata senza argomenti, crea una figura vuota (o meglio, inizializzata con dei valori di default).

In [10]:
p = figure()
show(p)

Per ragioni pratiche vorrei limitare l'area (in pixel) dell'immagine.

Si può fare al momento in cui si definisce l'immagine.

In [11]:
p = figure(width=500, height=250)
show(p)

Al momento l'immagine non contiene nessun *glyph* (il termine usato da Bokeh per denotare elementi grafici quali linee, punti, etc.)

Aggiungiamo una linea.

Il parametero `source` prende come input il dataframe che vogliamo plottare.

Inseriamo anche i nomi delle colonne che saranno le ascisse e, rispettivamente, le ordinate dei dati.

In [12]:
p.line('date', 'maxtp', source=df)
show(p)

Purtroppo (un baco?) Bokeh non riconosce automaticamente i valori temporali. Dobbiamo specificarlo esplicitamente quando creiamo la figura.

In [15]:

p = figure(width=500, height=250,
           x_axis_type='datetime',
          )
p.line('date', 'maxtp', source=df)
show(p)

I *tools* non sono i più adatti al nostro set di dati. Possono essere scelti asplicitamente al momento in cui si crea la figura.

In [20]:
p = figure(x_axis_type = "datetime",
           width = 700, 
           height = 250,
           tools = 'xwheel_zoom, xpan, xbox_zoom, reset'
          )
p.line( 'date', 'maxtp', source=df )
show(p)