# Prima lezione

In [None]:
# RUN THIS CELL: it loads some style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )



## Una selezione di linguaggi utili per l'analisi statistica di dati

Considereremo e confronteremo i sequenti 3 linguaggi. Ma ci concentreremo principalmente su `Python`.

`Python` È un linguaggio con un ampio spettro di applicazioni. Va per la maggiore nell'intelligenza artificiale e nelle data sciences, ma ha anche applicazioni web e UI. Ogni abito usa librerie specifiche.

`R` Pensato principalmente per la statistica (ed usato principlamente per questo). Per le più elementari funzioni statistiche non è necessario caricare nessumna libreria.

`Julia` Molto recente (versione 0.0 nel 2009, versione 1.0 nel 2018). Tra qualche anno potrebbe superare per diffusione le altre due alternative (almeno nell'ambito calcolo scientifico).

## Utilizzo di librerie in `Python`

Esistono 3 modi di utilizzare una libreria in `Python`. Per esempio per poter usare la libreria `pandas` (per trattare tabelle di dati) possiamo scrivere

In [None]:
import pandas

Però questo obbliga a usare il prefisso `pandas.` ogni volta che si usa una funzione della libreria. Per esempio per usare la funzione  `read_csv` (funzione che legge una tabella si *coma separated values*) dovremmo scrivere `pandas.read_csv`. Questo rischia di rendere poco leggibile il codice. 

Un'alternativa è importare singole funzioni della libreria. Per esempio se si vuole usare la solo la funzione `read_csv` potremmo scrivere 

In [None]:
from pandas import read_csv

In questo modo possiamo usare `read_csv` senza prefisso. Però questo è scomodo quando dobbiamo importare molte funzioni e quando non siamo ben sicuri di cosa vogliamo/dobbiamo usare.

Il problema si risolve usando una *wildcary*. Il seguente comando importa (senza prefisso) *tutte* le funzioni della libreria.

In [None]:
from pandas import *

Ma questa soluzione è deprecata perché se usiamo due librerie che definiscono la stessa funzione non siamo sicuri quale stiamo usando.

Un compromesso è usare il comando

In [3]:
import pandas as pd

In questo modo il prefisso da usare per le funzioni della libreria è `pd.` (più breve). Tipicamente ogni libreria ha un abbreviazione standard

## Esempio lettura tabella csv

I dati della tabella `Cork_Airport.csv` che si trovav nella directory `BioTeIndu19/dati`. Questo notebook è nella directory `BioTeIndu19/lezioni` quindi il percorso relativo per arrivare alla tablella è `../dati/Cork_Airport.csv`.

Le prime 24 righe della tabella sono descrizione dei dati quindi dobbiamo saltarle.

In [4]:
df = pd.read_csv("../dati/Cork_Airport.csv", skiprows=24 )
#df

Vogliamo tenere solo le colonne:

`date`    data

`maxtp`  temperatura massima

`mintp`  temperatura minima

`wdsp`   velocità del vento

In [5]:
df = df[ ['date', 'maxtp', 'mintp', 'wdsp'] ]
df.tail(2) # stampiamo le ultime 2 righe del dataframe

Unnamed: 0,date,maxtp,mintp,wdsp
20848,30-jan-2019,3.4,-2.1,5.0
20849,31-jan-2019,6.4,1.3,10.5


La velocità del vento è in nodi ma noi la vogliamo in km/h. 

Dobbiamo moltiplicare per 1.8552 tutti gli elementi della colonna `wdsp`.

Per convenienza, prima creiamo una copia del dataframe `df` che chiameremo `df1`.

Il metodo `map` applica una funzione a tutti gli elementi di un dataframe. Dobbiamo restringerci alla colonna `wdsp'.

In [None]:
df1 = df.copy()
df1['wdsp_kmh'] = df1['wdsp'].map(lambda x: x*1.8552)
df1.tail(2)

Un altro modo è approfittare del fatto che `pandas` interpreta alune semplici operazioni (come addizine e sottrazione) in modo *vettoriale* cioè applicate ad ogni elemento di un vettore (array, serie, ecc.)

In [6]:
df2 = df.copy()
df2[ 'wdsp_kmh' ] = df2[ 'wdsp' ] * 1.8552
df2.tail(2)

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
20848,30-jan-2019,3.4,-2.1,5.0,9.276
20849,31-jan-2019,6.4,1.3,10.5,19.4796


In [19]:
mask = (df2[ 'wdsp_kmh' ] >= 50)  &  (df2[ 'wdsp_kmh' ] <= 52)
df2[ mask]

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
373,09-jan-1963,2.3,0.1,27.8,51.57456
722,24-dec-1963,10.0,4.1,27.8,51.57456
1564,14-apr-1966,3.6,0.7,27.2,50.46144
4760,13-jan-1975,10.6,5.4,28.0,51.9456
7292,19-dec-1981,9.7,0.5,27.2,50.46144
7674,05-jan-1983,12.0,8.1,27.0,50.0904
7914,02-sep-1983,18.0,11.1,28.0,51.9456
7957,15-oct-1983,11.9,7.1,27.6,51.20352
8071,06-feb-1984,9.9,6.6,27.1,50.27592
9492,28-dec-1987,11.9,10.5,27.3,50.64696


In [None]:
df3 = pd.DataFrame()
df3[ 'date' ] = df[ 'date' ]
df3[ 'max-min' ] = df[ ['maxtp', 'mintp'] 
                     ].apply(lambda x: round(x['maxtp']-x['mintp'], 1),
                             axis=1,
                            )
df3[ 'max-min' ] = df3[ 'max-min' ] * (9/5) + 32 
df3

In [None]:
df3.to_csv('../dati/escursione_termica.csv')

In [None]:
df3[ 'max-min' ].max()

In [None]:
mask = df3[ 'max-min' ] >= 58
df3[mask]

In [None]:
!jupyter nbconvert 1a_lezione.ipynb --to html
!jupyter nbconvert 1a_lezione.ipynb --to pdf