# Prima lezione

In [2]:
# RUN THIS CELL: it loads some style files
from IPython.core.display import HTML
with open( '../lezioni/style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

## Una selezione di linguaggi utili per l'analisi statistica di dati

Considereremo e confronteremo i sequenti 3 linguaggi. Ma ci concentreremo principalmente su `Python`.

`Python` È un linguaggio con un ampio spettro di applicazioni (la prima vesione stabile è del 1990). Va per la maggiore nell'intelligenza artificiale e nelle data sciences, ma ha anche applicazioni web e UI. Ogni abito usa librerie specifiche.

`R` Pensato principalmente per la statistica ed usato principlamente per questo (la prima vesione stabile è del 1990). Per le più elementari funzioni statistiche non è necessario caricare nessumna libreria.

`Julia` Molto recente (versione 0.0 nel 2009, versione 1.0 nel 2018). Tra qualche anno potrebbe superare per diffusione le altre due alternative (almeno nell'ambito calcolo scientifico).

Questi linguaggi sono *open source*. Altri linguaggi con funzionalità silmile, ma proprietari, sono per esempio `Matlab`, `SAS`, `Excel`.

## Che cos'è un IDE

Un Integrated Development Environment (IDE), o ambiente di sviluppo è del sofware che integra un editore, l'interpreted (o il compiler) di un linguaggio di programmazione, il terminale per output, grafico o numerico del programma.

`Jupyter` è, tra l'altro, un IDE. Può essere usato per una miriade di linguaggi di programmazione (si dice che è *language agnositc*). 

Un IDE molto usato per `R` è `Rstudio`. La versione per desktop è molto avanzata. Esiste anche una versione cloud utilizzabile via web.

## Che cos'è Git

`Git` è un protocollo per *version control system*. Serve per registrare l'evoluzione storica di un progetto. Il problema è molto complesso soprattutto se si tratta un progetto decentralizzato con molti collaboratori (anche migliaia). 

`Github` è una repositora pubblica in cui si possono archiviare progetti che usano il protocollo `Git`. Chiunque può col comando `git clone`, clonare un progetto archiviato in `Github`, ovvero creare in locale (sul proprio computer) una copia di quel progetto e svilupparlo indipendentemente.

Se nel frattempo il progetto su `Github` cambia, i campiamenti si possono integrare nella repositoria locale col comando `git pull`.

Se si vuole (e se si ha il permesso) di trascrivere le modifiche fatte in locale sulla repositoria pubblica si usa il comando `git push`.

I comandi `git pull` e `git push` funzionano bene finchè non ci sono conflitti che git non riesce a risorvere automaticamente. Altrimenti git si blocca e chiede all'utente di risolvere/rimuovere manualmente i conflitti.

La repositoria pubblica che contiene il materiale del corso è [github.com/domenicozambella/BioTeIndu19](https://github.com/domenicozambella/BioTeIndu19)

## Utilizzo di librerie in `Python`

Esistono 3 modi di utilizzare una libreria in `Python`. Per esempio per poter usare la libreria `pandas` (per trattare tabelle di dati) possiamo scrivere

In [3]:
import pandas

Però questo obbliga a usare il prefisso `pandas.` ogni volta che si usa una funzione della libreria. Per esempio per usare la funzione  `read_csv` (funzione che legge una tabella si *coma separated values*) dovremmo scrivere `pandas.read_csv`. Questo rischia di rendere poco leggibile il codice. 

Un'alternativa è importare singole funzioni della libreria. Per esempio se si vuole usare la solo la funzione `read_csv` potremmo scrivere 

In [4]:
from pandas import read_csv

In questo modo possiamo usare `read_csv` senza prefisso. Però questo è scomodo quando dobbiamo importare molte funzioni e quando non siamo ben sicuri di cosa vogliamo/dobbiamo usare.

Il problema si risolve usando una *wildcary*. Il seguente comando importa (senza prefisso) *tutte* le funzioni della libreria.

In [5]:
from pandas import *

Ma questa soluzione è deprecata perché se usiamo due librerie che definiscono la stessa funzione non siamo sicuri quale stiamo usando.

Un compromesso è usare il comando

In [6]:
import pandas as pd

In questo modo il prefisso da usare per le funzioni della libreria è `pd.` (più breve). Tipicamente ogni libreria ha un abbreviazione standard

## Esempio lettura tabella csv

I dati della tabella `Cork_Airport.csv` che si trovav nella directory `BioTeIndu19/dati`. Questo notebook è nella directory `BioTeIndu19/lezioni` quindi il percorso relativo per arrivare alla tablella è `../dati/Cork_Airport.csv`.

Le prime 24 righe della tabella sono descrizione dei dati quindi dobbiamo saltarle.

In [7]:
df = pd.read_csv("../dati/Cork_Airport.csv", skiprows=24 )
#df
?pd.read_csv

Vogliamo tenere solo le colonne:

`date`    data

`maxtp`  temperatura massima

`mintp`  temperatura minima

`wdsp`   velocità del vento

In [8]:
df = df[ ['date', 'maxtp', 'mintp', 'wdsp'] ]
df.tail(2) # stampiamo le ultime 2 righe del dataframe

Unnamed: 0,date,maxtp,mintp,wdsp
20848,30-jan-2019,3.4,-2.1,5.0
20849,31-jan-2019,6.4,1.3,10.5


La velocità del vento è in nodi ma noi la vogliamo in km/h. 

Dobbiamo moltiplicare per 1.8552 tutti gli elementi della colonna `wdsp`.

Per convenienza, prima creiamo una copia del dataframe `df` che chiameremo `df1`.

Il metodo `map` applica una funzione a tutti gli elementi di un dataframe. Dobbiamo restringerci alla colonna `wdsp'.

In [9]:
df1 = df.copy()
df1['wdsp_kmh'] = df1['wdsp'].map(lambda x: x*1.8552)
df1.tail(2)

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
20848,30-jan-2019,3.4,-2.1,5.0,9.276
20849,31-jan-2019,6.4,1.3,10.5,19.4796


Un altro modo è approfittare del fatto che `pandas` interpreta alune semplici operazioni (come addizine e sottrazione) in modo *vettoriale* cioè applicate ad ogni elemento di un vettore (array, serie, ecc.)

In [10]:
df2 = df.copy()
df2[ 'wdsp_kmh' ] = df2[ 'wdsp' ] * 1.8552
df2.tail(2)

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
20848,30-jan-2019,3.4,-2.1,5.0,9.276
20849,31-jan-2019,6.4,1.3,10.5,19.4796


In [21]:
mask = (df2[ 'wdsp_kmh' ] >= 50)  &  (df2[ 'wdsp_kmh' ] <= 52)
mask = (df2[ 'wdsp_kmh' ] >= 60)  |  (df2[ 'wdsp_kmh' ] <= 3)
df2[ mask]

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
27,28-jan-1962,10.3,7.2,1.2,2.22624
65,07-mar-1962,4.4,0.9,35.2,65.30304
3081,09-jun-1970,23.8,11.8,1.6,2.96832
3085,13-jun-1970,20.1,12.1,1.4,2.59728
3323,06-feb-1971,6.6,4.8,1.5,2.7828
3324,07-feb-1971,7.9,3.1,1.5,2.7828
3543,14-sep-1971,18.4,8.0,1.3,2.41176
3550,21-sep-1971,18.5,12.1,1.6,2.96832
3688,06-feb-1972,6.4,0.2,1.6,2.96832
4007,21-dec-1972,8.6,5.7,1.1,2.04072


In [12]:
df3 = pd.DataFrame()
df3[ 'date' ] = df[ 'date' ]
df3[ 'max-min' ] = df[ ['maxtp', 'mintp'] 
                     ].apply(lambda x: round(x['maxtp']-x['mintp'], 1),
                             axis=1,
                            )
df3[ 'max-min' ] = df3[ 'max-min' ] * (9/5) + 32 
df3

Unnamed: 0,date,max-min
0,01-jan-1962,41.54
1,02-jan-1962,43.70
2,03-jan-1962,42.98
3,04-jan-1962,42.80
4,05-jan-1962,47.66
5,06-jan-1962,34.88
6,07-jan-1962,41.36
7,08-jan-1962,46.04
8,09-jan-1962,39.92
9,10-jan-1962,48.20


In [13]:
df3.to_csv('../dati/escursione_termica.csv')

In [14]:
df3[ 'max-min' ].max()

59.0

In [15]:
mask = df3[ 'max-min' ] >= 58
df3[mask]

Unnamed: 0,date,max-min
623,16-sep-1963,59.0
9670,23-jun-1988,58.64
11854,16-jun-1994,58.1


In [16]:
!jupyter nbconvert 1a_lezione.ipynb --to html
!jupyter nbconvert 1a_lezione.ipynb --to pdf

This application is used to convert notebook files (*.ipynb) to various other
formats.


Options
-------

Arguments that take values are actually convenience aliases to full
Configurables, whose aliases are listed on the help line. For more information
on full configurables, see '--help-all'.

--debug
    set log level to logging.DEBUG (maximize logging output)
--generate-config
    generate default config file
-y
    Answer yes to any questions instead of prompting.
--execute
    Execute the notebook prior to export.
--allow-errors
    Continue notebook execution even if one of the cells throws an error and include the error message in the cell output (the default behaviour is to abort conversion). This flag is only relevant if '--execute' was specified, too.
--stdin
    read a single notebook file from stdin. Write the resulting notebook with default basename 'notebook.*'
--stdout
    Write notebook output to stdout instead of files.
--inplace
    Run nbconvert in place, overwriting 

In [17]:
df3 = pd.read_csv("../dati/Cork_Airport.csv", 
                 skiprows=24, 
                 usecols= ['date', 'maxtp', 'mintp', 'wdsp'],
                 parse_dates = [0],
                )
df3

Unnamed: 0,date,maxtp,mintp,wdsp
0,1962-01-01,2.8,-2.5,9.2
1,1962-01-02,2.8,-3.7,5.9
2,1962-01-03,2.3,-3.8,6.7
3,1962-01-04,6.6,0.6,4.5
4,1962-01-05,9.3,0.6,12.7
5,1962-01-06,10.3,8.7,14.8
6,1962-01-07,9.6,4.4,10.5
7,1962-01-08,9.0,1.2,15.1
8,1962-01-09,6.6,2.2,10.2
9,1962-01-10,10.4,1.4,17.5
