# Prima lezione

In [1]:
# THIS CELL loads some html style files (it may be ignored)
from IPython.core.display import HTML
with open( '../lezioni/style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

## Una selezione di linguaggi utili per l'analisi statistica di dati

Considereremo e confronteremo i sequenti 3 linguaggi. Ma ci concentreremo principalmente su `Python`.

`Python` È un linguaggio con un ampio spettro di applicazioni (la prima vesione stabile è del 1990). Va per la maggiore nell'intelligenza artificiale e nelle data sciences, ma ha anche applicazioni web e UI. Ogni abito usa librerie specifiche.

`R` Pensato principalmente per la statistica ed usato principlamente per questo (la prima vesione stabile è del 1990). Per le più elementari funzioni statistiche non è necessario caricare nessumna libreria.

`Julia` Molto recente (versione 0.0 nel 2009, versione 1.0 nel 2018). Tra qualche anno potrebbe superare per diffusione le altre due alternative (almeno nell'ambito calcolo scientifico).

Questi linguaggi sono *open source*. Altri linguaggi con funzionalità silmile, ma proprietari, sono per esempio `Matlab`, `SAS`, `Excel`.

## Che cos'è un IDE

Un Integrated Development Environment (IDE), o ambiente di sviluppo è del sofware che integra un editore, l'interpreted (o il compiler) di un linguaggio di programmazione, il terminale per output, grafico o numerico del programma.

`Jupyter` è, tra l'altro, un IDE. Può essere usato per una miriade di linguaggi di programmazione (si dice che è *language agnositc*). 

Un IDE molto usato per `R` è `Rstudio`. La versione per desktop è molto avanzata. Esiste anche una versione cloud utilizzabile via web.

## Che cos'è Git

`Git` è un protocollo per *version control system*. Serve per registrare l'evoluzione storica di un progetto. Il problema è molto complesso soprattutto se si tratta un progetto decentralizzato con molti collaboratori (anche migliaia). 

`Github` è una repositora pubblica in cui si possono archiviare progetti che usano il protocollo `Git`. Chiunque può col comando `git clone`, clonare un progetto archiviato in `Github`, ovvero creare in locale (sul proprio computer) una copia di quel progetto e svilupparlo indipendentemente.

Se nel frattempo il progetto su `Github` cambia, i campiamenti si possono integrare nella repositoria locale col comando `git pull`.

Se si vuole (e se si ha il permesso) di trascrivere le modifiche fatte in locale sulla repositoria pubblica si usa il comando `git push`.

I comandi `git pull` e `git push` funzionano bene finchè non ci sono conflitti che git non riesce a risorvere automaticamente. Altrimenti git si blocca e chiede all'utente di risolvere/rimuovere manualmente i conflitti.

La repositoria pubblica che contiene il materiale del corso è [github.com/domenicozambella/BioTeIndu19](https://github.com/domenicozambella/BioTeIndu19)

## Utilizzo di librerie in `Python`

Esistono 3 modi di utilizzare una libreria in `Python`. Per esempio per poter usare la libreria `pandas` (per trattare tabelle di dati) possiamo scrivere

In [3]:
import pandas

Però questo obbliga a usare il prefisso `pandas.` ogni volta che si usa una funzione della libreria. Per esempio per usare la funzione  `read_csv` (funzione che legge una tabella si *coma separated values*) dovremmo scrivere `pandas.read_csv`. Questo rischia di rendere poco leggibile il codice. 

Un'alternativa è importare singole funzioni della libreria. Per esempio se si vuole usare la solo la funzione `read_csv` potremmo scrivere 

In [4]:
from pandas import read_csv

In questo modo possiamo usare `read_csv` senza prefisso. Però questo è scomodo quando dobbiamo importare molte funzioni e quando non siamo ben sicuri di cosa vogliamo/dobbiamo usare.

Il problema si risolve usando una *wildcary*. Il seguente comando importa (senza prefisso) *tutte* le funzioni della libreria.

In [5]:
from pandas import *

Ma questa soluzione è deprecata perché se usiamo due librerie che definiscono la stessa funzione non siamo sicuri quale stiamo usando.

Un compromesso è usare il comando

In [4]:
import pandas as pd

In questo modo il prefisso da usare per le funzioni della libreria è `pd.` (più breve). Tipicamente ogni libreria ha un abbreviazione standard

## Come si invoca l'help

Per avere informazioni sull'uso di una funzione, si prefissa il mome della funzione con un punto di domanda:

`￼?pd.read_csv`

## Esempio lettura tabella csv

I dati della tabella `Cork_Airport.csv` che si trovav nella directory `BioTeIndu19/dati`. Questo notebook è nella directory `BioTeIndu19/lezioni` quindi il percorso relativo per arrivare alla tablella è `../dati/Cork_Airport.csv`.

Le prime 24 righe della tabella sono descrizione dei dati quindi dobbiamo saltarle.

inoltre vogliamo tenere solo le colonne:

`date`    data

`maxtp`  temperatura massima

`mintp`  temperatura minima

`wdsp`   velocità del vento

In [5]:
df = pd.read_csv("../dati/Cork_Airport.csv", skiprows=24, usecols=['date', 'maxtp', 'mintp', 'wdsp'] )
df.tail(2) # stampiamo le ultime 2 righe del dataframe

Unnamed: 0,date,maxtp,mintp,wdsp
20848,30-jan-2019,3.4,-2.1,5.0
20849,31-jan-2019,6.4,1.3,10.5


La velocità del vento è in nodi ma noi la vogliamo in km/h. 

Dobbiamo moltiplicare per 1.8552 tutti gli elementi della colonna `wdsp`.

Per convenienza, prima creiamo una copia del dataframe `df` che chiameremo `df1`.

Il metodo `map` applica una funzione a tutti gli elementi di un dataframe. Dobbiamo restringerci alla colonna `wdsp'.

Un altro modo è approfittare del fatto che `pandas` interpreta alune semplici operazioni (come addizine e sottrazione) in modo *vettoriale* cioè applicate ad ogni elemento di un vettore (array, serie, ecc.)

In [7]:
df1 = df.copy()
df1[ 'wdsp_kmh' ] = df1[ 'wdsp' ] * 1.8552
df1.tail(2)

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
20848,30-jan-2019,3.4,-2.1,5.0,9.276
20849,31-jan-2019,6.4,1.3,10.5,19.4796


La seguente è una procedura più generale per ottenere lo stesso risultato

In [8]:
df1 = df.copy()
df1['wdsp_kmh'] = df1['wdsp'].map(lambda x: x*1.8552)
df1.tail(2)

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
20848,30-jan-2019,3.4,-2.1,5.0,9.276
20849,31-jan-2019,6.4,1.3,10.5,19.4796


Supponiamo di volere dei valori arrotondati alla prima cifra decimale: 

In [9]:
df1 = df.copy()
df1['wdsp_kmh'] = df1['wdsp'].map(lambda x: round(x*1.8552, 1))
df1.tail(2)

Unnamed: 0,date,maxtp,mintp,wdsp,wdsp_kmh
20848,30-jan-2019,3.4,-2.1,5.0,9.3
20849,31-jan-2019,6.4,1.3,10.5,19.5
