# Una giornata da Ricercatore

## Introduzione alla programmazione con Python

# Agenda 1

- Dati da analizzare
- Variabile ed assegnazione
  - Stringhe
- Esempio base di struttura dati in python: le liste

# Agenda 2

- If e condizioni
  - Blocco / indentazione
- I cicli
- Altre strutture dati: i dizionari
- Le funzioni

# Data

Lo scopo del ricercatore è quello di analizzare i dati prodotti in laboratorio.

Come abbiamo visto nell'introduzione, la piattaforma di sequenziamento produce due file. 

Trovate un esempio nella cartella nominata **`data`**.

In [None]:
%%bash
wc -l data/*.fastq

In [None]:
! ls -lh data/*.fastq

Vediamo come è fatto uno di questi file:

In [None]:
! head -n 16 data/raw.fastq

https://en.wikipedia.org/wiki/FASTQ_format

A FASTQ file normally uses four lines per sequence.

- Line 1 begins with a '@' character and is followed by a sequence identifier and an optional description (like a FASTA title line).
- Line 2 is the raw sequence letters.
- Line 3 begins with a '+' character and is optionally followed by the same sequence identifier (and any description) again.
- Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as letters in the sequence.

```
@ERR232253.22491551 HWI-EAS282-R_0001:6:109:6894:5270 length=74
CCGCACTCCAGCCTGGGTGATACAGTGAGACTCCGTCTAAAAATATATATATATACGTGCACACGCACACACAC
+ERR232253.22491551 HWI-EAS282-R_0001:6:109:6894:5270 length=74
CCCCCCCCCCCCCCCCCBCCCCCCCDCCCCCCCDCDCCCCCBCC@@CCCCCADCCCBBDCCDDDBADADDDDDC
```

# Python è un linguaggio di programmazione:

- ad alto livello;
- che supporta diversi paradigmi di programmazione:
  - object-oriented
  - imperativo
  - funzionale

- che offre una tipizzazione dinamica forte;
- pseudo-compilato (o pseudo-interpretato);
- portabile;
- free software, ma soprattutto open-source.

In [None]:
import this

# Assegnazione / Riferimento

Per assegnare un valore ad una variabile si usa l'operatore '**=**'.

In Python questa operazione non e' una vera e propria assegnazione, ma un riferimento. Per il momento la possiamo considerare come una normale assegnazione.

In [None]:
filename = 'data/raw.fastq'

# File I/O

Per accedere ad un file si usa la funzione **`open()`**:
- il primo argomanto è una stringa col nome del file, 
- il secondo e' la modalita' di accesso al file: 'r' lettura, 'w' scrittura, 'a' aggiunta, ...
- il construtto with ci permette di gestire in modo più sicuro le operazioni di I/O
    - non è necessario chiudere il file, la chiusura è automatica anche in caso di errori
- la funzione open restituisce un oggetto file a cui assegnamo un nome

In [None]:
with open(filename, 'r') as fastq_file:
    identifier_line = fastq_file.readline()
    sequence_line = fastq_file.readline()
    description_line = fastq_file.readline()
    quality_line = fastq_file.readline()

Le linee che seguono lo statement **`with`** servono a leggere una riga del file ed "assegnare" il suo valore alla variabile a sinistra dell'uguale.

### L'indentazione conta!

# Stampa

In tutti i linguaggi di programmazione e' prevista una funzione o un costrutto che permette 
la stampa di una variabile.

In Python esiste la funzione **`print()`**

In [None]:
print(identifier_line)

La funzione print viene usata principalmente quando il sorgente e' scritto su file.

# Modalita' interattiva

In questa lezione impareremo ad usare Python grazie a due strumenti (Jupyter ed Ipython) che ci permettono di lavorare in modalita' interattiva.

In questa modalita' posso digitare una linea di codice all'interno di una cella e premendo **Ctrl+Invio** viene eseguita subito l'istruzione.

In [None]:
7 + 5

Sotto alla cella contenente l'istruzione, identificata con `In [N]:`, compare una cella contenente l'ouput (se disponibile), identificata da `Out[N]:`.

# Stringhe

In [None]:
type(sequence_line)

Le stringhe sono tipi di dati composti, nel senso che possono essere composte da dati piu' piccoli, i caratteri.

Posso quindi conoscere il numero di caratteri di una stringa usando la funzione **`len()`**.

In [None]:
len(sequence_line)

In modalita' interattiva posso vedere in output la rappresentazione di un oggetto semplicemente usando il nome associato.

D'ora in poi useremo questa modalita'.

In [None]:
sequence_line

Da questa rappresentazione capisco che si tratta di una stringa perche' e' racchiusa da apici.

**Attenzione:** leggendo da file un'intera riga abbiamo letto anche il carattere di escape "a capo".

Tutto in python e' un oggetto e come tale possiede degli attributi e dei metodi.

Posso operare su un oggetto con l'operatore "." per accedere al metodo **`strip()`** che elimina gli spazi ed i caratteri di escape ai capi della stringa.


In [None]:
sequence_line.strip()

Ma la stringa e' un tipo immutabile, per cui non l'ho modificata, ma ho prodotto una nuova stringa con le modifiche richieste.

In [None]:
sequence_line

In [None]:
sequence_line = sequence_line.strip()

# Completa come nell'esempio, decommenta le righe qui sotto ed esegui con Ctrl+Invio

#identifier_line = 
#description_line = 
#quality_line = 

Vediamo altre operazioni che si possono fare sulle stringhe:

In [None]:
sequence_line.count('T')

In [None]:
sequence_line.count('TG')

In [None]:
sequence_line.lower()

Posso accedere ai singoli caratteri di una stringa usando un indice che ne rappresenta la posizione. Gli indici partono da zero.

In [None]:
sequence_line[0]

In [None]:
sequence_line[-2]

In [None]:
sequence_line[40:55]

In [None]:
list(sequence_line)

# Liste

In [None]:
sequence_list = list(sequence_line)
type(sequence_list)

Una **lista** è una serie ordinata di oggetti.

In [None]:
lista = ['stringa', 5, 4.6, ['a', 3]]
lista

Gli oggetti che fanno parte della lista sono chiamati elementi, ognuno identificato da un indice che parte da zero.

In [None]:
lista[0]

In [None]:
lista[-1]

Le liste sono oggetti mutabili. Questo significa che posso ri-assegnare i suoi elementi.

In [None]:
lista[1] = 8
lista

Oppure aggiungerne di nuovi.

In [None]:
lista.append(5.2)
lista

La funzione **`len()`** restituisce il numero di elementi della lista.

In [None]:
len(lista)

L'operatore "**+**" ha il significato di **concatenazione** se applicato a due liste o stringhe.

In [None]:
lista + ['b', 'c', 'd']

In [None]:
lista[0] + 'altrastringa'