In [1]:
filename = 'data/raw.fastq'
with open(filename, 'r') as fastq_file:
    identifier_line = fastq_file.readline().strip()
    sequence_line = fastq_file.readline().strip()
    description_line = fastq_file.readline().strip()
    quality_line = fastq_file.readline().strip()

# Codifica della qualita'

https://en.wikipedia.org/wiki/FASTQ_format#Encoding

La codifica che e' stata usata nei file fastq e' *Illumina 1.8+ Phred+33,  raw reads typically (0, 41)*

```
  !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
  |                         |    |        |                              |                     |
 33                        59   64       73                            104                   126
  0.2......................26...31........41
```

In [None]:
quality_line

# If e condizioni

```
if condizione:
    blocco di istruzioni
```

**Attenzione:** Python non usa parentesi per definire l'inizio e la fine di un blocco di istruzioni. 

L'inizio del blocco di solito e' identificato da un'istruzione (come un **`if`**) che conclude con i '**:**'.

Il corpo del blocco e' definito per indentazione. Uguale indentazione significa uguale livello di blocco.

In [None]:
if '#' in quality_line:
    print("La sequenza contiene un elemento a bassa qualita'")

Il costrutto completo prevede

```
if condizione:
    blocco di istruzioni
elif altracondizione:
    altro blocco di istruzioni
else:
    ultimo blocco di istruzioni
```

In [None]:
if '!' in quality_line or '"' in quality_line:
    print("La sequenza contiene un elemento a bassa qualita'")
else:
    print("La sequenza non contiene elementi a bassa qualita'")

In [None]:
if '!' in quality_line or '"' in quality_line:
    print("La sequenza contiene un elemento a qualita' molto bassa")
elif "#" in quality_line:
    print("La sequenza contiene un elemento a bassa qualita'")
else:
    print("La sequenza non contiene elementi a bassa qualita'")

# Cicli for

Usiamo la codifica con caratteri ASCII e trasformiamo i caratteri nella corrisopndente indice numerico di qualita':

In [None]:
ord('A')

In [None]:
ord('A')-33

Definiamo un limite di qualita' sotto al quale vogliamo escludere una sequenza:

In [2]:
single_quality_threshold = 10

Il ciclo for ci permette di scorrere lungo i caratteri di una stringa o gli elementi di una lista:

In [3]:
for quality in quality_line:
    if ord(quality)-33 < single_quality_threshold: 
        print("La sequenza contiene un elemento a bassa qualita'")

Posso aggiungere l'istruzione **`break`** per uscire dal ciclo appena incontro la prima condizione per escludere la sequenza.

Decidiamo ora di aggiungere un ulteriore criterio per decidere se escludere la sequenza.

Ammettiamo che non ci siano valori di qualita' della singola base troppo bassi.

Il nuovo criterio prevedere di calcolare la media delle qualita' delle basi della sequenza e se sta sotto un limite viene esclusa.

Definiamo quandi un nuovo limite:

In [4]:
sequence_quality_threshold = 30

In [None]:
average = 0
type(average)

In [None]:
for quality in quality_line:
    average = average + ord(quality)-33
# posso usare l'operatore +=

In [None]:
average = average/len(quality_line)
if average < sequence_quality_threshold: 
        print("La sequenza ha una bassa qualita'")
average

Ho inizializzato la variabile `average` a zero intero e l'ho incrementata sommando numeri interi.

Ma la divisione fra interi non e' sempre un intero.

In [None]:
type(average)

**Attenzione:** Python supporta la tipizzazione dinamica.

# Dizionari

Visto che le informazioni relative ad una sequenza sono da leggere a blocchi di quattro linee dal file fastq, puo' risultare utile creare un oggeto che contenga tutte le informazioni relative ad una sequenza.

Altra funzonalita' molto utile e' quella di potersi riferire agli elementi di questo oggetto non con degli indici numerici (come nelle liste), ma tramite delle chiavi che possono essere del tipo immutabile che vogliamo (a noi fa comodo usare una stringa).

In [None]:
sequence_dict = {
    'identifier_line'  : identifier_line,
    'sequence_line'    : sequence_line,
    'description_line' : description_line,
    'quality_line'     : quality_line,
    'quality_average'  : average
}
type(sequence_dict)

In [None]:
sequence_dict['quality_average']

Aggiungiamo adesso un nuovo elemento al dizionario, una lista contenente la codifica della qualita' delle basi della sequanca con numeri interi.

In [None]:
quality_list = []
for quality in quality_line:
    quality_list.append(ord(quality)-33)

sequence_dict['quality_list'] = quality_list

In [None]:
sequence_dict['quality_list']

In [None]:
print(sequence_dict['sequence_line'][0])
print(sequence_dict['quality_line'][0])
print(sequence_dict['quality_list'][0])

# Funzioni

Le operazioni che abbiamo eseguito finora sulle prime quattro righe vanno ripetute per tutte le sequenze del file fastq.

Il costrutto ideale per raggruppare una serie di identiche e' la funzione.

In [None]:
def read_sequence(fastq_file, single_quality_threshold=10, sequence_quality_threshold=30):
    """
    Questa funzione legge quattro linee del file fastq e controlla la qualita' della sequenza.
    Se i criteri di qualita' sono rispettati restituisce un dizionario contenente le informazioni della sequanza.
    
    Args:
        fastq_file                  (TextIOWrapper): oggetto file aperto in lettura;
        single_quality_threshold   (int, opzionale): soglia sulla qualita' della singola base;
        sequence_quality_threshold (int, opzionale): soglia sulla qualita' media della sequenza;
        
    Returns:
        dict: dizionario contenente i dati della sequenza letta se i criteri di qualita' sono rispettati,
              altrimenti un dizionario vuoto.
    """
    
    # costuiamo insieme la funzione
    
    return
    

In [None]:
help(read_sequence)

Come utilizzo la funzione?

In [None]:
with open(filename, 'r') as fastq_file:
    fastq_list = fastq_file.readlines()
len_file = len(fastq_list)
del fastq_list

In [None]:
sequences = []
with open(filename, 'r') as fastq_file:
    for n in range(int(len_file/4)):
        sequence = read_sequence(fastq_file) #, single_quality_threshold=20, sequence_quality_threshold=30)
        if sequence: sequences.append(sequence)

In [None]:
sequences[0]

In [None]:
len(sequences)