## Manipolazione di un file GTF (Gene Transfer Format) attraverso la libreria `Pandas`

#### 1) Importare `Pandas`

In [120]:
import pandas as pd

#### 2) Leggere il file GTF

    df = pd.read_csv(gtf_file_name, sep='\t', header = None)

In [121]:
df = pd.read_csv('./input.gtf', sep='\t', header = None)

In [122]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,ENm006,VEGA_Known,exon,71783,71788,.,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
1,ENm006,VEGA_Known,CDS,71783,71788,.,-,0,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
2,ENm006,VEGA_Known,exon,70312,70440,.,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
3,ENm006,VEGA_Known,CDS,70312,70440,.,-,0,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
4,ENm006,VEGA_Known,exon,69989,70210,.,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
...,...,...,...,...,...,...,...,...,...
405,ENm006,VEGA_Known,CDS,56303,56327,.,+,0,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
406,ENm006,VEGA_Known,exon,56689,57573,.,+,.,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
407,ENm006,VEGA_Known,CDS,56689,57573,.,+,2,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
408,ENm006,VEGA_Known,exon,57680,58323,.,+,.,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."


**NB**: `read_csv()` ha un attributo `names` che permette di specificare la lista dei nomi delle colonne del data frame restituito.

#### 3) Cambiare i nomi delle colonne

I nomi delle colonne devono essere:
- reference
- source
- feature
- start
- end
- score
- strand
- frame
- attributes

In [123]:
replace_dict = {0 : 'reference', 1 : 'source', 2 : 'feature', 3 : 'start', 4 : 'end', 5 : 'score', 6 : 'strand', 7 : 'frame', 8 : 'attributes'}
df.rename(columns = replace_dict, inplace = True)

In [124]:
df

Unnamed: 0,reference,source,feature,start,end,score,strand,frame,attributes
0,ENm006,VEGA_Known,exon,71783,71788,.,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
1,ENm006,VEGA_Known,CDS,71783,71788,.,-,0,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
2,ENm006,VEGA_Known,exon,70312,70440,.,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
3,ENm006,VEGA_Known,CDS,70312,70440,.,-,0,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
4,ENm006,VEGA_Known,exon,69989,70210,.,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
...,...,...,...,...,...,...,...,...,...
405,ENm006,VEGA_Known,CDS,56303,56327,.,+,0,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
406,ENm006,VEGA_Known,exon,56689,57573,.,+,.,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
407,ENm006,VEGA_Known,CDS,56689,57573,.,+,2,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
408,ENm006,VEGA_Known,exon,57680,58323,.,+,.,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."


#### 4) Eliminare le colonne `source` e `score` e sostituire l'identificatore `ENm006` con l'identificatore `ENCODE_REGION` in tutti i campi della colonna `reference`

In [125]:
df.drop(['source', 'score'], axis=1, inplace = True)

In [128]:
df['reference'] = 'ENCODE_REGION'

In [129]:
df

Unnamed: 0,reference,feature,start,end,strand,frame,attributes
0,ENCODE_REGION,exon,71783,71788,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
1,ENCODE_REGION,CDS,71783,71788,-,0,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
2,ENCODE_REGION,exon,70312,70440,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
3,ENCODE_REGION,CDS,70312,70440,-,0,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
4,ENCODE_REGION,exon,69989,70210,-,.,"transcript_id ""U52112.4-005""; gene_id ""ARHGAP4"";"
...,...,...,...,...,...,...,...
405,ENCODE_REGION,CDS,56303,56327,+,0,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
406,ENCODE_REGION,exon,56689,57573,+,.,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
407,ENCODE_REGION,CDS,56689,57573,+,2,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."
408,ENCODE_REGION,exon,57680,58323,+,.,"transcript_id ""U52112.2-001""; gene_id ""AVPR2"";..."


#### 5) Sostituire la colonna degli attributi con le due colonne  `transcript` e `gene`

La colonne `transcript` e `gene` dovranno contenere solo l'ID del trascritto e del gene.

In [130]:
import re

In [131]:
df['gene'] = ''
df['transcript'] = ''

In [132]:
for (index, record) in df.iterrows():
    transcript_id = re.search('transcript_id\s+(.+?);', record['attributes']).group(1).replace('"', '')
    gene_id = re.search('gene_id\s+(.+?);', record['attributes']).group(1).replace('"', '')
    df.loc[index, 'transcript'] =  transcript_id
    df.loc[index, 'gene'] =  gene_id

In [133]:
df.drop('attributes', axis=1, inplace=True)

In [134]:
df

Unnamed: 0,reference,feature,start,end,strand,frame,gene,transcript
0,ENCODE_REGION,exon,71783,71788,-,.,ARHGAP4,U52112.4-005
1,ENCODE_REGION,CDS,71783,71788,-,0,ARHGAP4,U52112.4-005
2,ENCODE_REGION,exon,70312,70440,-,.,ARHGAP4,U52112.4-005
3,ENCODE_REGION,CDS,70312,70440,-,0,ARHGAP4,U52112.4-005
4,ENCODE_REGION,exon,69989,70210,-,.,ARHGAP4,U52112.4-005
...,...,...,...,...,...,...,...,...
405,ENCODE_REGION,CDS,56303,56327,+,0,AVPR2,U52112.2-001
406,ENCODE_REGION,exon,56689,57573,+,.,AVPR2,U52112.2-001
407,ENCODE_REGION,CDS,56689,57573,+,2,AVPR2,U52112.2-001
408,ENCODE_REGION,exon,57680,58323,+,.,AVPR2,U52112.2-001


#### 6) Aggiungere la colonna `length` contenente la lunghezza della feature

In [135]:
df['length'] = df['end'] - df['start'] + 1

Reindicizzazione delle colonne:

In [136]:
df = df.reindex(columns = ['reference', 'feature', 'start', 'end', 'length', 'strand', 'frame', 'gene', 'transcript'])

In [137]:
df

Unnamed: 0,reference,feature,start,end,length,strand,frame,gene,transcript
0,ENCODE_REGION,exon,71783,71788,6,-,.,ARHGAP4,U52112.4-005
1,ENCODE_REGION,CDS,71783,71788,6,-,0,ARHGAP4,U52112.4-005
2,ENCODE_REGION,exon,70312,70440,129,-,.,ARHGAP4,U52112.4-005
3,ENCODE_REGION,CDS,70312,70440,129,-,0,ARHGAP4,U52112.4-005
4,ENCODE_REGION,exon,69989,70210,222,-,.,ARHGAP4,U52112.4-005
...,...,...,...,...,...,...,...,...,...
405,ENCODE_REGION,CDS,56303,56327,25,+,0,AVPR2,U52112.2-001
406,ENCODE_REGION,exon,56689,57573,885,+,.,AVPR2,U52112.2-001
407,ENCODE_REGION,CDS,56689,57573,885,+,2,AVPR2,U52112.2-001
408,ENCODE_REGION,exon,57680,58323,644,+,.,AVPR2,U52112.2-001


#### 7) Rimuovere dal *data frame* tutte le features di lunghezza minore o uguale a 6 basi

#### 8) Estrarre il *data frame* dei primi 20 esoni più lunghi e degli ultimi 20 esoni localizzati sul *reference*

*SUGGERIMENTO*: usare la funzione:

    pd.merge(first_df, second_df, how='outer')
    
per unire verticalmente due *data frame* con le stesse colonne.

#### 9) Estrarre la lista dei geni presenti nel file GTF

#### 10) Estrarre la lista dei trascritti presenti nel file GTF

#### 11) Determinare, per ogni gene, la lunghezza media, massima e minima degli esoni

#### 12) Determinare la lunghezza minima degli esoni ed estrarre tutti i trascritti che contengono un esone di lunghezza minima

#### 13) Contare quanti trascritti sono annotati per il gene `ARHGAP4`

#### 14) Estrarre la lista dei geni con strand `+`

#### 15) Estrarre gli esoni (distinti) del gene `ATP6AP1` in una lista di tuple (start, end)

#### 16) Contare il numero di trascritti del gene `ARHGAP4` che hanno una CDS annotata

#### 17) Estrarre lo strand del gene  `ATP6AP1`

#### 18) Determinare il trascritto che ha più esoni

#### 19) Estrarre per ogni trascritto del gene  `ARHGAP4` la lista delle tuple (start, end) dei suoi esoni ordinate per start crescente

#### 20) Determinare, per ogni gene e ogni trascritto il numero di esoni che lo compongono