# Biopython 

E' un insieme di moduli utilizzati per l'analisi di dati biologgici, sono presenti moduli che permettono di effettuare operazioni su file di biologia, operazioni di completamento di sequenze che siano nucleotidiche/aminoacidiche (RNA-DNA) Allineamenti locali o globali.

Per installare Biopython utilizziamo PIP:


**pip install biopython**

# Esempio di operazioni che possono essere effettuate nelle sequenze.

In [16]:
from Bio import Seq 

seq = Seq.Seq("AGTACACTGGT")
print("Original Sequence: ", seq)


rev_comp = seq.reverse_complement()

# stampa del complemento inverso
print("Reverse Complement: ", rev_comp)     

# lunghezza della sequenza
print("Length of Sequence: ", len(seq))

print(seq.transcribe())  # da DNA a RNA

print(seq.translate())   # da RNA a proteina

Original Sequence:  AGTACACTGGT
Reverse Complement:  ACCAGTGTACT
Length of Sequence:  11
AGUACACUGGU
STL


# Esempio di Allineamento su sequenze

In [21]:
from Bio import pairwise2
from Bio.pairwise2 import format_alignment

seq1 = "ACGGGA"
seq2 = "TTTGA"

allineamento = pairwise2.align.globalxx(seq1, seq2)
for a in allineamento:
    print(format_alignment(*a))


"""Questo esempio è molto semplice poichè la stringa è identica. Proviamo a complicare le cose, ci aspettiamo che modificando una delle due stringhe allora 
l'allineamento non sarà più perfetto. e vediamo come cambia l'output."""

ACGG---GA
       ||
----TTTGA
  Score=2

ACGG--GA
   .  ||
---TTTGA
  Score=2

ACGG--GA
  .   ||
--T-TTGA
  Score=2

ACGG--GA
 .    ||
-T--TTGA
  Score=2

ACGG--GA
.     ||
T---TTGA
  Score=2

ACG-G-GA
    . ||
---TTTGA
  Score=2

ACGG-GA
  .. ||
--TTTGA
  Score=2

ACGG-GA
 . . ||
-T-TTGA
  Score=2

ACGG-GA
.  . ||
T--TTGA
  Score=2

AC-GG-GA
   .  ||
--TT-TGA
  Score=2

ACGG-GA
 ..  ||
-TT-TGA
  Score=2

ACGG-GA
. .  ||
T-T-TGA
  Score=2

A-CGG-GA
  .   ||
-TT--TGA
  Score=2

ACGG-GA
..   ||
TT--TGA
  Score=2

-ACGG-GA
 .    ||
TT---TGA
  Score=2

ACG--GGA
     .||
---TTTGA
  Score=2

ACG-GGA
  . .||
--TTTGA
  Score=2

ACG-GGA
 .  .||
-T-TTGA
  Score=2

ACG-GGA
.   .||
T--TTGA
  Score=2

AC-GGGA
   ..||
--TTTGA
  Score=2

ACGGGA
 ...||
-TTTGA
  Score=2

ACGGGA
. ..||
T-TTGA
  Score=2

A-CGGGA
  . .||
-TT-TGA
  Score=2

ACGGGA
.. .||
TT-TGA
  Score=2

-ACGGGA
 .  .||
TT--TGA
  Score=2

AC--GGGA
    . ||
--TTT-GA
  Score=2

AC-GGGA
 . . ||
-TTT-GA
  Score=2

AC-GGGA
.  . ||
T-TT-GA
  Sc

"Questo esempio è molto semplice poichè la stringa è identica. Proviamo a complicare le cose, ci aspettiamo che modificando una delle due stringhe allora \nl'allineamento non sarà più perfetto. e vediamo come cambia l'output."

In [18]:
seq1 = "ACCGG"
seq2 = "ACGTA"

allineamento = pairwise2.align.globalxx(seq1, seq2)
for a in allineamento:
    print(format_alignment(*a))

ACCGG--
| | |  
A-C-GTA
  Score=3

ACCGG--
||  |  
AC--GTA
  Score=3

ACCGG--
| ||   
A-CG-TA
  Score=3

ACCGG--
|| |   
AC-G-TA
  Score=3

ACCGG-
| ||. 
A-CGTA
  Score=3

ACCGG-
|| |. 
AC-GTA
  Score=3

ACCG-G
| || .
A-CGTA
  Score=3

ACCG-G
|| | .
AC-GTA
  Score=3



# Analisi di una sequenza di DNA 

In [19]:
from Bio.Seq import Seq 

dna = Seq("ATGCGTACGTAGCTAGCTAGCTAGC")
print("DNA Sequence: ", dna)

# percentuale di GC content all'interno della sequenza
print("GC Content: {:.2f}%".format(100 * float(dna.count("G") + dna.count("C")) / len(dna)))

# percentuale di AT content all'interno della sequenza
print("AT Content: {:.2f}%".format(100 * float(dna.count("A") + dna.count("T")) / len(dna)))

print("Length of DNA Sequence: ", len(dna)) # lònghezza sequenza 
print("Transcribed RNA Sequence: ", dna.transcribe()) #trascrizione in RNA

#inversa al DNA di base, vengono considerate le basi complementari come ad esempio A con T e C con G
# Ricordiamo che nel DNA le basi azotate sono: Adenina (A), Timina (T), Citosina (C) e Guanina (G), 
# e vengono appaiate in modo specifico: A con T e C con G.
print("Reverse Complement: ", dna.reverse_complement())


DNA Sequence:  ATGCGTACGTAGCTAGCTAGCTAGC
GC Content: 52.00%
AT Content: 48.00%
Length of DNA Sequence:  25
Transcribed RNA Sequence:  AUGCGUACGUAGCUAGCUAGCUAGC
Reverse Complement:  GCTAGCTAGCTAGCTACGTACGCAT
