# Biblioteka PYTHONA -  BIOPYTHON. 

Wykorzystanie Biopythona w genetyce populacyjnej. Tworzenie, analiza i wizualizacja  drzew filogenetycznych.  

<img src="biopython.jpg">


 
Główne możliwości  Biopythona to:

- Możliwość analizy bioinformatycznych zbiorów, wyodrębniania elementów struktury czy zamiany formatów zapisu:
  - Blast  
  - Clustalw
  - FASTA
  - GenBank
  - PubMed i Medline
  - zbiory ExPASy takie, jak Enzyme i Prosite
  - zbiory SCOP takie jak ‘dom’ i ‘lin’ 
  - UniGene
  - SwissProt
- Zbiory w tych formatach mogą być przeglądane rekord po rekordzie lub indeksowane i odwzorowywane na słownik dict. 
- Dostępne są kody z takich popularnych źródeł jak: 
  - NCBI – serwisy Blast, Entrez i PubMed 
  - ExPASy – Swiss-Prot i Prosite 
- Dostarczany jest interface do znanych bioinformatycznych programów takich jak:
  - Standalone Blast z NCBI
  - dopasowujący sekwencje program Clustalw
  - narzędzia EMBOSS 
- Standardowa klasa dla ciągów Seq - służąca do identyfikacji i przetwarzania ciągów 
- Narzędzia do wykonywania takich operacji na ciągach jak translacja, transkrypcja czy obliczanie wag.
- Narzędzia do wykonywania klasyfikacji danych takie jak klasyfikacja metodą k najbliższych sąsiadów, Naive Bayes czy Metoda wektorów nośnych.
- Narzędzia do dopasowania łańcuchów (alignment) uwzględniające insercje i delecje 
- Narzędzia do zrównoleglania obliczeń.
- Interfejsy GUI do podstawowych manipulacji ciągami, translacji, BLASTowania, etc.
- Szeroka dokumentacja, listy dyskusyjne w internecie. 
- Integracja z projektami BioSQL, BioPerl i BioJava.

In [1]:
import Bio
print(Bio.__version__)

1.78


In [2]:
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
help(Seq)

Help on class Seq in module Bio.Seq:

class Seq(builtins.object)
 |  Seq(data)
 |  
 |  Read-only sequence object (essentially a string with biological methods).
 |  
 |  Like normal python strings, our basic sequence object is immutable.
 |  This prevents you from doing my_seq[5] = "A" for example, but does allow
 |  Seq objects to be used as dictionary keys.
 |  
 |  The Seq object provides a number of string like methods (such as count,
 |  find, split and strip).
 |  
 |  The Seq object also provides some biological methods, such as complement,
 |  reverse_complement, transcribe, back_transcribe and translate (which are
 |  not applicable to protein sequences).
 |  
 |  Methods defined here:
 |  
 |  __add__(self, other)
 |      Add another sequence or string to this sequence.
 |      
 |      >>> from Bio.Seq import Seq
 |      >>> Seq("MELKI") + "LV"
 |      Seq('MELKILV')
 |  
 |  __contains__(self, char)
 |      Implement the 'in' keyword, like a python string.
 |      
 |     

# Obiekt Seq 

In [6]:
from Bio.Seq import Seq
from Bio.Data import CodonTable
from Bio.SeqUtils import GC
my_seq = Seq('AGTACACCTGTGAATGGT')
print(my_seq)
print(my_seq.complement())
print(my_seq.reverse_complement())
print(my_seq[::-2])
print(str(my_seq))
print(my_seq.lower())
my_seq=Seq("AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG")
print(my_seq.translate(table=13))
# Zobacz. https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi

AGTACACCTGTGAATGGT
TCATGTGGACACTTACCA
ACCATTCACAGGTGTACT
TGAGGCAAG
AGTACACCTGTGAATGGT
agtacacctgtgaatggt
MAIVMGRWKGAR*


In [7]:
from Bio.Seq import Seq
gene = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCA"
    "GCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGAT"
    "AATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACAT"
    "TATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCAT"
    "AAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA")
print(gene.translate(table="Bacterial"))
print(gene.translate(table="Bacterial", to_stop=True))

VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDHGWWKQHYEWRGNRWHLHGPPPPPRHHKKAPHDHHGGHGPGKHHR*
VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDHGWWKQHYEWRGNRWHLHGPPPPPRHHKKAPHDHHGGHGPGKHHR


In [8]:
from Bio.Data import CodonTable
standard_table = CodonTable.unambiguous_dna_by_name["Standard"]
mito_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]
print(standard_table)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

In [9]:
# ##### Struktura mutowalna Seq
from Bio.Seq import Seq
my_seq = Seq("GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA")
# my_seq[5] = "G"
mutable_seq = my_seq.tomutable()
mutable_seq[5] = "G"
print(mutable_seq)
mutable_seq.remove("T")
mutable_seq.reverse()
my_seq== mutable_seq.toseq()

GCCATGGTAATGGGCCGCTGAAAGGGTGCCCGA


False

In [11]:
# ###### Podklasa Seq (ze względu na utrzymywanie w pamięci)
from Bio.Seq import UnknownSeq
unk = UnknownSeq(20, character='?')
print(unk)

????????????????????


# Obiekt SeqRecord

In [12]:
from Bio import Entrez
from Bio import SeqIO
Entrez.email = "A.N.Other@example.com"
with Entrez.efetch(db="nucleotide", rettype="fasta", retmode="text", id="6273291") as handle:
    seq_record = SeqIO.read(handle, "fasta")
print("%s with %i features" % (seq_record.id, len(seq_record.features)))
help(seq_record)


AF191665.1 with 0 features
Help on SeqRecord in module Bio.SeqRecord object:

class SeqRecord(builtins.object)
 |  SeqRecord(seq, id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=None, features=None, annotations=None, letter_annotations=None)
 |  
 |  A SeqRecord object holds a sequence and information about it.
 |  
 |  Main attributes:
 |   - id          - Identifier such as a locus tag (string)
 |   - seq         - The sequence itself (Seq object or similar)
 |  
 |  Additional attributes:
 |   - name        - Sequence name, e.g. gene name (string)
 |   - description - Additional text (string)
 |   - dbxrefs     - List of database cross references (list of strings)
 |   - features    - Any (sub)features defined (list of SeqFeature objects)
 |   - annotations - Further information about the whole sequence (dictionary).
 |     Most entries are strings, or lists of strings.
 |   - letter_annotations - Per letter/symbol annotation (restricted
 |    

# Bazy Danych Entrez

## $\bullet $ Książki
We współpracy z wydawcami książek NCBI oferuje cyfrowe książki biomedyczne i monografie z linkami do PubMed – biomedycznej bibliograficznej bazy danych. http://www.ncbi.nlm.nih.gov/sites/entrez?db=books

## $\bullet $ ‘Rakowe chromosomy’
Zawiera cytogenetyczne, kliniczne i polecane informacje zaczerpnięte ze zintegrowanych danych NCI (NAtional Cancer Institute - USE) Mitelman Database of Chromosome Aberrations in Cancer, NCI Recurrent Aberrations in Cancer database, oraz bazy danych NCI/NCBI SKY/M-FISH & CGH.Trzy bazy danych, baza danych NCI/NCBI SKY/M-FISH & CGH, NCI Mitelman Database of Chromosome Aberrations in Cancer, oraz NCI Recurrent Aberrations in Cancer, są teraz zintegrowane w systemie NCBI Entrez jako Chromosomy Rakowe. Szukaj cytogenetycznych, klinicznych i polecanych informacje. Zapytania są realizowane tak jak w innych bazach Entrez np. PubMed czy nukleotydowej. Szukaj trzema metodami: okno zapytania w Entrez, proste wyszukiwanie lub zaawansowane wyszukiwanie. Przejrzyj publikację http://www.ncbi.nlm.nih.gov/pubmed/15934046?dopt=Abstract  o tej bazie danych i o bazie danych SKY/M-FISH & CGH. Ostatnia aktualizacja bazy danych
- dane Mitelman - 27 maja 2008
- dane SKY/M-FISH & CGH 9 czerwca 2008
Przewodnik wyszukiwania dla okna zapytania w Entrez
Wprowadz zapytanie w pole (na szarym tle) na górze strony i naciśnij „Go”
Przykład:

Proste wyszukiwania cytogenetyczne (wyszukiwanie kariotypów i danych CGH - Porównawcza hybrydyzacja genomowa):
* Które przypadki mają miejsca złamań w rejonie chromosomu 9q34?
    9q34
* Które przypadki mają dodatkowy region 8p23?
    +8p23
* Które przypadki mają złączenie (fuzję miejsc złamań) między 9q34 i 22q11?
    9q34J22q11
ISCN (International System for Human Cytogenetic Nomenclature) Symbol anormalnej krótkiej formy chromosomu, zgodny z ISCN np. t(9;22)(q34;q11) też może być wprowadzony.

Wprowadzanie ograniczenia dotyczącego typu tkanki:
* Które przypadki z 9q34 dotyczą tkanki piersi?
    9q34 AND breast[site]
Nie ma spacji miedzy "breast" i "[site]", AND pisane zawsze dużymi literami
Wprowadzanie ograniczenia dotyczącego diagnozy:
* W którym z powyższych przypadków diagnoza dotyczy gruczolaka?
        9q34 AND breast[site] AND adenocarcinoma[diagnosis]
Zobacz dokument pomocy aby poznać więcej przykładów, http://www.ncbi.nlm.nih.gov/entrez/query/SkyCgh/help.html#basicsearch
 

Aby składać zapytania bardziej zaawansowania używaj także tej samej składni, skorzystaj z Preview/Index lub wyszukiwania zaawansowanego: http://www.ncbi.nlm.nih.gov/sites/entrez?db=cancerchromosomes&cmd=ShowAdvQryPage  

## $\bullet $ CDD
Baza danych zachowanych domen (domen konserwatywnych), kolekcja uliniowień (porównań) i profili reprezentujących konserwatywne w ewolucji molekularnej domeny białek. Wybierz „Domeny” z rozwijanej listy menu w Entrez.

Wskazówki do znajdowania domen

Wpisz jedno lub więcej wyszukiwanych haseł
Operatory AND, OR, NOT muszą być pisane wielka literą
Use wildcards (używaj symboli wieloznacznych?) and search field tags, e.g: Mannos*[title]
Nowa pomocna aplikacja
CDTree przeglądarką NCBI hierarchii domen białkowych. Jako pomocna aplikacja dla Twojej przeglądarki internetowej, pozwala na interaktywny pokaz sekwencji klastrów, taksonów, domen i architektury. CDTree jest dostosowany do Windowa. Wychodzi w pakiecie z Cn3D, molekularną strukturą i przeglądem alignmentów, a także funkcjonuje jako samodzielne narzędzie do analizy rodzin białek. Więcej: http://www.ncbi.nlm.nih.gov/Structure/cdtree/cdtree.shtml  
O bazie danych:
Conserved Domain Database (CDD) zawiera modele domen białkowych importowane ze źródeł zewnęrznych, takich jak Pfam i SMART, i zarządzana przez NCBI. CDD zawiera ponad 12,000 takich modeli i posiada linki do innych baz danych NCBI, zawierających sekwencje proteinowe, bibliografie cytatów i taksonomy.

## $\bullet $ Nukleotydowe serce (sekwencje nukleotydowe)
Zawiera wszystkie nukleotydowe sekwencje niezawarte w podzbiorach EST lub GSS.
Nukleotydowa baza danych Entrez to kolekacja sekwencji z kilku źródeł włączając GenBank, RefSeq i PDB. Liczba baz w tych bazach danych ciągle rośnie w wykładniczym tempie.

Genom człowieka
Badania zasobów genomu ludzkiego http://www.ncbi.nlm.nih.gov/genome/guide/ lub przeszukiwanie sekwencji genomu ludzkiego przy użyciu  Map Viewer http://www.ncbi.nlm.nih.gov/mapview/ .

## $\bullet $ Budowa genomu ludzkiego
Sekwencja DNA genomu ludzkiego została poznana w kwietniu 2003. Aktualna wersja jest  is listed as a build number na stronie Genome View http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606 i zawiera dodatkowo zestaw statystyk http://www.ncbi.nlm.nih.gov/mapview/stats/BuildStats.cgi?taxid=9606&build=36&ver=2 i  not publikowanych http://www.ncbi.nlm.nih.gov/genome/guide/human/release_notes.html.

human genes implicated in breast cancer
<img src="tools1.gif">
Chromosomowa lokalizacja kilku genów uznana jest za skorelowaną ludzkim genem BRCA1 związanym z rakiem piersi, wyróżniony za pomocą zapytania Map Viewer "BRCA1" (http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=hum_chr.inf&query).

## $\bullet $ Domeny trójwymiarowe (3D)

Zawiera domeny białek ze strukturalnej bazy danych Entrez.
Wskazówki wyszukiwania struktur:

Szukanie przez słowa klucze, np. "aconitase"
Szukanie przez sekwencje białeke
Szukanie przez sekwencje nukleotydowe
 

## $\bullet $ EST

Nukleotydowa baza danych zawierająca tylko rekordy Expressed Sequence Tag, czyli tzw. etykiety ekspresyjne (sekwencji pochodzących z aktywnych genów).
Baza danych etykiet ekspresyjnych (dbEST) http://www.ncbi.nlm.nih.gov/pubmed/8401577?dopt=Abstract  jest elementem GenBanku, który zawiera sekwencje i inne informacje o sekwencjach "single-pass" cDNA lub "Expressed Sequence Tags", z licznych organizmów.
Krótka relacja z historii ludzkiech EST w GenBank jest dostępna http://www.ncbi.nlm.nih.gov/pubmed/7667885?dopt=Abstract.
"Genome Directory" opublikowany w Nature (t. 377, publikacja 6547S, 28 Wrzesień 1995).

 

## $\bullet $ Geny
Geny i związane z nimi informacje dla wielu organizmów oraz człowieka.

## $\bullet $ Entrez Gene 
jest bazą danych genów, z genomów RefSeq http://www.ncbi.nlm.nih.gov/RefSeq/ , oraz określonych przez sekwencje zlokalizowane również/lub w Map Viewer NCBI.
Nowości w Entrez Gene http://www.ncbi.nlm.nih.gov/projects/Gene/GeneNews.html

Proste wyszukiwania:
Znajdz geny przez:

Wolny tekst np. human muscular dystrophy
Niekompletną (częściową) nazwę i podanie więcej niż jednego gatunku np. transporter[title] AND ("Drosophila melanogaster"[orgn] OR "Mus musculus"[orgn])
Numer chromosomy i symbol np. (II[chr] OR 2[chr]) AND adh*[sym]
Accession number np. M11313[accn]
Nazwę genu (symbol) np. BRCA1[sym]
Publikację (PubMed ID) np. 11331580[PMID]
Ontologie Genów (GO) (Opisuje własciwosci genów i ich produktów w dowolnym organizmie. Składa się z trzech rodzajów ontologii, opisujacych podstawowe obszary badań biologicznych: molekularna funkcja produktów genów; ich rola w wieloetapowych procesach biologicznych; struktura fizyczna - jako składników komórki) lub identyfikacji np. "cell adhesion"[GO]
10030[GO]
Geny z wariantami o znaczeniu klinicznym (w badaniach) np. gene_snp_clin[filter]
Chromosom i gatunek np. Y[CHR] AND human[ORGN]
Numery Enzyme Commission (EC) np. 1.9.3.1[EC]
 

## $\bullet $ Genom
Genomy ponad 1,200 organizmów mogą być znalezione w tej baize danych, pokazująza zarówno kompletne sekwencje oraz te których sekwencjonowanie trawa.  

Genomowa baza danych dostarcza widoków na różnorodne genomy, komplety chromosomów, mapy sekwencji z sekwencjami przylegajacymi i zintegrowane mapy genetyczne i fizyczne. Baza danych jest zorganizowana w 6 głównych grup organizmów: Archaea, Bacteria, Eukaryotae, Viruses, Viroids, and Plasmids

<img src="tools2.jpg">
 

## $\bullet $ Projekt Genom
Kolekcja pełnych i niekompletne (w toku) wyników sekwencjonowań na dużą skalę, montaż, adnotacje oraz tworzenie projektów dla organizmów komórkowych.

## $\bullet $ dbGaP
Skojarzone dane genotypowe i fenotypowe.

## $\bullet $ GENSAT
Atlas genów ulegających ekspresji centralnego układu nerwowego myszy.

Witamy w GENSAT

Projekt GENSAT ma na celu zmapowanie ekspresji genów w centralnym układzie nerwowym myszy, używając zarówno hybrydyzacji in situ jak i technik transgenicznych. Kliknij tutaj, aby uzyskać więcej informacji na temat metod stosowanych w GENSAT. http://www.ncbi.nlm.nih.gov/projects/gensat/static/methods_brief.shtml

Znajdź wskazówki:
*. Szukaj kryteriów włączając nazwy genów, symbole genów, pseudonimy i synonimy genów, wiek myszy i protokoły obrazowania.
* Wiek myszy ograniczony jest  do E10.5 (zarodkowych dni 10,5), E15.5 (zarodkowych dni 15,5), P7 (pourodzeniowy dzień 7) i dorosłych (dla dorosłych).
* Łącz frazy wraz z AND, OR i NOT

Przykładowe wyszukiwania:

    - drd* : szukaj wszystkich genów, których symbole zaczynają sie od "DRD"
- dopamine AND e10.5[age] : szukaj wszystkich genów, których nazwy zawierają słowo ‘dopamine’, posiadających zdjęcia dostępne myszy zebranych podczas zarodkowych dni 10.5.

## $\bullet $ Zbiory danych GEO
Geny ulegające ekspresji i molekularna obfitość zgrupowanych danych z NCBI Gene Expression Omnibus, ekspresja genów i macierz hybrydyzacji.

## $\bullet $ Profile GEO
Indywidualna ekspresja genów i  zasoby molekularne profili zmontowane z zasobów GEO

## $\bullet $ GSS
A Nucleotide database subset that contains only Genome Survey Sequence records. Podzestaw nukleotydowej bazy danych, która zawiera tylko rekordy Genome Survey Sequence.
Sekwencje genomu Survey Database (GSS) to podział GenBanku, który jest podobny do poddziału EST, z wyjątkiem tego, że większość sekwencji to oryginalne sekwencje genomowe a nie cDNA (mRNA). Należy zauważyć, że dwie klasy (exon trapped products and gene trapped products) mogą być uzyskana pośrednio poprzez cDNA. Należy zachować ostrożność podczas analizy sekwencji z obu tych klas, kiedy może mieć miejsce splicing i sekwencja reprezentowana w rekordzie może zostać przerwana kiedy  porównujemy ja do genomowej sekwencji. Dział GSS zawiera (ale nie wyłącznie) następujące rodzaje danych:

random "single pass read" badanie sekwencji genomu.
cosmid / BAC / YAC końca sekwencji
exon trapped genomic sequences
PCR sekwencji Alu
transposon-tagged sequences
Chociaż sekwencje bazy danych GSS są włączone do Działu GSS GenBanku, adnotacje w dbGSS są bardziej wszechstronne i zawierają szczegółowe informacje na temat autorów, warunkach doświadczalnych i genetycznych map lokalizacji.

 

## $\bullet $ Geny homologiczne
Zawiera homologi wśród odnotowanych genów kilku całkowicie zsekwencjonowanych genomów eukariotycznych.

## $\bullet $ Czasopisma
Zawiera wszystkie czasopisma zawarte w PubMed i zapewnia dostęp do rejestrów dla tego czasopisma w bazie danych.

Szukaj poprzez temat, tytuł czasopisma, skrót, ISSN lub wyszukuj zagadnieniu
Można limitować swoje wyszukiwania
Dostepna jest lista wszystkich czasopism Entrez  i linki do stron z pełnym tekstem
 

## $\bullet $ MeSH
Kontrolowane słownictwo NLM używane do indeksowania artykułów w PubMed.

## $\bullet $ Strona Internetowa NCBI
Wyszukiwarki calej strony NCBI

## $\bullet $ Katalog NLM  
Katalog książek, czasopism i audiowizualizacji w kolekcji NLM.

## $\bullet $ Online Mendelian Inheritance in Animals (OMIA):
Baza danych genów, dziedzicznych zaburzeń i cech gatunków zwierząt (innych niż ludzkie i mysie) autoryzowane przez Profesoar z Uniwersytetu w Sydney, Franka Nicholasa.

## $\bullet $ Online Mendelian Inheritance in Man (OMIM):
A katalog ludzkich genów i zaburzeń genetycznych autorem i redaktorem których jest  Dr Victor A. McKusick i współpracownicy.

## $\bullet $ PopSet
Zestaw danych dotyczących badań populacji, które zostały pobrane do analizy ewolucyjnego pokrewieństwa w populacji.

## $\bullet $ Sonda
Publiczny rejestr reagentów kwasu nukleinowego zaprojektowanych do stosowania w szerokim zakresie badań biomedycznych aplikacji, wraz z informacją o dystrybutorach reagentów, skuteczności sond i podobieństwach sekwencji.

## $\bullet $ Baza danych sekwencji białkowych
Zbiór sekwencji białka z różnych źródeł, w tym Swiss-Prot, PIR, PRF, WPB i translacji z regionów kodujących pochodzących z GenBank i RefSeq.

## $\bullet $ PubChem BioAssay
Bioaktywność substancji chemicznych.

## $\bullet $ PubChem Compound
Małe cząsteczki struktur chemicznych.

## $\bullet $ PubChem Substance
Substancje chemiczne badane pod kątem bioaktywnoci.

## $\bullet $ PubMed
Dostęp do ponad 15 milionów cytatów z MEDLINE i dodatkowych czasopism nauk naturalnych.

## $\bullet $ Centrala PubMed
Cyfrowe archiwum pełnotekstowych, literatura czasopism nauk przyrodniczych, która jest w pełni wyszukiwalna i połączona linkami z bazą danych PubMed.

## $\bullet $ SNP
Repozytorium polimorfizmu pojedynczych substytucji nkleotydowych i krótkich delecji i inercji.

## $\bullet $ Struktura
The Molecular Modeling Database zawiera trójwymiarowe struktury molekularne, w tym białka i polinukleotydy.

## $\bullet $ Taksonomia
Zawiera opisy wszystkich organizmów, które są reprezentowane w genetycznej bazy danych z co najmniej jednego nukleotydu lub sekwencji białkowych.

## $\bullet $ UniGene
System automatycznego podziału sekwencji GenBanku w niezbędny zestaw genów zorientowanych w grupy zawierające sekwencje, które stanowią unikalny (nie powtarzający się) genu, jak również związanych z nim informacji, takich jak rodzaj tkanki i lokalizacja na mapie.
Każda pozycja w UniGen to zestaw transkryptów które pojawiają się z tych samych lokus transkrypcyjnych (genów lub pseudogenów), razem z informacjami o podobieństwach białek, ekspresji genu, klonach cDNA i lokalizacji w genomie.

## $\bullet $ UniSTS
Raporty informacje o markerach lub STSach,  sekwencjach primerów, rozmiarze produktu i informacji o mapowaniu.

In [13]:
# ############### Wykaz baz danych ENTREZ
from Bio import Entrez
Entrez.email = "A.N.Other@example.com" # Always tell NCBI who you are
handle = Entrez.einfo()
record = Entrez.read(handle)
print(record["DbList"])

['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'structure', 'genome', 'annotinfo', 'assembly', 'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim', 'orgtrack', 'pmc', 'popset', 'proteinclusters', 'pcassay', 'protfam', 'biosystems', 'pccompound', 'pcsubstance', 'seqannot', 'snp', 'sra', 'taxonomy', 'biocollections', 'gtr']


In [14]:
# ############### Wykaz rekordów jednaj bazty danych
from Bio import Entrez
Entrez.email = "A.N.Other@example.com" # Always tell NCBI who you are
handle = Entrez.einfo(db="pubmed")
record = Entrez.read(handle)
print(record["DbInfo"]["Description"])
print(record["DbInfo"]["Count"])
print(record["DbInfo"]["LastUpdate"])
print("######################################")
for field in record["DbInfo"]["FieldList"]:
    print("%(Name)s, %(FullName)s, %(Description)s" % field)

PubMed bibliographic record
32384539
2021/04/07 07:43
######################################
ALL, All Fields, All terms from all searchable fields
UID, UID, Unique number assigned to publication
FILT, Filter, Limits the records
TITL, Title, Words in title of publication
WORD, Text Word, Free text associated with publication
MESH, MeSH Terms, Medical Subject Headings assigned to publication
MAJR, MeSH Major Topic, MeSH terms of major importance to publication
AUTH, Author, Author(s) of publication
JOUR, Journal, Journal abbreviation of publication
AFFL, Affiliation, Author's institutional affiliation and address
ECNO, EC/RN Number, EC number for enzyme or CAS registry number
SUBS, Supplementary Concept, CAS chemical name or MEDLINE Substance Name
PDAT, Date - Publication, Date of publication
EDAT, Date - Entrez, Date publication first accessible through Entrez
VOL, Volume, Volume number of publication
PAGE, Pagination, Page number(s) of publication
PTYP, Publication Type, Type of public

In [15]:
# ##################### Esearch, Efetch
from Bio import Entrez
Entrez.email = "A.N.Other@example.com" # Always tell NCBI who you are
handle = Entrez.esearch(db="pubmed", term="biopython[title]", retmax="40" )
record = Entrez.read(handle)
print(record["IdList"])
['22909249', '19304878']
# ### Wyszukiwanie genu matK w organizmach Cypripedioideae
handle = Entrez.esearch(db="nucleotide", term="Cypripedioideae[Orgn] AND matK[Gene]", idtype="acc")
record = Entrez.read(handle)
print(record["Count"])
# ####### GeneBank Identyfikator
print(record["IdList"])
print(" ################### ")
handle = Entrez.efetch(db="nucleotide", id="MN535014.1", rettype="gb", retmode="text")
print(handle.read())

['22909249', '19304878']
556
['NC_053552.1', 'NC_053551.1', 'NC_053544.1', 'MW528213.1', 'NC_052702.1', 'MW284890.1', 'MN561380.1', 'NC_050871.1', 'NC_050870.1', 'MT937101.1', 'MT937100.1', 'MT648789.1', 'MN153815.1', 'MN153814.1', 'MT683624.1', 'MK935187.1', 'MH659838.1', 'MN016934.1', 'NC_045279.1', 'NC_045278.1']
 ################### 
LOCUS       MN535014              163243 bp    DNA     circular PLN 25-NOV-2019
DEFINITION  Paphiopedilum micranthum chloroplast, complete genome.
ACCESSION   MN535014
VERSION     MN535014.1
KEYWORDS    .
SOURCE      chloroplast Paphiopedilum micranthum
  ORGANISM  Paphiopedilum micranthum
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliopsida; Liliopsida; Asparagales; Orchidaceae;
            Cypripedioideae; Paphiopedilum.
REFERENCE   1  (bases 1 to 163243)
  AUTHORS   Chen,X.
  TITLE     Direct Submission
  JOURNAL   Submitted (03-OCT-2019) Minnan Normal University, Zhangzhou 36300,
  

In [16]:
# ############ Wczytanie rekordu z bazy danych ENTREZ w formacie FASTA
from Bio import Entrez
from Bio import SeqIO
Entrez.email = "A.N.Other@example.com"
with Entrez.efetch(db="nucleotide", rettype="fasta", retmode="text", id="6273291") as handle:
    seq_record = SeqIO.read(handle, "fasta")
print(seq_record.id)
print(seq_record.seq[:30:])

AF191665.1
TATACATTAAAGGAGGGGGATGCGGATAAA


In [None]:
# ############ Wczytanie rekordu z bazy danych ENTREZ w formacie GEN BANKU (gb)
from Bio import Entrez
from Bio import SeqIO
Entrez.email = "A.N.Other@example.com"
with Entrez.efetch(
db="nucleotide", rettype="gb", retmode="text", id="7323291"
) as handle:
    seq_record = SeqIO.read(handle, "gb") # using "gb" as an alias for "genbank"
print(seq_record.id)
print(seq_record.seq[:30:])

In [None]:
######## Wyszukanie, nagranie do zbioru i parsowanie
import os
from Bio import SeqIO
from Bio import Entrez
Entrez.email = "A.N.Other@example.com" 
filename = "EU490707.gbk"
if not os.path.isfile(filename):
    net_handle = Entrez.efetch(db="nucleotide", id="EU490707", rettype="gb", retmode="text")
out_handle = open(filename, "w")
out_handle.write(net_handle.read())
out_handle.close()
net_handle.close()
print("Saved")
print("Parsing...")
record = SeqIO.read(filename, "genbank")
print(record)

Wykaz poleceń BIOPYTHONA związanych z bazą ENTREZ:
* einfo (EInfo) - informacja o bazach danych ENTREZ
* esearch (ESearch) - wyszukanie rekordów
* epost (EPost) - ładuje listę identyfikatorów do następnego wyszukiwania
* esummary (ESummary) - więcej informacji o danym rekordzie
* efetch (EFetch) - pobranie rekordu
* elink (ELink) - wyszukiwanie elementów związanych w bazach NCBI
* egquery (EGQuery) - globalne wyszukiwanie
* espell (ESpell- sugestie poprawy terminów ze słownika

In [None]:
from Bio import Entrez
from Bio import SeqIO
handle = Entrez.esearch(db="nuccore", term="Opuntia AND rpl16")
record = Entrez.read(handle)
gi_list = record["IdList"]
gi_str = ",".join(gi_list)
handle = Entrez.efetch(db="nuccore", id=gi_str, rettype="gb", retmode="text")
records = SeqIO.parse(handle, "gb")
for record in records:
    print("%s, length %i, with %i features" % (record.name, len(record), len(record.features)))

# Biblioteka Bio.Blast

Blast jest biblioteką Biopythona która oferuje gotową funkcję *qblast* dającą możliwość przeszukania całej bazy NCBI i sprawdzenia czy istnieje dana sekwencja DNA czy sekwencja białkowa podobna do "naszej: sekwencji. Jeśli "nasza" skewencja  
jest w bazie NCBI wystarczy podać jej identyfikator. 

In [17]:
from Bio.Blast import NCBIWWW
result=NCBIWWW.qblast("blastn","nr", "8332116")
print(result)

<_io.StringIO object at 0x000001A3B947EB80>


In [None]:
from Bio.Blast import NCBIWWW
from Bio import SeqIO
record=SeqIO.read(open("DNA_seq2.fasta"), format="fasta")
result=NCBIWWW.qblast("blastn", "nr", record.seq)
print(result)

# Drzewa filogenetyczne z biblioteką Bio.Phylo

In [18]:
from Bio import Phylo
tree = Phylo.read("simple.dnd","newick")
print(tree)
Phylo.draw_ascii(tree)

Tree(rooted=False, weight=1.0)
    Clade()
        Clade()
            Clade()
                Clade(name='A')
                Clade(name='B')
            Clade()
                Clade(name='C')
                Clade(name='D')
        Clade()
            Clade(name='E')
            Clade(name='F')
            Clade(name='G')
                                                    ________________________ A
                           ________________________|
                          |                        |________________________ B
  ________________________|
 |                        |                         ________________________ C
 |                        |________________________|
_|                                                 |________________________ D
 |
 |                         ________________________ E
 |                        |
 |________________________|________________________ F
                          |
                          |________________________ G



In [19]:
from Bio import Phylo
tree = Phylo.read("simple1.dnd","newick")
print(tree)
Phylo.draw_ascii(tree)

Tree(rooted=False, weight=1.0)
    Clade(branch_length=0.1)
        Clade(branch_length=0.69395, name='Bovine')
        Clade(branch_length=0.54939)
            Clade(branch_length=0.36079, name='Gibbon')
            Clade(branch_length=0.15057)
                Clade(branch_length=0.33636, name='Orang')
                Clade(branch_length=0.06124)
                    Clade(branch_length=0.17147, name='Gorilla')
                    Clade(branch_length=0.08386)
                        Clade(branch_length=0.19268, name='Chimp')
                        Clade(branch_length=0.11927, name='Human')
        Clade(branch_length=1.2146, name='Mouse')
       ___________________________________ Bovine
      |
      |                             __________________ Gibbon
      |____________________________|
      |                            |       _________________ Orang
      |                            |______|
______|                                   |    ________ Gorilla
      |             

Dostępne dalsze możliwości:
* Zamiana między różnymi innymi formatami opisu drzewa
* możliwości kolorowania gałęzi 
* pewne operaccje na drzewach (wspólny przodek kilku węzłów, potomek, przechodzenie drzewa itp.)
* operacje przycinania lub modyfikacji drzewa
* Drzewo alignment (dopasowań) DNA

# Bio.PDB

Moduł Bio.PDB może ładować struktury molekularne z plików PDB i mmCIF i został dodany do Biopythona w 2003 roku. StructureObiekt jest centralny dla tego modułu i organizuje strukturę makromolekularną w sposób hierarchiczny: Structureobiekty zawierają Modelobiekty zawierające Chainobiekty zawierające Residueobiekty które zawierają Atomprzedmioty. Nieuporządkowane reszty i atomy mają swoje własne klasy DisorderedResiduei DisorderedAtomopisują ich niepewne pozycje. Korzystając z Bio.PDB, można poruszać się po poszczególnych składnikach pliku struktury makrocząsteczkowej, na przykład badając każdy atom w białku. Można przeprowadzić typowe analizy, takie jak pomiar odległości lub kątów, porównanie pozostałości i obliczenie głębokości pozostałości. 

# Genome.Diagram

Moduł GenomeDiagram zapewnia metody wizualizacji sekwencji w Biopythonie. Sekwencje można rysować w formie liniowej lub kołowej, a obsługiwanych jest wiele formatów wyjściowych, w tym PDF i PNG . Diagramy są tworzone przez tworzenie ścieżek, a następnie dodawanie do nich elementów sekwencji. Zapętlając cechy sekwencji i wykorzystując ich atrybuty do decydowania, czy i jak zostaną dodane do ścieżek diagramu, można mieć dużą kontrolę nad wyglądem ostatecznego diagramu. Między różnymi ścieżkami można narysować powiązania, co pozwala na porównanie wielu sekwencji na jednym diagramie. 

In [20]:
from reportlab.lib import colors
from reportlab.lib.units import cm
from Bio.Graphics import GenomeDiagram
from Bio import SeqIO
from Bio.SeqFeature import SeqFeature, FeatureLocation
record = SeqIO.read("NC_005816.gb", "genbank")
gd_diagram = GenomeDiagram.Diagram(record.id)
gd_track_for_features = gd_diagram.new_track(1, name="Annotated Features")
gd_feature_set = gd_track_for_features.new_set()
for feature in record.features:
    if feature.type != "gene":
    # Exclude this feature
        continue
    if len(gd_feature_set) % 2 == 0:
        color = colors.blue
    else:
        color = colors.lightblue
    gd_feature_set.add_feature(feature, sigil="ARROW", color=color, label=True, label_size=14, label_angle=0)
for site, name, color in [("GAATTC", "EcoRI", colors.green),("CCCGGG", "SmaI", colors.orange),
                          ("AAGCTT", "HindIII", colors.red),("GGATCC", "BamHI", colors.purple),]:
    index = 0
    while True:
        index = record.seq.find(site, start=index)
        if index == -1:
            break
        feature = SeqFeature(FeatureLocation(index, index + len(site)))
        gd_feature_set.add_feature(feature,color=color,name=name,label=True,label_size=10,label_color=color,)
        index += len(site)
gd_diagram.draw(format="linear", pagesize="A4", fragments=4, start=0, end=len(record))
gd_diagram.write("plasmid_linear_nice.pdf", "PDF")
gd_diagram.write("plasmid_linear_nice.eps", "EPS")
gd_diagram.write("plasmid_linear_nice.svg", "SVG")
gd_diagram.draw(format="circular",circular=True,pagesize=(20 * cm, 20 * cm),start=0,end=len(record),circle_core=0.5,)
gd_diagram.write("plasmid_circular_nice.pdf", "PDF")
gd_diagram.write("plasmid_circular_nice.eps", "EPS")
gd_diagram.write("plasmid_circular_nice.svg", "SVG")


# Bio.PopGen 

Moduł dodaje wsparcie dla Biopython for Genepop, pakietu oprogramowania do statystycznej analizy genetyki populacji. Pozwala to na analizę równowagi Hardy'ego – Weinberga , nierównowagi sprzężeń i innych cech częstości alleli populacji . Moduł ten może również przeprowadzać symulacje genetyczne populacji z wykorzystaniem teorii koalescencji z programem fastsimcoal2. W dużym stopniu jeszcze w fazie projektu.

**ZADANIA DO ROZWIĄZANIA:**

* Zad. 1. Jakie atrybuty i metody ma klasa  𝑆𝑒𝑞  w Biopythonie?
* Zad. 2. Do czego służą moduły  𝐵𝑖𝑜.𝑃ℎ𝑦𝑙𝑜,𝐵𝑖𝑜.𝑃𝐷𝐵,𝐺𝑒𝑛𝑜𝑚𝑒𝐷𝑖𝑎𝑔𝑟𝑎𝑚  i  𝐵𝑖𝑜.𝑃𝑜𝑝𝐺𝑒𝑛  w Biopythonie?
* Zad. 3. Do jakich genetycznych baz danych ma dostęp Biopython?
* Zad. 4. Wczytaj z ENTREZ z bazy danych "nucleotide" rekord o identyfikatorze "6432281" w formacie fasta. Zobacz co to za obiekt (jego identyfokator). W łańcuchu DNA zamień pięć pierwszych wystąpień G na T, litery A na 4 i 5 pozycji na C, zlicz ilość wystąpień każdej z zasad A,C,T,G oraz ilość wystąpień łańcucha "CTC".
* Zad. 5. Zaimplementuj w Bio.Phylo drzewo filogenetyczne o macierzy podobieństwa

  \begin{array}{rccc}
    & A & B & C & D  \\
\mbox{A} & 0 & 0.2 & 0.5 & 0.4 \\
\mbox{B} &  & 0 & 0.8 & 0.3 \\
\mbox{C} &  &  & 0 & 0.1 \\
\mbox{D} &  &  &   & 0 \\
\end{array}    
 
 metodą średnich połączeń. 

* Zad. 6. Dla zadanego ciągu 
"GAGAAGCGCAGAGACGCTCATTGCGAGTGGTGAGGAGACGGTCAATTGCCTGGTCGGGTTCAATCCTGATCGGCCGGCTAATCAGCAGGTGGTCCCCGGGAGTGGTAGGTTTGTAGTCCAGGATCGGTTTTGATGCGC"
znajdź BLASTEM organizmy, o podobnych ciągach w DNA.