# 1. Typy obiektów i operacje

## 1.1. Liczby
Główne typy liczbowe w języku Python:

In [None]:
# Liczby całkowite (integers)
1234
-24 
0

# Liczby zmiennoprzecinkowe (floating-point numbers)
1.23 
1.
3.14e-10,
4E210
4.0e+210

# Liczby rzadziej używane w bioinformatyce:
0b101010  # Liczba dwójkowa (binarna)
0o177     # Liczba ósemkowe
0x9ff     # Liczba szesnastkowe
3+4j      # Liczba zespolona
3.0+4.0j  # jw.
3J        # jw.

In [1]:
7

7

In [2]:
3.14159

3.14159

### 1.1.1. Operatory wyrażeń Pythona:
> **Wyrażenie** (*expression*): kombinacja liczb (lub innych obiektów) i operatorów, która po wykonaniu w Pythonie oblicza wartość. 

In [None]:
5 - 3 
5 + 3
5 * 3
5 / 3
5 // 3
5 % 3
5 ** 3

#### Operacje na liczbach

In [6]:
a = 12
b = 2
a / 2 + b

8.0

In [7]:
a / (2 + b)

3.0

In [None]:
# Operacje matematyczne na mieszanych typach int i float
# Wynik zawsze jako float.
x = 1
y = 2.0
z = x + y
print(type(x))
print(type(y))
print(type(z))

In [3]:
0.1 + 0.2   # WTF?!

0.30000000000000004

> **Dlaczego tak się dzieje?:** Komputer przechowuje liczby zmiennoprzecinkowe w formacie binarnym (o ograniczonej liczbie bitów), który uniemożliwia dokładną reprezentację takich liczb jak: `0.1`, `0.2`, `0.3` itd. Kiedy kod programu jest kompilowany lub interpretowany Twoja liczba `0.1` jest automatycznie zaokrąglana do liczby w tym formacie, co skutkuje drobnym błędem zaokrąglenia jeszcze przed wykonaniem samego obliczenia. Więcej informacji [Python3 Tutorial](https://docs.python.org/3/tutorial/floatingpoint.html).

In [None]:
round(0.1 + 0.2, 1)              # Zaokrąglenie liczby do 1. miejsca po przecinku

In [None]:
round(0.1, 1) + round(0.2, 1)

#### Wbudowane narzędzia matematyczne

In [None]:
# Wbudowane funkcje matematyczne
int(3.1315)   # Funkcja int(): przekształca float na int (nie zaokrągla!)
float(3)      # Funkcja float() przekształca int na float
pow(2,3)      # To samo co: 2 ** 3
abs(-4)       # Wartość bezwzględna
min([1,2,3])  # Minimum
max([1,2,3])  # Maksimum

Moduł `math`:

In [None]:
import math
math.floor(2.567)   # Zaokrąglenie do najbliższej mniejszej liczby całkowitej
math.ceil(2.567)    # Zaokrąglenie do najbliższej większej liczby całkowitej

3 sposoby obliczenaia pierwiastka kwadratowego:

In [None]:
math.sqrt(144)      # 1: moduł math
144 ** 0.5          # 2: wyrażenie
pow(144, 0.5)       # 3: Funkcja wbudowana (najwolniejsza)

In [None]:
help(math)          # Pełna dokumentacja o module math.
help(math.sqrt)     # Dokumentacja o funkcji sqrt

Moduł `random`: wybieranie losowych liczb

In [18]:
import random
random.random()

0.717885449583135

In [17]:
random.randint(1,10)

10

#### Porównania liczb

In [None]:
# Porównania zwykłe
1 < 2       # Mniejszy od
2.0 >= 1    # Większy lub równy od (mieszane typy więc 1 zostaje przekształcony na 1.0)
2.0 == 2    # Równa wartość
2.0 != 2.0  # Nie mają równej wartości

In [None]:
round(0.1, 1) + round(0.2, 1) == round(0.3, 1)

In [None]:
round(0.1 + 0.2, 1) == round(0.3, 1)

In [None]:
# Porównania łączone
2 < 4 < 6        # To samo co: 2 < 4 and 4 < 6
2 < 4 > 6        # To samo co: 2 < 4 and 4 > 6
2 < 4 or 4 > 6 

## 1.2. Wartości Boolean (True i False)

In [1]:
type(True)

bool

In [None]:
# True i False są zapisanymi w innym formacie liczbami 0 i 1.
0 == False
1 == True
True or False
not False and True
True + 4              # Hmmm..

## 1.3. Łańcuchy znaków (Stringi)
Łańcuchy znaków w apostrofach i cudzysłowach są tym samym.

In [None]:
"ATGC"

In [None]:
'ATGC'

In [None]:
"ACTGC'ATGC'!"

In [None]:
'ATGC"ATGC"!'

#### Sekwencje ucieczki łańcuchów znaków poprzedzone są znakiem ukośnika lewego (\\)
> Sekwencje ucieczki (*escape sequence*) pozwalają osadzać w łańcuchach znaków znaki (kody bajtów), których nie da wpisać na klawiaturze. Pełny zbiór kodów ucieczki znajduje się w [dokumentacji języka Python](https://docs.python.org/3/reference/lexical_analysis.html#string-and-bytes-literals).

In [12]:
s = 'a\nb\tc\t\'d'

In [13]:
s

"a\nb\tc\t'd"

In [14]:
print(s)

a
b	c	'd


#### Potrójne cudzysłowy i apostrofy kodują łańcuchy znaków będące wielowierszowymi blokami

In [26]:
mantra = """Zawsze patrz 
na życie
z humorem"""

In [27]:
mantra

'Zawsze patrz \nna życie\nz humorem'

In [28]:
print(mantra)

Zawsze patrz 
na życie
z humorem


Łańcuchy znaków z potrójnymi cudzysłowami/apostrofami są wykorzystywane:
* jako komentarze kiedy pojawiają się one w określonych punktach naszego pliku
* jako dokumentacja naszych funkcji, klas itd.
* w celu tymczasowego wyłączania wierszy kodu w trakcie programowania

In [None]:
x = 1
"""
import random                  # Tymczasowo blokujemny wykonanie tego kodu
y = random.randint(0,100)
"""
y = 2

### 1.3.1. Podstawowe operacje na łańcuchach znaków

In [None]:
len('ATGC')          # Długość (len), czyli liczba elementów
len('A\tT\nG\nC')

In [None]:
'ATGC' + 'CGTA'      # Konkatenacja - nowy łańcuch znaków

In [None]:
'ATGC' * 4           # Powtórzenie - ATGC + ATGC + ATGC + ATGC

In [None]:
seq = 'AAA'
seq * 2 + 'ATGC' * 4 + 'NNN' 

In [None]:
'10' + 9             # Błąd!

In [None]:
'10' + str(9)        # To samo co: '10' + '9'
10 + int("9")

In [None]:
'GC' in 'ATGC'
'GC' not in 'ATGC'
'GC' > 'ATGC'

### 1.3.2. Indeksowanie i wycinki
Łańcuchy znaków definiowane są jako uporządkowane kolekcje znaków dlatego dostęp do ich komponentów można uzyskać za pomocą ich pozycji (indeksu).

In [None]:
seq = "MKSYHSGGTVW"     # Protein sequence.
"""
Pozycje w sekwencji:
0     1    2     3     4    5    6    7    8    9    10
M     K    S     Y     H    S    G    G    T    V     W
-11  -10  -9    -8    -7   -6   -5   -4   -3   -2    -1
"""
seq[0]
seq[2:4]
seq[2:2]
seq[-1]
seq[-5:-2]
seq[0:-1]
seq[:]
seq[11]

In [None]:
# Rozszerzone wycinki - trzeci limit
seq[0:10:2]
seq[:10:2]
seq[10:1:-1]
seq[::-1]         # ?

### 1.3.3. Metody łańcuchów znaków
> Pełna lista dostępnych metod łańcuchów znaków znajduje się w [dokumentacji języka Python](https://docs.python.org/3/library/stdtypes.html#string-methods).

In [None]:
# Najczęściej używane metody.
DNAseq = 'ATGCTGaTGaT'
RNAseq = DNAseq.replace('T', 'U')
print(RNAseq)

RNAseq.count('U')
RNAseq.lower()
print(RNAseq)
RNAseq.upper()
RNAseq.startswith('ATGC')    # To samo co: RNAseq[0:4] == 'ATGC'
RNAseq.startswith('ATGT')
RNAseq.endswith('AT')
RNAseq.isalpha()
RNAseq.isdigit()

seq = ' MKSTG\n'
seq.strip()
seq.rstrip()
seq.lstrip()

In [None]:
seq = 'ATG' * 3
dir(seq)
help(seq.find)           # To samo co: help(str.find)
RNAseq.find('ATG')
RNAseq.find('ATGC')

### 1.3.4. Formatowanie łańcuchów znaków
Mechanizmy formatowania łańcuchów znaków są dostępne w 2 odmianach:
1. *Wyrażenia formatujące* - oryginalna technika formatowania łańcuchów znaków dostępna w Pythonie od zawsze.
2. *Metoda format* - nowsza technika, dodana w Pythonie 2.6 i 3.0.

In [5]:
seq = 'ATGCCCC'
seq_len = len(seq) 
cfreq = seq.count('C') / seq_len * 100

# Konkatenacja (paskudna praktyka formatowania)
info = seq + " ma dlugosc " + str(seq_len) + " pz i sklada sie " 
info += "w " + str(cfreq) + " procentach z nukleotydu C."
print(info)

ATGCCCC ma dlugosc 7 pz i sklada sie w 57.14285714285714 procentach z nukleotydu C.


In [None]:
# Wyrażenia formatujące
"%s ma dlugosc %i pz i sklada się w %f procentach z nukleotydu C." % (seq, seq_len, cfreq)
"%s ma dlugosc %i pz i sklada się w %f%% z nukleotydu C." % (seq, seq_len, cfreq)
'%s ma dlugosc %i pz i sklada sie w %.1f%% z nukleotydu C.' % (seq, seq_len, cfreq)

In [39]:
# Metoda format (potężne możliwości - tutaj tylko najważniejsze z nich)
'{0} ma dlugosc {1} pz i sklada sie w {2}% z nukleotydu C.'.format(seq, seq_len, cfreq)
'{0} ma dlugosc {1} pz i sklada sie w {2:.1f}% z nukleotydu C.'.format(seq, seq_len, cfreq)
'{} ma dlugosc {} pz i sklada sie w {:.1f}% z nukleotydu C.'.format(seq, seq_len, cfreq)
template = '{} ma dlugosc {} pz i sklada sie w {:.1f}% z nukleotydu C.'
template.format(seq, seq_len, cfreq)

'ATGCCCC ma dlugosc 7 pz i sklada sie w 57.1% z nukleotydu C.'

### 1.4. Podsumowanie i otarcie się o funkcję

In [46]:
def DNAinfo(dna_seq):
    """Return information about sequence length 
    and nucleotide content.
    
    Args:
       dna_seq (str) - DNA sequence
    Returns:
       str - information
    """
    
    # Calculations.
    seqlen = len(dna_seq)
    a = dna_seq.count('A') / seqlen * 100
    t = dna_seq.count('T') / seqlen * 100
    c = dna_seq.count('C') / seqlen * 100
    g = dna_seq.count('G') / seqlen * 100
    
    # Formatting.
    template = 'Dlugosc sekwencji: {0} pz.\n'
    template += 'A: {1:.2f}%\n'
    template += 'T: {2:.2f}%\n'    
    template += 'C: {3:.2f}%\n'
    template += 'G: {4:.2f}%\n'
    return template.format(seqlen, a, t, c, g)

# Executing our function.
print(DNAcontent('ATGCTGAGAGTAGAGAGAT'))

Dlugosc sekwencji: 19 pz.
A: 36.84%
T: 21.05%
C: 5.26%
G: 36.84%



In [47]:
help(DNAinfo)

Help on function DNAinfo in module __main__:

DNAinfo(dna_seq)
    Return information about sequence length 
    and nucleotide content.
    
    Args:
       dna_seq (str) - DNA sequence
    Returns:
       str - information

