# 1. Notatnik Jupyter. Interaktywne obliczenia w Pythonie

### Tomasz Rodak

Laboratorium 1

---

## 1.1 Anaconda

Anaconda jest dystrybucją języków programowania przeznaczoną do zastosowań w obliczeniach naukowych, analizie danych i uczeniu maszynowym. Języki wspierane przez dystrybucję to m. in. Python, R i Julia. Ułatwia instalację i zarządzanie wieloma pakietami oraz środowiskami programistycznymi (poprzez wykorzystanie mechanizmu `conda`). Dzięki Anacondzie łatwo zainstalujesz istotne z punktu widzenia uczenia maszynowego biblioteki, takie jak NumPy, pandas, scikit-learn, PyTorch czy BioPython.

## 1.2 Notatnik Jupyter

Anaconda zawiera notatnik Jupyter, który jest środowiskiem interaktywnym, w którym możesz łączyć kod, wyniki obliczeń, wykresy oraz tekst opisowy w jednym dokumencie. Każdy notatnik skojarzony jest z konkretnym jądrem przetwarzającym kod źródłowy. Rodzaj aktywnego jądra i zakładka pozwalające na zmianę i sterowanie jądrem znajduje się w pasku Menu.


## 1.3 Google Colab

Google Colab to darmowe narzędzie działające w chmurze, które udostępnia interfejs podobny do Jupyter Notebook. Nie wymaga instalacji oprogramowania na Twoim komputerze – wystarczy przeglądarka internetowa. Colab oferuje również dostęp do darmowych zasobów obliczeniowych, takich jak GPU, co może znacznie przyspieszyć trenowanie modeli uczenia maszynowego, szczególnie przy bardziej złożonych analizach danych.

## 1.4 Podstawy obsługi notatnika Google Colab

Podstawowe elementy obsługi notatnika w Google Colab:

- **Podział na komórki:**  
  Notatnik składa się z komórek, które mogą zawierać kod lub tekst sformatowany przy użyciu Markdown. Komórki kodu służą do wpisywania instrukcji Pythona, a komórki tekstowe – do dodawania opisów, notatek czy nagłówków.

- **Dodawanie i edycja komórek:**  
  Nowe komórki możesz dodawać, klikając przyciski „+ Code” (dla komórek z kodem) lub „+ Text” (dla komórek z tekstem). Po dodaniu możesz swobodnie edytować zawartość komórek, aby dopasować je do swoich potrzeb.

- **Uruchamianie komórek:**  
  Aby wykonać kod zapisany w danej komórce, wystarczy kliknąć ikonę play obok niej lub użyć skrótu klawiszowego (Shift+Enter). Wynik działania kodu pojawi się bezpośrednio pod komórką.

- **Zmiana ustawień środowiska:**  
  W zakładce **Runtime** możesz dostosować ustawienia notatnika, m.in. zmienić typ środowiska na GPU lub TPU, co jest przydatne przy trenowaniu modeli uczenia maszynowego, lub ponownie uruchomić środowisko.

- **Zarządzanie i współdzielenie notatnika:**  
  Colab automatycznie zapisuje Twoje notatniki w Google Drive, co ułatwia dostęp do nich z różnych urządzeń. Dodatkowo, łatwo możesz udostępnić notatnik innym, ustawiając odpowiednie uprawnienia dostępu.

- **Instalacja dodatkowych bibliotek:**  
  W każdej komórce możesz instalować nowe pakiety za pomocą komendy pip, np. `!pip install nazwa_pakietu`, co umożliwia szybkie korzystanie z różnych narzędzi analitycznych i uczenia maszynowego.

## 1.5 Przykłady

### 1.5.1 Interaktywna wizualizacja danych z Plotly

Google Colab pozwala na tworzenie dynamicznych wykresów przy użyciu bibliotek takich jak Plotly. W poniższym przykładzie tworzymy interaktywny wykres funkcji kwadratowej, który umożliwia eksplorację danych poprzez zoomowanie i przesuwanie widoku:

In [None]:
import plotly.express as px
import pandas as pd
import numpy as np

# Przygotowanie przykładowych danych
x = np.linspace(0, 10, 100)
df = pd.DataFrame({"x": x, "y": x**2})

# Tworzenie interaktywnego wykresu
fig = px.line(df, x="x", y="y", title="Wykres funkcji y = x²")
fig.show()

**Ćwiczenie 1.** Zmodyfikuj podany kod tak, aby wygenerować wykresy innych funkcji w innych przedziałach.

### 1.5.2 Interaktywne widżety z ipywidgets

Dzięki bibliotece `ipywidgets` możesz wprowadzać elementy interaktywne, np. suwaki, które dynamicznie modyfikują wykresy. Poniższy przykład ilustruje, jak przy użyciu suwaka można zmieniać parametr funkcji sinus:

In [None]:
import matplotlib.pyplot as plt
from ipywidgets import interact

def rysuj_wykres(k):
    x = np.linspace(0, 10, 1000)
    y = np.sin(x * k)
    plt.figure(figsize=(8, 4))
    plt.plot(x, y)
    plt.title(f"Wykres funkcji: $y = sin({k}x)$")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.show()

# Tworzenie suwaka do interaktywnej zmiany wartości 'k'
interact(rysuj_wykres, k=(1, 10, 1));

**Ćwiczenie 2.** Wykonaj interaktywny wykres funkcji

\begin{equation*}
y=\sin(kx) + \cos(mx),
\end{equation*}

<!-- gdzie $k$ i $m$ są parametrami, a $x$ jest zmienną niezależną. -->
gdzie 
* $k=1, 2, \ldots, 10$,
* $m=1, 2, \ldots, 10$,
* $x$ jest zmienną niezależną z przedziału $[0, 10]$.

### 1.5.3 Trenowanie modelu uczenia maszynowego i wizualizacja wyników

Przykład implementacji sieci neuronowej w PyTorch, która uczy się przybliżać funkcję kwadratową z szumem.

Zaczynamy od zaimportowania potrzebnych bibliotek i wygenerowania syntetycznych danych:

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt

# Przygotowanie danych: funkcja kwadratowa z szumem
N = 200 # liczba punktów
x = np.linspace(-1, 1, N).reshape(-1, 1)  # dane wejściowe o wymiarze (N, 1)
y = x**2 + np.random.randn(N, 1) * 0.1    # dane wyjściowe z dodanym szumem
plt.scatter(x, y, s=5)
plt.xlabel("x")
plt.ylabel("y")
plt.title("Dane treningowe")
plt.show()

Budowa modelu sieci neuronowej:

In [None]:
# Konwersja danych na tensory PyTorch
x_tensor = torch.tensor(x, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.float32)

# Definicja modelu - sieć neuronowa z jedną warstwą ukrytą (10 neuronów) i funkcją ReLU
model = nn.Sequential(
    nn.Linear(1, 10),
    nn.ReLU(),
    nn.Linear(10, 1)
)


Definicja funkcji straty i optymalizatora:

In [None]:
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

Trening modelu:

In [None]:
loss_history = []
num_epochs = 100
for epoch in range(num_epochs):
    optimizer.zero_grad()            # zerowanie gradientów
    outputs = model(x_tensor)          # propagacja w przód
    loss = criterion(outputs, y_tensor)  # obliczanie straty
    loss.backward()                    # propagacja wsteczna
    optimizer.step()                   # aktualizacja wag
    loss_history.append(loss.item())   # zapisywanie wartości straty

# Wizualizacja spadku wartości funkcji straty podczas treningu
plt.figure(figsize=(8, 4))
plt.plot(loss_history)
plt.title("Spadek wartości funkcji straty podczas treningu")
plt.xlabel("Epoka")
plt.ylabel("Strata")
plt.show()

Wizualizacja dopasowania modelu do danych:

In [None]:
xx = np.linspace(-1, 1, 100).reshape(-1, 1)
xx_tensor = torch.tensor(xx, dtype=torch.float32)
yy_tensor = model(xx_tensor).detach().numpy()
plt.scatter(x, y, s=5)
plt.plot(xx, yy_tensor, color='red')
plt.xlabel("x")
plt.ylabel("y")
plt.title("Dopasowanie modelu do danych treningowych")
plt.show()

**Ćwiczenie 3.** Model sieci neuronowej w przykładzie ma postać:

```python
model = nn.Sequential(
    nn.Linear(1, 10),
    nn.ReLU(),
    nn.Linear(10, 1)
)
```

Poniżej krótkie wyjaśnienie poszczególnych elementów sieci:

- **nn.Sequential:**  
  Funkcja umożliwiająca łączenie kolejnych warstw i operacji w jeden przepływ obliczeniowy - wynik jednej warstwy automatycznie trafia jako wejście do następnej.

- **nn.Linear(1, 10):**  
  Pierwsza warstwa liniowa (w pełni połączona), która przekształca wejściowy wektor o wymiarze 1 na wyjście o wymiarze 10. W praktyce oznacza to, że pojedyncza wartość wejściowa zostaje przekształcona w 10 cech, co pozwala modelowi na bardziej złożone reprezentacje.

- **nn.ReLU():**  
  Funkcja aktywacji ReLU (Rectified Linear Unit) wprowadza nieliniowość do modelu. Działa tak, że wszystkie ujemne wartości ustawiane są na 0, a dodatnie pozostają bez zmian.

- **nn.Linear(10, 1):**  
  Druga warstwa liniowa, która redukuje 10-wymiarową reprezentację do pojedynczej wartości wyjściowej. To ostatnia warstwa modelu, odpowiadająca za generowanie prognozy lub wyniku.

Cała sieć stanowi prostą architekturę z jedną warstwą ukrytą, gdzie nieliniowość wprowadzona przez ReLU umożliwia modelowi naukę nieliniowych zależności w danych.

Przeprowadź eksperymenty z modelem, modyfikując:
* liczbę neuronów w warstwie ukrytej,
* funkcję aktywacji,
* liczbę warstw ukrytych.


### 1.5.4 Symulacja dryfu genetycznego

Dryf genetyczny to zjawisko polegające na losowej zmianie częstości allelu w populacji. Jest to ważny przykład procesu prowadzącego do ewolucji nieadaptatywnej.

Podany niżej program jest symulacją ilustrującą działanie dryfu genetycznego.

Niech A, a będą dwoma allelami (wariantami) jednego genu. Zakładamy, że:
 * Dana jest populacja osobników, w której każdy osobnik ma dwie kopie genu
   w dowolnych wariantach (czyli są to osobniki diploidalne).
 * Zmiana jednego allelu na drugi nie ma żadnego znaczenia adaptacyjnego.
 * W populacji pokolenia nie zachodzą na siebie, 
 kojarzenie jest płciowe i całkowicie losowe a każda para organizmów
 rodzicielskich ma dwa organizmy potomne.
 * W organizmie potomnym warianty genu dobierane są losowo,
 z równym prawdopodobieństwem, po jednym od każdego z organizmów rodzicielskich. Przykład: dla organizmów rodzicielskich o genotypach aA, AA,
 mamy cztery możliwe genotypy potomne aA, aA, AA, AA
 odpowiadające wylosowaniu pozycji (1, 1), (1, 2), (2, 1), (2, 2).

Program tworzy losową populację o ustalonej z góry liczbie osobników. Warianty genów przechowywane są w zmiennej globalnej `GENY`. Symulacja polega na przeprowadzeniu pewnej liczby cykli życiowych.

Program napisany jest w czystym Pythonie, jedynie z użyciem biblioteki standardowej. Wyniki symulacji
zapisuje w pliku CSV `wyniki.csv`.

In [None]:
import random
import math
import csv

GENY = [["A", "a"], ["B", "b"], ["C", "c"], ["D", "d"]]

def time_fixation_or_loss(N, p=1/2):
    """
    Calculates the expected time for a fixation or loss of an allel.
    Source: https://en.wikipedia.org/wiki/Genetic_drift#Time_to_fixation_or_loss

    :param N: an integer representing the size of the population
    :param p: a float representing the probability of fixation or loss (default: 1/2)
    :return: a float representing the expected time for a fixation or loss of an allel.
    """
    return -4 * N * (1 - p) * math.log(1 - p) / p

def losuj_bez_zwracania(lista, n):
    """Losuje n elementów z listy bez zwracania."""
    assert len(lista) >= n
    indeksy = random.sample(range(len(lista)), n)
    losy = [lista[i] for i in indeksy]
    for i in sorted(indeksy, reverse=True):
        del lista[i]
    return losy


def realizacje_genów(geny):
    """Lista możliwych wersji genów."""
    wersje_genów = []
    for A, a in geny:
        g = [A + A, A + a, a + A, a + a]
        wersje_genów.append(g)
    return wersje_genów


def nowa_populacja(N, geny):
    """Losowa populacja osobników."""
    wersje_genów = realizacje_genów(geny)
    populacja = []
    for i in range(N):
        osobnik = []
        for g in wersje_genów:
            osobnik.append(random.choice(g))
        populacja.append(osobnik)
    return populacja


def losuj_parę(populacja):
    assert len(populacja) >= 2
    return losuj_bez_zwracania(populacja, 2)


def rozmnóż_parę(para):
    r1, r2 = para
    assert len(r1) == len(r2)
    potomek = []
    for i in range(len(r1)):
        potomek.append(random.choice(r1[i]) + random.choice(r2[i]))
    return potomek


def populacja_potomna(populacja, rozrodczość=2):
    """Populacja potomna powstała z populacji rodzicielskiej."""
    populacja = populacja.copy()
    potomna = []
    while len(populacja) >= 2:
        para = losuj_parę(populacja)
        for _ in range(rozrodczość):
            potomek = rozmnóż_parę(para)
            potomna.append(potomek)
    return potomna


def statystyka(populacja, geny=GENY):
    """Zwraca częstość występowania genów w populacji."""
    stat = {}
    dwaN = 2 * len(populacja)
    allele = "".join("".join(g) for g in geny)
    allele_w_populacji = "".join("".join(g) for g in populacja)
    return dict(zip(allele, [allele_w_populacji.count(a) / dwaN for a in allele]))


def dryf_genetyczny(n=100, t=1000):
    """Symulacja dryfu genetycznego."""
    populacja = nowa_populacja(n, GENY)
    wyniki = [statystyka(populacja)]
    for _ in range(t):
        populacja = populacja_potomna(populacja)
        wyniki.append(statystyka(populacja))
    return wyniki

def zapisz_do_csv(wyniki, fname):
    with open(fname, "wt", encoding="utf8", newline="") as f:
        writer = csv.DictWriter(f, fieldnames=wyniki[0].keys())
        writer.writeheader()
        writer.writerows(wyniki)

if __name__ == "__main__":
    # liczba osobników
    N = 500
    # liczba pokoleń
    T = 1400
    wyniki = dryf_genetyczny(n=N, t=T)
    print(f"Przewidywany czas do utrwalenia: {time_fixation_or_loss(N, 1/2)}")
    zapisz_do_csv(wyniki, "wyniki.csv")

In [None]:
import pandas as pd

df = pd.read_csv("wyniki.csv")
df.head()

In [None]:
df["A B C D".split()].plot(title="Częstość występowania genów w populacji");
plt.gcf().set_size_inches(12, 6)

**Ćwiczenie 4.** Uruchom symulację dla różnych wartości początkowej liczby osobników i liczby pokoleń.

Zaobserwuj:

 * Jak zmienia się częstość alleli w populacji?
 * Jak zmiana ta zależy od początkowej liczby osobników? Jak od liczby pokoleń?

Zobacz link [Time to fixation or loss](https://en.wikipedia.org/wiki/Genetic_drift#Time_to_fixation_or_loss
).
Sprawdź jak zawarte tam przewidywania mają się do rezultatów Twojej symulacji.