## Wstęp do NeRF
W tym notebooku przedstawimy czym jest NeRF, do czego służy oraz jakie techniki są używane aby usprawnić jego działanie.

#### Czym jest NeRF ?

NeRF to akronim od Neural Radiance Fields for View Synthesis, co można przetłumaczyć jako Neuronowe Pola Radiacyjne do syntezy widoków.

Jest to technika wykorzystująca głębokie sieci neuronowe do generowania realistycznych renderów scen trójwymiarowych. Głównym celem NeRF jest modelowanie radiance field, czyli funkcji reprezentującej radiancję światła w trójwymiarowej przestrzeni. Prościej mówiąc, NeRF jest w stanie wygenerować fotorealistyczne obrazy scen 3D, na podstawie danych treningowych z rzeczywistych scen. 

Tradycyjne metody renderowania 3D, takie jak ray tracing czy rasterization, mają swoje ograniczenia w generowaniu szczegółowych i fotorealistycznych obrazów. NeRF stanowi innowacyjne podejście, umożliwiając renderowanie scen 3D poprzez uczenie głębokich sieci neuronowych na podstawie danych treningowych z rzeczywistych scen.

<!-- 3 videos in row -->
<div style="display: flex; justify-content: center;">
<video width="420" height="420" controls>
  <source src="data/blender_paper_lego_spiral_200000_rgb.mp4" type="video/mp4" controls loop>
  Your browser does not support the video tag.
</video>
</div>


### W jaki sposób NeRF przetwarza input

Reprezentujemy ciągłą scenę jako funkcję wektorową o wartościach 5D, której dane wejściowe to współrzędne w przestrzeni 3D i kierunek widzenia, a wyjściem jest kolor i gęstość objętości w danym punkcie.

Aby zbliżyć się do tej ciągłej reprezentacji sceny 5D, NeRF używa sieci neuronowej o nazwie Multi-Layer Perceptron (MLP) oznaczonej poniżej jako $F_\Theta$.

----
$$\Large F_\Theta: (x, d) → (c, σ) $$
gdzie:

$F_\Theta$ - sieć neuronowa <br/>
$x = (x, y, z)$ - współrzędne punktu w przestrzeni 3D <br/>
$c = (r, g, b)$ - kolor emitowany w danym punkcie <br/>
$d = (\theta, \phi)$ - kierunek widzenia <br/>
$\sigma$ - gęstość objętości

----


Proces ten jest realizowany poprzez przekształcenie danych wejściowych (w jaki sposób jest to realizowane jest w części Fourier Features) i przekazanie ich do sieci neuronowej. Sieć neuronowa zawiera 8 warstw ukrytych, każda z 256 neuronami oraz aktywacją ReLU. Sieć na początku otrzymuje przetworzony wektor współrzednych (o wielkości 60), następnie w piątej warstwie dodawany jest ponownie ten wektor (żeby sieć dalej uwzględniała współrzędne punktu). W przedostatniej warstwie sieci zwracany jest gęstość objętości, a w celu uzyskania koloru emitowanego dodawany jest jeszcze przetworzony wektor kierunku widzenia (o wielkości 40). Architektura sieci neuronowej została przedstawiona poniżej.

![NeRF architecture](src/mlp.svg)

**Pytanie do publiczności**: Dlaczego wektory $x$ i $d$ są przetwarzane? Czy nie można było ich od razu przekazać do sieci neuronowej?

### Czym jest input dla NeRF?
Jako dataset otrzymujemy zbiór zdjęć z różnych perspektyw, ale sieć MLP potrzebuje danych w postaci $(x, d)$, gdzie wynikiem jest kolor i gęstość objętości w danym punkcie. Więc w jaki sposób możemy przekształcić zdjęcia z perspektywy na takie dane oraz jak trenować sieć neuronową? 

W celu przekształcenia zdjęć i pozycjami kamer na dane wejściowe dla sieci neuronowej, wykorzystujemy promienie (ang. rays). Promień to linia prosta łącząca kamerę z punktem na zdjęciu i przechodząca za nim. Z części promienia znajdującej się za punktem na zdjęciu, wybieramy równomiernie $n$ punktów, które są przetwarzane i przekazywane do sieci neuronowej. Otrzymujemy w ten sposób $n$ par $(x, d)$ posortowanych według odległości od kamery.

![](src/mlp_io.png)

## W jaki sposób NeRF renderuje obrazy?
NeRF tworzy obraz 2D za pomocą techniki zwanej renderowaniem volumetrycznym. Ta technika tworzy obraz przez śledzenie promienia (linii) przechodzącej przez każdy piksel wirtualnej kamery, przechodzącego przez scenę. Dane jest to następującym wzorem:

( można o tym wyżej wzorze myśleć jak o wartości oczekiwanej koloru biorąc pod uwage zakres długości promienia, koloru powierzchni przez które przechodzi promień oraz gestości obiektu przez który promień przechodzi )



<div style="padding: 20px;">
<img src="src/render.png" width="1000" />
</div>
<br>
<div style="padding: 10px;">
<img src="src/dlugosc_toru_promienia.png" width="500" />
</div>


tn - dolny zakres długości promienia
tf - górny zakres długości promienia
r(t) - koniec wektora zaczepionego w punkcie o ( czyli pozycja obserwatora ) o zasiegu wektora t oraz kierunku wektora danym przez d
<br>
<div style="padding: 10px;">
<img src="src/promienie_gestosc.png" width="1000" />
</div>

Rysunek poglądowy może pomóc zrozumieć jak gęstośc otoczenia i odległość promienia może wpływać na kolor oraz jak ten kolor potem używać do obliczania loss'u (g.t. - ground truth ;) )

## Pytanie 2
### Opisz swoimi słowami co robią poszczególne czynniki w poniższym wzorze na kolor?

<div style="padding: 20px;">
<img src="src/render.png" width="1000" />
</div>
<br>
<div style="padding: 10px;">
<img src="src/dlugosc_toru_promienia.png" width="500" />
</div>

<---- Miejsce na odpowiedź ---->



## Usprawnienie modelu

#### Jedną z najwazniszych rzeczy jakie można zrobić to Fourier Feature

Operowanie na suchych współrzednych x,y,z przynosi słabe rezultaty w kontekście szczegółów i kolorów na obrazku, autorzy pracy powołując sie na innych badaczy dokonują następującej transformacji:

<div style="padding: 10px;">
<img src="src/fourier_feature.png" width="2000" />
</div>

gdzie 
$p = x * B$
<br>
$B -$ macierz gausowska z rozkładu `N(0, σ^2)`

Poniższy przykład pokazuje jak może wygląda nauka z użyciem Fourier Feature i bez niego, gołym okiem widać na obrazku oraz na lossie różnice

<div style="padding: 10px;">
<img src="src/lion_none_gauss_v1.gif" width="2000" />
</div>

Należy jednak uważać, ponieważ nieodpowiednie dobranie parametrów może doprowadzić do pogorszenia jakości zdjeć, tyczy sie to parametru L

<div style="padding: 10px;">
<img src="src/test_sweep_1e-4_5000_more_low.gif" width="2000" />
</div>

## Proces trenowania

Trenowanie tej sieci można przedstawić w następujących krokach:

1. Odpowienie przygotowanie danych. Bedziemy potrzebować wykonanych zdjęć wraz z pozcją kamery.
2. W każdej iteracji jest losowany zestaw promieni dla których bedzie liczony kolor
3. Dla każdego wylosowanego promienia jest obliczanych N wylosowanych próbek na całej jego długości
4. Z wylosowanych próbek za pomocą renderowania objętości jest obliczany kolor
5. Ostatnim krokiem jest obliczanie loss'u który jest dany wzorem: 

<div style="padding: 10px;">
<img src="src/loss.png" width="500" />
</div>


## Rezultaty

<div style="padding: 10px;">
<img src="src/res3.png" width="2000" />
</div>

<div style="padding: 10px;">
<img src="src/res2.png" width="2000" />
</div>

<div style="padding: 10px;">
<img src="src/res1.png" width="2000" />
</div>


Zródła:

https://www.matthewtancik.com/nerf
https://dl.acm.org/doi/pdf/10.1145/3503250
https://towardsdatascience.com/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis-ef1e8cebace4
https://bmild.github.io/fourfeat/
https://arxiv.org/pdf/2006.10739.pdf