# Szybka transformata Fouriera

<h3> Przydatne linki: </h3>


- DFT z ewolucją do FFT: https://jakevdp.github.io/blog/2013/08/28/understanding-the-fft/

### Transformata Fouriera

Przenosi funkcję z dziedziny czasu do dziedziny częstotliwości wedle następującego wzoru:

<img src="images/fourier-transform.svg">

Jeśli nie jest oczywiste, co to oznacza:
* "funkcja w dziedzinie czasu" to po prostu funkcja typu `f : Czas -> Cokolwiek(często liczba)`. Przykładem może być zmiana temperatury w ciągu dnia (każdemu momentowi możemy przyporządkować konkretną wartość). 
Wykres takiej funkcji mógłby wyglądać tak:

<img src="images/trends.png">

* "funkcja w dziedzinie częstotliwości" to w pewnym uproszczeniu funkcja, której podajemy jakąś częstotliwość, a ona mówi nam ile tej częstotliwości jest widoczne w funkcji, którą transformujemy. Wracając do przykładu z temperaturą: jeśli temperatura zmienia się w dobowych cyklach, to po transformacie Fouriera dowiemy się, że funkcja w domenie częstotliwości ma "peak" w okolicach częstotliwości 1/24h.

Transformata Fouriera ogólnie zasadza się na idei, że skomplikowaną, ale okresową funkcję możemy rozłożyć na sumę podstawowych funkcji trygonometrycznych. Wtedy faktycznie możemy łatwo odpowiedzieć sobie na pytanie jakie częstotliwości są najbardziej w takiej funkcji widoczne.

Podstawowe pytanie, jakie można zadać brzmi: po co się to robi? 

Można to stosować na przykład:

* do analizy danych (żeby odpowiedzieć sobie na pytanie czy jakaś wartość zmienia się raczej z dnia na dzień, czy może z minuty na minutę -- wtedy dużo łatwiej stosować pozostałe metody statystyczne i analityczne)
* do cyfrowego przetwarzania sygnałów,
* do kompresji,
* wiele, wiele więcej

Drugie pytanie: skąd tam się bierze liczba Eulera we wszystkich wzorach?
Odpowiedź, raczej dla intuicji niż ścisła: bo robimy transformację ze "zwykłych" liczb na jakąś sumę funkcji trygonometrycznych, czyli dokładnie tak, jak we wzorze Eulera:
<img src="images/euler.png">


### Dyskretna transformacja Fouriera

W praktyce jednak nie mamy do czynienia z ciągłymi funkcjami (choćby dlatego, że na komputerze możemy reprezentować tylko skończoną ilość wartości). W takim razie operujemy raczej na ciągach `(czas, wartość)`. Powoduje to jednak, że  transformatę jest nieco łatwiej wykonać. Intuicyjnie: całkowanie to bardzo "gęste" sumowanie. W takim razie powyższy wzór z całką możemy zamienić sobie na jakiś rodzaj (dyskretnego) sumowania. Tak się składa, że z pomocą przychodzą operacje na macierzach i wzór wyraża się dość prosto:

<img src="images/dft.png">

Tak naprawdę w tym wzorze nie ma żadnej magii (jeśli zna się ten na ciągłą transformatę) -- to po prostu to, co powyżej, tylko całkowanie zamienione jest na sumowanie. Na Wikipedii można nawet znaleźć [prosty przykład dla 4 elementów](https://en.wikipedia.org/wiki/Discrete_Fourier_transform#Example). Zerknijmy, jak to wygląda z perspektywy użytkownika:

#### Praktyczny przykład

Mamy dane o ruchu na stronie www, tzn. dla każdej minuty mamy liczbę odsłon strony w tej minucie. Wykres (fragment) wygląda tak:
<img src="images/timeseries.png">

Robimy dyskretną transformatę Fouriera takiego szeregu czasowego, żeby dowiedzieć się, jaka jest sezonowość danych. Poniższy wykres przedstawia udział poszczególnych częstotliwości w analizowanym szeregu:

In [3]:
import matplotlib.pyplot as plt # do wykresów
import numpy as np              # do macierzy
from scipy import fftpack       # do FFT

X = fftpack.fft(dataset)
f_s = 1  # godzinowo
freqs = fftpack.fftfreq(len(dataset)) * f_s # czętotliwości
fig, ax = plt.subplots()

ax.stem(freqs[:40], np.abs(X)[:40])
ax.set_xlabel('Frequency in hits/hour')
ax.set_ylabel('Frequency Domain (Spectrum) Magnitude')
ax.set_ylim(-1, 200)
plt.show()

NameError: name 'fftpack' is not defined

Ważny jest parametr `f_s`: mówi nam, jaka jest jednostka czasu -- wybraliśmy jedną godzinę, czyli częstotliwości będą podane z jednostką 1/h.
Nie mamy dostępnych danych, na których była prowadzona ta analiza, więc musimy zadowolić się rezultatem dołączonym statycznie:
<img src="images/fourier.png">

Dominującą częstotliwością jest 0.006/h (czyli mniej więcej raz na tydzień) -- oznacza to, że nasze dane mają wzorce powtarzające się z tygodniową częstotliwością.

### Szybka transformata Fouriera (FFT)

Ciężko o lepsze wyjaśnienie, niż w linku, który już przytaczaliśmy: https://jakevdp.github.io/blog/2013/08/28/understanding-the-fft/.

### Zadanie 1.

Napisz klasę realizującą DFT. Proszę opisać kolejno realizowane na danych operacje posługując się teorią.

### Zadanie 2.

Korzystając z implementacji stworzonej w zadaniu 1 napisz klasę realizującą FFT (korzystając z algorytmu Cooleya-Tukeya). Implementacje poprzyj stosowym materiałem teoretycznym.

### Zadanie 3.

Dokonaj pomiarów czasu wykonywania obu transformat dla danych o różnym rozmiarze. 
Pomiaru dokonaj dla kilku wielkości danych (min. 10). Na tej podstawie dokonaj analizy czasowej złożoności obliczeniowej obu algorytmów i porównaj je ze sobą. Sprawdź czy zgadzają się z rządami teoretycznymi i opisz różnicę w algorytmie, która generuje różnicę w złożoności.

### Zadanie 4.

Przetestuj implementację z zadania 2. do wykonania analizy szeregu czasowego:
1. Znajdź dane przedstawiające jakiś szereg czasowy.
2. Załaduj je do programu.
3. Zobacz, czy wykonanie analizy Fouriera na tych danych ma sens - być może trzeba pogrupować je w równe odstępy.
4. Narysuj wykres w dziedzinie częstotliwości i postaraj się opisać zależności jakie możemy na nim dostrzec.

### Zadanie 5 *. 

Wykonaj ponownie analizę FFT wykorzystując w tym celu [bibliotekę KFR](https://www.kfrlib.com) /  [FFTW](http://www.fftw.org)  /  [bibliotekę Aquila C++](https://aquila-dsp.org). Wykorzystaj dane z których korzystałeś w poprzednich zadaniach (analogiczne rozmiary w kolejnych iteracjach). Zestaw na wykresie wyniki pomiarów wybranej biblioteki oraz swojej własnej implementacji. Przedstaw możliwy sposób jakiejkolwiek optymalizacji swojego algorytmu, aby zbliżyć się do testowanych.

### **zad.1**

zdecydowałem się na reprezentacje liczby zespolonej poprzez vector dwuwymiarowy. W alogrytmie najpierw tworzymy vector później wypełniamy kolejne jego elementy częścią urojoną i częścią rzeczywistą zgodnie z wzorem podanym wyżej.

```cpp
class DFT{
    public:
        static std::vector<std::vector<double>> dft(std::vector<double> data){
            std::vector<std::vector<double>>  result;
            result.resize(data.size());
            int n = data.size();
            for(int i = 0; i < n; i++){
                result[i].resize(2);
                double sum = 0;
                double sumi = 0;
                for(int j = 0; j < n; j++){
                    sum += data[j]*(cos(2.0*M_PI*(double)i*(double)j/(double)n));
                    sumi += -1.0*data[j]*(sin(2.0*M_PI*(double)i*(double)j/(double)n));
                }
                result[i][0] = sum;
                result[i][1] = sumi;

            }
            return result;
        }
};
```

### **zad.2**

Reprezentacja liczby zespolonej jest taka sama jak w przykładzie powyżej.

```cpp
class FFT{
    public:
        static std::vector<std::vector<double>> fft(std::vector<double> data){
            
            //tworzymy zmienne na przechowywanie wyniku, części parzystej macierzy oraz części nieparzystej
            
            std::vector<std::vector<double>>  result;
            int n = data.size();
            std::vector<double> data_even;
            std::vector<double> data_odd;
            
            // warunek końca rekurencji
            
            if(n <= 32){
                return DFT::dft(data);
            }

            // wypełniamy tablice części parzystej i nieparzystej macierzy oraz wywołujemy funkcje rekurencyjnie dla wyznaczonych podproblemów
            
            for(int i = 0;i < n; i+=2) data_even.push_back(data[i]);
            std::vector<std::vector<double>> x_even = FFT::fft(data_even);

            for(int i = 1;i < n; i+=2) data_odd.push_back(data[i]);
            std::vector<std::vector<double>> x_odd = FFT::fft(data_odd);

            //tutaj wyliczamy factor czyli część wzoru niezależną od sum
            
            std::vector<std::vector<double>> factor;
            for(int i = 0; i < n; i++){
                std::vector<double> item;
                item.push_back(cos(-2.0*M_PI*(double)i/(double)n));
                item.push_back(sin(-2.0*M_PI*(double)i/(double)n));
                factor.push_back(item);
            }

            result.resize(n);
            //tutaj dokonujemy mnożenia liczb zespolonych zgodnie ze wzorem ac - bd + (bc + ad)i dla każdego elementu z macierzy. Najpierw dla kolejnych części macierzy
            for(int i = 0; i < n/2; i++){
                result[i].resize(2);
                //ac - bd + (bc +ad)i
                result[i][0] = x_odd[i][0]*factor[i][0] - x_odd[i][1]*factor[i][1] + x_even[i][0];
                result[i][1] = x_odd[i][1]*factor[i][0] + x_odd[i][0]*factor[i][1] + x_even[i][1];

            }
            for(int i = 0; i < n/2; i++){
                result[i+n/2].resize(2);
                //ac - bd + (bc +ad)i
                result[i+n/2][0] = x_odd[i][0]*factor[i+n/2][0] - x_odd[i][1]*factor[i+n/2][1] + x_even[i][0];
                result[i+n/2][1] = x_odd[i][1]*factor[i+n/2][0] + x_odd[i][0]*factor[i+n/2][1] + x_even[i][1];

            }
            return result;
        }
};
```

### **zad.3**

Dane wygenerowałem skryptem Pythonowym:

```python
import numpy as np

for num in range(15):
    x = np.random.random(2**(num+1))
    with open("data" + str(num) + ".txt", "w") as file:
        for i in x:
            file.write(str(i))
            file.write("\n")

    xr = np.fft.fft(x)
    with open("expected" + str(num) + ".txt", "w") as file:
        for i in xr:
            file.write(str(i.real) + " " + str(i.imag))
            file.write("\n")

```

wynik przy użyciu FFT (czas w mikrosekundach):

```
wielkosc_danych czas
2 32
4 3
8 7
16 23
32 73
64 243
128 546
256 1979
512 3385
1024 8679
2048 21021
4096 40993
8192 96661
16384 204108
32768 457231
```

wynik przy użyciu DFT (czas w mikrosekundach):

```
wielkosc_danych czas:
2 1
4 2
8 5
16 22
32 71
64 264
128 766
256 2769
512 12222
1024 46718
2048 194377
4096 735934
8192 2889814
16384 11686642
32768 47207718
```

wykres dla rozmiaru do 1024:  
#  
![](./images/compare_10.png)  
#  
wykres dla rozmiaru do 32768:  
#  
![](./images/compare_15.png)

Krzywe zgadzają się ż rzędem teoretycznym - widać, że DFT ma złożoność $O(n^2)$, a FFT $O(nlog(n))$. Różnica w złożoności polega wynika z najpierw obniżenia złożoności algorytmu do $(n/2)*n$, a następnie z zastosowania rekurencji. Jeśli przy każdym wywołaniu obniżymy ilość wywołań o połowę to w wyniku otrzymamy n * wysokość drzewa wywołań, czyli $nlog(n)$

### **zad.4**  

Znalazłem dane przedstawiające temperaturę w Polsce w okresie od 01.06.2006 do 08.06.2006 z interwałem godzinnym. Dane znajdują się w pliku `dataexport_20200608T201802.csv`. Dane skopiowałem do pliku `weather_dataset.txt` a wynik znajduje się w pliku `weather_result.txt`  
#  
#### weather_dataset:
![](images/weather_dataset.png)
#  
#### weather_result:
![](images/weather_result.png)  
#  
#### po wyzoomowaniu:
![](images/weather_result2.png)  


Widać, że dane powtarzają się z odstępem 24h (przyjęta jednostka to 1/24h), co można było przypuszczać
