# Temat pracy: 

## "Analiza opłacalności instalacji fotowoltaicznych w wybranych regioniach na podstawie danych historycznych z serwisu OpenWeatherMap wraz z predykcja na lata 2024 - 2035."

------

### **Określenie celu i wymagań projektu:**

Projekt musi być napisany w jednej z poznanych technologii na zajęciach. Można mieszać technologie np. SQL+ Python, R+ Python, etc., ale też wystarczy projekt przygotować w jednej technologii np. Python. (Może to być statystyczna analiza wybranego zjawiska, wizualizacja wybranych zjawisk – tworzenie dashboardów, etc., prognozowanie wybranych wskaźników, stworzenie kalkulatora składek, kalkulatora kredytu hipotecznego, etc. ). 

**Kryteria oceny:** student potrafi poprawnie stworzyć programy rozwiązujące średnio-zaawansowane problemy wykorzystując odpowiednie struktury danych oraz konstrukcje programistyczne dostępne w wybranej technologii. Korzysta bez większych problemów z wybranych bibliotek (posiłkując się dokumentacją).

**Składowe projektu:**
- Instrukcja szczegółowa krok po kroku co zainstalować aby uruchomić projekt, link do strony aby ściągnąć wymagane pliki, jakie biblioteki i jak zainstalować, etc.
- Instrukcja powinna być na tyle przystępna aby każdy mógł zainstalować wymagane oprogramowanie i bez przeszkód uruchomić program. 
- Kod + pliki ewentualne do wczytania poprzez kod; wszystkie elementy aby uruchomić projekt;
- Prezentacja ppt/pdf [Zawiera Temat, Autorów, Promotora, Cel projektu, instalowane biblioteki, ciekawy fragment/ty kodu, ew. trudności w pisaniu projektu, etc. 5-7 slajdów]
- Projekt maksymalnie może mieć 5GB. 
- Ma być dostarczony do promotora na maila (zip, rar, lub przez Microsoft Drive, Google Drive, GitHub)


------

## Etapy procesu Data Science:

**1. Określenie Celu i Wymagań Projektu (Zdefiniowanie problemu):**
-   Definicja wybranego miejsca/geograficznej lokalizacji.
-   Określenie kryteriów opłacalności instalacji fotowoltaicznych.
-   Wymagania dotyczące danych i ich źródeł (np. zakres czasowy danych, częstotliwość pomiarów).
        
**2. Zbieranie Danych:**  ([Notebook 01](./01_pobieranie_i_przetwarzanie_danych.ipynb))

-   Wybór i integracja z API lub plikami danych dostarczających dane pogodowe, takie jak nasłonecznienie (np. OpenWeatherMap, Weather API).
-   Napisanie skryptu w Pythonie do automatycznego pobierania danych.

**3. Przetwarzanie i Oczyszczanie Danych:** ([Notebook 01](./01_pobieranie_i_przetwarzanie_danych.ipynb))

-   Usuwanie brakujących wartości, normalizacja i standardyzacja danych.
-   Wybór istotnych kolumn danych do analizy.

**4. Tworzenie Bazy Danych:** ([Notebook 02](./02_inicjalizacja_bazy_danych.ipynb))

-   Decyzja o wyborze bazy danych: SQL vs SQLite
-   Projektowanie schematu bazy danych.
-   Implementacja bazy danych i zapis oczyszczonych danych.

**5. Analiza Danych (eksploracja danych oraz pogłębiona analiza):** ([Notebook 03](./03_analiza_danych.ipynb))

-   Wykorzystanie biblioteki Pandas do dalszego przetwarzania danych.
-   Analiza dni nasłonecznionych i ocena efektywności paneli słonecznych.
-   Wykorzystanie danych geograficznych (szerokość i długość geograficzna) do oceny nasłonecznienia w różnych porach roku.
-   Obliczenie ilości dni słonecznych i ich wpływu na potencjalną produkcję energii.
                  
**6. Tworzenie Dashboardu (komunikacja wyników):** ([Notebook 04](./04_wizualizacja_dashboard_danych.ipynb))

-   Projektowanie i implementacja dashboardu (w jezyku Python), który będzie wizualizował kluczowe wskaźniki.

**7. Machine Learning:** (<a href="../4. ML_Models/05_pobieranie_i_przygotowanie_danych_do_modelowania.ipynb">Notebook 05</a>) (<a href="../4. ML_Models/06_Wizualizacja_z_predykcja.ipynb">Notebook 06</a>)

-   Przygotowanie danych do modelowania.
-   Budowa klasycznych modeli predykcyjnych dla przewidywania przyszłego nasłonecznienia.
-   Walidacja modeli i ocena ich wydajności.
        
**8. Dokumentacja i Prezentacja:** (<a href="../6. Docs/test.txt">Prezentacja</a>)

-   Przygotowanie dokumentacji projektu, w tym instrukcji instalacji i uruchomienia.
-   Tworzenie prezentacji wyników.

**9. Testowanie i Weryfikacja:** (<a href="../3. Scripts/starter_Data_istnieje_Wizualizacja.ipynb">Skrypt do wizualizacji</a>)

-   Testowanie całego systemu, weryfikacja działania dashboardu i skryptów.

**10. Pakowanie i Wysyłka:**

-   Zapis projektu w formacie ZIP lub RAR.


## Struktura projektu:

Struktura projektu została zaprojektowana w sposób, który umożliwia łatwe zarządzanie plikami i skryptami oraz organizację pracy nad analizą danych pogodowych i predykcją. Poniżej znajduje się opis głównych folderów i plików:

- **1. Notebooks**: 
  - Zawiera notebooki Jupyter, które dokumentują kolejne etapy projektu.
  - Podfolder `.ipynb_checkpoints` zawiera automatyczne kopie zapasowe notebooków.
  - Notebooki:
    - `00_okreslenie_celu_i_wymagan_projektu.ipynb`: Określenie celu i wymagań projektu.
    - `01_pobieranie_i_przetwarzanie_danych.ipynb`: Pobieranie i przetwarzanie danych.
    - `02_inicjalizacja_bazy_danych.ipynb`: Inicjalizacja bazy danych.
    - `03_analiza_danych.ipynb`: Analiza danych.
    - `04_wizualizacja_dashboard_danych.ipynb`: Tworzenie dashboardu do wizualizacji danych.

- **2. Data**:
  - **ML_models**: Zawiera modele maszynowego uczenia się.
    - `random_forest_regularized_model.joblib`: Model lasu losowego z regularizacją.
  - **processed**: Przetworzone dane.
    - `combined_data_processed.csv`: Przetworzone i połączone dane.
    - `combined_data.csv`: Połączone dane.
    - `data_ml_processed.csv`: Dane przetworzone do modeli ML.
    - `final_df_processed.csv`: Ostateczna wersja przetworzonych danych.
    - `future_data.csv`: Dane prognozowane.
  - **raw**: Surowe dane.
    - `Baden_Baden.csv`: Surowe dane dla Baden-Baden.
    - `Bozanska.csv`: Surowe dane dla Bożańska.
    - `Walcz_Drugi.csv`: Surowe dane dla Wałcz Drugi.

- **3. Scripts**:
  - Skrypty pomocnicze.
    - `starter_brak_Data.ipynb`: Skrypt początkowy do obsługi brakujących danych w folderze "Data" – cały proces może długo trwać.
    - `starter_Data_istnieje_Wizualizacja.ipynb`: Skrypt do wizualizacji istniejących danych w folderze "Data".

- **4. ML_Models**:
  - Notebooki związane z przygotowaniem i modelowaniem danych do machine learningu.
    - `05_pobieranie_i_przygotowanie_danych_do_modelowania.ipynb`: Pobieranie i przygotowanie danych do modelowania wraz modelowaniem.
    - `06_Wizualizacja_z_predykcja.ipynb`: Wizualizacja wyników modelowania i predykcji.

- **5. Baza_Danych**:
  - `projekt_fotowoltaika_2024.db`: Baza danych SQLite zawierająca przetworzone dane.

- **6. Docs**:
  - Dokumentacja projektu.
    - Prezentacja
    - Oświadczenie

- **7. Requirements**:
  - Pliki związane z wymaganiami projektu.
    - `requirements.txt`: Lista wymaganych bibliotek Python.
      - **Najważniejszye biblioteki uzyte w projekcie:**

        - **pandas:** Biblioteka do analizy danych, umożliwiająca manipulację i analizę dużych zbiorów danych poprzez struktury danych takie jak DataFrame.
        - **numpy:** Podstawowa biblioteka dla obliczeń numerycznych w Pythonie, oferująca wsparcie dla wielowymiarowych tablic oraz różnorodnych funkcji matematycznych.
        - **scikit-learn:** Biblioteka do uczenia maszynowego, zawierająca narzędzia do modelowania danych, w tym klasyfikacji, regresji i klasteryzacji.
        - **matplotlib:** Biblioteka do tworzenia wykresów i wizualizacji danych, pozwalająca na generowanie szerokiej gamy statycznych, animowanych i interaktywnych wizualizacji.
        - **seaborn:** Biblioteka do wizualizacji danych oparta na matplotlib, oferująca ulepszone estetyki wykresów oraz wygodne funkcje do tworzenia zaawansowanych wykresów statystycznych.
        - **dash:** Framework oparty na Flask i Plotly, specjalnie zaprojektowany do tworzenia interaktywnych aplikacji webowych i dashboardów.
        
    - `.gitattributes`: Atrybuty dla systemu kontroli wersji Git.
    - `out.csv`: Plik wyjściowy (wynikowy) z danymi.

Struktura ta została zaprojektowana w sposób umożliwiający łatwą nawigację i organizację pracy nad projektem, zapewniając, że wszystkie pliki i skrypty są odpowiednio skategoryzowane i łatwo dostępne.
