# CREDO - wstęp do pracy z danymi

## Czym jest CREDO?
CREDO (Cosmic-Ray Extremely Distributed Observatory), czyli Skrajnie Rozproszone Obserwatorium Promieniowania Kosmicznego. To projekt zapoczątkowany przez polskich naukowców z Instytutu Fizyki Jądrowej PAN w Krakowie. Projekt ma na celu  wykorzystywanie telefonów oraz tabletów do stworzenia globalnej sieci detektorów promieniowania kosmicznego - cząstek pochodzących z kosmosu oraz powstałych na skutek ich interakcji z atmosferą.

## Do czego służy ten notatnik?

Komórki te zawierają teksty, które mają na celu wyjaśnienie, jakie kroki należy podjąć, przedstawienie realizowanego zadania oraz sformułowanie dodatkowych pytań.

## Jak korzystać z tego notatnika?
Poniżej znajdują się komórki, które dzielą się na dwa typy:
* **zawierające kod w pythonie** - kod w tych komórkach trzeba zmodyfikować lub napisać prosty fragment kodu, a następnie skompilować wciskając `Shift+Enter`,
* **zawierające tekst** - "Komórki te zawierają teksty, które mają na celu wyjaśnienie, jakie kroki należy podjąć, przedstawienie realizowanego zadania oraz sformułowanie dodatkowych pytań.

Rozpocznijmy pracę z kodem. Pierwszym krokiem jest zaimportowanie bibliotek niezbędnych do pracy z danymi oraz ich wizualizacji. Biblioteki w programowaniu można traktować jako zestawy poleceń umożliwiających operowanie na danych. W tym przypadku wykorzystane zostaną następujące biblioteki:
* pandas - służy do efektywnej pracy z danymi, oferując funkcje do ich analizy, manipulacji oraz strukturalizacji w formacie tabelarycznym,
* json - biblioteka służąca do pracy z danymi w formacie JSON (JavaScript Object Notation), umożliwia ich odczyt, zapis oraz konwersję między formatem tekstowym a strukturami danych w Pythonie, takimi jak słowniki czy listy,
* matplotlib.pyplot -  biblioteka przeznaczona do wizualizacji danych, pozwala tworzyć wykresy, histogramy oraz inne formy graficznej prezentacji danych,
* plotly.express -  umożliwia tworzenie interaktywnych wizualizacji, takich jak mapy, wykresy i animacje, co ułatwia analizę danych w kontekście geograficznym.

W kodzie poniżej importujemy bibliotekę w sposób umożliwiający nadanie jej skróconej nazwy, np. `import plotly.express as px`. Ta składnia oznacza: zaimportuj bibliotekę plotly.express i przypisz jej alias px, który będzie używany w dalszej części kodu.

Jeśli podczas kompilacji kodu pojawi się błąd informujący o braku danej biblioteki, należy w komórce kodu wpisać polecenie `pip install *nazwa biblioteki*`, a następnie ponownie uruchomić kompilację.

In [1]:
import pandas as pd
import json
import matplotlib.pyplot as plt

Za pomocą poniższej komórki można pobrać pliki zawierające funkcje przygotowane specjalnie do tej analizy. Następnie tworzona jest biblioteka na podstawie tego pliku.

In [None]:
!wget https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/CREDO_functions.py -P /content/CREDO -P /content/CREDO
!wget https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/team_mapping.json -P /content/CREDO -P /content/CREDO
!wget https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/user_mapping.json -P /content/CREDO -P /content/CREDO

In [None]:
import importlib
import sys
sys.path.append("/content/CREDO/")

import CREDO_functions as cf
importlib.reload(cf)

Po załadowaniu wymaganych bibliotek kolejnym krokiem jest wczytanie danych. Dane można pobrać bezpośrednio ze strony CREDO lub za pomocą tego linku:
[Dane](https://drive.google.com/drive/folders/1r9JEmCsWh67AGbC_M4atY95YtNFjRT_q?usp=sharing)

Aby pobrać dane ze strony Credo i co za tym idzie uzyskać pełny dostęp do danych, należy skorzystać z tego linku: https://api.credo.science/web/faq/
Następnie postępować zgodnie z instrukcjami w punkcie 2. W przypadku pytań lub chęci skorzystania z pomocy w uzyskaniu danych można kontaktować się z helpdeskiem CREDO (pisząc na contact@credo.science)

Pobrany plik należy załadować do notatnika Google Collaboratory, korzystając z opcji 'Prześlij do pamięci sesji' lub przeciągając plik bezpośrednio do interfejsu po lewej stronie ekranu. Do odczytu danych z pliku można użyć funkcji read_data z biblioteki CREDO_functions. Funkcja ta jako parametr przyjmuje ścieżkę do pliku z danymi i zwraca tabelę w formie DataFrame, oznaczoną w kodzie jako df. Dodatkowo funkcja usuwa zbędne dane i konwertuje czas z formatu UNIX na bardziej czytelny dla użytkownika format.

Ten notatnik został stworzony do pracy z plikami znajdującymi się na dysku google oraz githubie. Jeżeli użytkownik chce załadować dane, którę pobrał sam to musi on również zamienić nazwy plików z mapami nazw zespołów oraz użytkowników (znajdują się w folderze CREDO) oraz zamienić ścieżkę do pliku w funkcji read_data().

In [12]:
df = cf.read_data('/content/export_credo.json')

## Od czego zacząć analizę?
Pierwszym krokiem jaki musimy wykonać podczas pracy z danymi jest oczywiście dowiedzenie się z jakimi danymi właściwie pracujemy. Jedną z zalet obiektów typu dataFrame tworzonych przy użyciu biblioteki pandas jest to, że sortuje on nam dane na kolumny, które zawierają określone dane (np. czas albo długość i szerokość geograficzną) i każdy zestaw danych z jednego odczytu (pojedynczej detekcji) znajdują się w jednym wierszu.

Aby lepiej zapoznać się z danymi, można skorzystać z następujących metod:
1. .describe() – generuje statystyki opisowe dla każdej kolumny, takie jak liczba wierszy, średnia wartość czy odchylenie standardowe. W Google Colab można kliknąć ikonę wykresu obok tabeli, aby zobaczyć histogramy dla poszczególnych kolumn. Warto dodać, że ta metoda może nie wypisać nam wszystkich kolumn - wypisze jeydnie kolumny zawierające wartości liczbowe, a nie tekst lub datę. Przykład użycia: `df.describe()`

2. .head(n) – wyświetla pierwsze n wierszy danych, co pozwala na szybki wgląd w strukturę danych. Alternatywnie można użyć funkcji print(). Przykład użycia: `df.head(5)` lub `print(df)`

Zalecane jest sprawdzenie danych za pomocą obu metod, aby uzyskać pełniejszy obraz struktury danych oraz ich podstawowych właściwości.

Jak można zauważyć, dane zawierają łącznie **8 kolumn** o następujących nazwach:

* **wysokość** oraz **szerokość** -  rozmiar klatki/zdjęcia syngału z detektora,
* **szerokość_geo** oraz **długość_geo** - współrzędne geograficzne detektora w chwili detekcji,
* **czas** - moment, w którym dokonano detekcji,
* **id_urządzenia**, **id_użytkownika** oraz **id_zespołu** - numer identyfikacyjny urządzenia, nazwa użytkownika, który dokonał detekcji oraz zespołu, do którego należał.

Plik, który został wcześniej pobrany, zawiera kilka funkcji ułatwiających filtrowanie danych. Oto dostępne funkcje:

1) filter_by_date() - Funkcja umożliwiająca filtrowanie danych w określonym przedziale czasowym od daty początkowej do daty końcowej. Jeśli data końcowa nie zostanie podana, funkcja zbierze dane tylko z dnia początkowego.
  * Argumenty funkcji:
    * dane (DataFrame z danymi)
    * data początkowa
    * opcjonalna data końcowa
  * Format dat: 'rok-miesiąc-dzień', np. '2017-12-18'.

2) Funkcje umożliwiające filtrowanie po innych kryteriach:
  1. **Dni tygodnia - weekdays()**
  Funkcja, która pozwala filtrować dane według dni tygodnia (od 0 do 6, gdzie 0 to poniedziałek, 6 to niedziela).
    * Przykład użycia: Aby odfiltrować dane dla poniedziałków i wtorków: `cf.weekdays(df, [0, 1])`.
  2. **Miesiące - months()**
  Funkcja umożliwiająca filtrowanie danych według miesięcy (od 0 do 11, gdzie 0 to styczeń, 11 to grudzień).
    * Przykład użycia: Aby uzyskać dane tylko ze stycznia i grudnia: `cf.months(df, [0, 11])`.
  3. **Lata - years()**
   Funkcja pozwalająca na filtrowanie danych dla konkretnego roku.
    * Przykład użycia: Aby uzyskać dane z roku 2017: `cf.years(df, [2017])`
  4. **Użytkownicy - users()**
  Funkcja umożliwiająca filtrowanie danych dla określonych użytkowników.
    * Przykład użycia: Aby uzyskać dane dla użytkowników user1 i user2: `cf.users(df, ['user1', 'user2'])`
  5. **Zespoły - teams()**
  Funkcja umożliwiająca filtrowanie danych według nazwy zespołów.
    * Przykład użycia: Aby uzyskać dane dla zespołów team1 i team2: cf.teams(df, ['team1', 'team2'])
  
 **Uwaga**: Odfiltrowane dane należy zapisać do nowej zmiennej typu DataFrame, aby uniknąć nadpisania oryginalnego obiektu. Jeśli użyjemy tej samej nazwy, stracimy oryginalne dane i konieczne będzie ponowne odczytanie pliku.
**Przykład**: nowa_nazwa_df = wybrana_funkcja

3) **Wizualizacja danych na mapie**
Funkcja show_on_map() umożliwia wizualizację danych na mapie.
  * **Argument**: Funkcja jako jedyny argument przyjmuje obiekt typu DataFrame.

  * Przykład użycia: show_on_map(df)

  Funkcja ta przedstawi dane na mapie z odpowiednim oznaczeniem lokalizacji oraz ilością zliczeń dla tego miejsca.

**Ćwiczenie:**
1. Odfiltrowanie danych dla kilku wybranych miesięcy.

  Należy skorzystać z funkcji cf.months()i wybrać interesujące miesiące (np. styczeń, luty, marzec).

2. Odfiltrowanie otrzymanych danych dla wybranego użytkownika.

  Należy użyć funkcji cf.users() iwskazać jednego lub kilku użytkowników w celu zawężenia danych.

3. Wykonanie histogramu dla kolumny 'miesiąc'.

  Należy skorzystać z funkcji generowania histogramu w bibliotece pandas. Szczegółowe instrukcje dotyczące tworzenia i edycji danych z DataFrame można znaleźć na stronie: [Pandas Histograms](https://www.geeksforgeeks.org/pandas-dataframe-hist/).

4. Stworzenie mapy na podstawie przefiltrowanego DataFrame.
  
  Należy wykorzystać funkcję show_on_map()do wizualizacji danych na mapie. Konieczne jest upewnienie się, że dane zawierają informacje o lokalizacji (np. szerokość i długość geograficzną).