# CREDO - wstęp do pracy z danymi

## Czym jest CREDO?
CREDO (Cosmic-Ray Extremely Distributed Observatory), czyli Skrajnie Rozproszone Obserwatorium Promieniowania Kosmicznego. To projekt zapoczątkowany przez polskich naukowców z Instytutu Fizyki Jądrowej PAN w Krakowie. Projekt ma na celu  wykorzystywanie telefonów oraz tabletów do stworzenia globalnej sieci detektorów promieniowania kosmicznego - cząstek pochodzących z kosmosu oraz powstałych na skutek ich interakcji z atmosferą.

## Do czego służy ten notatnik?

Poniższy notatnik ma za zadanie przybliżyć ci jak wygląda praca z danymi zebranymi przez telefony wielu osób, w tym również twój.

## Jak korzystać z tego notatnika?
Poniżej znajdują się komórki, które dzielą się na dwa typy:
* **zawierające kod w pythonie** - kod w tych komórkach trzeba zmodyfikować lub napisać prosty fragment kodu, a następnie skompilować wciskają `Shift+Enter`,
* **zawierające tekst** - w tych komórkach znajduje się tekst mający za zadanie wyjaśnić ci, co zrobić, wyjaśnić co robimy oraz zadać dodatkowe pytania.

No dobrze to zacznijmy naszą pracę z kodem. Naszym pierwszym krokiem będzie zaimportowanie bibliotek, których będziemy potrzebować do pracy z danymi oraz ich wizualizacji. Możecie myśleć o bibliotekach w programowaniu jako zbiór komend, które pozwalają nam działać na danych. Te biblioteki to:
* pandas - jest to biblioteka przeznaczona do pracy z danymi,
* json - ta bibliotek jest nam potrzebna do odczytania pliku z danymi,
* matplotlib.pyplot - jest to bibliotek przeznaczona do wizualizacji danych (tworzenie wykresów, histogramów itp.),
* plotly.express -  ta biblioteka pozwoli nam nanieść dane na mapę świata w adekwatnej lokacji.

Poniżej w kodzie importujemy taką bibliotek jako np `import plotly.express as px` - ta składnia oznacza pobierz mi bibliotekę plotly.express (import plotly.express), którą później w kodzie będę nazywał px (as px).

Jeżeli po próbie kompilacji kodu otrzymuje błąd, że nie mamy takiej biblioteki należy w komórce kodu umieścić komendę `pip install *nazwa biblioteki*`, a następnie skompilować kod.

In [1]:
import pandas as pd
import json
import matplotlib.pyplot as plt

Wykorzystując poniższą komórkę możemy pobrać pliki zawierające funkcje stworzone specjalnie do tej analizy. Następnie tworzymy bibliotekę z tego pliku.

In [26]:
!wget https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/CREDO_functions.py -P /content/CREDO -P /content/CREDO
!wget https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/team_mapping.json -P /content/CREDO -P /content/CREDO
!wget https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/user_mapping.json -P /content/CREDO -P /content/CREDO

--2024-12-10 10:36:03--  https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/CREDO_functions.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3588 (3.5K) [text/plain]
Saving to: ‘/content/CREDO/CREDO_functions.py’


2024-12-10 10:36:03 (49.6 MB/s) - ‘/content/CREDO/CREDO_functions.py’ saved [3588/3588]

--2024-12-10 10:36:03--  https://raw.githubusercontent.com/Bart-Iz/CRED_education/refs/heads/Beta/CREDO/team_mapping.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 696857 (681K) [text/plain]
Savin

In [48]:
import importlib
import sys
sys.path.append("/content/CREDO/")

import CREDO_functions as cf
importlib.reload(cf)

<module 'CREDO_functions' from '/content/CREDO/CREDO_functions.py'>

Skoro już załadowaliśmy potrzebne biblioteki to teraz musimy załadować dane. Można je pobrać bezpośrednio ze strony CREDO lub z korzystając z tego linku:
https://drive.google.com/drive/folders/1r9JEmCsWh67AGbC_M4atY95YtNFjRT_q?usp=sharing

Pobrany plik należy załadować do naszego notatnika collaboratory używając opcji "prześlij do pamięci sesji" lub po prostu przeciągając plik.

W celu odczytania danych z pliku użyj funkcji read_data z biblioteki CREDO_functions. Ta funkcja jako zmiennej potrzebuje ścieżki do pliku z danymi, a zwraca nam tabelę z danymi, którą poniższy kod oznacza jako df (skrót od DataFrame). Ta funkcja odrzuca też niektóre zbędne dla nas dane oraz przelicza też dane z jednostek UNIX na czas, który jest łatwiejszy dla nas do odczytania.

In [59]:
df = cf.read_data('/content/export_credo.json')

## Od czego zacząć analizę?
Pierwszym krokiem jaki musimy wykonać podczas pracy z danymi jest oczywiście dowiedzenie się z jakimi danymi właściwie pracujemy. Jedną z zalet obiektów typu dataFrame tworzonych przy użyciu biblioteki pandas jest to, że sortuje on nam dane na kolumny, które zawierają określone dane (np. czas albo długość i szerokość geograficzną) i każdy zestaw danych z jednego odczytu (pojedynczej detekcji) znajdują się w jednym wierszu.

Metodą jaką możemy użyć aby przyjrzeć się naszym danym jest .describe,
 która podane nam dane statystyczne dla każdej kolumny takie jak ilość wierszy, wartość średnia oraz odchylenie standardowe. W google collab klikając obrazek wykresu obok powstałej tabeli możemy zobaczyć histogramy poszczególnych kolumn.

Jeżeli chcemy przyjrzeć się bezpośrednio wierszom możemy użyć .head(n), które wypisze nam n pierwszych wierszy lub używając bezpośrednio komendy print().

Sprawdź dane za pomocą obydwu metod.

In [60]:
df.describe()

Unnamed: 0,precyzja,wysokość,szerokość,szerokość_geo,długość,id_telefonu
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0
mean,60.824292,598.11408,847.24992,37.335878,12.024327,95.10898
std,306.420454,127.052993,124.753828,23.887474,12.424812,148.516171
min,0.0,144.0,208.0,-32.616698,-122.778539,1.0
25%,0.0,480.0,800.0,0.0,0.0,13.0
50%,18.203999,600.0,800.0,52.208069,18.72257,28.0
75%,47.0,720.0,960.0,53.650806,18.732369,87.0
max,20148.719,1536.0,2048.0,60.386205,99.793387,623.0


Jak widać otrzymaliśmy w sumie 9 kolumn o nazwach:

* precyzja - określe precyzje w metrach z jaką odczytano położenie detektora (telefonu),
* wysokość oraz szerokość - wymiary matrycy w telefonie,
* szerokość_geo oraz długość - współrzędne geograficzne telefonu w chwili detekcji,
* czas - moment, w którym dokonano detekcji,
* id_telefonu, id_użytkownika oraz id_zespołu - numery identyfikacyjne telefonu, użytkownika oraz zespołu

Plik, który wcześniej pobraliście zawiera kilka funkcji, które pozwala wam filtrować dane w prosty sposób. Te funkcje to:
* filter_by_date() - ta funkcja odfiltrowuje dane od początkowej daty do daty końcowej. W przypadku niepodania daty końcowej zbierane są dane tylko z dnia początkowego. Jako argumenty funkcja przyjmuje kolejno: dane, datę początkową i (opcjonalnie) datę końcową. **Wszystkie daty podajemy w formacie 'rok-miesiąc-dzień' np. '2017-12-18'**

* funkcje pozwalające filtrować po
  * dniach tygodnia - weekdays(). Funkcja jako argumenty przyjmuje dane oraz numery odpowiadające dniom tygodnia od 0 do 6. Jeśli chciałbym odfiltrować np. poniedziałki i wtorki zrobiłbym to w ten sposób `cf.weekdays(df, [0,1])`
  * miesiącach - months(). Funkcja jako argumenty przyjmuje dane oraz numery miesięcy od 0 do 11. Jeśli chce mieć jedynie dane ze stycznia oraz grudnia to użyje `cf.months(df, [0,11])`
  * latach - years(). Funkcja ta jako argumenty przyjmuje dane oraz rok. Jej użycie mogłoby wyglądać np. tak `cf.year(df, [2017])`
  * użtkownikach - users(). Funkcja ta jako argumenty przyjmuje dane oraz nazwę użytkownika/użytkowników. Jej użycie mogłoby wyglądać np. tak `cf.users(df, ['user1', 'user2'])`
  * zespołach - teams(). Funkcja ta jako argumenty przyjmuje dane oraz nazwę zespołu/zespołów. Jej użycie mogłoby wyglądać np. tak `cf.teams(df, ['team1', 'team2'])`
  Oczywiście odfiltrowane dane trzeba zapisać do dataFramu. Polecam użyć nowej nazwy, ponieważ jeśli użyjemy tej samej nazwy to nadpiszemy nasz dataFrame przez co trzeba by odczytać dane z pliku na nowo. Dane po przefiltrowaniu zapisujemy w ten sposób `naza_nowego_dataFramu = wybrany przez nas filter`
* zwizualizować nasze dane na mapie. Funkcja nazywa się show_on_map() i jako jedyny argument przyjmuje dateFrame. Używamy jej w ten sposób `show_on_map(df)`

Jako ćwiczenie wykonaj poniższe polecenia:
* Odfiltruj dane dla kilku wybranych miesięcy
* Odfiltruj nowo otrzymane dane dla wybranego użytkownika
* Wykonaj histogram dla kolumny 'miesiąc'. Instrukcje jak tworzyć i edytować dane z dateFramu możesz znaleźć na tej stronie https://www.geeksforgeeks.org/pandas-dataframe-hist/
* Stwórz mapę na podstawie twojego dataFramu

In [64]:
dc = cf.years(df, [2017])
print(dc)

       precyzja  wysokość  szerokość  szerokość_geo    długość  \
0           0.0       480        800       0.000000   0.000000   
1           0.0       480        800       0.000000   0.000000   
2           0.0       480        800       0.000000   0.000000   
3           0.0       480        800       0.000000   0.000000   
4           0.0       480        800       0.000000   0.000000   
...         ...       ...        ...            ...        ...   
99995      32.0       450        800      50.825622  19.069317   
99996      32.0       450        800      50.825622  19.069317   
99997      32.0       450        800      50.825622  19.069317   
99998      32.0       450        800      50.825622  19.069317   
99999      32.0       450        800      50.825622  19.069317   

                                  czas  id_telefonu id_użytkownika  \
0     2017-11-17 13:45:57.085000+01:00            1         Bartek   
1     2017-11-17 13:45:57.285000+01:00            1         Bartek 

In [9]:
moth = cf.filter_by_date(df,'2017-12-18')
print(moth)

       precyzja  wysokość  szerokość  szerokość_geo    długość  \
13233       0.0       432        576       0.000000   0.000000   
13234       0.0       432        576       0.000000   0.000000   
48837       6.8       480        800      49.839760  19.950547   
69243      12.0       768       1024      50.068675  19.915720   
69244      12.0       768       1024      50.068675  19.915720   
69245      12.0       768       1024      50.068675  19.915720   
69246      12.0       768       1024      50.068675  19.915720   

                                  czas  id_telefonu  id_użytkownika  \
13233 2017-12-18 08:55:50.630000+01:00            6              40   
13234 2017-12-18 09:29:21.800000+01:00            6              40   
48837 2017-12-18 01:31:12.428000+01:00           15              44   
69243 2017-12-18 00:27:46.094000+01:00           79              77   
69244 2017-12-18 01:53:51.431000+01:00           79              77   
69245 2017-12-18 04:17:38.392000+01:00       