### adatleírás

Az adat **Sebi** saját teljes facebook messenger history-ja, **2010-től 2021.11.17-ig.** Azért nem láttok belőle mindent, a következők a korlátok:

- az üzeneteket nem látjátok, csak a hosszukat, karakterben
- mindenkinek a nevét véletlenszerűen kicseréltük egy híres emberével (a forbes celebrity top100-ból, oszkárdíjas/oszkár jelölt színészek és a top 100 kitalált karakter + magyar dolgok közül válogatva)
- a névcsere konziztens, így egy híresség mindig ugyanazt az embert jelöli (akkor is, ha a csetben esetleg valaki megváltoztatta a nevét)
- fotók, videók, stickerek és gifek sincsenek meg, csak az, hogy adott üzenetben a küldő hány ilyet küldött

### forma

Az adat *json* formátumban van, amit a pythonba úgy fogunk beolvasni, hogy egy listát kapunk, amiben dictionary-k vannak. Minden dictionary egy csetben történt eseményt jelöl, ezek a következőek lehetnek:
- valaki üzenetet küldött
- valaki megosztott valamilyen tartalmat
- valakit felvettek a beszélgetésbe vagy kirakták/kirakta magát

Minden dictionaryben 19 key van, amik a következőket jelentik:

- ```type```: ez négy féle dolog lehet
    - *Generic*: ez azt jelenti, hogy a dictionary egy sima üzenetet jelöl
    - *Share*: ez valamilyen tartalom megosztását jelenti
    - *Subscribe*: ez azt jelenti, hogy valaki hozzáadott valakit a beszélgetéshez
    - *Unsubscribe*: ez azt jelenti, hogy valaki levett valakit a beszélgetésről
- ```sender_name```: *string*, a küldő, megosztó, vagy beszélgetésbe felvevő/leszedő álneve
- ```datetime```/```year```/```month```/```day```/```hour```/```minute```: ezek az esemény idejét jelzik
- ```timestamp_ms```: az 1970 január 1. óta eltelt miliszekundumok számát jelzi (arra pl. elég jó, hogy nagyon könnyen ki lehet vele számolni két esemény között eltelt időt, meg összehasonlításra is szuper)
- ```content_l```: *float*, ez mindig az üzenetben elküldött karakterek számát jelöli
- ```gifs```/```videos```/```photos```/```sticker```: ezek a nevükben megfogalmazott tartalomtípus darabszámát jelölik az üzenetben
- ```reactions```: ez egy lista azokról az emberekről, akik reactokat nyomkodtak az üzenetre
- ```users```: ez egy lista azokról az emberekről, akik a beszélgetéshez hozzá lettek adva, vagy el lettek távolítva (csak akkor aktuális, ha a ```type``` *Subscribe* vagy *Unsubscribe* értéket vesz fel)
- ```thread_path```: ez annak a threadnek (beszélgetésnek) az azonosítója, amiben az adott esemény történt
- ```thread_type```: ez a thread fajtáját jelöli, lehet *RegularGroup* (csoportos) vagy *Regular* (egyéni)
- ```index```: ez az adott esemény indexe, évenként egyedi

### figyelmeztetések

- **Az adat nincs időrendi sorrendben!** Ha olyan feladatot szeretnétek megoldani, amihez ez hasznos, nektek kell sorbarakni.
- Vigyázzatok arra is, hogy **az index nem egyedi, még évente sem!**

### beolvasás

Az adat évenként van külön fájlokba szedve. Az alábbi egy elegáns megoldás, hogy beolvassátok ezeket egy python listába. A `glob` package listázza az adott path sémán található összes fájlt (a `*` jelzi, hogy annak a helyén bármilyen karakterek állhatnak). A `with open(path, "r") as fp` struktúra pedig megnyitja az adott path-tal rendelkező fájlt, beolvassa egy változóba, és utána be is csukja. Tehát a `get_data` függvénynek paraméteresen lehet megadni, hogy melyik fájlt olvassa be.

In [None]:
import glob
import json

In [None]:
message_files = sorted(glob.glob("data/*-msg.json"))

In [None]:
message_files

['data/2010-msg.json',
 'data/2011-msg.json',
 'data/2012-msg.json',
 'data/2013-msg.json',
 'data/2014-msg.json',
 'data/2015-msg.json',
 'data/2016-msg.json',
 'data/2017-msg.json',
 'data/2018-msg.json',
 'data/2019-msg.json',
 'data/2020-msg.json']

In [None]:
def get_data(path):

    with open(path, "r") as fp:
        file = json.load(fp)

    return file

In [None]:
list_of_dicts_2010 = get_data(message_files[0])

In [None]:
list_of_dicts_2010[0]

{'index': 1797,
 'sender_name': 'Colin Firth',
 'timestamp_ms': 1289492566000,
 'type': 'Generic',
 'thread_path': 622,
 'thread_type': 'Regular',
 'reactions': [],
 'sticker': None,
 'ip': None,
 'photos': 0,
 'users': [],
 'gifs': 0,
 'videos': 0,
 'content_l': 8,
 'datetime': '2010-11-11T17:22:46.000Z',
 'year': 2010,
 'month': 11,
 'day': 11,
 'hour': 17,
 'minute': 22}

------

### ábrázolás

- ha esetleg szeretnétek valamit ábrázolni, javasoljuk hozzá a `matplotlib`, vagy a `seaborn` package-et

#### [matplotlib dokumentáció](https://matplotlib.org/3.3.3/contents.html)
#### [csinos ábrák seaborn-nal: Python Graph Gallery](https://python-graph-gallery.com/)

-------------

#### !!! Általános policy: abban az esetben, ha valamiből az elsőt kell megtalálni (vagy top5-öt a bónusz esetén), és több első is van, akkor az abc-sorrendben legelsőt adjátok meg megoldásként !!!

### explore feladatok

1. Mi Sebi álneve? (1 pont)
2. Mi a jeszk-moments azonosítója? (2 pont)
3. Ki írja átlagosan a leghosszabb üzeneteket? (2 pont)
4. Ki unscubsribeolt legtöbbször a jeszk momentsből (2 pont)
5. Ki küldte legtöbb képet a jeszk momentsbe? (2 pont)
6. Hányan vannak, akik minden évben küldtek üzenetet? (3 pont)
7. Hányan vannak, akik pontosan n évben küldtek üzenetet ($ n = 1, ... 11 $) (2 pont, ábrázolásért +1)
8. Ki van bent a második legtöbb csetben? (unsubscribe-ot ne vegyétek figyelembe) (3 pont)
9. Melyik a mostani SZMT-cset? (5 pont)
10. Ki írta a legkevesebb üzenetet a mostani SZMT-chatbe? (3 pont)
11. Melyik az a cset, ahol a legtöbb idő telt el két ÜZENET között, és mennyi ez az idő? (4 pont)
12. Hány emberrel beszél Sebi 2018 óta minden évben, és hánnyal 2019 óta minden évben (rajkba kerülésének éve óta), és ez alapján kik a rajkosok ebből a listából? (4 pont)
13. Ki érte el a legtöbb reakciót átlagosan a jeszk momentsben? (4 pont)

### függvény feladatok

14. Megadok egy timestamp-et, ki az eddig az időpontig írt leghosszabb üzenet szerzője? (1 pont)
15. Megadok egy timestamp-et, melyik óra eddig az időpontig a legkevésbé aktív, amiben legalább egy interakció lezajlott? (tehát nem 0 az aktivitás) (1 pont)
16. Megadok egy timestamp-et és egy embert, mondd meg, hány karaktert küldött eddig az időpontig (2 pont)
17. Megadok egy timestamp-et, hányan írtak eddig az időpontig legalább 10 üzenetet? (3 pont)
18. Megadok egy timestamp-et, melyik volt a top5 legaktívabb cset eddig az időpontig (4 pont)
19. Megadok egy timestamp-et és egy csetet (thread_path), összesen hány különböző ember írt, összesen hány üzenetet és hány karaktert írtak eddig az időpontig? (4 pont)
    - +2 pontért: emberenként csoportosítva hány üzenetet és hány karaktert küldtek
20. Megadok egy órát, átlagosan hány üzenetet küldtek ebben az órában az összes olyan napra átlagolva, amikor küldtek üzenetet abban az órában? (5 pont)
21. Megadok egy timestamp-et, melyik csetbe és kicsoda írta  eddig az időpontig a legtöbb karaktert (5 pont)
22. Megadok egy timestamp-et, mi volt a leghosszabb periódus eddig az időpontig üzenet nélkül (7 pont)

### kötelező plusz

- mindegyik csapatnak kötelező bedobni legalább 2 új feladatot

### bónusz

- bárhol ahol top1-et keresünk, megadni top5öt (+1 pont)
- bármelyik csapat dobhat be a kettőn felül plusz feladatokat a megbeszélt időkorlátig publikusan, amiről mi megmondjuk, hogy hány pontot ér
- ha olyan feladatot csinálsz meg, amit egyik másik csapat sem tudott (+1 pont)

## TQDM 
hasznos package, ami egy iterációnál megjelenít egy progress bart.

In [None]:
!pip install tqdm #ezzel tudjátok telepíteni a package-t notebookon belül,
# vagy parancssor és ! nélkül ugyan ez a parancs
dfrom tqdm import tqdm

You should consider upgrading via the '/root/venv/bin/python -m pip install --upgrade pip' command.[0m


In [None]:
#Annyit kell csinálnotok, hogy az iterációban meghívjátok a tqdm függvényt,
#aminek a paramétereként a végigiterálandó függvényt adjátok meg. 
for i in tqdm(range(100000)):
    pass

100%|██████████| 100000/100000 [00:00<00:00, 1744755.09it/s]


## Teszt értékek

In [None]:
TEST_TIMESTAMP = 1321799105000
TEST_HOUR = 17
TEST_THREAD = 570
TEST_PERSON = 'Spiderman'

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=978e47b7-a961-4dca-a945-499e8b781a34' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>