# Wstęp - Analiza eksploracyjna

W tym notatniku zajmiemy się analizą danych, które wcześniej przygotowaliśmy w ścieżce: `data/interim/hockey_teams.json`. Plik ten, będąc częściowo przetworzonym, jest łatwo dostępny do importu i przygotowany do ściślej analizy analitycznej.  
  
Ta część warsztatu skupi się na wykorzystaniu `pandas` oraz `matplotlib`, które były omawiane w trakcie kursu. Głównym celem jest zaznajomienie się ze zbiorem danych, nad którym pracujemy. Dzięki serii ćwiczeń:  
- zapoznamy się ze strukturą danych,  
- przeprowadzimy elementarną eksplorację danych (EDA).  
  
## Opis kolumn  
  
Poniżej znajduje się krótki opis poszczególnych kolumn z naszego zbioru danych:  
  
- **Team Name**: Nazwa drużyny biorącej udział w meczu.  
- **Year**: Rok, w którym odbywa się sezon.  
- **Wins**: Liczba meczów wygranych przez drużynę w danym
- **Losses** - Liczba meczów przegranych przez drużynę w danym sezonie.
- **OT Losses** - Liczba meczów przegranych przez drużynę po dogrywce w danym sezonie.
- **Win %** - Procent wygranych meczów przez drużynę w danym sezonie.
- **Goals For (GF)** - Liczba goli strzelonych przez drużynę w danym sezonie.
- **Goals Against (GA)** - Liczba goli straconych przez drużynę w danym sezonie.
- **\+ / -** - Różnica między liczbą goli strzelonych a straconych przez drużynę w danym sezonie.

> Uwaga: Na tym etapie celowo dokonano pewnych istotnych uproszczeń w analizie i nie zostaną one podane wprost, celem poddania dyskusji na końcu warsztatu.

# Przygotowanie

## Import bibliotek
Tutaj załaduj biblioteki, które będą potrzebne w dalszych krokach

# Załadowanie zbioru danych

Zalecamy wczytanie surowych danych do zmiennej z dopiskiem `_raw`. Pozwoli to na uniknięcie konieczności ponownego wczytywania danych od początku w przypadku błędu, co może być procesem czasochłonnym.  
  
> **Wskazówka:** Plik `json` można łatwo załadować za pomocą `pandas`, wykorzystując funkcję `read_json` - [klik](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)  

tutaj załaduj dane z pliku `hockey_teams`

tutaj sprawdź, czy dane załadowały się poprawnie

# Wstępna transformacja danych

## Ujednoliczenie nazw kolumn

Aktualnie nasz zbiór danych zawiera oryginalne nazwy kolumn, które z technicznego punktu widzenia, nie powinny zawierać spacji ani innych znaków specjalnych.  
  
W tej sekcji ujednolicimy i uprościmy nazewnictwo, aby ułatwić obróbkę danych w kolejnych etapach. Zastosujemy następujące mapowanie nazw kolumn:  
  
- **Team Name** -> `team`  
- **Year** -> `season`  
- **Wins** -> `victories`  
- **Losses** -> `defeats`  
- **OT Losses** -> `overtime_defeats`  
- **Win %** -> `victory_percentage`  
- **Goals For (GF)** -> `scored_goals`  
- **Goals Against (GA)** -> `received_goals`  
- **\+ / -** -> `goal_difference`  
  
> W tym miejscu zalecamy stworzenie nowej ramki danych, bez dopisku `_raw`. Przykładowo, jeśli dane zostały załadowane do zmiennej `df_raw`, teraz chcemy pracować na zmiennej `df`, gdzie dokonamy modyfikacji nazw kolumn.  

## Usunięcie pustych wartości

Jak można zauważyć, kolumna `overtime_defeats` zawiera wiele wartości pustych, a oczekiwany typ danych to `int`. Przed przystąpieniem do dalszej analizy, należy odpowiednio przygotować tę kolumnę.  
  
W tym celu wykonamy następujące kroki:  
- Sprawdzimy, jaki znak jest używany jako indykator pustego pola.  
- Puste pola wypełnimy wartością 0.  
- Następnie przekonwertujemy typ danych tej kolumny na `int`.  
  
Dzięki tym krokom, kolumna `overtime_defeats` będzie gotowa do dalszej analizy.  

### Znalezienie indykatora pustego znaku

### Nadpisanie pustych wartości przy użyciu 0

### Konwersja typu kolumny

# Wstęp do analizy zbioru

W tej części skupimy się na odpowiedziach na podstawowe pytania dotyczące naszego zbioru danych w kontekście rozgrywek hokejowych. Celem jest zapoznanie się ze zbiorem danych i wyrobienie intuicji na jego temat.  
  
Oto lista ćwiczeń, które wykonamy, aby znaleźć odpowiedzi na kluczowe pytania:  
  
- Ile zespołów brało udział w rozgrywkach ligowych na przestrzeni lat?  
- Jaka jest całkowita liczba dostępnych sezonów?  
- Jaka jest rozpiętość danych czasowych?  
- Czy w kolumnach numerycznych występują podejrzane lub odstające wartości?  
  
Te ćwiczenia pozwolą nam lepiej zrozumieć strukturę i charakter naszych danych.  

### Liczba zespołów, które brały udział w rozgrywkach ligowych

Tutaj wyznacz ogólną liczbę zespołów, które są dostępne w naszym zbiorze danych

### Liczba sezonów ogółem

Tutaj wyznacz liczbę sezonów ogółem.

### Rozpiętość danych czasowych

W tym miejscu zbadamy dostępność danych dla poszczególnych sezonów. Analizę przeprowadzimy w dwóch etapach:  
- Najpierw ustalimy zakres czasowy danych, identyfikując rok początkowy (`start_year`) oraz rok końcowy (`end_year`). Pozwoli to na ustalenie, dla których sezonów posiadamy informacje.  
- Następnie zwrócimy uwagę na ewentualne luki w danych czasowych, aby upewnić się, że posiadamy kompletny zestaw informacji dla każdego sezonu.  

W tym miejscu wyznaczymy rok początkowy oraz końcowy danych:

Tutaj sprawdzimy, czy dla każdego roku z wyznaczonego przedziału występują dane:

### Analiza kolumn numerycznych

Tutaj sprawdzimy podstawowe statystyki opisowe dla kolumn numerycznych.

W tym celu dokonaj opisu oraz analizy wyników dla kolumn:

- victories
- defeats
- overtime_defeats
- victory_percentage
- scored_goals
- received_goals
- goal_difference

Interesują nas następujące statystyki:
- średnia,
- liczebność,
- odchylenie standardowe,
- percentyle = `[0, 0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 1]`

# `team`

W tej części wykonamy serię analiz poszczególnych zespołów występujących w ligach. Dzięki temu poznamy zespoły, które najlepiej wypadały w rozgrywkach na przestrzeni lat.



## Analiza uczestnictwa zespołów w sezonach ligowych

Wykonajmy następujące ćwiczenia:  
- Sprawdźmy, ile zespołów wystąpiło we wszystkich sezonach wybranej ligi.  
- Wyświetlmy listę tych zespołów.  

Lista drużyn, które wystąpiły we wszystkich sezonach rozgrywek hockeya:

Liczba drużyn, które wystąpiły we wszystkich sezonach: 

## Najlepiej performujące zespół w historii ligii

Wyznaczmy listę pięciu najlepszych zespołów z najwyższym średnim wskaźnikiem `victory_percentage` przez wszystkie lata, przedstawiając dane z podziałem na poszczególne zespoły i sezony.  

## Top zespóły w historii

Wyznaczmy top 5 zespołów, które wygrały najwięcej lig w całej historii. Zastanówmy się, czy na podstawie dostępnych danych można wyłonić jeden zespół, który jednoznacznie zasługuje na miano najlepszego w historii.  
  
Dla uproszczenia przyjmijmy, że za zwycięzcę ligi uznajemy zespół z największą liczbą zwycięstw w danym sezonie.  

> Wskazówka: Mogą przydać się informacje zawarte w artykule `Pandas > Podsumowanie zjazdu 4 > Funkcje analityczne`

Dodatkowo, określimy, ile zespołów nigdy **nie wygrało żadnego sezonu**.  
  
> **Uwaga:** To zadanie może wydawać się bardziej skomplikowane, niż na pierwszy rzut oka. Pamiętaj, że podczas zajęć możesz liczyć na pomoc wykładowcy, a poza nimi - na wsparcie mentora. 

# `overtime_defeats`

Zmienna `overtime_defeats` informuje nas, ile razy zespół w ciągu roku przegrał w doliczonym czasie gry.  
  
W tej części wykonamy następujące ćwiczenia:  
- Zidentyfikujemy zespół, który najczęściej przegrywał w doliczonym czasie gry.  
- Dokonamy rankingu zespołów na podstawie liczby przegranych w doliczonym czasie gry.  
- Obliczymy, jaki procent zespołów przegrał co najmniej raz w doliczonym czasie gry.  
- Wyznaczymy sezon z największą liczbą gier rozstrzygniętych w doliczonym czasie gry.  
  
> Upewnijmy się, że kolumna `overtime_defeats` jest typu numerycznego!  

## Zespół przegrywający najczęściej w doliczonym czasie gry

> Uwaga: W celu rozwiązania tego zadania może się przydać ten artykuł: `Pandas > Podusmowanie zjazdu > Funckje analityczne`

## odsetek zespołów przegrywających w doliczonym czasie gry

Wynik tego zadania zaokrąglimy do dwóch miejsc po przecinku

# `goals_ratio`

Na podstawie zmiennych `scored_goals` oraz `received_goals` stworzymy nową zmienną - `goals_ratio`, definiowaną jako stosunek liczby goli strzelonych do liczby goli straconych.  
  
Zanim przejdziemy do rozwiązania zadania, rozważmy następujące kwestie:  
- Jakie wartości statystyki `goals_ratio` można uznać za wskazujące na dobrą lub słabą wydajność zespołu?  
- W jakich sytuacjach możemy stwierdzić, że zespół wypadł lepiej lub gorzej na podstawie wartości `goals_ratio`?  

## Stworzenie zmiennej

tutaj dokonamy podstawowej analizy zmiennej wyznaczając statystyki takie jak:
- średnia
- odchylenie standardowe
- kwantyle 2, 3, 4

zastanówmy się co wynika z takiego podsumowania. Czy na tej postawie można powiedzieć że ta statystyka posiada wartości odstające?

## Rozkład zmiennej `goals_ratio`

Wygenerujmy rozkład zmiennej `goals_ratio` przy użyciu funkcji `plt.hist` z biblioteki `matplotlib`, wykonując zadanie w dwóch wariantach:  
- z liczbą binów wyznaczoną za pomocą reguły Rice'a,  
- z liczbą binów wyznaczoną za pomocą reguły pierwiastka kwadratowego.  
  
Metody i wzory na wyznaczenie liczby przedziałów w histogramie znajdują się pod tym linkiem: [Wyznaczanie liczby przedziałów w histogramie](https://www.statology.org/sturges-rule/).  
  
**Wskazówka:** Aby wyznaczyć rozkład zmiennej przy użyciu `matplotlib`, można skorzystać z funkcji `hist`, dostępnej tutaj: [Dokumentacja funkcji hist](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html).  
  
Co to jest sufit i podłoga liczby - [Podłoga i sufit liczby - Wikipedia](https://en.wikipedia.org/wiki/Floor_and_ceiling_functions)
> Ciekawostka: W jaki sposób wyznaczyć sufit z liczby w Python nie korzystająć z dodatkowych bibliotek?

### Histogram zmiennej używając reguły Rice'a

### Histogram zmiennej używając reguły pierwiastka kwadratowego

# `victory_percentage`

Podobnie jak w przypadku analizy zmiennej `goals_ratio`, przeprowadzimy analizę eksploracyjną `victory_percentage`, wykonując następujące kroki:  
- Wyznaczymy podstawowe statystyki opisowe, takie jak średnia, mediana, odchylenie standardowe, minimum i maksimum.  
- Zbadamy rozkład zmiennej, korzystając z histogramu aby lepiej zrozumieć jej charakterystykę.  
- Sprawdzimy, czy w analizowanej zmiennej pojawiają się oczywiste podgrupy zespołów, które można by było wyznaczyć na podstawie określonych kryteriów, takich jak zakres wartości zmiennej.  

### statystyki opisowe

### rozkład

Tutaj stworzymy rozkład zmiennej, nie będziemy jednak robić tego w dwóch wersjach, wybierzemy inną, dowolną liczbę przedziałów.

# `goals_ratio` vs `victory_percentage`

Już przeanalizowaliśmy `goals_ratio` oraz `victory_percentage` jako dwie oddzielne zmienne. Teraz naszym zadaniem będzie przeanalizować je razem, aby zidentyfikować potencjalne wzajemne zależności między nimi.  
  
W tym kroku wykonamy następujące ćwiczenia:  
- Przed rozpoczęciem analizy, zastanówmy się, czy te zmienne mogą być od siebie zależne czy niezależne. Jakiego rodzaju relacji można się spodziewać na podstawie ich opisu biznesowego?  
- Stwórzymy wykres punktowy (`scatterplot`), aby wizualnie przedstawić zależności między tymi zmiennymi.  
- Określimy relację pomiędzy zmiennymi na podstawie wykresu punktowego.  
- Przeanalizujemy wykres pod kątem identyfikacji obserwacji odstających, zwracając szczególną uwagę na ich wspólny rozkład. 

## Scatterplot zmiennych

Teraz stworzymy wykres punktowy dla obu analizowanych zmiennych, `goals_ratio` i `victory_percentage`. Po wykonaniu tego kroku, odpowiedzmy na następujące pytania:  
- Jaka relacja występuje pomiędzy zmiennymi `goals_ratio` i `victory_percentage`?  
- Czy na wykresie można zidentyfikować obserwacje odstające? Jeśli tak, to jakie kryteria zostały użyte do ich identyfikacji? 

> miejsce na notatki dotyczące analizy wykresu

Jeśli zidentyfikowaliśmy obserwacje odstające na wcześniejszym etapie analizy, teraz przejdźmy do zbadania tych konkretnych przypadków. Skupimy się na obserwacjach odstających względem zmiennych `goals_ratio` i `victory_percentage`, aby zrozumieć, jakie cechy je wyróżniają.  
  
Należy dokonać następujących kroków analizy:  
1. Zidentyfikuj konkretne obserwacje odstające, które zostały wcześniej wykryte.  
2. Przeanalizuj charakterystyki tych obserwacji, zwracając uwagę na ich wartości dla zmiennych `goals_ratio` i `victory_percentage`.  
3. Spróbuj zrozumieć, co mogło być przyczyną ich odstającej natury. Czy są to przypadki anomalii, czy też mogą być wynikiem naturalnych wahań w danych? 

# Podsumowanie

W ramach tego notatnika przeprowadziliśmy podstawową analizę eksploracyjną naszego zbioru danych. Dane zostały oczyszczone, a następnie wzbogacone o nowe zmienne, które poddaliśmy dodatkowej analizie. Ostatnim krokiem tej części jest zapisanie przetworzonych danych do pliku CSV.  
  
**Zapiszmy naszą ramkę danych do pliku:** `data/processed/hockey_teams.csv`, używając średnika (`;`) jako separatora kolumn. 

Następnie, w kolejnym etapie naszej pracy, zaproponujemy kursy bukmacherskie na podstawie analizowanych danych historycznych oraz przeprowadzimy dyskusję na temat wyników tej analizy.

### Zapis ramki do docelowej lokalizacji

- nazwa pliku: `data/processed/hockey_teams.csv`,
- separator kolumn: `;`,
- pamiętajmy o wyłączeniu zapisu indeksów.