# 03 - Analýza dat

## Cíl tohoto notebooku

V tomto kroku provedeme explorativní analýzu (EDA) hokejových dat připravených v předchozím kroku.

**Co se naučíte:**
- Načítání dat z JSON do pandas DataFrame
- Čištění a transformace dat
- Základní statistickou analýzu
- Vizualizaci dat pomocí matplotlib

**Vstup:** Soubor `data/interim/hockey_teams.json`

**Výstup:** Vyčištěný soubor `data/processed/hockey_teams.csv`

---

## Popis dat

| Sloupec | Popis |
|---------|-------|
| Team Name | Název týmu |
| Year | Rok sezóny |
| Wins | Počet výher |
| Losses | Počet proher |
| OT Losses | Počet proher v prodloužení |
| Win % | Procento výher |
| Goals For (GF) | Vstřelené góly |
| Goals Against (GA) | Obdržené góly |
| + / - | Rozdíl gólů |

---

## Krok 1: Příprava prostředí

### 1.1 Import knihoven

In [None]:
# Doplňte importy: pandas, matplotlib.pyplot, os


<details>
<summary>Nápověda</summary>

```python
import pandas as pd
import matplotlib.pyplot as plt
import os

```
</details>

### 1.2 Vytvoření výstupní složky

In [None]:
# Vytvořte složku data/processed



---

## Krok 2: Načtení dat

### 2.1 Načtení JSON souboru

Načtěte json do dataframu

In [None]:
# Načtěte JSON soubor do df_raw pomocí pd.read_json()
df_raw = 

### 2.2 Kontrola dat

In [None]:
# Zobrazte head() a info()


---

## Krok 3: Přejmenování sloupců

### 3.1 Definice mapování

Použití slovníku je lepší než přímé přiřazení seznamu - je jasné, co se na co mapuje.

In [None]:
# Vytvořte slovník MAPOVANI_SLOUPCU pro přejmenování
# Příklad: 'Team Name': 'team'

MAPOVANI_SLOUPCU = {
    # Doplňte mapování
}


<details>
<summary>Nápověda</summary>

```python
MAPOVANI_SLOUPCU = {
    'Team Name': 'team',
    'Year': 'season',
    'Wins': 'victories',
    'Losses': 'defeats',
    'OT Losses': 'overtime_defeats',
    'Win %': 'victory_percentage',
    'Goals For (GF)': 'scored_goals',
    'Goals Against (GA)': 'received_goals',
    '+ / -': 'goal_difference'
}
```
</details>

### 3.2 Aplikace přejmenování

In [None]:
# Vytvořte df jako kopii a přejmenujte sloupce

df = df.rename..

<details>
<summary>Nápověda</summary>
    
* df -> vytvor kopii jako `df_raw.copy()`
* přemenuj sloupce přes `rename()` a mapovani, nezapomeň na `inplace`
</details>

---

## Krok 4: Čištění dat

### 4.1 Analýza sloupce overtime_defeats

In [None]:
# Zjistěte, jaké hodnoty obsahuje sloupec overtime_defeats


### 4.2 Nahrazení prázdných hodnot a převod typu

In [None]:
# Nahraďte '' -> 0 a převeďte na int


<details>
<summary>Nápověda</summary>
    
použi `loc` a masku /`replace()` 

potom `astype()`

</details>

---

## Krok 5: Základní průzkum dat

### 5.1 Počet týmů v datasetu

In [None]:
# Zjistěte počet týmů 


<details>
<summary>Nápověda</summary>
    
použi `unique()`

</details>

### 5.2 Počet sezón

In [None]:
# Zjistěte počet unikátních sezón
seasons_total = 

### 5.3 Časový rozsah dat

In [None]:
# Zjistěte první a poslední rok v datech pomocí min() a max()



### 5.4 Kontrola souvislosti dat

Zkontrolujte, zda jsou data pro všechny roky v rozsahu.

In [None]:
# Porovnejte očekávané roky s reálnými v datech


<details>
<summary>Nápověda</summary>

* Zjištěte unikátní hodnoty a konvertujte je na množinu
* `range(první, poslední + 1)` konvertujte na množinu
* porovnejte množiny odečítaním

</details>

### 5.5 Popisná statistika numerických sloupců

To this end, describe and analyze the results for the following columns:

- victories
- defeats
- overtime_defeats
- victory_percentage
- scored_goals
- received_goals
- goal_difference

We are interested in the following statistics:
- mean,
- count,
- standard deviation,
- percentiles = `[0, 0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 1]`

In [None]:
# Zobrazte statistiky pomocí describe()
# Použijte percentily [0, 0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 1]


<details>
<summary>Nápověda</summary>

    použijte `describe()` a jako parametr vložte list s percentily

</details>

---
# `team`
In this section, we will conduct a series of analyses on individual teams participating in the leagues. This will allow us to identify the teams that have performed best in the competitions over the years.


## Krok 6: Analýza týmů

### 6.1 Týmy hrající všechny sezóny

In [None]:
# Najděte týmy, které hrály ve všech sezónách
# Spočítejte počet sezón pro každý tým a porovnejte s celkovým počtem


<details>
<summary>Nápověda</summary>
    
* `nunique()` - počet různych sezon
* `groupby()` - rozdělit podle týmů a pro každý spočítat počet sezon
* vybrat jenom řádky pro týmy, které mají počet sezon = počtu 21
* `index.tolist()` vrátí seznam s názvem týmů
    
</details>

### 6.2 Nejlepší týmy podle průměrného procenta výher

In [None]:
# Najděte 5 týmů s nejvyšším průměrným victory_percentage



<details>
<summary>Nápověda</summary>

* `sort_values()` ... `head(5)`

</details>

### 6.3 Vítězové sezón

Předpokládejme, že vítěz sezóny je tým s nejvíce výhrami v dané sezóně.

In [None]:
# Pro každou sezónu najděte tým s nejvíce výhrami
# Pak spočítejte, kolikrát který tým vyhrál


<details>
<summary>Nápověda</summary>

* Index nejlepšího týmu v každé sezóně - `idxmax()`
* `df.loc[index, ['season', 'team', 'victories']]`
* `value_counts()` pro každý tým

</details>

### 6.4 Týmy, které nikdy nevyhrály sezónu

In [None]:
# Zjistěte, kolik týmů nikdy nevyhrálo žádnou sezónu



<details>
<summary>Nápověda</summary>

* vsechny týmy z unikátních hodnot
* vitezne týmy z `vitezove`
* nevítezné jako rozdíl množin

```
</details>

---
# `overtime_defeats`

The `overtime_defeats` variable informs us how many times a team lost in overtime throughout the year.  
  
In this section, we will perform the following exercises:  
- Identify the team that most frequently lost in overtime.  
- Rank the teams based on the number of overtime losses.  
- Calculate what percentage of teams lost at least once in overtime.  
- Determine the season with the highest number of games decided in overtime.  
  
> Let's make sure that the `overtime_defeats` column is of numeric type!

## Krok 7: Analýza proher v prodloužení

### 7.1 Tým s nejvíce prohrami v prodloužení

In [None]:
# Najděte tým s nejvyšším součtem proher v prodloužení



<details>
<summary>Nápověda</summary>

* `groupby('team')` .. `sum()` ... `sort_values()`.. `head()`
* `reset_index()` - volitelné
  
</details>

### 7.2 Procento týmů s alespoň jednou prohrou v prodloužení

In [None]:
# Spočítejte procento záznamů s overtime_defeats > 0


<details>
<summary>Nápověda</summary>

* radky, kde je hodnota 'overtime_defeats' > 0
* `unique()` pro týmy
* počet takových řádků děleno počet všech týmů
  
</details>

---
# `goals_ratio`
Based on the variables `scored_goals` and `received_goals`, we will create a new variable - `goals_ratio`, defined as the ratio of goals scored to goals conceded.

Before we proceed with solving the task, let's consider the following issues:
- What values of the `goals_ratio` statistic can be considered indicative of good or poor team performance?
- In what situations can we determine that a team performed better or worse based on the value of `goals_ratio`?

## Krok 8: Vytvoření nové proměnné goals_ratio

### 8.1 Výpočet poměru gólů

In [None]:
# Vytvořte nový sloupec goals_ratio = scored_goals / received_goals


<details>
<summary>Nápověda</summary>

jenom jednoduché přirazení

</details>

## Distribution of the variable `goals_ratio`

Let's generate the distribution of the variable `goals_ratio` using the `plt.hist` function from the `matplotlib` library, performing the task in two variants:
- with the number of bins determined using Rice's Rule,
- with the number of bins determined using the Square Root Rule.

Methods and formulas for determining the number of bins in a histogram can be found at this link: [Determining the number of bins in a histogram](https://www.statology.org/sturges-rule/).

**Tip:** To determine the distribution of a variable using `matplotlib`, you can use the `hist` function, available here: [Documentation for hist function](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html).

What are the floor and ceiling of a number - [Floor and ceiling of a number - Wikipedia](https://en.wikipedia.org/wiki/Floor_and_ceiling_functions)
> Question: How to calculate the ceiling of a number in Python without using additional libraries?

### 8.2 Histogram goals_ratio

In [None]:
# Vytvořte histogram pomocí plt.hist()
# Použijte Rice's rule pro počet binů: ceil(2 * n^(1/3)+1) nebo Root rule



<details>
<summary>Nápověda</summary>

* výpočet
* `plt.hist()`
* `plt.figure(figsize=(, ))` `plt.hist()` `plt.xlabel()` `plt.title()` `plt.legend()` `plt.show()`    

```python

n = len(df)
bins_amount = int(2*(n ** (1/3)) + 1)

bins_amount = int(df['goals_ratio'].count() ** (1/2)+1)

```
</details>

----
# `victory_percentage`

Similar to the analysis of the variable `goals_ratio`, we will conduct an exploratory analysis of `victory_percentage` by following these steps:  
- Determine the basic descriptive statistics, such as the mean, median, standard deviation, minimum, and maximum.  
- Examine the distribution of the variable by using a histogram to better understand its characteristics.  
- Check if there are any obvious subgroups of teams within the variable under analysis that could be identified based on specific criteria, such as the range of the variable's values.

## Krok 9: Analýza victory_percentage

### 9.1 Histogram victory_percentage

In [None]:
# Vytvořte histogram pro victory_percentage


# `goals_ratio` vs `victory_percentage`

We have already analyzed `goals_ratio` and `victory_percentage` as two separate variables. Now, our task is to analyze them together to identify potential interdependencies between them.  
  
In this step, we will perform the following exercises:  
- Before starting the analysis, let’s consider whether these variables might be dependent or independent of each other. What kind of relationship can be expected based on their business descriptions?  
- We will create a scatterplot to visually represent the dependencies between these variables.  
- We will determine the relationship between the variables based on the scatterplot.  
- We will analyze the scatterplot to identify any outliers, paying special attention to their common distribution.

---

## Krok 10: Vztah mezi goals_ratio a victory_percentage

### 10.1 Bodový graf (scatter plot)

In [None]:
# Vytvořte scatter plot pro goals_ratio vs victory_percentage



<details>
<summary>Nápověda</summary>

```python
plt.figure(figsize=(10, 6))
plt.scatter(x = ,
            y = , 
            alpha=0.5)
plt.xlabel...

plt.show()
```
</details>

### 10.2 Analýza odlehlých hodnot

If we have identified outlying observations at an earlier stage of analysis, let's now examine these specific cases. We will focus on outliers concerning the variables `goals_ratio` and `victory_percentage` to understand what features distinguish them.

The following steps should be taken for analysis:
1. Identify the specific outlying observations that were detected earlier.
2. Analyze the characteristics of these observations, paying attention to their values for the variables `goals_ratio` and `victory_percentage`.
3. Try to understand what might have caused their outlying nature. Are these instances of anomalies, or could they be the result of natural fluctuations in the data?

Podívejte se na záznamy, které se vymykají z trendu.

In [None]:
# Najděte záznamy s neobvyklými hodnotami
# Např. vysoké goals_ratio ale nízké victory_percentage


---
# Summary

In this notebook, we conducted a basic exploratory analysis of our dataset. The data was cleaned and then enriched with new variables, which we subjected to further analysis. The final step of this part is to save the processed data to a CSV file.  
  
**Let's save our data frame to the file:** `data/processed/hockey_teams.csv`, using a semicolon (`;`) as the column separator.

Next, in the following phase of our work, we will propose betting odds based on the analyzed historical data and discuss the results of this analysis.

## Krok 11: Uložení vyčištěných dat

### 11.1 Export do CSV

In [None]:
# Uložte DataFrame do CSV souboru
# Cesta: data/processed/hockey_teams.csv
# Oddělovač: ;
# Bez indexu: index=False

# Váš kód:


<details>
<summary>Nápověda</summary>

```python
df.to_csv()

```
</details>

---

## Shrnutí

V tomto notebooku jste se naučili:
- Načítat a čistit data pomocí pandas
- Používat slovníky pro přejmenování sloupců
- Provádět základní explorativní analýzu
- Vytvářet vizualizace pomocí matplotlib
- Analyzovat vztahy mezi proměnnými

**Klíčová zjištění:**
- Dataset obsahuje data za více než 20 sezón
- Existuje silná korelace mezi poměrem gólů a procentem výher
- Některé týmy hrály všechny sezóny, jiné jen několik

**Další krok:** Přejděte k notebooku `04_Doporuceni.ipynb`, kde navrhneme sázkové kurzy.

---

## Tipy pro vylepšení

1. **Použití korelační matice:**
```python
import seaborn as sns
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
```

2. **Automatická detekce odlehlých hodnot:**
```python
Q1 = df['goals_ratio'].quantile(0.25)
Q3 = df['goals_ratio'].quantile(0.75)
IQR = Q3 - Q1
odlehle = df[(df['goals_ratio'] < Q1 - 1.5*IQR) | 
             (df['goals_ratio'] > Q3 + 1.5*IQR)]
```

3. **Přidání trendové linie:**
```python
import numpy as np
z = np.polyfit(df['goals_ratio'], df['victory_percentage'], 1)
p = np.poly1d(z)
plt.plot(df['goals_ratio'].sort_values(), 
         p(df['goals_ratio'].sort_values()), 'r--')
```