In [1]:
!pip install openml

Collecting openml
  Downloading openml-0.15.0-py3-none-any.whl.metadata (9.9 kB)
Collecting liac-arff>=2.4.0 (from openml)
  Downloading liac-arff-2.5.0.tar.gz (13 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting xmltodict (from openml)
  Downloading xmltodict-0.14.2-py2.py3-none-any.whl.metadata (8.0 kB)
Collecting minio (from openml)
  Downloading minio-7.2.10-py3-none-any.whl.metadata (6.5 kB)
Collecting pycryptodome (from minio->openml)
  Downloading pycryptodome-3.21.0-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.4 kB)
Downloading openml-0.15.0-py3-none-any.whl (157 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m158.0/158.0 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading minio-7.2.10-py3-none-any.whl (93 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m93.9/93.9 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading xmltodict-0.14.2-py2.py3-none-any.whl (10.0 kB)
Downloading pyc

#### Wczytanie zbioru danych za pomocą openml

In [3]:
import openml
import pandas as pd
import matplotlib.pyplot as plt


dataset_id = 43566
data = openml.datasets.get_dataset(dataset_id)
df, *_ = data.get_data()



# 📊 Analiza Aktywnych Graczy i Federacji 🌎

### Opis Zadania
W tej analizie przeprowadzimy kroki, aby zbadać liczbę aktywnych graczy, reprezentowane federacje oraz średnie rankingi graczy.

---

#### 📌 Krok 1: Obliczenie Liczby Aktywnych Graczy
Najpierw zidentyfikujemy liczbę aktywnych graczy w zbiorze danych. Kolumna `Inactive_flag` wskazuje, czy gracz jest aktywny – jeśli wartość w tej kolumnie jest pusta (`NaN`), oznacza to, że gracz jest aktywny.

- **Cel**: Policz wszystkich aktywnych graczy w zbiorze danych.

#### 📌 Krok 2: Liczba Unikalnych Federacji
Następnie określimy, ile różnych federacji (krajów/regionów) jest reprezentowanych przez graczy.

- **Cel**: Użyj metody `nunique()` na kolumnie `Federation`, aby policzyć liczbę unikalnych federacji.

#### 📌 Krok 3: Liczba Aktywnych Graczy w Każdej Federacji
W kolejnym kroku sprawdzimy liczbę aktywnych graczy w każdej federacji.

- **Cel**: Wybierz tylko aktywnych graczy, a następnie użyj `groupby('Federation').size()` na kolumnie `Federation`, aby uzyskać liczbę aktywnych graczy w każdej federacji.

#### 📌 Krok 4: Średni Ranking Aktywnych Graczy w Każdej Federacji
Na koniec obliczymy średni standardowy ranking (`Standard_Rating`) aktywnych graczy w każdej federacji.

- **Cel**: Filtruj aktywnych graczy, a następnie użyj `groupby('Federation')` i oblicz średnią wartość w kolumnie `Standard_Rating`.


In [None]:
#1 Liczba aktywnych graczy
# Zakładamy, że NaN w 'Inactive_flag' oznacza aktywnego gracza
num_active_players = df['Inactive_flag'].isna().sum()
print("Liczba aktywnych graczy:", num_active_players)

#2


#3


#4


# 📊 Analiza Rankingów Szachowych


#### 🎯 Zadanie 1: Top 5 Graczy z Najwyższym Rankingiem Rapid
- **Opis Zadania**: Znajdź pięciu zawodników z najwyższym rankingiem w kategorii Rapid, aby odkryć, kto dominuje w szybkim tempie gry.

Jak nazywa się zawodnik z najwyższym wynikiem i z jakiej jest federacji?

---

#### 👑 Zadanie 2: Najwyższy Ranking Standardowy dla Każdego Tytułu
- **Opis Zadania**: Znajdź najwyższy ranking standardowy dla każdego tytułu (`GM`, `IM`, `FM`, itp.) i sprawdź, którzy gracze wyróżniają się w swojej kategorii tytułowej.

Na podstawie uzyskanych wskaż najważniejszy tytuł szachowy? Czy średnie wyniki w danych kategoriach różnią się znacząco?

---

####🏅 Zadanie 3: Top 5 Graczy z Najwyższym Rankingiem Blitz
- **Opis Zadania**: Znajdź pięciu najlepszych graczy w kategorii Blitz.

Skąd pochodzą Ci zawodnicy i jaki wynik osiągnął lider w tym rankingu?


In [None]:
top_5_rapid_players = df.sort_values(by='Rapid_rating', ascending=False).head(5)
print("\nTop 5 graczy z najwyższym rankingiem Rapid:")
print(top_5_rapid_players[['Name', 'Federation', 'Rapid_rating']])

🥇 Analiza Udziału Tytułów wśród Aktywnych Graczy

### 🎯 Cel zadania

Stworzymy wykres kołowy pokazujący procentowy udział poszczególnych tytułów wśród aktywnych graczy. W wersji rozszerzonej uwzględnimy także podział na płeć, aby wizualizacja była bardziej informatywna.

---------------------------------------

### 📝 Instrukcje

#### Podstawowa wersja ✅
1. **Przygotowanie danych**:
   - Oblicz liczbę graczy w każdej kategorii tytułów, korzystając z `value_counts()` na kolumnie `Title`.
2. **Tworzenie wykresu kołowego**:
   - Wykorzystaj `plotly.express.pie` do utworzenia wykresu:
     - Parametr `names` ustawia etykiety dla poszczególnych segmentów ( w tym przypadku nazwę tytułu).
     - Parametr `values` ustawia wartości segmentów ( w tym przypadku  liczbę zawodników w każdej kategorii).
   - W Plotly, gdy ustawisz `textinfo='percent+label` w fig.update_traces, procenty są automatycznie obliczane przez bibliotekę

#### 🔗 Linki pomocnicze
- https://plotly.com/python-api-reference/generated/plotly.express.pie
-https://www.geeksforgeeks.org/pie-plot-using-plotly-in-python/

#### Rozszerzona wersja z podziałem na płeć 🚀

1. **Przygotuj dane**: Pogrupuj dane według Title i Gender, a następnie przekształć wynik, aby uzyskać liczbę mężczyzn i kobiet w każdej kategorii tytułów. Użyj groupby(['Title', 'Gender']).size().unstack(fill_value=0), aby stworzyć tabelę, w której wiersze odpowiadają tytułom, a kolumny zawierają liczbę mężczyzn (M) i kobiet (F).

2. **Stwórz listę etykiet**: Korzystając z pętli, przejdź przez każdy tytuł w danych i dla każdego z nich pobierz liczbę mężczyzn i kobiet z tabeli `(  .loc[title, 'M'] i .loc[title, 'F']`). Następnie połącz te informacje w jednym napisie, np. `"GM (M: 10, F: 2)"`.

---------------------------------


In [None]:
import plotly.express as px

# 🎯 Analiza Proporcji Aktywnych Graczy według Płci

### 📄 Opis
Celem tego zadania jest przeanalizowanie proporcji aktywnych graczy według płci oraz ich wizualizacja przy pomocy wykresu kołowego. Wykorzystamy bibliotekę Matplotlib do stworzenia wykresu, który pokazuje udział mężczyzn i kobiet w zbiorze aktywnych zawodników.

---

### 📝 Kroki do wykonania:

#### 1. Filtracja aktywnych graczy 🕵️‍♀️
   - Wyodrębnij jedynie aktywnych graczy, czyli tych, dla których kolumna `Inactive_flag` ma wartość `NaN`.
   - To oznacza, że gracz jest aktywny i zostanie uwzględniony w analizie.

#### 2. Obliczenie liczby aktywnych mężczyzn i kobiet 👩‍🔬👨‍🔬
   - Użyj metody `value_counts()` na kolumnie `Gender` w przefiltrowanym zbiorze danych, aby policzyć, ilu aktywnych graczy jest wśród mężczyzn i kobiet.

#### 3. Przeliczenie liczby na tysiące oraz wyliczenie procentów 📊
   - Oblicz procentowy udział każdej płci, aby zobaczyć proporcje mężczyzn i kobiet w zbiorze aktywnych graczy.
   - Dla lepszej czytelności przelicz liczby na tysiące i przygotuj je do wyświetlenia na wykresie.

#### 4. Tworzenie legendy 🏷️
   - Przygotuj etykiety z liczbą graczy oraz ich procentowym udziałem.
   - Użyj f-stringów, aby sformatować tekst etykiet w formacie: `"Kobiety: 120.5k (16.3%)"`.

#### 5. Tworzenie wykresu kołowego 🥧
   - Użyj `plt.pie()` z Matplotlib, aby stworzyć wykres kołowy pokazujący proporcje mężczyzn i kobiet.
   - Ustaw parametr `autopct='%1.1f%%'`, aby na wykresie były widoczne wartości procentowe dla każdej płci.

---


📌 Podpowiedzi:

- Zliczanie liczby mężczyzn i kobiet: Użyj value_counts() na kolumnie Gender, aby uzyskać liczby mężczyzn i kobiet. Na przykład: gender_counts_active = active_players['Gender'].value_counts().

- Przeliczenie liczby na tysiące: Podziel każdą wartość przez 1000 i zaokrąglij wynik do jednego miejsca po przecinku, aby wartości były wyświetlane jako tysiące. Przykład: (gender_counts_active / 1000).round(1).

- Etykiety dla legendy: Użyj f-stringów do formatowania tekstu, np. f"Mężczyźni: {liczba}k ({procent}%)", aby stworzyć informacyjne etykiety z liczbą i procentem graczy każdej płci.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


####🌍 Analiza Liczby Aktywnych Graczy w Poszczególnych Federacjach na Mapie Świata
------------------------------------------
#### 🎯 Cel zadania
# 🌍 Analiza Aktywnych Szachistów w Różnych Federacjach za pomocą Interaktywnej Mapy

### 🎯 Cel zadania
Celem tego zadania jest wizualizacja liczby aktywnych szachistów na całym świecie w różnych federacjach, przedstawiona za pomocą interaktywnej mapy.

---

### 🔧 Instrukcje
#### Krok 1: Przygotowanie danych
1. **Filtracja aktywnych graczy**: Uwzględniamy tylko aktywnych zawodników. W kolumnie `Inactive_flag` wartość `NaN` oznacza gracza aktywnego.
2. **Agregacja danych**: Korzystamy z `value_counts()` na kolumnie `Federation`, aby uzyskać liczbę aktywnych zawodników dla każdej federacji.

#### Krok 2: Tworzenie mapy
Używamy funkcji `plotly.express.choropleth`, aby stworzyć interaktywną mapę świata, gdzie kolor każdego kraju reprezentuje liczbę aktywnych graczy.

### Parametry dla `px.choropleth`
- **`locations`** 🌐 – kolumna zawierająca kody krajów w formacie ISO Alpha-3, np. "POL" dla Polski. W naszym przypadku będzie to kolumna `"Federation"`.
- **`color`** 🎨 – kolumna z wartościami liczbowymi, które będą reprezentowane kolorem na mapie, czyli `"Active_Players"`.
- **`hover_name`** 🖱️ – kolumna, która wyświetla nazwę federacji po najechaniu kursorem na kraj, również `"Federation"`.


### 🔗 Dodatkowe linki
https://plotly.com/python/choropleth-maps/

https://plotly.github.io/plotly.py-docs/generated/plotly.express.choropleth.html

Przykład wizualizacji przedstawiający liczbę graczy z tytułem GM wsródza pomocą biblioteki Plotly

In [4]:
import plotly.express as px
import pandas as pd

# Przykładowy tytuł (GM, IM, FM)
title_filter = 'GM'

title_players = df[df['Title'] == title_filter]

title_counts = title_players['Federation'].value_counts().reset_index()
title_counts.columns = ['Federation', 'Title_Count']

fig = px.choropleth(
    title_counts,
    locations='Federation',
    color='Title_Count',
    hover_name='Federation',
    color_continuous_scale='YlOrRd',
    title=f"Liczba zawodników z tytułem {title_filter} w każdej federacji"
)

fig.show()

In [None]:
#Twoja kolej

import plotly.express as px
import pandas as pd

# 📊 Analiza Rankingów Rapid dla Aktywnych Graczy według Tytułu i Płci

### 🎯 Cel Zadania
Celem tej analizy jest zbadanie, jak rankingi Rapid różnią się między graczami o różnych tytułach oraz płci, wśród aktywnych zawodników. Chcemy zobaczyć, czy poziom gry (określony przez ranking Rapid) koreluje z tytułem zawodnika oraz czy występują różnice pomiędzy rankingami mężczyzn i kobiet na poszczególnych poziomach.

---

### 🔧 Instrukcje

#### Krok 1: Przygotowanie danych 📈
1. **Filtracja aktywnych graczy**:
   - Uwzględniamy tylko aktywnych graczy, dla których `Inactive_flag` jest puste (`NaN`), aby skoncentrować się na zawodnikach obecnie uczestniczących w rozgrywkach.
   
2. **Selekcja kolumn**:
   - Dane powinny zawierać kolumny `Title` (tytuł gracza), `Gender` (płeć) oraz `Rapid_Rating` (ranking Rapid). Usuwamy wartości `NaN` z kolumny `Rapid_Rating`, aby uniknąć błędów przy wizualizacji.

#### Krok 2: Tworzenie Wykresu Pudełkowego
 **Wizualizacja zależności między tytułem, płcią a rankingiem**:
   - Korzystamy z `seaborn.boxplot`, aby stworzyć wykres pudełkowy, pokazujący rozkład rankingów Rapid według tytułów i płci.
   - Parametr `hue='Gender'` pozwala rozróżnić rankingi mężczyzn i kobiet w ramach każdego tytułu, co umożliwia wizualne porównanie.

In [None]:

import seaborn as sns
import matplotlib.pyplot as plt

active_players = df[df['Inactive_flag'].isna()]

### 📊 Wykres Słupkowy Liczby Aktywnych Graczy w Top 10 Federacjach Szachowych 🌍🏆

### 🎯 Cel Zadania
Celem tej analizy jest stworzenie wykresu słupkowego 📊 przedstawiającego liczbę aktywnych graczy 🧑‍💻👩‍💻 w 10 federacjach szachowych z największą liczbą aktywnych zawodników. Wykres pomoże zidentyfikować federacje z najliczniejszymi reprezentacjami wśród aktywnych graczy, co jest istotne dla analizy rozkładu popularności szachów na świecie 🌎.

---

### 🔧 Instrukcje

#### ✅ Krok 1: Filtracja aktywnych graczy 🔍
1. **Filtracja**: Uwzględniamy tylko aktywnych graczy, dla których kolumna `Inactive_flag` jest pusta (`NaN`), aby skupić się na zawodnikach obecnie aktywnych w federacjach.

#### 📈 Krok 2: Zliczanie aktywnych graczy na federację 🧮
1. **Grupowanie**: Zliczamy liczbę aktywnych graczy w każdej federacji, korzystając z metody `value_counts()`, aby każda federacja miała przypisaną liczbę swoich aktywnych zawodników.

#### 🔝 Krok 3: Wybór Top 10 federacji
1. **Sortowanie i wybór**: Sortujemy federacje według liczby aktywnych graczy i wybieramy top 10 federacji z największą liczbą zawodników, korzystając z `sort_values` oraz `head()`.

#### 📊 Krok 4: Tworzenie wykresu słupkowego
1. **Wizualizacja**: Używamy biblioteki `seaborn` do stworzenia wykresu słupkowego, który pokazuje liczbę aktywnych graczy w wybranych federacjach. Dodajemy rotację etykiet osi X (np. 45 stopni) oraz ustawiamy tytuł wykresu i opisy osi.

---

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

active_players_by_federation = df[df['Inactive_flag'].isna()].groupby('Federation').size().reset_index(name='Active_Players')

### Zaawansowane elementy do tworzenia interaktywnych wizualizacji przy pomocy plotly

 🎉 Interaktywna Wizualizacja Top 3 Graczy w 4 Największych Federacjach Szachowych 🎉

### 🎯 Cel Zadania
Celem tego zadania jest stworzenie interaktywnego wykresu słupkowego przedstawiającego trzech najlepszych graczy w rankingu w czterech federacjach szachowych z największą liczbą aktywnych zawodników.

---

### 🔧 Instrukcje

#### 📌 Krok 1: Filtracja aktywnych graczy i wybór top 4 federacji
1. **Filtracja aktywnych graczy**: Wybierz tylko graczy, dla których wartość w kolumnie `Inactive_flag` jest `NaN`, oznaczającą aktywnych zawodników.
2. **Zliczanie graczy w każdej federacji**: Użyj `value_counts()` na kolumnie `Federation` dla uzyskania liczby aktywnych graczy w każdej federacji.
3. **Wybór top 4 federacji**: Posortuj federacje według liczby aktywnych graczy i wybierz cztery federacje z największą liczbą zawodników.

#### 📌 Krok 2: Wybór top 3 graczy w każdej federacji
1. **Znalezienie najlepszych graczy**: Dla każdej z wybranych federacji znajdź trzech graczy z najwyższym rankingiem (`Standard_Rating`) za pomocą `nlargest`.
2. **Konsolidacja danych**: Dodaj wyniki do listy, a następnie użyj `pd.concat` do połączenia wszystkich wyników w jeden DataFrame.

#### 📊 Krok 3: Utworzenie wykresu słupkowego
1. **Wizualizacja w Plotly**: Użyj `plotly.express` i funkcji `px.bar()` do stworzenia poziomego wykresu słupkowego.
2. **Konfiguracja `hover_data`**: Dodaj dane, aby po najechaniu kursorem wyświetlać szczegóły gracza, takie jak imię, nazwisko i wynik.

---

In [None]:
import pandas as pd
import plotly.express as px

active_players = df[df['Inactive_flag'].isna()]
active_players_by_federation = active_players.groupby('Federation').size().reset_index(name='Active_Players')

# 🎯 Analiza Top 20 Zawodników według Rankingu Standardowego i Rapidowego

### 📄 Opis zadania
Celem tego zadania jest przeanalizowanie 20 najlepszych aktywnych szachistów w dwóch kategoriach rankingowych: standardowym i rapidowym. Przeanalizujemy, jak wiek zawodników wpływa na ich wyniki oraz zobaczymy, jak rozkładają się zawodnicy z różnych federacji w obu rankingach.

---

### 📝 Kroki do wykonania

#### Krok 1: Obliczenie wieku zawodników 🧮
   - Używamy kolumny `Year_of_birth`, aby obliczyć wiek zawodników, odejmując rok urodzenia od bieżącego roku (2024).
   - Wartości `NaN` w `Year_of_birth` są wypełniane przez `0`, aby uniknąć błędów przy przekształcaniu do typu całkowitego.

#### Krok 2: Filtracja aktywnych graczy 🔍
   - Wybieramy tylko aktywnych zawodników (ci, którzy mają `NaN` w kolumnie `Inactive_flag`), aby skoncentrować się na obecnie uczestniczących w rozgrywkach.

#### Krok 3: Wybór Top 20 zawodników w każdym rankingu 🏆
   - Korzystając z kolumny `Standard_Rating`, wybieramy 20 zawodników z najwyższymi wynikami dla rankingu standardowego.
   - Następnie z kolumny `Rapid_rating` wybieramy 20 najlepszych zawodników dla rankingu rapidowego.
   - Dodajemy kolumnę `Ranking_Type`, aby odróżnić typ rankingu w wizualizacji.

#### Krok 4: Tworzenie wykresu punktowego w Seaborn 📊
   - Korzystamy z `seaborn.scatterplot`, aby stworzyć wykres punktowy dla obu rankingów:
     - **Osie**: Oś X przedstawia wiek zawodników, a oś Y – wartość rankingu.
     - **Kolory**: Zawodnicy są rozróżnieni według federacji, co ułatwia identyfikację ich przynależności.
   - Wykresy są umieszczone obok siebie (dla rankingu standardowego i rapidowego), co umożliwia łatwe porównanie obu kategorii.

---

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df['Year_of_birth'] = df['Year_of_birth'].fillna(0).astype(int)
df['Age'] = 2024 - df['Year_of_birth']

active_players = df[df['Inactive_flag'].isna()]