---

### Opis Zbiorów Danych

Oto Wasz materiał dowodowy – zestaw plików `.csv`, z których każdy opisuje świat z innej perspektywy:

*   `world_data.csv`: Zawiera ogólne informacje o krajach, takie jak region, zalesienie i wiele innych.
*   `happiness_index.csv`: Znajdziecie tu wskaźnik "oceny życia" (*life evaluation*), a także czynniki, które mogą na niego wpływać.
*   `health_index.csv`: Zbiór zawiera wskaźnik wydatków na zdrowie w poszczególnych krajach.
*   `quality_of_life_index.csv`: To szeroki zbiór, który patrzy na jakość życia przez pryzmat bezpieczeństwa, kosztów życia, siły nabywczej pieniądza czy zanieczyszczenia.
*   `economy_index.csv`: Tutaj znajdziecie szczegółowe wskaźniki gospodarcze, takie jak inflacja, bezrobocie, inwestycje czy dług publiczny.
*   `costs_of_living_index.csv` & `property_price_index.csv`: Dwa zbiory skupione na **kosztach**. Dowiecie się z nich, ile kosztuje życie, a także jak kształtują się ceny nieruchomości.
*   `pollution_index.csv` & `traffic_index.csv`: Zbiory opisujące **ciemne strony życia w miastach**, zanieczyszczenie środowiska oraz natężenie ruchu drogowego.

Aby dostać się do danych musisz wejść do folderu `/data/` na Google Drive a następnie pobrać interesujące Cię zbiory danych. Następnie zlokalizować je na swoim komputerze `/Pobrane/`, zaznaczyć i przesunąć na ekran Google Colab.

---

### Link do zbiorów danych:

- Costs of living: https://www.numbeo.com/cost-of-living/rankings_by_country.jsp
- Property Prices: https://www.numbeo.com/property-investment/rankings_by_country.jsp
- Quality of Life: https://www.numbeo.com/quality-of-life/rankings_by_country.jsp
- Crime Index: https://www.numbeo.com/crime/rankings_by_country.jsp
- Healthcare Index: https://www.numbeo.com/health-care/rankings_by_country.jsp
- Pollution Index: https://www.numbeo.com/pollution/rankings_by_country.jsp
- Traffic Index: https://www.numbeo.com/traffic/rankings_by_country.jsp
- World Happiness Index: https://data.worldhappiness.report/table
- World Health Statistics (whs): https://www.who.int/data/gho/publications/world-health-statistics


### Źródła do poszczególnych zbiorów:

- Costs of living: https://www.numbeo.com/cost-of-living/rankings_by_country.jsp
- Property Prices: https://www.numbeo.com/property-investment/rankings_by_country.jsp
- Quality of Life: https://www.numbeo.com/quality-of-life/rankings_by_country.jsp
- Crime Index: https://www.numbeo.com/crime/rankings_by_country.jsp
- Healthcare Index: https://www.numbeo.com/health-care/rankings_by_country.jsp
- Pollution Index: https://www.numbeo.com/pollution/rankings_by_country.jsp
- Traffic Index: https://www.numbeo.com/traffic/rankings_by_country.jsp
- World Happiness Index: https://data.worldhappiness.report/table
- World Health Statistics (whs): https://www.who.int/data/gho/publications/world-health-statistics

UWAGA: Warto zerknąć do źródeł aby znaleźć więcej informacji na temat poszczególnych danych i ich znaczenia

---

## Wasza Misja: Krok po Kroku

Waszym celem jest wybranie jednego zagadnienia i opowiedzenie jego historii za pomocą danych i wizualizacji.

#### **1. Wybierzcie Zagadnienie**

Zastanówcie się, co Was najbardziej intryguje. Oto kilka propozycji, ale śmiało możecie wymyślić własne pytanie:
*   **Zadowolenie z życia:** Co sprawia, że ludzie w danym kraju są szczęśliwi? Czy to bogactwo, poczucie wolności, a może wsparcie społeczne?
*   **Zdrowie:** Od czego zależy jakość opieki zdrowotnej i długość życia człowieka? Czy kraje, które więcej wydają na zdrowie, faktycznie mają lepsze wskaźniki?
*   **Przestępczość i bezpieczeństwo:** Czy bogactwo kraju przekłada się na bezpieczeństwo jego obywateli? Jak koszty życia wpływają na poczucie bezpieczeństwa?
*   **Emocje:** W których krajach ludzie doświadczają najwięcej pozytywnych (a w których negatywnych) emocji? Czy da się to powiązać z danymi ekonomicznymi lub społecznymi?

#### **2. Dobierzcie Narzędzia (Zbiory Danych)**

Wybierzcie pliki, które wydają Wam się najbardziej odpowiednie do zbadania Waszego tematu.
*   *Przykład:* Jeśli badacie szczęście, Waszym głównym zbiorem będzie `happiness_index.csv`, ale warto połączyć go z `world_data.csv` (PKB, alfabetyzm) czy `quality_of_life_index.csv` (bezpieczeństwo, koszty życia).

#### **3. Poznajcie Swoje Dane**

Zanim zaczniecie, zajrzyjcie do pliku `data_sources.txt`. Znajdziecie tam linki do źródeł oraz opisy poszczególnych zmiennych. To pomoże Wam zrozumieć, co dokładnie oznaczają poszczególne kolumny.

#### **4. Znajdźcie Pierwsze Tropy (Korelacje)**

Najlepszym sposobem na rozpoczęcie poszukiwań jest stworzenie **mapy korelacji** (`wykres_korelacji` lub `tabela_korelacji`). To narzędzie pokaże Wam na pierwszy rzut oka, które zmienne wydają się być ze sobą silnie powiązane. Szukajcie "gorących" (czerwonych) i "zimnych" (niebieskich) pól – to Wasze pierwsze tropy!

#### **5. Potwierdźcie Swoje Hipotezy (Wizualizacje)**

Gdy już znajdziecie ciekawe zależności, użyjcie reszty naszych narzędzi, aby je zwizualizować i potwierdzić Wasze hipotezy.
*   Zależność między dwiema zmiennymi liczbowymi? Idealny będzie `wykres_punktowy`.
*   Chcecie zobaczyć, jak coś zmieniało się w czasie? Użyjcie `wykresu_liniowego`.
*   A może chcecie pokazać trzy rzeczy na raz? Spróbujcie `wykresu_babelkowego`.

Pamiętajcie, dane to nie tylko liczby – to historie, które czekają na odkrycie.

**Powodzenia!**

In [1]:
#@title Pobierz paczki

import pandas as pd
import numpy as np
import re  # Moduł do wyrażeń regularnych (używany w standaryzacji nazw)

# --- Biblioteki do wizualizacji danych ---
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import MaxNLocator  # Do kontroli osi w wykresach

# --- Biblioteki do zaawansowanych statystyk ---
# Scipy jest potrzebne do zaawansowanego korelogramu dla danych mieszanych
import scipy.stats as stats
# Ptypes jest używane do sprawdzania typów danych w pandas (np. czy kolumna jest numeryczna)
import pandas.api.types as ptypes

# --- Typowanie dla czytelniejszego i bezpieczniejszego kodu (dobra praktyka) ---
from typing import List, Union, Literal, Dict, Optional, Any

# --- Ustawienia dla notatnika Jupyter (opcjonalne, ale zalecane) ---

# Ta "magiczna" komenda sprawia, że wykresy wyświetlają się bezpośrednio w notatniku
%matplotlib inline

# Ustawienie domyślnego, estetycznego stylu dla wszystkich wykresów Seaborn
sns.set_theme(style="whitegrid")

In [2]:
#@title Funkcje

def _standaryzuj_nazwe_kolumny(nazwa: str) -> str:
    """Wewnętrzna funkcja pomocnicza do czyszczenia nazwy pojedynczej kolumny."""
    nazwa = nazwa.lower().strip()
    nazwa = nazwa.strip('_')
    return nazwa

def wczytaj_dane(sciezka: str) -> pd.DataFrame:
    """
    Wczytuje dane z pliku CSV, standaryzuje nazwy kolumn i usuwa kolumnę 'rank'.

    Standaryzacja obejmuje zamianę na małe litery, usunięcie białych znaków
    oraz zastąpienie spacji i znaków specjalnych podkreśleniami. Następnie,
    jeśli istnieje kolumna 'rank', zostaje ona usunięta.

    Args:
        sciezka (str): Ścieżka do pliku CSV.

    Returns:
        pd.DataFrame: Ramka danych z wczytanymi i przetworzonymi danymi.
    """
    print(f"Wczytywanie danych z pliku: {sciezka}...")
    try:
        df = pd.read_csv(sciezka)
        print("Dane wczytane. Rozpoczynam standaryzację nazw kolumn.")

        # 1. Standaryzacja nazw kolumn (kluczowe, aby 'Rank' stał się 'rank')
        df.columns = [_standaryzuj_nazwe_kolumny(col) for col in df.columns]
        print("Standaryzacja nazw kolumn zakończona.")

        # 2. Bezpieczne usunięcie kolumny 'rank'
        if 'rank' in df.columns:
            print("Znaleziono kolumnę 'rank'. Usuwanie...")
            df = df.drop(columns=['rank'])
            print("Kolumna 'rank' została usunięta.")
        else:
            print("Informacja: Kolumna 'rank' nie została znaleziona w pliku.")

        # 3. Zwrócenie zmodyfikowanej ramki danych
        if "year" in df.columns:
          df["year"] = df["year"].astype(np.int64)
        return df

    except FileNotFoundError:
        print(f"BŁĄD: Plik o ścieżce '{sciezka}' nie został znaleziony.")
        return pd.DataFrame()
    except Exception as e:
        print(f"Wystąpił nieoczekiwany błąd podczas wczytywania pliku: {e}")
        return pd.DataFrame()


def polacz_dane(
    dane1: pd.DataFrame,
    dane2: pd.DataFrame,
    klucz: Union[str, List[str]],
    jak: Literal["inner", "left", "right", "outer"] = "inner"
) -> pd.DataFrame:
    """
    Łączy dwie ramki danych, inteligentnie obsługując różnice w wielkości liter
    w nazwach kolumn oraz różnice w typach danych w kolumnach-kluczach.
    Dodatkowo, standaryzuje typy danych w połączonej ramce.
    """
    df1 = dane1.copy()
    df2 = dane2.copy()

    df1.columns = [col.lower().strip() for col in df1.columns]
    df2.columns = [col.lower().strip() for col in df2.columns]

    if isinstance(klucz, str):
        standardized_keys = [klucz.lower().strip()]
    else:
        standardized_keys = [k.lower().strip() for k in klucz]

    for key in standardized_keys:
        if key not in df1.columns:
            raise ValueError(f"Klucz '{key}' nie został znaleziony w kolumnach pierwszej ramki danych.")
        if key not in df2.columns:
            raise ValueError(f"Klucz '{key}' nie został znaleziony w kolumnach drugiej ramki danych.")

    # --- NOWA SEKCJA: 4.5. Ujednolicenie typów danych w kluczach ---
    print("Sprawdzanie i ujednolicanie typów danych w kolumnach-kluczach...")
    for key in standardized_keys:
        t1 = df1[key].dtype
        t2 = df2[key].dtype

        if t1 != t2:
            print(f"  - Wykryto różnicę typów dla klucza '{key}': {t1} vs {t2}. Próbuję ujednolicić.")

            # Próba konwersji obu kolumn na typ numeryczny, jeśli to możliwe
            # Jest to najczęstszy przypadek (np. int64 vs object)
            try:
                df1[key] = pd.to_numeric(df1[key], errors='raise')
                df2[key] = pd.to_numeric(df2[key], errors='raise')
                print(f"    - Sukces: Obie kolumny '{key}' przekonwertowano na typ numeryczny.")
            except (ValueError, TypeError):
                # Jeśli konwersja na liczbę się nie powiedzie, konwertujemy obie na string
                print(f"    - Ostrzeżenie: Nie można przekonwertować na typ numeryczny. Konwertuję obie kolumny '{key}' na typ string.")
                df1[key] = df1[key].astype(str)
                df2[key] = df2[key].astype(str)

    # 5. Wykonanie połączenia
    print("Wykonywanie operacji łączenia...")
    merged_df = pd.merge(df1, df2, on=standardized_keys, how=jak)
    print("Połączenie zakończone pomyślnie.")

    # 6. Standaryzacja typów danych w połączonej ramce
    string_cols = ['country', 'region']

    for col in merged_df.columns:
        if col in string_cols:
            merged_df[col] = merged_df[col].astype(str)
        else:
            # Sprawdzamy, czy kolumna nie jest już kluczem, który przekonwertowaliśmy na string
            # Jeśli jest kluczem i jest stringiem, nie próbujemy jej ponownie konwertować na liczbę
            if col in standardized_keys and merged_df[col].dtype == 'object':
                continue
            merged_df[col] = pd.to_numeric(merged_df[col], errors='coerce')

    return merged_df



def skategoryzuj_kolumne_numeryczna(
    dane: pd.DataFrame,
    nazwa_kolumny: str,
    grupy_niestandardowe: Optional[Dict[str, str]] = None,
    co_ile: Optional[int] = None
) -> pd.DataFrame:
    """
    Kategoryzuje kolumnę numeryczną. Jeśli kolumna jest już nienumeryczna,
    informuje o tym i zwraca dane bez zmian.

    Działa w jednym z dwóch trybów:
    1. Jeśli podano `grupy_niestandardowe`: kategoryzuje wg słownika przedziałów.
    2. Jeśli podano `co_ile`: automatycznie tworzy przedziały o stałej szerokości.

    Args:
        dane (pd.DataFrame): Ramka danych do modyfikacji.
        nazwa_kolumny (str): Nazwa kolumny numerycznej do skategoryzowania.
        grupy_niestandardowe (Dict, optional): Słownik niestandardowych grup.
        co_ile (int, optional): Wartość kroku do automatycznego tworzenia grup.

    Returns:
        pd.DataFrame: Nowa ramka danych ze skategoryzowaną kolumną.

    Raises:
        ValueError: Jeśli wystąpią błędy w argumentach wejściowych.
    """
    # --- 1. Walidacja argumentów i sprawdzenie typu kolumny ---
    if nazwa_kolumny not in dane.columns:
        raise ValueError(f"Kolumna '{nazwa_kolumny}' nie istnieje w ramce danych!")

    # NOWOŚĆ: Sprawdzenie, czy kolumna jest już kategoryczna (tzn. nienumeryczna)
    if not ptypes.is_numeric_dtype(dane[nazwa_kolumny]):
        print(f"Informacja: Kolumna '{nazwa_kolumny}' jest już typu nienumerycznego ({dane[nazwa_kolumny].dtype}). Prawdopodobnie została już skategoryzowana.")
        print("Zwracam oryginalną ramkę danych bez zmian.")
        return dane.copy() # Zwracamy kopię, aby zachować spójność

    if grupy_niestandardowe and co_ile:
        raise ValueError("Podaj 'grupy_niestandardowe' ALBO 'co_ile', nie oba naraz.")

    if not grupy_niestandardowe and not co_ile:
        raise ValueError("Musisz podać jedną z opcji kategoryzacji: 'grupy_niestandardowe' lub 'co_ile'.")

    df_roboczy = dane.copy()

    # Mimo sprawdzenia, ta linia jest nadal użyteczna do obsługi np. kolumn mieszanych
    oryginalne_wartosci = pd.to_numeric(df_roboczy[nazwa_kolumny], errors='coerce')
    etykiety = oryginalne_wartosci.astype(str)

    # --- 2. Wybór i wykonanie trybu kategoryzacji ---
    if grupy_niestandardowe:
        print(f"Tryb: Niestandardowe grupy dla kolumny '{nazwa_kolumny}'.")
        for start_str, end_str in grupy_niestandardowe.items():
            try:
                start = int(start_str)
                end = int(end_str)
            except (ValueError, TypeError):
                raise ValueError(f"Słownik grup może zawierać tylko wartości numeryczne. Błąd w parze: {start_str}:{end_str}")

            etykieta = f"{start}-{end}"
            warunek = (oryginalne_wartosci >= start) & (oryginalne_wartosci <= end)
            etykiety.loc[warunek] = etykieta

    elif co_ile:
        print(f"Tryb: Automatyczne grupy co {co_ile} dla kolumny '{nazwa_kolumny}'.")
        wartosci_bez_nan = oryginalne_wartosci.dropna()
        start_przedzialu = (wartosci_bez_nan // co_ile) * co_ile
        koniec_przedzialu = start_przedzialu + co_ile - 1
        nowe_etykiety = start_przedzialu.astype(int).astype(str) + '-' + koniec_przedzialu.astype(int).astype(str)
        etykiety.loc[wartosci_bez_nan.index] = nowe_etykiety

    # --- 3. Zastąpienie kolumny i zwrot wyniku ---
    df_roboczy[nazwa_kolumny] = etykiety
    print("Kategoryzacja zakończona.")
    return df_roboczy


def filtruj_dane(
    dane: pd.DataFrame,
    filtry: Dict[str, List[Any]]
) -> pd.DataFrame:
    """
    Filtruje ramkę danych na podstawie dynamicznie zdefiniowanych warunków.

    Funkcja stosuje wszystkie warunki podane w słowniku `filtry`
    za pomocą operatora logicznego AND (wszystkie muszą być spełnione).

    Args:
        dane (pd.DataFrame): Ramka danych do przefiltrowania.
        filtry (Dict[str, List[Any]]): Słownik, w którym kluczem jest nazwa
            kolumny, a wartością jest dwuelementowa lista: [operator, wartość].

            Obsługiwane operatory:
            - '=', '==' (równy)
            - '!=' (nierówny)
            - '>' (większy niż)
            - '<' (mniejszy niż)
            - '>=' (większy lub równy)
            - '<=' (mniejszy lub równy)
            - 'in' (zawarty w liście)
            - 'not in' (niezawarty w liście)

    Returns:
        pd.DataFrame: Nowa, przefiltrowana ramka danych.

    Raises:
        ValueError: Jeśli nazwa kolumny nie istnieje, format warunku jest
                    niepoprawny lub operator jest nieznany.
    """
    # Zaczynamy od kopii, aby nie modyfikować oryginalnych danych
    df_roboczy = dane.copy()

    print(f"Rozpoczynam filtrowanie. Początkowa liczba wierszy: {len(df_roboczy)}")

    # Pętla przez wszystkie warunki zdefiniowane w słowniku
    for kolumna, warunek in filtry.items():
        # --- Walidacja danych wejściowych ---
        if kolumna not in df_roboczy.columns:
            raise ValueError(f"Kolumna '{kolumna}' nie istnieje w ramce danych!")

        if not isinstance(warunek, list) or len(warunek) != 2:
            raise ValueError(f"Format warunku dla kolumny '{kolumna}' jest niepoprawny. Oczekiwano [operator, wartość].")

        operator, wartosc = warunek
        # --- Zastosowanie odpowiedniego filtra ---
        print(f"  - Stosowanie filtra: '{kolumna}' {operator} {wartosc}")

        if operator in ['=', '==']:
            df_roboczy = df_roboczy[df_roboczy[kolumna] == wartosc]
        elif operator == '!=':
            df_roboczy = df_roboczy[df_roboczy[kolumna] != wartosc]
        elif operator == '>':
            df_roboczy = df_roboczy[df_roboczy[kolumna] > wartosc]
        elif operator == '>=':
            df_roboczy = df_roboczy[df_roboczy[kolumna] >= wartosc]
        elif operator == '<':
            df_roboczy = df_roboczy[df_roboczy[kolumna] < wartosc]
        elif operator == '<=':
            df_roboczy = df_roboczy[df_roboczy[kolumna] <= wartosc]
        elif operator.lower() == 'in':
            if not isinstance(wartosc, (list, tuple, set)):
                raise ValueError(f"Dla operatora 'in' wartość musi być listą lub krotką. Otrzymano {type(wartosc)}.")
            df_roboczy = df_roboczy[df_roboczy[kolumna].isin(wartosc)]
        elif operator.lower() == 'not in':
            if not isinstance(wartosc, (list, tuple, set)):
                raise ValueError(f"Dla operatora 'not in' wartość musi być listą lub krotką. Otrzymano {type(wartosc)}.")
            df_roboczy = df_roboczy[~df_roboczy[kolumna].isin(wartosc)]
        else:
            raise ValueError(f"Nieznany operator '{operator}' dla kolumny '{kolumna}'.")

    print(f"Filtrowanie zakończone. Końcowa liczba wierszy: {len(df_roboczy)}")
    return df_roboczy

def usun_outliery(
    dane: pd.DataFrame,
    kolumny: Optional[List[str]] = None,
    wspolczynnik_iqr: float = 1.5
) -> pd.DataFrame:
    """
    Identyfikuje i usuwa wiersze zawierające wartości odstające (outliery)
    z wybranych kolumn numerycznych za pomocą metody IQR.

    Metoda IQR definiuje outlier jako każdą wartość, która leży poniżej
    Q1 - 1.5 * IQR lub powyżej Q3 + 1.5 * IQR.

    Args:
        dane (pd.DataFrame): Ramka danych do przetworzenia.
        kolumny (List[str], optional): Lista nazw kolumn do sprawdzenia.
            Jeśli None, funkcja automatycznie sprawdzi wszystkie kolumny numeryczne.
            Domyślnie None.
        wspolczynnik_iqr (float, optional): Mnożnik dla zakresu IQR, określający
            wrażliwość na outliery. Standardowo 1.5. Wartość 3.0 wykryje
            tylko bardziej "ekstremalne" outliery. Domyślnie 1.5.

    Returns:
        pd.DataFrame: Nowa ramka danych bez wierszy zawierających outliery.
    """
    df_roboczy = dane.copy()

    # Jeśli użytkownik nie podał kolumn, wybierz wszystkie numeryczne
    if kolumny is None:
        kolumny = df_roboczy.select_dtypes(include=np.number).columns.tolist()
        print(f"Nie podano konkretnych kolumn. Analizuję wszystkie kolumny numeryczne: {kolumny}")

    # Zbiór indeksów wierszy, które zostaną usunięte
    indeksy_do_usuniecia = set()

    print("\n--- Rozpoczynam wykrywanie outlierów ---")

    for kolumna in kolumny:
        # Sprawdzenie, czy kolumna na pewno jest numeryczna
        if not pd.api.types.is_numeric_dtype(df_roboczy[kolumna]):
            print(f"  - Ostrzeżenie: Kolumna '{kolumna}' nie jest numeryczna. Pomijam.")
            continue

        # Obliczenie kwantyli i IQR
        Q1 = df_roboczy[kolumna].quantile(0.25)
        Q3 = df_roboczy[kolumna].quantile(0.75)
        IQR = Q3 - Q1

        # Definicja granic
        dolna_granica = Q1 - (wspolczynnik_iqr * IQR)
        gorna_granica = Q3 + (wspolczynnik_iqr * IQR)

        # Identyfikacja outlierów
        outliery = df_roboczy[(df_roboczy[kolumna] < dolna_granica) | (df_roboczy[kolumna] > gorna_granica)]

        if not outliery.empty:
            print(f"  - W kolumnie '{kolumna}' znaleziono {len(outliery)} outlierów (poniżej {dolna_granica:.2f} lub powyżej {gorna_granica:.2f}).")
            indeksy_do_usuniecia.update(outliery.index)
        else:
            print(f"  - W kolumnie '{kolumna}' nie znaleziono outlierów.")

    # --- Usunięcie zidentyfikowanych wierszy ---
    if indeksy_do_usuniecia:
        liczba_do_usuniecia = len(indeksy_do_usuniecia)
        print(f"\n--- Podsumowanie ---")
        print(f"Znaleziono outliery w {liczba_do_usuniecia} unikalnych wierszach.")

        df_czyste = df_roboczy.drop(index=list(indeksy_do_usuniecia))

        print(f"Oryginalna liczba wierszy: {len(dane)}")
        print(f"Usunięto {liczba_do_usuniecia} wierszy.")
        print(f"Końcowa liczba wierszy: {len(df_czyste)}")
        return df_czyste
    else:
        print("\n--- Podsumowanie ---")
        print("Nie znaleziono żadnych outlierów do usunięcia. Zwracam oryginalną ramkę danych.")
        return df_roboczy


def usun_nan(dane: pd.DataFrame, kolumna: str):
  df_roboczy = dane.copy()
  fltr = df_roboczy[kolumna].notna()
  df_roboczy = df_roboczy[fltr]
  return df_roboczy

def wykres_liniowy(
    dane: pd.DataFrame,
    kolumna_1: str,
    kolumna_2: str,
    grupa: Optional[str] = None,
    rozmiar: tuple = (16, 9),
    paleta: str = "viridis",
    tytul: Optional[str] = None,
    ile_tickow_x: Optional[int] = None, # NOWOŚĆ: Kontrola osi X
    ile_tickow_y: Optional[int] = None, # NOWOŚĆ: Kontrola osi Y
    tylko_calkowite_x: bool = False     # NOWOŚĆ: Wymuszenie liczb całkowitych na osi X
):
    """
    Tworzy estetyczny wykres liniowy z zaawansowaną kontrolą nad gęstością osi.
    """
    sns.set_theme(style="whitegrid")
    fig, ax = plt.subplots(figsize=rozmiar)
    fig.set_facecolor("white")
    ax.set_facecolor((0.95, 0.95, 0.97))

    if grupa:
        sns.lineplot(data=dane, x=kolumna_1, y=kolumna_2, hue=grupa, style=grupa,
                     markers=True, dashes=False, palette=paleta, linewidth=2.5,
                     legend=False, ax=ax)
    else:
        sns.lineplot(data=dane, x=kolumna_1, y=kolumna_2, markers=True,
                     linewidth=2.5, color=sns.color_palette(paleta, 1)[0], ax=ax)

    label_x = kolumna_1.replace('_', ' ').capitalize()
    label_y = kolumna_2.replace('_', ' ').capitalize()

    if tytul is None:
        tytul = f"Zależność '{label_y}' od '{label_x}'"
        if grupa: tytul += f" w podziale na '{grupa.replace('_', ' ').capitalize()}'"

    ax.set_title(tytul, fontsize=20, weight='bold', pad=20)
    ax.set_xlabel(label_x, fontsize=14, weight='semibold')
    ax.set_ylabel(label_y, fontsize=14, weight='semibold')
    ax.tick_params(axis='y', labelsize=12)
    ax.tick_params(axis='x', labelsize=12, rotation=45)
    plt.setp(ax.get_xticklabels(), ha="right")

    if grupa:
        for kategoria in dane[grupa].unique():
            subset = dane[dane[grupa] == kategoria].sort_values(by=kolumna_1)
            if not subset.empty:
                last_point = subset.iloc[-1]
                ax.text(x=last_point[kolumna_1], y=last_point[kolumna_2],
                        s=f'  {kategoria}', fontsize=12, weight='medium',
                        verticalalignment='center')
        ax.set_xlim(dane[kolumna_1].min(), dane[kolumna_1].max() * 1.05)

    # --- KONTROLA OSI ---
    if ile_tickow_x:
        ax.xaxis.set_major_locator(MaxNLocator(nbins=ile_tickow_x, integer=tylko_calkowite_x))
    if ile_tickow_y:
        ax.yaxis.set_major_locator(MaxNLocator(nbins=ile_tickow_y))

    sns.despine(ax=ax)
    fig.tight_layout()
    plt.show()


def wykres_punktowy(
    dane: pd.DataFrame,
    kolumna_1: str,
    kolumna_2: str,
    grupa: Optional[str] = None,
    rozmiar_punktow_wg: Optional[str] = None,
    pokaz_trend: bool = False,
    rozmiar: tuple = (16, 9),
    paleta: str = "rainbow",
    tytul: Optional[str] = None,
    ile_tickow_x: Optional[int] = None,
    ile_tickow_y: Optional[int] = None
):
    """
    Tworzy estetyczny wykres punktowy z inteligentnym układem i czystą legendą.
    """
    sns.set_theme(style="whitegrid")
    fig, ax = plt.subplots(figsize=rozmiar, constrained_layout=True)
    fig.set_facecolor("white")
    ax.set_facecolor((0.95, 0.95, 0.97))

    sns.scatterplot(
        data=dane,
        x=kolumna_1,
        y=kolumna_2,
        hue=grupa,
        # style=grupa, <-- USUNIĘTA LINIA
        size=rozmiar_punktow_wg,
        sizes=(50, 400) if rozmiar_punktow_wg else None,
        palette=paleta,
        alpha=0.8,
        legend="auto",
        ax=ax
    )

    if pokaz_trend:
        sns.regplot(data=dane, x=kolumna_1, y=kolumna_2, scatter=False, ax=ax,
                    color='darkgray', line_kws={'linestyle':'--'})

    label_x = kolumna_1.replace('_', ' ').capitalize()
    label_y = kolumna_2.replace('_', ' ').capitalize()

    if tytul is None:
        tytul = f"Zależność między '{label_y}' a '{label_x}'"
        if grupa: tytul += f" w podziale na '{grupa.replace('_', ' ').capitalize()}'"

    ax.set_title(tytul, fontsize=20, weight='bold', pad=20)
    ax.set_xlabel(label_x, fontsize=14, weight='semibold')
    ax.set_ylabel(label_y, fontsize=14, weight='semibold')
    ax.tick_params(axis='both', labelsize=12)

    if grupa or rozmiar_punktow_wg:
        leg = ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)

    if ile_tickow_x:
        ax.xaxis.set_major_locator(MaxNLocator(nbins=ile_tickow_x))
    if ile_tickow_y:
        ax.yaxis.set_major_locator(MaxNLocator(nbins=ile_tickow_y))

    sns.despine(ax=ax)
    plt.show()


def wykres_babelkowy(
    dane: pd.DataFrame,
    kolumna_x: str,
    kolumna_y: str,
    kolumna_rozmiar: str,
    grupa: Optional[str] = None,
    rozmiar: tuple = (16, 10),
    max_rozmiar_babelka: int = 1500,
    paleta: str = "viridis",
    tytul: Optional[str] = None,
    ile_tickow_x: Optional[int] = None,
    ile_tickow_y: Optional[int] = None
):
    """
    Tworzy estetyczny i informacyjny wykres bąbelkowy (bubble chart).

    Wizualizuje zależność między dwiema zmiennymi (osie X i Y), gdzie rozmiar
    bąbelka reprezentuje trzecią zmienną numeryczną. Opcjonalnie, kolor
    bąbelka może reprezentować czwartą zmienną kategoryczną.

    Args:
        dane (pd.DataFrame): Ramka danych do wizualizacji.
        kolumna_x (str): Nazwa kolumny numerycznej na oś X.
        kolumna_y (str): Nazwa kolumny numerycznej na oś Y.
        kolumna_rozmiar (str): Nazwa kolumny numerycznej sterującej rozmiarem bąbelków.
        grupa (str, optional): Nazwa kolumny kategorycznej do kolorowania bąbelków.
        rozmiar (tuple, optional): Rozmiar wykresu w calach.
        max_rozmiar_babelka (int, optional): Maksymalny rozmiar bąbelka na wykresie.
        paleta (str, optional): Nazwa palety kolorów Seaborn.
        tytul (str, optional): Niestandardowy tytuł wykresu.
        ile_tickow_x (int, optional): Sugerowana liczba znaczników na osi X.
        ile_tickow_y (int, optional): Sugerowana liczba znaczników na osi Y.
    """
    # --- 1. Ustawienia estetyczne i stworzenie figury ---
    sns.set_theme(style="whitegrid")
    fig, ax = plt.subplots(figsize=rozmiar, constrained_layout=True)
    fig.set_facecolor("white")
    ax.set_facecolor((0.95, 0.95, 0.97))

    # --- 2. Stworzenie głównego wykresu ---
    sns.scatterplot(
        data=dane,
        x=kolumna_x,
        y=kolumna_y,
        size=kolumna_rozmiar, # Kluczowy parametr dla wykresu bąbelkowego
        hue=grupa,
        palette=paleta,
        sizes=(20, max_rozmiar_babelka), # Zakres rozmiarów bąbelków
        alpha=0.7, # Przezroczystość, aby bąbelki na siebie nie nachodziły
        legend="auto",
        ax=ax
    )

    # --- 3. Dodanie informacyjnych etykiet i tytułu ---
    label_x = kolumna_x.replace('_', ' ').capitalize()
    label_y = kolumna_y.replace('_', ' ').capitalize()
    label_rozmiar = kolumna_rozmiar.replace('_', ' ').capitalize()

    if tytul is None:
        tytul = f"Zależność '{label_y}' od '{label_x}', rozmiar bąbelka wg '{label_rozmiar}'"
        if grupa:
            tytul += f" w podziale na '{grupa.replace('_', ' ').capitalize()}'"

    ax.set_title(tytul, fontsize=20, weight='bold', pad=20)
    ax.set_xlabel(label_x, fontsize=14, weight='semibold')
    ax.set_ylabel(label_y, fontsize=14, weight='semibold')
    ax.tick_params(axis='both', labelsize=12)

    # --- 4. Poprawki legendy ---
    # Przesuwamy legendę na zewnątrz, aby nie zasłaniała danych
    if grupa or kolumna_rozmiar:
        plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)

    # --- 5. Kontrola osi ---
    if ile_tickow_x:
        ax.xaxis.set_major_locator(MaxNLocator(nbins=ile_tickow_x))
    if ile_tickow_y:
        ax.yaxis.set_major_locator(MaxNLocator(nbins=ile_tickow_y))

    # --- 6. Finalne poprawki i wyświetlenie ---
    sns.despine(ax=ax)
    plt.show()



def wykres_korelacji(
    dane: pd.DataFrame,
    rozmiar: tuple = (12, 10),
    paleta: str = "coolwarm",
    tytul: Optional[str] = None
):
    """
    Tworzy i wyświetla estetyczny korelogram (heatmap) dla zmiennych numerycznych.

    Funkcja automatycznie wybiera kolumny numeryczne, oblicza macierz korelacji
    metodą Pearsona i wizualizuje ją jako mapę ciepła. Górna połowa macierzy
    jest zamaskowana dla lepszej czytelności.

    Args:
        dane (pd.DataFrame): Ramka danych do analizy.
        rozmiar (tuple, optional): Rozmiar wykresu w calach.
        paleta (str, optional): Nazwa rozbieżnej palety kolorów. Domyślnie 'coolwarm'.
        tytul (str, optional): Niestandardowy tytuł wykresu.
    """
    # --- 1. Wybór tylko kolumn numerycznych ---
    df_numeryczne = dane.select_dtypes(include=np.number)

    if df_numeryczne.shape[1] < 2:
        print("Informacja: W ramce danych znaleziono mniej niż dwie kolumny numeryczne. Nie można utworzyć korelogramu.")
        return

    # --- 2. Obliczenie macierzy korelacji ---
    macierz_korelacji = df_numeryczne.corr(method='pearson')

    # --- 3. Stworzenie maski do ukrycia górnej połowy wykresu ---
    # To kluczowy krok dla czytelności!
    maska = np.zeros_like(macierz_korelacji, dtype=bool)

    # --- 4. Ustawienia estetyczne i stworzenie figury ---
    sns.set_theme(style="white")
    fig, ax = plt.subplots(figsize=rozmiar, constrained_layout=True)
    fig.set_facecolor("white")

    # --- 5. Stworzenie głównego wykresu (heatmap) ---
    sns.heatmap(
        macierz_korelacji,
        mask=maska,
        cmap=paleta,
        annot=True,          # Wyświetl wartości w komórkach
        fmt=".2f",           # Formatuj wartości do dwóch miejsc po przecinku
        linewidths=.5,
        vmin=-1, vmax=1,     # Zakotwicz skalę kolorów od -1 do 1
        cbar_kws={"shrink": .8}, # Lekko zmniejsz pasek kolorów
        ax=ax
    )

    # --- 6. Dodanie tytułu i poprawki etykiet ---
    if tytul is None:
        tytul = "Korelogram zmiennych numerycznych (metoda Pearsona)"

    ax.set_title(tytul, fontsize=18, weight='bold', pad=20)
    plt.setp(ax.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor")

    # --- 7. Wyświetlenie wykresu ---
    plt.show()



def tabela_korelacji(
    dane: pd.DataFrame,
    kolumny: List[str],
    prog_korelacji: Optional[float] = None,
    rozmiar: tuple = (8, 12),
    paleta: str = "coolwarm",
    tytul: Optional[str] = None
):
    """
    Tworzy prostokątną tabelę korelacji z wierszami posortowanymi alfabetycznie.

    Args:
        dane (pd.DataFrame): Ramka danych do analizy.
        kolumny (List[str]): Lista nazw kolumn docelowych.
        prog_korelacji (float, optional): Próg wartości bezwzględnej korelacji
            do wyblankowania pól.
        rozmiar (tuple, optional): Rozmiar wykresu w calach.
        paleta (str, optional): Nazwa palety kolorów.
        tytul (str, optional): Niestandardowy tytuł wykresu.
    """
    if not isinstance(kolumny, list) or not kolumny:
        raise ValueError("Argument 'kolumny' musi być niepustą listą nazw kolumn.")

    df_numeryczne = dane.select_dtypes(include=np.number)

    kolumny_docelowe = []
    for kol in kolumny:
        if kol not in df_numeryczne.columns:
            print(f"Ostrzeżenie: Kolumna '{kol}' nie jest numeryczna lub nie istnieje. Zostanie pominięta.")
        else:
            kolumny_docelowe.append(kol)

    if not kolumny_docelowe:
        raise ValueError("Żadna z podanych kolumn nie jest prawidłową kolumną numeryczną w ramce danych.")

    print(f"Obliczanie korelacji wszystkich zmiennych z: {kolumny_docelowe}")
    macierz_korelacji_pelna = df_numeryczne.corr(method='pearson')
    tabela_do_wizualizacji = macierz_korelacji_pelna[kolumny_docelowe]

    # --- NOWA LINIA: Sortowanie wierszy (indeksu) alfabetycznie ---
    tabela_do_wizualizacji = tabela_do_wizualizacji.sort_index()

    if prog_korelacji is not None:
        print(f"Blankuję pola z korelacją o wartości bezwzględnej < {prog_korelacji}")
        tabela_z_nan = tabela_do_wizualizacji.copy()
        tabela_z_nan[np.abs(tabela_do_wizualizacji) < prog_korelacji] = np.nan
    else:
        tabela_z_nan = tabela_do_wizualizacji

    sns.set_theme(style="white")
    fig, ax = plt.subplots(figsize=rozmiar, constrained_layout=True)
    fig.set_facecolor("white")

    sns.heatmap(
        tabela_z_nan,
        cmap=paleta,
        annot=True,
        fmt=".2f",
        linewidths=.5,
        vmin=-1, vmax=1,
        cbar_kws={"shrink": .8, "label": "Współczynnik korelacji Pearsona"},
        ax=ax
    )

    if tytul is None:
        tytul = "Tabela korelacji ze zmiennymi docelowymi"
        if prog_korelacji:
            tytul += f"\n(pokazano korelacje >= |{prog_korelacji}|)"

    ax.set_title(tytul, fontsize=18, weight='bold', pad=20)
    plt.setp(ax.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor")
    plt.show()



def top10_wartosci(df, col_text, col_value, granica=10):
    """
    Zwraca DataFrame z n najwiekszymi wartosciami i wierszem 'Inne' z reszta.

    Argumenty:
    df        - pandas DataFrame
    col_text  - nazwa kolumny tekstowej (np. 'kraj')
    col_value - nazwa kolumny numerycznej (np. 'populacja')
    granica   - liczba naturalna, ile największych pozycji zachować

    Zwraca:
    pandas DataFrame z 2 kolumnami: [col_text, col_value]
    """
    # sumowanie po kategoriach (na wypadek duplikatów)
    grouped = df.groupby(col_text, as_index=False)[col_value].sum()

    # sortowanie malejąco
    sorted_df = grouped.sort_values(by=col_value, ascending=False)

    # top N
    top_n = sorted_df.head(granica)

    # suma pozostałych
    others_sum = sorted_df[col_value].iloc[granica:].sum()

    # wiersz z resztą
    if others_sum > 0:
        others_row = pd.DataFrame({col_text: ["Inne"], col_value: [others_sum]})
        result = pd.concat([top_n, others_row], ignore_index=True)
    else:
        result = top_n.reset_index(drop=True)

    return result


def wykres_kolowy(df, category_col, value_col, rozmiarx = 8, rozmiary = 10):
    """
    Tworzy wykres kołowy z dataframe.

    Argumenty:
    df          - pandas DataFrame
    category_col - nazwa kolumny tekstowej (np. 'kraj')
    value_col    - nazwa kolumny numerycznej (np. 'populacja')

    Zwraca:
    fig, ax - obiekt figury i osi matplotlib
    """
    # grupowanie na wypadek powtarzających się kategorii
    data = df.groupby(category_col)[value_col].sum()

    fig, ax = plt.subplots(figsize = (rozmiarx, rozmiary))
    ax.pie(data.values, labels=data.index, autopct='%1.1f%%', startangle=90)
    ax.set_title(f'Wykres kołowy: {category_col} vs {value_col}')
    plt.axis('equal')  # równe proporcje -> okrąg

    plt.show()

def wykres_histogram(df, col, bins=10, rozmiarx = 8, rozmiary = 10):
    """
    Rysuje histogram dla wybranej kolumny numerycznej.

    Argumenty:
    df   - pandas DataFrame
    col  - nazwa kolumny (np. 'wartosc')
    bins - liczba koszyków (domyślnie 10)

    Zwraca:
    fig, ax - obiekt figury i osi matplotlib
    """
    fig, ax = plt.subplots(figsize=(rozmiarx, rozmiary))
    ax.hist(df[col].dropna(), bins=bins, edgecolor='black', alpha=0.7)

    ax.set_title(f'Histogram kolumny: {col}')
    ax.set_xlabel(col)
    ax.set_ylabel('Liczność')

    plt.show()


def czyszczenie_procenty(df, col):
    """
    Zamienia przecinki na kropki w kolumnie tekstowej i konwertuje na float.

    Argumenty:
    df  - pandas DataFrame
    col - nazwa kolumny typu object (np. 'wartosc')

    Zwraca:
    pandas DataFrame z poprawioną kolumną
    """
    df[col] = df[col].astype(str).str.replace(',', '.', regex=False)
    df[col] = df[col].astype(float)
    return df

In [None]:
dane1 = wczytaj_dane()