In [None]:
import pandas as pd
import matplotlib.pyplot as plt

def calculate_null_percentage_by_category(csv_file, category_column):
    # Wczytaj dane z pliku CSV
    df = pd.read_csv(csv_file)

    # Inicjalizacja słownika do przechowywania wyników
    null_percentage_dict = {}

    # Iteracja po kolumnach
    for column in df.columns:
        if column != category_column:
            # Filtracja danych dla kategorii 0 i 1
            df_0 = df[df[category_column] == 0]
            df_1 = df[df[category_column] == 1]

            # Liczenie procenta nulli w kolumnie dla kategorii 0
            percent_nulls_for_0 = df_0[column].isnull().mean() * 100

            # Liczenie procenta nulli w kolumnie dla kategorii 1
            percent_nulls_for_1 = df_1[column].isnull().mean() * 100

            # Dodanie wyników do słownika
            null_percentage_dict[column] = {'percent_nulls_for_0': percent_nulls_for_0, 'percent_nulls_for_1': percent_nulls_for_1}

    return null_percentage_dict

def plot_null_percentage_by_category(null_percentage_dict):
    # Listy do przechowywania danych do wykresu
    columns = []
    percent_nulls_for_0 = []
    percent_nulls_for_1 = []

    # Wypełnienie list danymi
    for column, counts in null_percentage_dict.items():
        columns.append(column)
        percent_nulls_for_0.append(counts['percent_nulls_for_0'])
        percent_nulls_for_1.append(counts['percent_nulls_for_1'])

    # Ustawienia wykresu
    bar_width = 0.35
    index = range(len(columns))

    # Tworzenie wykresu
    plt.figure(figsize=(12, 6))

    # Wykres słupkowy dla percent_nulls_for_0
    plt.bar(index, percent_nulls_for_0, bar_width, label='Percent Nulls for 0', color='blue')

    # Wykres słupkowy dla percent_nulls_for_1 (obok poprzedniego)
    plt.bar([i + bar_width for i in index], percent_nulls_for_1, bar_width, label='Percent Nulls for 1', color='green')

    # Dodanie etykiet i tytułu
    plt.xlabel('Kolumny')
    plt.ylabel('Procent wartości null (%)')
    plt.title('Procent wartości null dla każdej kolumny w zależności od wartości w kolumnie kategorii')

    # Ustawienia osi X
    plt.xticks([i + bar_width / 2 for i in index], columns, rotation=45, ha='right', fontsize=10)

    # Dodanie legendy
    plt.legend()

    # Dopasowanie układu
    plt.tight_layout()

    # Wyświetlenie wykresu
    plt.show()

# Przykład użycia funkcji
csv_file = 'twoj_plik.csv'  # Zamień na nazwę swojego pliku CSV
category_column = 'wybrana_kolumna'  # Zamień na nazwę kolumny, której wartości są 0 lub 1

# Obliczenie procentu wartości null i podział na kategorie
null_percentages = calculate_null_percentage_by_category(csv_file, category_column)

# Wyświetlenie wyników na wykresie
plot_null_percentage_by_category(null_percentages)


In [None]:
import pandas as pd

def count_unique_values_by_category(csv_file, category_column):
    # Wczytaj dane z pliku CSV
    df = pd.read_csv(csv_file)

    # Inicjalizacja słownika do przechowywania wyników
    unique_counts_dict = {}

    # Iteracja po kolumnach
    for column in df.columns:
        if column != category_column:
            # Liczenie unikatowych wartości w kolumnie dla kategorii 0
            unique_for_0 = df[df[category_column] == 0][column].nunique()
            # Liczenie unikatowych wartości w kolumnie dla kategorii 1
            unique_for_1 = df[df[category_column] == 1][column].nunique()

            # Dodanie wyników do słownika
            unique_counts_dict[column] = {'unique_for_0': unique_for_0, 'unique_for_1': unique_for_1}

    return unique_counts_dict

# Przykład użycia funkcji
csv_file = 'twoj_plik.csv'  # Zamień na nazwę swojego pliku CSV
category_column = 'wybrana_kolumna'  # Zamień na nazwę kolumny, której wartości są 0 lub 1

# Obliczenie liczby unikatowych wartości i podział na kategorie
unique_counts = count_unique_values_by_category(csv_file, category_column)
print(unique_counts)


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

def calculate_unique_percentage_by_category(csv_file, category_column):
    # Wczytaj dane z pliku CSV
    df = pd.read_csv(csv_file)

    # Inicjalizacja słownika do przechowywania wyników
    unique_percentage_dict = {}

    # Iteracja po kolumnach
    for column in df.columns:
        if column != category_column:
            # Filtracja danych dla kategorii 0 i 1
            df_0 = df[df[category_column] == 0]
            df_1 = df[df[category_column] == 1]

            # Liczenie procenta unikatowych wartości w kolumnie dla kategorii 0
            percent_unique_for_0 = df_0[column].nunique() / len(df_0) * 100

            # Liczenie procenta unikatowych wartości w kolumnie dla kategorii 1
            percent_unique_for_1 = df_1[column].nunique() / len(df_1) * 100

            # Dodanie wyników do słownika
            unique_percentage_dict[column] = {'percent_unique_for_0': percent_unique_for_0, 'percent_unique_for_1': percent_unique_for_1}

    return unique_percentage_dict

def plot_unique_percentage_by_category(unique_percentage_dict):
    # Listy do przechowywania danych do wykresu
    columns = []
    percent_unique_for_0 = []
    percent_unique_for_1 = []

    # Wypełnienie list danymi
    for column, counts in unique_percentage_dict.items():
        columns.append(column)
        percent_unique_for_0.append(counts['percent_unique_for_0'])
        percent_unique_for_1.append(counts['percent_unique_for_1'])

    # Ustawienia wykresu
    bar_width = 0.35
    index = range(len(columns))

    # Tworzenie wykresu
    plt.figure(figsize=(12, 6))

    # Wykres słupkowy dla percent_unique_for_0
    plt.bar(index, percent_unique_for_0, bar_width, label='Percent Unique for 0', color='blue')

    # Wykres słupkowy dla percent_unique_for_1 (obok poprzedniego)
    plt.bar([i + bar_width for i in index], percent_unique_for_1, bar_width, label='Percent Unique for 1', color='green')

    # Dodanie etykiet i tytułu
    plt.xlabel('Kolumny')
    plt.ylabel('Procent unikatowych wartości (%)')
    plt.title('Procent unikatowych wartości dla każdej kolumny w zależności od wartości w kolumnie kategorii')

    # Ustawienia osi X
    plt.xticks([i + bar_width / 2 for i in index], columns, rotation=45, ha='right', fontsize=10)

    # Dodanie legendy
    plt.legend()

    # Dopasowanie układu
    plt.tight_layout()

    # Wyświetlenie wykresu
    plt.show()

# Przykład użycia funkcji
csv_file = 'twoj_plik.csv'  # Zamień na nazwę swojego pliku CSV
category_column = 'wybrana_kolumna'  # Zamień na nazwę kolumny, której wartości są 0 lub 1

# Obliczenie procentu unikatowych wartości i podział na kategorie
unique_percentages = calculate_unique_percentage_by_category(csv_file, category_column)

# Wyświetlenie wyników na wykresie
plot_unique_percentage_by_category(unique_percentages)
