In [20]:
import torch
import csv
import pandas as pd
from collections import Counter

In [21]:
train_dataset_path = "train_dataset.csv"
data = pd.read_csv(train_dataset_path)
# print(data.head(3))

In [22]:
if 'awgn_sign_codeword_0' not in data.columns or 'codeword' not in data.columns:
    raise ValueError("Kolumny 'awgn_sign_codeword_0' lub 'codeword' nie zostały znalezione w danych.")

# Inicjalizacja listy do przechowywania liczby błędów oraz licznika dla rozkładu liczby błędów
error_counts = []
error_distribution = Counter()
max_errors = 0

# Przetwarzanie wszystkich wierszy w pliku
for index, row in data.iterrows():
    # Odczytaj wektor z kolumny 'awgn_sign_codeword_0'
    awgn_vector = row['awgn_sign_codeword_0']
    
    # Konwersja ciągu znaków na listę wartości liczbowych
    if isinstance(awgn_vector, str):
        awgn_vector = list(map(float, awgn_vector.strip('[]').split(',')))

    # Przekształć wektor według podanych reguł
    transformed_vector = [0 if elem >= 0 else 1 for elem in awgn_vector]
    
    # Odczytaj oryginalny wektor z kolumny 'codeword'
    original_vector = row['codeword']
    if isinstance(original_vector, str):
        original_vector = list(map(float, original_vector.strip('[]').split(',')))

    # Policz błędy
    error_count = sum(1 for t, o in zip(transformed_vector, original_vector) if t != o)
    error_counts.append(error_count)

    # Zaktualizuj maksymalną liczbę błędów
    max_errors = max(max_errors, error_count)

    # Zaktualizuj licznik liczby błędów
    error_distribution[error_count] += 1

# Dodaj wyniki do DataFrame dla całego pliku
data['error_counts'] = error_counts

print(f'PLIK: ')
# Wyświetl maksymalną liczbę błędów w całym pliku
print(f"Maksymalna liczba błędów w pliku: {max_errors}")

# Wyświetl rozkład liczby błędów w całym pliku
print("\nRozkład liczby błędów w pliku:")
for error_count, occurrences in sorted(error_distribution.items()):
    print(f"Liczba błędów = {error_count}: wystąpiło {occurrences} razy")

PLIK: 
Maksymalna liczba błędów w pliku: 7

Rozkład liczby błędów w pliku:
Liczba błędów = 0: wystąpiło 29187 razy
Liczba błędów = 1: wystąpiło 37806 razy
Liczba błędów = 2: wystąpiło 22307 razy
Liczba błędów = 3: wystąpiło 8241 razy
Liczba błędów = 4: wystąpiło 2081 razy
Liczba błędów = 5: wystąpiło 408 razy
Liczba błędów = 6: wystąpiło 58 razy
Liczba błędów = 7: wystąpiło 8 razy


In [23]:
test_dataset_path = "test_dataset.csv"
data = pd.read_csv(test_dataset_path)
# print(data.head(3))

In [24]:
if 'awgn_sign_codeword_0-7' not in data.columns or 'codeword' not in data.columns:
    raise ValueError("Kolumny 'awgn_sign_codeword_0-7' lub 'codeword' nie zostały znalezione w danych.")

# Inicjalizacja listy do przechowywania liczby błędów oraz licznika dla rozkładu liczby błędów
error_counts = []
error_distribution = Counter()
max_errors = 0

# Przetwarzanie wszystkich wierszy w pliku
for index, row in data.iterrows():
    # Odczytaj wektor z kolumny 'awgn_sign_codeword_0'
    awgn_vector = row['awgn_sign_codeword_0-7']
    
    # Konwersja ciągu znaków na listę wartości liczbowych
    if isinstance(awgn_vector, str):
        awgn_vector = list(map(float, awgn_vector.strip('[]').split(',')))

    # Przekształć wektor według podanych reguł
    transformed_vector = [0 if elem >= 0 else 1 for elem in awgn_vector]
    
    # Odczytaj oryginalny wektor z kolumny 'codeword'
    original_vector = row['codeword']
    if isinstance(original_vector, str):
        original_vector = list(map(float, original_vector.strip('[]').split(',')))

    # Policz błędy
    error_count = sum(1 for t, o in zip(transformed_vector, original_vector) if t != o)
    error_counts.append(error_count)

    # Zaktualizuj maksymalną liczbę błędów
    max_errors = max(max_errors, error_count)

    # Zaktualizuj licznik liczby błędów
    error_distribution[error_count] += 1

# Dodaj wyniki do DataFrame dla całego pliku
data['error_counts'] = error_counts

print(f'PLIK: ')
# Wyświetl maksymalną liczbę błędów w całym pliku
print(f"Maksymalna liczba błędów w pliku: {max_errors}")

# Wyświetl rozkład liczby błędów w całym pliku
print("\nRozkład liczby błędów w pliku:")
for error_count, occurrences in sorted(error_distribution.items()):
    print(f"Liczba błędów = {error_count}: wystąpiło {occurrences} razy")

PLIK: 
Maksymalna liczba błędów w pliku: 7

Rozkład liczby błędów w pliku:
Liczba błędów = 0: wystąpiło 709720 razy
Liczba błędów = 1: wystąpiło 201981 razy
Liczba błędów = 2: wystąpiło 66249 razy
Liczba błędów = 3: wystąpiło 17920 razy
Liczba błędów = 4: wystąpiło 3809 razy
Liczba błędów = 5: wystąpiło 671 razy
Liczba błędów = 6: wystąpiło 86 razy
Liczba błędów = 7: wystąpiło 12 razy
