# Base Sequence Quality - Jupyter Notebook Demo
This notebook demonstrates how to use the `cacl_base_seq_quality` function for computing base sequence quality on FASTQ-like datasets.

Group: 7  
Operation: Base sequence quality  

## Test data preparation
We define example input data in different formats (Polars DataFrame and Pandas DataFrame) to validate our function.

In [None]:
# Przykładowe dane jakości (Polars DataFrame)
df_polars = pl.DataFrame({
    "quality_scores": ["!!!", ">>>", "###"]
})

In [None]:
# Przykład działania na Polars DataFrame
result_polars = cacl_base_seq_quality(df_polars)
print("Wynik dla Polars DF:")
print(result_polars)

In [None]:
# Przykładowe dane jakości (Pandas DataFrame)
df_pandas = pd.DataFrame({
    "quality_scores": ["!!!", ">>>", "###"]
})

In [None]:
# Przykład działania na Pandas DataFrame
result_pandas = cacl_base_seq_quality(df_pandas, output_type="pandas.DataFrame")
print("Wynik dla Pandas DF:")
print(result_pandas)

## Reading from a FASTQ file
This section demonstrates how to run the function on a FASTQ file using `read_fastq` compatibility.


In [None]:
# Przykład działania na pliku FASTQ (Zakomentowane bo nie wiem czy ten plik jest i jeżeli jest to gdzie jest)
# file_path = "tu sciezka do tego pliku FASTQ"
# result_fastq = cacl_base_seq_quality(file_path)
# print("Wynik dla pliku FASTQ:")
# print(result_fastq)

## Visualization of base sequence quality
Here we plot the results to better understand the distribution of quality scores per base.

### Error handling
Also we verify that the function handles incorrect inputs gracefully by raising appropriate errors.


In [None]:
# Wizualizacja jakości bazy (symulowana)
# Zakładam, że wynik zawiera kolumny: 'position', 'mean_quality', 'min_quality', 'max_quality'

# Jeżeli będą też inne kolummy to trzeba dostosować nazwy w poniższym
try:
    df_vis = result_polars.to_pandas() if hasattr(result_polars, "to_pandas") else result_pandas

    plt.figure(figsize=(10, 6))
    plt.plot(df_vis['position'], df_vis['mean_quality'], label='Średnia jakość', marker='o')
    plt.fill_between(df_vis['position'], df_vis['min_quality'], df_vis['max_quality'], alpha=0.3, label='Zakres jakości (min-max)')
    plt.title("Base Sequence Quality")
    plt.xlabel("Pozycja bazy")
    plt.ylabel("Jakość")
    plt.legend()
    plt.grid(True)
    plt.show()
except Exception as e:
    print("Nie udało się wygenerować wykresu. Sprawdź format danych.")
    print("Błąd:", e)

## Execution and timing
We execute the quality computation function on different inputs and measure the execution time.


In [None]:
# Pomiar czasu działania
import time

start = time.time()
_ = cacl_base_seq_quality(df_polars)
end = time.time()
print(f"Czas wykonania funkcji (Polars): {end - start:.4f} s")