## Books Dataset (Kaggle) — informacje o zbiorze

**Źródło:**
- Nazwa: Books Dataset
- Pobierz: [Kaggle: elvinrustam/books-dataset](https://www.kaggle.com/datasets/elvinrustam/books-dataset)
- Lokalizacja pliku: `Datasets/BooksDatasetClean.csv.zip`

**Opis:**
Zbiór zawiera informacje o książkach, m.in. tytuły, autorów, opisy, kategorie, wydawców, ceny, daty publikacji (miesiąc i rok) oraz inne metadane.

**Rozmiar:**
- ~103 000 rekordów

**Licencja:**
- Zbiór został udostępniony na licencji [CC0 — public domain dedication](https://creativecommons.org/publicdomain/zero/1.0/), co oznacza, że można go swobodnie kopiować, modyfikować i używać do dowolnych celów, także komercyjnych.

**Wybrane kolumny:**
- `Title` — tytuł książki
- `Authors` — autorzy
- `Description` — opis książki
- `Category` — gatunek/kategoria
- `Publisher` — wydawnictwo
- `Price Starting With ($)` — cena
- `Publish Date (Month)` — miesiąc publikacji
- `Publish Date (Year)` — rok publikacji

---

W tej sekcji rozpakujemy pobrany plik ZIP i wczytamy dane do DataFrame.


In [33]:
import zipfile
import pandas as pd
from pathlib import Path

# Ścieżka do pliku ZIP
zip_path = Path("../Datasets/BooksDataset/BooksDatasetClean.csv.zip")
csv_path = Path("../Datasets/BooksDataset/BooksDatasetClean.csv")

# Rozpakowywanie
if not csv_path.exists():
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall("../Datasets/BooksDataset/")
    print("Plik został rozpakowany do katalogu 'Datasets'.")

# Wczytanie CSV
books_kaggle_df = pd.read_csv(csv_path, low_memory=False)
print(f"Liczba rekordów: {books_kaggle_df.shape[0]}")
display(books_kaggle_df.head())


Liczba rekordów: 103063


Unnamed: 0,Title,Authors,Description,Category,Publisher,Price Starting With ($),Publish Date (Month),Publish Date (Year)
0,Goat Brothers,"By Colton, Larry",,"History , General",Doubleday,8.79,January,1993
1,The Missing Person,"By Grumbach, Doris",,"Fiction , General",Putnam Pub Group,4.99,March,1981
2,Don't Eat Your Heart Out Cookbook,"By Piscatella, Joseph C.",,"Cooking , Reference",Workman Pub Co,4.99,September,1983
3,When Your Corporate Umbrella Begins to Leak: A...,"By Davis, Paul D.",,,Natl Pr Books,4.99,April,1991
4,Amy Spangler's Breastfeeding : A Parent's Guide,"By Spangler, Amy",,,Amy Spangler,5.32,February,1997


## Przegląd kolumn i przykładowych rekordów

Poniżej wyświetlamy listę dostępnych kolumn oraz pierwsze rekordy z naszego zbioru danych. Wybierzemy te pola, które będą kluczowe do dalszej analizy, m.in. do wprowadzania błędów i uzupełniania braków.


In [34]:
# Wyświetlenie listy wszystkich kolumn
print("Dostępne kolumny w zbiorze Books Dataset:")
for col in books_kaggle_df.columns:
    print("-", col)

# Wyświetlenie przykładowych 5 rekordów (pierwszych i losowych)
display(books_kaggle_df.head())
display(books_kaggle_df.sample(5, random_state=1))


Dostępne kolumny w zbiorze Books Dataset:
- Title
- Authors
- Description
- Category
- Publisher
- Price Starting With ($)
- Publish Date (Month)
- Publish Date (Year)


Unnamed: 0,Title,Authors,Description,Category,Publisher,Price Starting With ($),Publish Date (Month),Publish Date (Year)
0,Goat Brothers,"By Colton, Larry",,"History , General",Doubleday,8.79,January,1993
1,The Missing Person,"By Grumbach, Doris",,"Fiction , General",Putnam Pub Group,4.99,March,1981
2,Don't Eat Your Heart Out Cookbook,"By Piscatella, Joseph C.",,"Cooking , Reference",Workman Pub Co,4.99,September,1983
3,When Your Corporate Umbrella Begins to Leak: A...,"By Davis, Paul D.",,,Natl Pr Books,4.99,April,1991
4,Amy Spangler's Breastfeeding : A Parent's Guide,"By Spangler, Amy",,,Amy Spangler,5.32,February,1997


Unnamed: 0,Title,Authors,Description,Category,Publisher,Price Starting With ($),Publish Date (Month),Publish Date (Year)
1217,American Judaism: Adventure in Modernity,"By Neusner, Jacob",,"Religion , General",Ktav Pub Inc,5.29,June,1978
100546,The National Parks,"By Tilden, Freeman",An illustrated survey of America's park system...,,Random House Inc,6.6,June,1970
89343,Thomas Jefferson: Essential Thomas Jefferson (...,"By Hunt, John Gabriel (EDT)",This collection of the important writings by o...,,Gramercy,5.29,May,1994
75790,"LIBERTY, EQUAILITY, POWER, VOL 2","By Murrin, John M. and McPherson, James M.",,"Political Science , General",Wadsworth Publishing,5.23,July,1998
9770,The Vanished Library: A Wonder of the Ancient ...,"By Canfora, Luciano and Ryle, Martin (TRN)","The Library of Alexandria, one of the wonders ...","Language Arts & Disciplines , Library & Infor...",University of California Press,4.99,September,1990


## Selekcja najważniejszych kolumn do dalszej analizy

Wybieramy tylko te kolumny, które są kluczowe do ćwiczeń z błędami i rekonstrukcją danych:
- **Title** — tytuł książki
- **Authors** — autor(zy)
- **Category** — gatunek/kategoria
- **Publisher** — wydawnictwo
- **Description** — krótki opis
- **Publish Date (Month)** — miesiąc publikacji
- **Publish Date (Year)** — rok publikacji



In [35]:
# Selekcja interesujących nas kolumn
selected_columns = [
    "Title",
    "Authors",
    "Category",
    "Publisher",
    "Description",
    "Publish Date (Month)",
    "Publish Date (Year)"
]

books_selected_df = books_kaggle_df[selected_columns].copy()

#ograniczamy do 20 tys. rekordów, by szybciej testować
books_selected_df = books_selected_df.head(20000)

print(f"Liczba rekordów po selekcji: {books_selected_df.shape[0]}")
display(books_selected_df.head())


Liczba rekordów po selekcji: 20000


Unnamed: 0,Title,Authors,Category,Publisher,Description,Publish Date (Month),Publish Date (Year)
0,Goat Brothers,"By Colton, Larry","History , General",Doubleday,,January,1993
1,The Missing Person,"By Grumbach, Doris","Fiction , General",Putnam Pub Group,,March,1981
2,Don't Eat Your Heart Out Cookbook,"By Piscatella, Joseph C.","Cooking , Reference",Workman Pub Co,,September,1983
3,When Your Corporate Umbrella Begins to Leak: A...,"By Davis, Paul D.",,Natl Pr Books,,April,1991
4,Amy Spangler's Breastfeeding : A Parent's Guide,"By Spangler, Amy",,Amy Spangler,,February,1997


## Zbiór danych: Goodbooks-10k

**Źródło:** [Goodbooks-10k GitHub](https://github.com/zygmuntz/goodbooks-10k)
**Licencja:** Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
**Plik:** books.csv
**Rozmiar pliku:** ok. 4.5 MB (10 000 rekordów)
**Ścieżka:** `../Datasets/Goodbooks10k/books.csv`

### Opis
Goodbooks-10k to otwarty zbiór danych obejmujący 10 000 najpopularniejszych książek z Goodreads. Dane pochodzą z serwisu społecznościowego Goodreads i zawierają podstawowe metadane książek, oceny użytkowników oraz identyfikatory.


---


### Pobieranie zbioru danych Goodbooks-10k

Pobranie pliku `books.csv` z GitHub, jeśli nie istnieje w folderze `../Datasets/Goodbooks10k/`.


In [36]:
import os
import requests

# Ścieżka docelowa
goodbooks_dir = "../Datasets/Goodbooks10k"
os.makedirs(goodbooks_dir, exist_ok=True)
goodbooks_file = os.path.join(goodbooks_dir, "books.csv")

# Link do raw z githuba
goodbooks_url = "https://raw.githubusercontent.com/zygmuntz/goodbooks-10k/master/books.csv"

if not os.path.isfile(goodbooks_file):
    print("Plik nie istnieje. Pobieram...")
    response = requests.get(goodbooks_url)
    with open(goodbooks_file, "wb") as f:
        f.write(response.content)
    print("Pobrano do:", goodbooks_file)
else:
    print("Plik już istnieje:", goodbooks_file)


Plik już istnieje: ../Datasets/Goodbooks10k\books.csv


In [37]:
import os

goodbooks_path = "../Datasets/Goodbooks10k/books.csv"
print("Rozmiar pliku: {:.2f} MB".format(os.path.getsize(goodbooks_path) / (1024*1024)))


Rozmiar pliku: 3.13 MB


In [38]:
import pandas as pd

goodbooks_df = pd.read_csv(goodbooks_path)
print("Liczba rekordów:", len(goodbooks_df))
print("Liczba kolumn:", len(goodbooks_df.columns))


Liczba rekordów: 10000
Liczba kolumn: 23


### Przegląd pełnego zbioru

Poniżej wyświetlamy:
- Listę wszystkich kolumn w oryginalnym DataFrame `goodbooks_df`
- Pierwsze 5 rekordów
- 5 losowych rekordów (ustawiamy `random_state=1` dla powtarzalności)


In [39]:
# Wyświetlenie listy wszystkich kolumn
print("Dostępne kolumny w zbiorze Goodbooks-10k:")
for col in goodbooks_df.columns:
    print("-", col)

# Wyświetlenie przykładowych 5 rekordów (pierwszych i losowych)
display(goodbooks_df.head())
display(goodbooks_df.sample(5, random_state=1))



Dostępne kolumny w zbiorze Goodbooks-10k:
- book_id
- goodreads_book_id
- best_book_id
- work_id
- books_count
- isbn
- isbn13
- authors
- original_publication_year
- original_title
- title
- language_code
- average_rating
- ratings_count
- work_ratings_count
- work_text_reviews_count
- ratings_1
- ratings_2
- ratings_3
- ratings_4
- ratings_5
- image_url
- small_image_url


Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,ratings_count,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url
0,1,2767052,2767052,2792775,272,439023483,9780439000000.0,Suzanne Collins,2008.0,The Hunger Games,...,4780653,4942365,155254,66715,127936,560092,1481305,2706317,https://images.gr-assets.com/books/1447303603m...,https://images.gr-assets.com/books/1447303603s...
1,2,3,3,4640799,491,439554934,9780440000000.0,"J.K. Rowling, Mary GrandPré",1997.0,Harry Potter and the Philosopher's Stone,...,4602479,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...
2,3,41865,41865,3212258,226,316015849,9780316000000.0,Stephenie Meyer,2005.0,Twilight,...,3866839,3916824,95009,456191,436802,793319,875073,1355439,https://images.gr-assets.com/books/1361039443m...,https://images.gr-assets.com/books/1361039443s...
3,4,2657,2657,3275794,487,61120081,9780061000000.0,Harper Lee,1960.0,To Kill a Mockingbird,...,3198671,3340896,72586,60427,117415,446835,1001952,1714267,https://images.gr-assets.com/books/1361975680m...,https://images.gr-assets.com/books/1361975680s...
4,5,4671,4671,245494,1356,743273567,9780743000000.0,F. Scott Fitzgerald,1925.0,The Great Gatsby,...,2683664,2773745,51992,86236,197621,606158,936012,947718,https://images.gr-assets.com/books/1490528560m...,https://images.gr-assets.com/books/1490528560s...


Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,ratings_count,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url
9953,9954,13129925,13129925,18306052,22,1594745269,9781595000000.0,"Grady Hendrix, Michael Rogalski",2014.0,Horrorstör,...,10313,12003,2529,261,1057,3944,4854,1887,https://images.gr-assets.com/books/1414314217m...,https://images.gr-assets.com/books/1414314217s...
3850,3851,33808,33808,2319,67,446679097,9780447000000.0,Nelson DeMille,2000.0,The Lion's Game,...,23780,26582,1080,215,682,4064,10942,10679,https://s.gr-assets.com/assets/nophoto/book/11...,https://s.gr-assets.com/assets/nophoto/book/50...
4962,4963,67931,67931,1663237,64,552150215,9780552000000.0,John Katzenbach,2002.0,The Analyst,...,11685,21018,1406,265,918,3552,7581,8702,https://images.gr-assets.com/books/1280112638m...,https://images.gr-assets.com/books/1280112638s...
3886,3887,107770,107770,734169,54,671744216,9780672000000.0,Julie Garwood,1992.0,The Secret,...,32089,34703,1182,304,888,5180,11518,16813,https://images.gr-assets.com/books/1312123398m...,https://images.gr-assets.com/books/1312123398s...
5437,5438,225545,225545,460938,28,375836977,9780376000000.0,Leo Lionni,1975.0,A Color of His Own,...,17617,17884,350,166,546,3034,5077,9061,https://s.gr-assets.com/assets/nophoto/book/11...,https://s.gr-assets.com/assets/nophoto/book/50...


### Przegląd wybranych kolumn

Teraz skupiamy się na wyselekcjonowanych kolumnach DataFrame `goodbooks_selected`:
- **title** (tytuł)
- **author** (autor/autorzy)
- **year** (rok pierwszego wydania)
- **isbn** (numer ISBN)

Wyświetlamy:
- Listę kolumn w `goodbooks_selected`
- Pierwsze 5 rekordów
- 5 losowych rekordów (tj. podzbiór ukazujący rozkład danych)


In [40]:
goodbooks_selected = goodbooks_df[
    ['title', 'authors', 'original_publication_year', 'isbn']
].copy()

goodbooks_selected.columns = ['title', 'author', 'year', 'isbn']


In [41]:
# Wyświetlenie listy kolumn w wybranym podzbiorze
print("Kolumny w DataFrame goodbooks_selected:")
for col in goodbooks_selected.columns:
    print("-", col)

# Wyświetlenie przykładowych 5 rekordów (pierwszych i losowych) z goodbooks_selected
display(goodbooks_selected.head())
display(goodbooks_selected.sample(5, random_state=1))


Kolumny w DataFrame goodbooks_selected:
- title
- author
- year
- isbn


Unnamed: 0,title,author,year,isbn
0,"The Hunger Games (The Hunger Games, #1)",Suzanne Collins,2008.0,439023483
1,Harry Potter and the Sorcerer's Stone (Harry P...,"J.K. Rowling, Mary GrandPré",1997.0,439554934
2,"Twilight (Twilight, #1)",Stephenie Meyer,2005.0,316015849
3,To Kill a Mockingbird,Harper Lee,1960.0,61120081
4,The Great Gatsby,F. Scott Fitzgerald,1925.0,743273567


Unnamed: 0,title,author,year,isbn
9953,Horrorstör,"Grady Hendrix, Michael Rogalski",2014.0,1594745269
3850,"The Lion's Game (John Corey, #2)",Nelson DeMille,2000.0,446679097
4962,The Analyst,John Katzenbach,2002.0,552150215
3886,The Secret (Highlands' Lairds #1),Julie Garwood,1992.0,671744216
5437,A Color of His Own,Leo Lionni,1975.0,375836977


## Goodreads Dataset

- **Źródło:** [OpenBigData – Goodreads Datasets](https://openbigdata.org/resource/goodreads-datasets/)
- **Licencja:** Brak formalnej licencji (tylko do celów naukowych)
- **Plik:** goodreads_books.csv
- **Ścieżka:** `../Datasets/Goodreads/goodreads_books.csv`


In [42]:
import os, requests
import pandas as pd

# Ścieżki i URL
GITHUB_RAW = "https://raw.githubusercontent.com/MengtingWan/goodreads/master/"
REPO_DIR = "../Datasets/Goodreads_GitHub"
os.makedirs(REPO_DIR, exist_ok=True)

names_csv = os.path.join(REPO_DIR, "dataset_names.csv")
if not os.path.isfile(names_csv):
    print("Pobieram dataset_names.csv...")
    r = requests.get(GITHUB_RAW + "dataset_names.csv")
    r.raise_for_status()
    with open(names_csv, "wb") as f:
        f.write(r.content)

# Wczytanie i podgląd
file_names = pd.read_csv(names_csv)
display(file_names.head())


Unnamed: 0,type,name
0,complete,goodreads_book_works.json.gz
1,complete,goodreads_book_authors.json.gz
2,complete,goodreads_book_series.json.gz
3,complete,goodreads_books.json.gz
4,complete,goodreads_book_genres_initial.json.gz


In [43]:
# Budowa URLi według typu (complete vs byGenre)
base_url      = "https://mcauleylab.ucsd.edu/public_datasets/gdrive/goodreads/"
base_bygenre  = base_url + "byGenre/"
file_name_url = {}

for name, ftype in zip(file_names['name'], file_names['type']):
    if ftype == "complete":
        file_name_url[name] = base_url + name
    else:
        file_name_url[name] = base_bygenre + name

# Definicja funkcji do pobierania
def download_by_name(fname, target_path):
    url = file_name_url.get(fname)
    if url is None:
        print(f"Brak URL dla pliku {fname}")
        return
    if os.path.isfile(target_path):
        print(f"Plik już istnieje: {target_path}")
        return
    print(f"Pobieram {fname}...")
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(target_path, "wb") as f:
            for chunk in r.iter_content(chunk_size=8192):
                f.write(chunk)
    print("Pobrano:", target_path)


In [44]:
# Przykład: pobranie głównego pliku goodreads_books.json.gz
fname    = "goodreads_books.json.gz"
out_path = os.path.join(REPO_DIR, fname)
download_by_name(fname, out_path)


Plik już istnieje: ../Datasets/Goodreads_GitHub\goodreads_books.json.gz


## Przetwarzanie strumieniowe dużego pliku JSON.GZ

Plik `goodreads_books.json.gz` jest zbyt duży, aby wczytać go w całości do pamięci.
Zamiast tego:

1. Odczytamy pierwszą linię, aby zobaczyć, jakie pola są dostępne.
2. Przetworzymy plik linia po linii, wybierając tylko interesujące nas kolumny.
3. Zapiszemy wynik do nowego, znacznie mniejszego pliku CSV.


In [45]:
import gzip
import json

gz_path = "../Datasets/Goodreads_GitHub/goodreads_books.json.gz"

# Odczyt pierwszej linii, żeby zobaczyć strukturę
with gzip.open(gz_path, 'rt', encoding='utf-8') as f:
    first = next(f)
    obj = json.loads(first)
    print("Dostępne pola w rekordzie:")
    for key in obj.keys():
        print("-", key)


Dostępne pola w rekordzie:
- isbn
- text_reviews_count
- series
- country_code
- language_code
- popular_shelves
- asin
- is_ebook
- average_rating
- kindle_asin
- similar_books
- description
- format
- link
- authors
- publisher
- num_pages
- publication_day
- isbn13
- publication_month
- edition_information
- publication_year
- url
- image_url
- book_id
- ratings_count
- work_id
- title
- title_without_series


### Wybór kolumn do ekstrakcji

Z listy dostępnych pól wybieramy te, które przeniesiemy do nowego, odchudzonego pliku CSV:

- **title** – tytuł książki
- **authors** – autor/autorzy
- **publication_year** – rok wydania
- **publication_month** – miesiąc wydania
- **publication_day** – dzień wydania
- **isbn** – numer ISBN



In [46]:
import gzip, json, csv, os

gz_path = "../Datasets/Goodreads_GitHub/goodreads_books.json.gz"
out_csv = "../Datasets/Goodreads_GitHub/goodreads_selected_stream.csv"

if not os.path.isfile(out_csv):
    with gzip.open(gz_path, 'rt', encoding='utf-8') as fin, \
         open(out_csv, 'w', newline='', encoding='utf-8') as fout:

        writer = csv.writer(fout)
        # Nagłówek
        writer.writerow([
            'title',
            'authors',
            'publication_year',
            'publication_month',
            'publication_day',
            'isbn'
        ])

        for line in fin:
            rec = json.loads(line)
            writer.writerow([
                rec.get('title'),
                rec.get('authors'),
                rec.get('publication_year'),
                rec.get('publication_month'),
                rec.get('publication_day'),
                rec.get('isbn')
            ])
    print("✔ Zapisano wybrane kolumny do:", out_csv)
else:
    print("ℹ Plik ze wybranymi kolumnami już istnieje:", out_csv)


ℹ Plik ze wybranymi kolumnami już istnieje: ../Datasets/Goodreads_GitHub/goodreads_selected_stream.csv


In [47]:
import pandas as pd
import os

out_csv = "../Datasets/Goodreads_GitHub/goodreads_selected_stream.csv"
size_mb = os.path.getsize(out_csv) / (1024*1024)
print(f"Rozmiar odchudzonego pliku: {size_mb:.2f} MB")

goodreads_selected = pd.read_csv(out_csv)
print("Liczba rekordów:", len(goodreads_selected))
print("Kolumny:", list(goodreads_selected.columns))
display(goodreads_selected.head())


Rozmiar odchudzonego pliku: 245.96 MB
Liczba rekordów: 2360655
Kolumny: ['title', 'authors', 'publication_year', 'publication_month', 'publication_day', 'isbn']


Unnamed: 0,title,authors,publication_year,publication_month,publication_day,isbn
0,W.C. Fields: A Life on Film,"[{'author_id': '604031', 'role': ''}]",1984.0,9.0,1.0,312853122.0
1,Good Harbor,"[{'author_id': '626222', 'role': ''}]",2001.0,10.0,1.0,743509986.0
2,"The Unschooled Wizard (Sun Wolf and Starhawk, ...","[{'author_id': '10333', 'role': ''}]",1987.0,,,
3,Best Friends Forever,"[{'author_id': '9212', 'role': ''}]",2009.0,7.0,14.0,743294297.0
4,Runic Astrology: Starcraft and Timekeeping in ...,"[{'author_id': '149918', 'role': ''}]",,,,850308712.0


## Podzbiór z BooksDatasetClean

W tej sekcji:

1. Wczytujemy oryginalny plik `BooksDatasetClean.csv`.
2. Wybieramy tylko kolumny istotne do dalszej analizy:
   - **Title** — tytuł książki
   - **Authors** — autor(zy)
   - **Category** — gatunek/kategoria
   - **Publisher** — wydawnictwo
   - **Description** — krótki opis
   - **Publish Date (Month)** — miesiąc publikacji
   - **Publish Date (Year)** — rok publikacji
3. Zapisujemy wynik do nowego pliku CSV w podkatalogu `BooksDatasetSubset`.


In [48]:
from pathlib import Path
import pandas as pd

# Ścieżka do oryginalnego pliku
csv_path = Path("../Datasets/BooksDataset/BooksDatasetClean.csv")

# Wczytanie
books_df = pd.read_csv(csv_path)

# Wybrane kolumny
cols = [
    'Title',
    'Authors',
    'Category',
    'Publisher',
    'Description',
    'Publish Date (Month)',
    'Publish Date (Year)'
]

# Tworzymy podzbiór
books_subset = books_df[cols].copy()

books_subset.columns = [
    'title',
    'authors',
    'category',
    'publisher',
    'description',
    'publish_month',
    'publish_year'
]

# Przygotowanie katalogu i zapis
out_dir  = Path("../Datasets/BooksDatasetSubset")
out_dir.mkdir(parents=True, exist_ok=True)
out_file = out_dir / "BooksDataset_subset.csv"

books_subset.to_csv(out_file, index=False)
print(f"Nowy plik zapisany: {out_file}")




Nowy plik zapisany: ..\Datasets\BooksDatasetSubset\BooksDataset_subset.csv


### Sprawdzenie zawartości nowego pliku

Wczytujemy plik `BooksDataset_subset.csv` i wyświetlamy kilka pierwszych wierszy oraz podstawowe informacje o wymiarach.


In [49]:
import pandas as pd

# Wczytanie zapisanego pliku
new_df = pd.read_csv(out_file)

# Wyświetlenie pierwszych 5 rekordów
display(new_df.head())

# Informacje o wymiarach
print(f"Liczba rekordów: {len(new_df)}")
print(f"Liczba kolumn: {len(new_df.columns)}")


Unnamed: 0,title,authors,category,publisher,description,publish_month,publish_year
0,Goat Brothers,"By Colton, Larry","History , General",Doubleday,,January,1993
1,The Missing Person,"By Grumbach, Doris","Fiction , General",Putnam Pub Group,,March,1981
2,Don't Eat Your Heart Out Cookbook,"By Piscatella, Joseph C.","Cooking , Reference",Workman Pub Co,,September,1983
3,When Your Corporate Umbrella Begins to Leak: A...,"By Davis, Paul D.",,Natl Pr Books,,April,1991
4,Amy Spangler's Breastfeeding : A Parent's Guide,"By Spangler, Amy",,Amy Spangler,,February,1997


Liczba rekordów: 103063
Liczba kolumn: 7
