# ðŸ“˜ Wczytywanie danych w TensorFlow i Keras

## 1. Wczytywanie CSV wprost do `tf.data.Dataset`

TensorFlow ma wbudowanÄ… funkcjÄ™ `tf.data.experimental.make_csv_dataset`, ktÃ³ra zamienia plik CSV w strumieÅ„ danych (dataset).

PrzykÅ‚ad dla pliku `Data/iris.csv`:

In [1]:
import tensorflow as tf

# ÅšcieÅ¼ka do danych
file_path = "../Data/iris.csv"

# Wczytanie CSV jako dataset
dataset = tf.data.experimental.make_csv_dataset(
    file_path,
    batch_size=16,       # rozmiar batcha
    label_name="target", # kolumna etykiety
    num_epochs=1,        # ile razy przejÅ›Ä‡ przez dane
    shuffle=True
)

# PodglÄ…d batcha
for features, label in dataset.take(1):
    print("Cechy:", features)
    print("Etykiety:", label)

Cechy: OrderedDict({'sepal length (cm)': <tf.Tensor: shape=(16,), dtype=float32, numpy=
array([5.6, 6.8, 5.8, 6.6, 5.4, 5.7, 7.6, 6.3, 6.3, 6.1, 5.4, 5. , 5.6,
       6.1, 5.6, 4.4], dtype=float32)>, 'sepal width (cm)': <tf.Tensor: shape=(16,), dtype=float32, numpy=
array([2.8, 3.2, 2.7, 2.9, 3.4, 2.9, 3. , 2.7, 2.5, 2.9, 3.7, 3.2, 3. ,
       2.8, 2.9, 3. ], dtype=float32)>, 'petal length (cm)': <tf.Tensor: shape=(16,), dtype=float32, numpy=
array([4.9, 5.9, 4.1, 4.6, 1.7, 4.2, 6.6, 4.9, 5. , 4.7, 1.5, 1.2, 4.5,
       4. , 3.6, 1.3], dtype=float32)>, 'petal width (cm)': <tf.Tensor: shape=(16,), dtype=float32, numpy=
array([2. , 2.3, 1. , 1.3, 0.2, 1.3, 2.1, 1.8, 1.9, 1.4, 0.2, 0.2, 1.5,
       1.3, 1.3, 0.2], dtype=float32)>})
Etykiety: tf.Tensor([2. 2. 1. 1. 0. 1. 2. 2. 2. 1. 0. 0. 1. 1. 1. 0.], shape=(16,), dtype=float32)


2025-10-02 18:56:12.507308: W tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


ðŸ‘‰ Zalety: dziaÅ‚a dobrze z duÅ¼ymi plikami, dane wczytywane sÄ… leniwie (strumieniowo).
ðŸ‘‰ Uwaga: `species` musi byÄ‡ kolumnÄ… w CSV.

---

## 2. Wczytanie CSV do Pandas + konwersja do TensorFlow

CzÄ™sto proÅ›ciej jest najpierw wczytaÄ‡ dane Pandasem:

In [2]:
import pandas as pd
import tensorflow as tf

# Wczytanie Pandasem
df = pd.read_csv("../Data/iris.csv")
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


In [3]:
# Oddzielenie X i y
X = df.drop("target", axis=1).values
y = df["target"].astype("category").cat.codes.values  # zamiana na liczby

# Konwersja do tensora
X_tensor = tf.convert_to_tensor(X, dtype=tf.float32)
y_tensor = tf.convert_to_tensor(y, dtype=tf.int32)

print(X_tensor.shape, y_tensor.shape)

(150, 4) (150,)


ðŸ‘‰ Ten sposÃ³b daje wiÄ™kszÄ… kontrolÄ™ nad preprocessingiem (np. normalizacja, one-hot encoding).

---

## 3. UÅ¼ycie Keras `keras.utils` â€“ np. `image_dataset_from_directory`, `text_dataset_from_directory`, `timeseries_dataset_from_array`

Dla CSV nie ma gotowej funkcji, ale moÅ¼na Å‚atwo zamieniÄ‡ Pandas â†’ NumPy â†’ Keras `Dataset`:

In [4]:
from tensorflow import keras
import pandas as pd

# Wczytaj CSV
df = pd.read_csv("../Data/iris.csv")

X = df.drop("target", axis=1).values
y = df["target"].astype("category").cat.codes.values

# Konwersja do datasetu keras
dataset = keras.utils.timeseries_dataset_from_array(
    data=X,
    targets=y,
    sequence_length=1,   # tu akurat nie czasowe, wiÄ™c 1
    batch_size=16
)

for batch_x, batch_y in dataset.take(1):
    print("X batch:", batch_x.numpy())
    print("y batch:", batch_y.numpy())

X batch: [[[5.1 3.5 1.4 0.2]]

 [[4.9 3.  1.4 0.2]]

 [[4.7 3.2 1.3 0.2]]

 [[4.6 3.1 1.5 0.2]]

 [[5.  3.6 1.4 0.2]]

 [[5.4 3.9 1.7 0.4]]

 [[4.6 3.4 1.4 0.3]]

 [[5.  3.4 1.5 0.2]]

 [[4.4 2.9 1.4 0.2]]

 [[4.9 3.1 1.5 0.1]]

 [[5.4 3.7 1.5 0.2]]

 [[4.8 3.4 1.6 0.2]]

 [[4.8 3.  1.4 0.1]]

 [[4.3 3.  1.1 0.1]]

 [[5.8 4.  1.2 0.2]]

 [[5.7 4.4 1.5 0.4]]]
y batch: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


2025-10-02 18:56:12.591142: W tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


## ðŸ“š Zbiory danych w `keras.datasets`

W pakiecie znajdziesz m.in.:

* **MNIST** â€“ rÄ™cznie pisane cyfry (0â€“9, grayscale, 28Ã—28)
* **Fashion-MNIST** â€“ ubrania zamiast cyfr (rÃ³wnieÅ¼ 28Ã—28)
* **CIFAR-10 / CIFAR-100** â€“ kolorowe obrazki (32Ã—32, 10 lub 100 klas)
* **IMDB** â€“ recenzje filmÃ³w (do NLP, sentyment analysis)
* **Reuters** â€“ krÃ³tkie teksty wiadomoÅ›ci (kategoryzacja tekstu)
* **Boston Housing** â€“ ceny mieszkaÅ„ w Bostonie (regresja)

---

### ðŸ”¹ PrzykÅ‚ad: MNIST (klasyczny dataset obrazÃ³w)

In [5]:
# Wczytanie danych
(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)

# Normalizacja (opcjonalnie)
X_train = X_train.astype("float32") / 255.0
X_test = X_test.astype("float32") / 255.0


X_train shape: (60000, 28, 28)
y_train shape: (60000,)


---

### ðŸ”¹ PrzykÅ‚ad: CIFAR-10 (kolorowe obrazki)

In [6]:
(X_train, y_train), (X_test, y_test) = keras.datasets.cifar10.load_data()

print("Obrazki:", X_train.shape)
print("Etykiety:", y_train.shape)

Obrazki: (50000, 32, 32, 3)
Etykiety: (50000, 1)


In [7]:
### ðŸ”¹ PrzykÅ‚ad: IMDB (analiza sentymentu)

In [8]:
# Ograniczamy sÅ‚ownik do 10k najczÄ™stszych sÅ‚Ã³w
(X_train, y_train), (X_test, y_test) = keras.datasets.imdb.load_data(num_words=10000)

print("Liczba prÃ³bek w train:", len(X_train))
print("Pierwsza prÃ³bka (zakodowana):", X_train[0][:10])
print("Etykieta:", y_train[0])

Liczba prÃ³bek w train: 25000
Pierwsza prÃ³bka (zakodowana): [1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65]
Etykieta: 1


ðŸ‘‰ W tym przypadku dane sÄ… juÅ¼ ztokenizowane â€“ jako sekwencje ID sÅ‚Ã³w.




---

# ðŸš€ Podsumowanie

* **TensorFlow** â†’ uÅ¼ywamy `tf.data.experimental.make_csv_dataset` do CSV.
* **Pandas + TensorFlow** â†’ wiÄ™ksza kontrola nad preprocessingiem, Å‚atwoÅ›Ä‡ uÅ¼ycia.
* **Keras** â†’ dane moÅ¼na przygotowaÄ‡ w NumPy/Pandas i przekazaÄ‡ do `model.fit()`.
* **Zaawansowane** â†’ `tf.data.Dataset` daje najwiÄ™kszÄ… elastycznoÅ›Ä‡ (batching, shuffling, mapowanie transformacji).

---

ðŸ‘‰ Chcesz Å¼ebym zrobiÅ‚ Ci gotowy **notebook Jupyter** z przykÅ‚adami na `iris.csv` (Å‚adowanie rÃ³Å¼nymi metodami + prosty model Keras), Å¼ebyÅ› mÃ³gÅ‚ od razu uÅ¼yÄ‡ na szkoleniu?