# Databricks Training: Import i eksploracja danych

**Modu≈Ç:** Fundamentals & Data Exploration  
**Temat:** DataFrame Reader API, opcje wczytywania, konstrukcja schemat√≥w, podstawowe operacje eksploracyjne  
**Czas trwania:** 45 minut  
**Poziom:** PoczƒÖtkujƒÖcy

---

## Cel szkoleniowy

W tym notebooku nauczysz siƒô:
- U≈ºywaƒá DataFrame Reader API do wczytywania danych z r√≥≈ºnych format√≥w
- Konfigurowaƒá opcje czytania danych (header, delimiter, inferSchema)
- Rƒôcznie definiowaƒá schematy za pomocƒÖ StructType i StructField
- Wykonywaƒá podstawowe operacje eksploracyjne na DataFrame (columns, dtypes, count, describe, summary)
- Por√≥wnywaƒá automatyczne wykrywanie schemat√≥w z rƒôcznƒÖ definicjƒÖ

---

## Kontekst biznesowy

Organizacja KION zarzƒÖdza danymi z r√≥≈ºnych ≈∫r√≥de≈Ç:
- **Klienci** - dane w formacie CSV
- **Zam√≥wienia** - dane w formacie JSON
- **Produkty** - dane w formacie Parquet

Zadaniem data engineera jest:
1. Zaimportowaƒá dane z r√≥≈ºnych format√≥w do Databricks
2. Zrozumieƒá strukturƒô danych i typy kolumn
3. Przygotowaƒá dane do dalszych transformacji

---

## Podstawy teoretyczne

### DataFrame Reader API

Databricks udostƒôpnia uniwersalne API do wczytywania danych:

```python
spark.read.format("format").option("key", "value").load("path")
```

Wspierane formaty:
- **CSV** - dane tabelaryczne z separatorami
- **JSON** - dane semi-strukturalne
- **Parquet** - kolumnowy format binarny z kompresjƒÖ
- **Delta** - format transakcyjny (om√≥wiony w kolejnych modu≈Çach)

### Opcje wczytywania danych

Dla **CSV**:
- `header=True` - pierwsza linia zawiera nazwy kolumn
- `inferSchema=True` - automatyczne wykrywanie typ√≥w danych
- `delimiter=","` - separator kolumn

Dla **JSON**:
- `multiLine=True` - JSON roz≈Ço≈ºony na wiele linii
- `inferSchema=True` - wykrywanie struktury zagnie≈ºd≈ºonej

### Definicja schematu

Zalecana praktyka: **rƒôczne definiowanie schematu** zamiast automatycznego wykrywania.

Korzy≈õci:
- Szybsze wczytywanie (brak konieczno≈õci skanowania danych)
- Kontrola typ√≥w danych
- Unikniƒôcie b≈Çƒôd√≥w przy niepoprawnych danych

Przyk≈Çad:

```python
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType([
    StructField("customer_id", IntegerType(), False),
    StructField("name", StringType(), True)
])
```

### Operacje eksploracyjne

| Operacja | Opis |
|----------|------|
| `df.columns` | Lista nazw kolumn |
| `df.dtypes` | Lista typ√≥w kolumn |
| `df.count()` | Liczba wierszy |
| `df.printSchema()` | Struktura schematu |
| `df.describe()` | Statystyki opisowe (count, mean, stddev, min, max) |
| `df.summary()` | Rozszerzone statystyki (+ percentyle) |
| `df.show(n)` | Wy≈õwietl n wierszy |

---

## Inicjalizacja ≈õrodowiska

Wykonujemy centralny skrypt konfiguracyjny:

In [None]:
%run ./00_setup

## Konfiguracja notebooka

Definiujemy zmienne specyficzne dla tego notebooka:

In [None]:
# ≈öcie≈ºki do katalog√≥w z danymi (podkatalogi w DATASET_BASE_PATH z 00_setup)
CUSTOMERS_PATH = f"{DATASET_BASE_PATH}/customers"
ORDERS_PATH = f"{DATASET_BASE_PATH}/orders"
PRODUCTS_PATH = f"{DATASET_BASE_PATH}/products"

# ≈öcie≈ºki do konkretnych plik√≥w
CUSTOMERS_CSV = f"{CUSTOMERS_PATH}/customers.csv"
ORDERS_JSON = f"{ORDERS_PATH}/orders_batch.json"
PRODUCTS_PARQUET = f"{PRODUCTS_PATH}/products.parquet"

print(f"≈öcie≈ºka do pliku customers CSV: {CUSTOMERS_CSV}")
print(f"≈öcie≈ºka do pliku orders JSON: {ORDERS_JSON}")
print(f"≈öcie≈ºka do pliku products Parquet: {PRODUCTS_PARQUET}")

---

## Czƒô≈õƒá 1: Import danych CSV (Customers)

### 1.1. Wczytanie CSV z automatycznym wykrywaniem schematu

In [None]:
# Wczytanie danych CSV z automatycznym wykrywaniem schematu
customers_auto_df = (
    spark.read
    .format("csv")
    .option("header", "true")       # Pierwsza linia to nazwy kolumn
    .option("inferSchema", "true")  # Automatyczne wykrywanie typ√≥w danych
    .load(CUSTOMERS_CSV)
)

# Wy≈õwietl schemat
print("[INFO] Schemat wykryty automatycznie:")
customers_auto_df.printSchema()

# Wy≈õwietl pr√≥bkƒô danych
print("\n[INFO] Pr√≥bka danych (5 wierszy):")
customers_auto_df.show(5, truncate=False)

### 1.2. Eksploracja danych CSV

In [None]:
# Lista nazw kolumn
print("[INFO] Kolumny DataFrame:")
print(customers_auto_df.columns)

# Lista typ√≥w danych
print("\n[INFO] Typy danych kolumn:")
print(customers_auto_df.dtypes)

# Liczba wierszy
row_count = customers_auto_df.count()
print(f"\n[INFO] Liczba wierszy: {row_count}")

### 1.3. Statystyki opisowe

In [None]:
# Statystyki opisowe (count, mean, stddev, min, max)
print("[INFO] Statystyki opisowe (describe):")
customers_auto_df.describe().show()

# Rozszerzone statystyki (+ percentyle)
print("\n[INFO] Rozszerzone statystyki (summary):")
customers_auto_df.summary().show()

### 1.4. Rƒôczna definicja schematu dla CSV

**Best Practice:** Definiowanie schematu manualnie zapewnia kontrolƒô i wydajno≈õƒá.

In [None]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, TimestampType

# Definicja schematu dla customers
# Struktura: customer_id (int), customer_name (string), email (string), country (string), registration_date (timestamp)
customers_schema = StructType([
    StructField("customer_id", IntegerType(), nullable=False),
    StructField("customer_name", StringType(), nullable=True),
    StructField("email", StringType(), nullable=True),
    StructField("country", StringType(), nullable=True),
    StructField("registration_date", TimestampType(), nullable=True)
])

# Wczytanie danych CSV z rƒôcznie zdefiniowanym schematem
customers_df = (
    spark.read
    .format("csv")
    .option("header", "true")
    .schema(customers_schema)  # U≈ºycie zdefiniowanego schematu
    .load(CUSTOMERS_CSV)
)

print("[INFO] Schemat zdefiniowany rƒôcznie:")
customers_df.printSchema()

print("\n[INFO] Pr√≥bka danych z rƒôcznym schematem:")
customers_df.show(5, truncate=False)

### ‚úÖ ƒÜwiczenie 1: Wczytanie CSV z w≈Çasnymi opcjami

**Zadanie:** Wczytaj plik CSV `customers.csv` ponownie, ale:
- Ustaw delimiter na `;` (celowo b≈Çƒôdny, aby zobaczyƒá efekt)
- Wy≈ÇƒÖcz `inferSchema`
- Zaobserwuj, jak to wp≈Çywa na wynik

**Hint:** U≈ºyj `.option("delimiter", ";")`

In [None]:
# TODO: Wczytaj customers.csv z delimitorem `;` i bez inferSchema
# customers_wrong_df = spark.read.format("csv")...

# TODO: Wy≈õwietl schemat i 5 wierszy
# customers_wrong_df.printSchema()
# customers_wrong_df.show(5, truncate=False)

# Zaobserwuj, ≈ºe wszystkie dane bƒôdƒÖ w jednej kolumnie
pass

---

## Czƒô≈õƒá 2: Import danych JSON (Orders)

### 2.1. Wczytanie JSON z automatycznym wykrywaniem schematu

In [None]:
# Wczytanie danych JSON z automatycznym wykrywaniem schematu
orders_auto_df = (
    spark.read
    .format("json")
    .option("inferSchema", "true")
    .load(ORDERS_JSON)
)

print("[INFO] Schemat JSON wykryty automatycznie:")
orders_auto_df.printSchema()

print("\n[INFO] Pr√≥bka danych JSON:")
orders_auto_df.show(5, truncate=False)

### 2.2. Eksploracja danych JSON

In [None]:
# Liczba kolumn i wierszy
print(f"[INFO] Liczba kolumn: {len(orders_auto_df.columns)}")
print(f"[INFO] Nazwy kolumn: {orders_auto_df.columns}")
print(f"[INFO] Liczba wierszy: {orders_auto_df.count()}")

# Typy danych
print("\n[INFO] Typy danych:")
for col_name, col_type in orders_auto_df.dtypes:
    print(f"  - {col_name}: {col_type}")

### 2.3. Rƒôczna definicja schematu dla JSON

In [None]:
from pyspark.sql.types import DoubleType

# Definicja schematu dla orders
# Struktura: order_id (int), customer_id (int), order_date (timestamp), total_amount (double), status (string)
orders_schema = StructType([
    StructField("order_id", IntegerType(), nullable=False),
    StructField("customer_id", IntegerType(), nullable=True),
    StructField("order_date", TimestampType(), nullable=True),
    StructField("total_amount", DoubleType(), nullable=True),
    StructField("status", StringType(), nullable=True)
])

# Wczytanie danych JSON z rƒôcznie zdefiniowanym schematem
orders_df = (
    spark.read
    .format("json")
    .schema(orders_schema)
    .load(ORDERS_JSON)
)

print("[INFO] Schemat JSON zdefiniowany rƒôcznie:")
orders_df.printSchema()

print("\n[INFO] Pr√≥bka danych z rƒôcznym schematem:")
orders_df.show(5, truncate=False)

### 2.4. Statystyki opisowe dla JSON

In [None]:
# Statystyki dla kolumn numerycznych
print("[INFO] Statystyki dla orders:")
orders_df.select("order_id", "customer_id", "total_amount").describe().show()

# Rozk≈Çad warto≈õci dla kolumny 'status'
print("\n[INFO] Rozk≈Çad warto≈õci w kolumnie 'status':")
orders_df.groupBy("status").count().orderBy("count", ascending=False).show()

### ‚úÖ ƒÜwiczenie 2: Eksploracja danych JSON

**Zadanie:**
1. Policz liczbƒô unikalnych klient√≥w w DataFrame `orders_df`
2. Znajd≈∫ warto≈õƒá maksymalnƒÖ i minimalnƒÖ w kolumnie `total_amount`
3. Policz liczbƒô zam√≥wie≈Ñ w ka≈ºdym statusie

**Hint:** U≈ºyj `.select()`, `.distinct()`, `.count()`, `.agg()`, `.groupBy()`

In [None]:
# TODO: Policz liczbƒô unikalnych customer_id
# unique_customers = orders_df.select("customer_id").distinct().count()
# print(f"Liczba unikalnych klient√≥w: {unique_customers}")

# TODO: Znajd≈∫ min i max total_amount
# from pyspark.sql.functions import min, max
# orders_df.select(min("total_amount"), max("total_amount")).show()

# TODO: Policz zam√≥wienia wed≈Çug statusu
# orders_df.groupBy("status").count().show()

pass

---

## Czƒô≈õƒá 3: Import danych Parquet (Products)

### 3.1. Wczytanie Parquet (schemat wbudowany)

In [None]:
# Parquet zawiera ju≈º schemat wbudowany - nie trzeba go definiowaƒá
products_df = (
    spark.read
    .format("parquet")
    .load(PRODUCTS_PARQUET)
)

print("[INFO] Schemat Parquet (wbudowany):")
products_df.printSchema()

print("\n[INFO] Pr√≥bka danych Parquet:")
products_df.show(5, truncate=False)

### 3.2. Eksploracja danych Parquet

In [None]:
# Podstawowe informacje
print(f"[INFO] Liczba kolumn: {len(products_df.columns)}")
print(f"[INFO] Nazwy kolumn: {products_df.columns}")
print(f"[INFO] Liczba produkt√≥w: {products_df.count()}")

# Typy danych
print("\n[INFO] Typy danych:")
for col_name, col_type in products_df.dtypes:
    print(f"  - {col_name}: {col_type}")

### 3.3. Statystyki opisowe dla Parquet

In [None]:
# Statystyki dla kolumn numerycznych
print("[INFO] Statystyki dla products:")
products_df.describe().show()

# Rozszerzone statystyki
print("\n[INFO] Rozszerzone statystyki:")
products_df.summary().show()

### 3.4. Rozk≈Çad kategorii produkt√≥w

In [None]:
# Sprawd≈∫, czy istnieje kolumna 'category' i wy≈õwietl rozk≈Çad
if "category" in products_df.columns:
    print("[INFO] Rozk≈Çad kategorii produkt√≥w:")
    products_df.groupBy("category").count().orderBy("count", ascending=False).show()
else:
    print("[INFO] Kolumna 'category' nie istnieje w danych produkt√≥w")
    print(f"[INFO] Dostƒôpne kolumny: {products_df.columns}")

### ‚úÖ ƒÜwiczenie 3: Analiza danych Parquet

**Zadanie:**
1. Znajd≈∫ ≈õredniƒÖ cenƒô produktu (je≈õli kolumna `price` istnieje)
2. Znajd≈∫ 5 najdro≈ºszych produkt√≥w
3. Policz produkty wed≈Çug kategorii (je≈õli kolumna istnieje)

**Hint:** U≈ºyj `.agg()`, `.orderBy()`, `.limit()`

In [None]:
# TODO: Oblicz ≈õredniƒÖ cenƒô
# from pyspark.sql.functions import avg
# products_df.select(avg("price")).show()

# TODO: Znajd≈∫ 5 najdro≈ºszych produkt√≥w
# products_df.orderBy(col("price").desc()).limit(5).show(truncate=False)

# TODO: Policz produkty wed≈Çug kategorii
# if "category" in products_df.columns:
#     products_df.groupBy("category").count().show()

pass

---

## Czƒô≈õƒá 4: Por√≥wnanie wydajno≈õci

### 4.1. Wczytanie CSV: inferSchema vs rƒôczny schemat

In [None]:
import time

# Test 1: Automatyczne wykrywanie schematu
start_auto = time.time()
df_auto = (
    spark.read
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .load(CUSTOMERS_CSV)
)
count_auto = df_auto.count()  # Action - wymusza wykonanie
time_auto = time.time() - start_auto

print(f"[BENCHMARK] Wczytanie CSV z inferSchema: {time_auto:.3f} sekund")
print(f"[BENCHMARK] Liczba wierszy: {count_auto}")

# Test 2: Rƒôczne zdefiniowanie schematu
start_manual = time.time()
df_manual = (
    spark.read
    .format("csv")
    .option("header", "true")
    .schema(customers_schema)
    .load(CUSTOMERS_CSV)
)
count_manual = df_manual.count()  # Action - wymusza wykonanie
time_manual = time.time() - start_manual

print(f"\n[BENCHMARK] Wczytanie CSV z rƒôcznym schematem: {time_manual:.3f} sekund")
print(f"[BENCHMARK] Liczba wierszy: {count_manual}")

# Por√≥wnanie
speedup = (time_auto - time_manual) / time_auto * 100
print(f"\n[WYNIK] Przyspieszenie: {speedup:.1f}%")

---

## Czƒô≈õƒá 5: Best Practices

### Zalecenia przy importowaniu danych:

1. **Zawsze definiuj schemat rƒôcznie**
   - Szybsze wczytywanie
   - Kontrola typ√≥w danych
   - Unikniƒôcie b≈Çƒôd√≥w typu

2. **Wybieraj odpowiedni format**
   - **Parquet** - najlepszy dla analityki (kolumnowy, kompresja)
   - **CSV** - ≈Çatwy do debugowania, ale wolniejszy
   - **JSON** - elastyczny dla danych semi-strukturalnych

3. **U≈ºywaj partycjonowania**
   - Przyspieszenie zapyta≈Ñ filtrujƒÖcych
   - Przyk≈Çad: partycjonowanie zam√≥wie≈Ñ wed≈Çug daty

4. **Sprawdzaj jako≈õƒá danych od razu**
   - `count()` - sprawd≈∫ liczbƒô wierszy
   - `describe()` - sprawd≈∫ rozk≈Çad warto≈õci
   - `printSchema()` - zweryfikuj typy

5. **U≈ºywaj `limit()` podczas eksperymentowania**
   - Przyspiesza iteracje nad kodem
   - Przyk≈Çad: `df.limit(1000).show()`

6. **Dokumentuj schematy**
   - U≈Çatwia utrzymanie kodu
   - Przyk≈Çad: komentarze przy definicji StructType

---

## Podsumowanie

W tym notebooku nauczy≈Çe≈õ siƒô:

‚úÖ **DataFrame Reader API**
- Wczytywanie danych z CSV, JSON, Parquet
- Konfiguracja opcji (header, inferSchema, delimiter)

‚úÖ **Rƒôczna definicja schematu**
- Tworzenie schemat√≥w za pomocƒÖ StructType i StructField
- Por√≥wnanie wydajno≈õci: inferSchema vs rƒôczny schemat

‚úÖ **Operacje eksploracyjne**
- Podstawowe operacje: columns, dtypes, count
- Statystyki: describe(), summary()
- Grupowanie i agregacja

‚úÖ **Best Practices**
- Zalecenie rƒôcznego definiowania schematu
- Wyb√≥r formatu danych dla r√≥≈ºnych scenariuszy
- Sprawdzanie jako≈õci danych

---

### Nastƒôpne kroki:

üìå **Kolejny notebook:** `03_basic_transformations_sql_pyspark.ipynb`  
üìå **Temat:** Transformacje danych, operacje SQL i PySpark API

---

## Zasoby dodatkowe

- [Databricks - Reading Data](https://docs.databricks.com/ingestion/index.html)
- [PySpark DataFrame API](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/dataframe.html)
- [Schema Evolution in Spark](https://docs.databricks.com/delta/schema-evolution.html)

---

## Cleanup

Zwalniamy zasoby (opcjonalne):

In [None]:
# Od≈ÇƒÖczenie tymczasowych widok√≥w (je≈õli by≈Çy tworzone)
# spark.catalog.dropTempView("customers_view")

print("[INFO] Notebook zako≈Ñczony pomy≈õlnie")