# Databricks Training: Import i eksploracja danych

**Modu≈Ç:** Fundamentals & Data Exploration  
**Temat:** DataFrame Reader API, opcje wczytywania, konstrukcja schemat√≥w, podstawowe operacje eksploracyjne  
**Czas trwania:** 20 minut  
**Poziom:** PoczƒÖtkujƒÖcy

---

## Cel szkoleniowy

W tym notebooku nauczysz siƒô:
- U≈ºywaƒá DataFrame Reader API do wczytywania danych z r√≥≈ºnych format√≥w
- Konfigurowaƒá opcje czytania danych (header, delimiter, inferSchema)
- Rƒôcznie definiowaƒá schematy za pomocƒÖ StructType i StructField
- Wykonywaƒá podstawowe operacje eksploracyjne na DataFrame (columns, dtypes, count, describe, summary)
- Por√≥wnywaƒá automatyczne wykrywanie schemat√≥w z rƒôcznƒÖ definicjƒÖ

---

## Kontekst biznesowy

Organizacja KION zarzƒÖdza danymi z r√≥≈ºnych ≈∫r√≥de≈Ç:
- **Klienci** - dane w formacie CSV
- **Zam√≥wienia** - dane w formacie JSON
- **Produkty** - dane w formacie Parquet

Zadaniem data engineera jest:
1. Zaimportowaƒá dane z r√≥≈ºnych format√≥w do Databricks
2. Zrozumieƒá strukturƒô danych i typy kolumn
3. Przygotowaƒá dane do dalszych transformacji

---

## Podstawy teoretyczne

### DataFrame Reader API

Databricks udostƒôpnia uniwersalne API do wczytywania danych:

```python
spark.read.format("format").option("key", "value").load("path")
```

Wspierane formaty:
- **CSV** - dane tabelaryczne z separatorami
- **JSON** - dane semi-strukturalne
- **Parquet** - kolumnowy format binarny z kompresjƒÖ
- **Delta** - format transakcyjny (om√≥wiony w kolejnych modu≈Çach)

### Opcje wczytywania danych

Dla **CSV**:
- `header=True` - pierwsza linia zawiera nazwy kolumn
- `inferSchema=True` - automatyczne wykrywanie typ√≥w danych
- `delimiter=","` - separator kolumn

Dla **JSON**:
- `multiLine=True` - JSON roz≈Ço≈ºony na wiele linii
- `inferSchema=True` - wykrywanie struktury zagnie≈ºd≈ºonej

### Definicja schematu

Zalecana praktyka: **rƒôczne definiowanie schematu** zamiast automatycznego wykrywania.

Korzy≈õci:
- Szybsze wczytywanie (brak konieczno≈õci skanowania danych)
- Kontrola typ√≥w danych
- Unikniƒôcie b≈Çƒôd√≥w przy niepoprawnych danych

Przyk≈Çad:

```python
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType([
    StructField("customer_id", IntegerType(), False),
    StructField("name", StringType(), True)
])
```

### Operacje eksploracyjne

| Operacja | Opis |
|----------|------|
| `df.columns` | Lista nazw kolumn |
| `df.dtypes` | Lista typ√≥w kolumn |
| `df.count()` | Liczba wierszy |
| `df.printSchema()` | Struktura schematu |
| `df.describe()` | Statystyki opisowe (count, mean, stddev, min, max) |
| `df.summary()` | Rozszerzone statystyki (+ percentyle) |
| `df.show(n)` | Wy≈õwietl n wierszy |

---

## Inicjalizacja ≈õrodowiska

Wykonujemy centralny skrypt konfiguracyjny:

In [0]:
%run ../00_setup

## Konfiguracja notebooka

Definiujemy zmienne specyficzne dla tego notebooka:

In [0]:
# ≈öcie≈ºki do katalog√≥w z danymi (podkatalogi w DATASET_BASE_PATH z 00_setup)
CUSTOMERS_PATH = f"{DATASET_BASE_PATH}/customers"
ORDERS_PATH = f"{DATASET_BASE_PATH}/orders"
PRODUCTS_PATH = f"{DATASET_BASE_PATH}/products"

# ≈öcie≈ºki do konkretnych plik√≥w
CUSTOMERS_CSV = f"{CUSTOMERS_PATH}/customers.csv"
ORDERS_JSON = f"{ORDERS_PATH}/orders_batch.json"
PRODUCTS_PARQUET = f"{PRODUCTS_PATH}/products.parquet"

print(f"≈öcie≈ºka do pliku customers CSV: {CUSTOMERS_CSV}")
print(f"≈öcie≈ºka do pliku orders JSON: {ORDERS_JSON}")
print(f"≈öcie≈ºka do pliku products Parquet: {PRODUCTS_PARQUET}")

---

## Czƒô≈õƒá 1: Import danych CSV (Customers)

### 1.1. Wczytanie CSV z automatycznym wykrywaniem schematu

In [0]:
# Wczytanie danych CSV z automatycznym wykrywaniem schematu
customers_auto_df = (
    spark.read
    .format("csv")
    .option("header", "true")       # Pierwsza linia to nazwy kolumn
    .option("inferSchema", "true")  # Automatyczne wykrywanie typ√≥w danych
    .load(CUSTOMERS_CSV)
)

In [0]:
# Wy≈õwietl schemat
print(" Schemat wykryty automatycznie:")
customers_auto_df.printSchema()

In [0]:
print("\n Pr√≥bka danych (5 wierszy):")
customers_auto_df.show(5, truncate=False)

In [0]:
# Wy≈õwietl pr√≥bkƒô danych
print("\n Pr√≥bka danych :")
display(customers_auto_df.head())

### 1.2. Eksploracja danych CSV

In [0]:
# Lista nazw kolumn
print(" Kolumny DataFrame:")
customers_auto_df.columns

In [0]:
# Lista typ√≥w danych
print("\n Typy danych kolumn:")
customers_auto_df.dtypes

In [0]:
# Liczba wierszy
row_count = customers_auto_df.count()
print(f"\nLiczba wierszy: {row_count}")

### 1.3. Statystyki opisowe

In [0]:
from pyspark.sql.types import StructType, StructField, StringType

# Definicja schematu dla customers
# Struktura rzeczywista: customer_id, first_name, last_name, email, phone, city, state, country, registration_date, customer_segment
customers_schema = StructType([
    StructField("customer_id", StringType(), nullable=False),
    StructField("first_name", StringType(), nullable=True),
    StructField("last_name", StringType(), nullable=True), 
    StructField("email", StringType(), nullable=True),
    StructField("phone", StringType(), nullable=True),
    StructField("city", StringType(), nullable=True),
    StructField("state", StringType(), nullable=True),
    StructField("country", StringType(), nullable=True),
    StructField("registration_date", StringType(), nullable=True),  # Date as string, will convert later
    StructField("customer_segment", StringType(), nullable=True)
])

# Statystyki opisowe (count, mean, stddev, min, max)
print(" Statystyki opisowe (describe):")
customers_auto_df.describe().display()

In [0]:
# Rozszerzone statystyki (+ percentyle)
print("\n Rozszerzone statystyki (summary):")
customers_auto_df.summary().display()

## Rozszerzone opcje readera ‚Äì typowe problemy produkcyjne

W ≈õrodowisku produkcyjnym czƒôsto spotykamy pliki CSV z:

- innym separatorem (`;` zamiast `,`),
- cudzys≈Çowami wewnƒÖtrz p√≥l,
- uszkodzonymi wierszami.

Kluczowe opcje:

- `delimiter` ‚Äì niestandardowy separator kolumn,
- `quote` ‚Äì znak otwierajƒÖcy/zamykajƒÖcy pola tekstowe,
- `escape` ‚Äì spos√≥b ‚Äûucieczki‚Äù znak√≥w specjalnych,
- `mode` ‚Äì spos√≥b obs≈Çugi b≈Çƒôdnych rekord√≥w (`PERMISSIVE`, `DROPMALFORMED`, `FAILFAST`).

### 1.4. Rƒôczna definicja schematu dla CSV

**Best Practice:** Definiowanie schematu manualnie zapewnia kontrolƒô i wydajno≈õƒá.

In [0]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, TimestampType

In [0]:
# Definicja schematu dla customers
# Struktura: customer_id (int), first_name (string), last_name (string), email (string), city (string), country (string), registration_date (timestamp)
customers_schema = StructType([
    StructField("customer_id", IntegerType(), nullable=False),
    StructField("first_name", StringType(), nullable=True),
    StructField("last_name", StringType(), nullable=True),
    StructField("city", StringType(), nullable=True),
    StructField("email", StringType(), nullable=True),
    StructField("country", StringType(), nullable=True),
    StructField("registration_date", TimestampType(), nullable=True)
])

In [0]:
# Wczytanie danych CSV z rƒôcznie zdefiniowanym schematem
customers_df = (
    spark.read
    .format("csv")
    .option("header", "true")
    .schema(customers_schema)  # U≈ºycie zdefiniowanego schematu
    .load(CUSTOMERS_CSV)
)
customers_df.printSchema()

In [0]:
print("\n Pr√≥bka danych z rƒôcznym schematem:")
customers_df.show(5, truncate=False)

### ‚úÖ ƒÜwiczenie 1: Wczytanie CSV z w≈Çasnymi opcjami

**Zadanie:** Wczytaj plik CSV `customers.csv` ponownie, ale:
- Ustaw delimiter na `;` (celowo b≈Çƒôdny, aby zobaczyƒá efekt)
- Wy≈ÇƒÖcz `inferSchema`
- Zaobserwuj, jak to wp≈Çywa na wynik

**Hint:** U≈ºyj `.option("delimiter", ";")`

In [0]:
# TODO: Wczytaj customers.csv z delimitorem `;` i bez inferSchema
# customers_wrong_df = spark.read.format("csv")...

# TODO: Wy≈õwietl schemat i 5 wierszy
# customers_wrong_df.printSchema()
# customers_wrong_df.show(5, truncate=False)

# Zaobserwuj, ≈ºe wszystkie dane bƒôdƒÖ w jednej kolumnie


---

## Czƒô≈õƒá 2: Import danych JSON (Orders)

### 2.1. Wczytanie JSON z automatycznym wykrywaniem schematu

In [0]:
# Wczytanie danych JSON z automatycznym wykrywaniem schematu
orders_auto_df = (
    spark.read
    .format("json")
    .option("inferSchema", "true")
    .load(ORDERS_JSON)
)

print(" Schemat JSON wykryty automatycznie:")
orders_auto_df.printSchema()

In [0]:
print("\n Pr√≥bka danych JSON:")
orders_auto_df.display()

### 2.2. Eksploracja danych JSON

In [0]:
# Liczba kolumn i wierszy
print(f" Liczba kolumn: {len(orders_auto_df.columns)}")
print(f" Nazwy kolumn: {orders_auto_df.columns}")
print(f" Liczba wierszy: {orders_auto_df.count()}")

In [0]:
# Typy danych
print("\n Typy danych:")
for col_name, col_type in orders_auto_df.dtypes:
    print(f"  - {col_name}: {col_type}")

### 2.3. Rƒôczna definicja schematu dla JSON

In [0]:
from pyspark.sql.types import DoubleType, StringType, StructField, StructType, TimestampType, IntegerType

# Definicja schematu dla orders
# Struktura rzeczywista: order_id, customer_id, product_id, store_id, order_datetime, quantity, unit_price, discount_percent, total_amount, payment_method
orders_schema = StructType([
    StructField("order_id", StringType(), nullable=True),  # Mo≈ºe byƒá null w danych
    StructField("customer_id", StringType(), nullable=False),
    StructField("product_id", StringType(), nullable=False),
    StructField("store_id", StringType(), nullable=False),
    StructField("order_datetime", StringType(), nullable=True),  # String, will convert to timestamp later
    StructField("quantity", IntegerType(), nullable=False),
    StructField("unit_price", DoubleType(), nullable=False),
    StructField("discount_percent", IntegerType(), nullable=False),
    StructField("total_amount", DoubleType(), nullable=False),
    StructField("payment_method", StringType(), nullable=False)
])

In [0]:
%skip
orders_schema = StructType([
    StructField("order_id", StringType(), nullable=False),
    StructField("customer_id", StringType(), nullable=True),
    StructField("order_datetime", TimestampType(), nullable=True),
    StructField("total_amount", DoubleType(), nullable=True),
    StructField("status", StringType(), nullable=True)
])

In [0]:
# Wczytanie danych JSON z rƒôcznie zdefiniowanym schematem
orders_df = (
    spark.read
    .format("json")
    .schema(orders_schema)
    .load(ORDERS_JSON)
)

print(" Schemat JSON zdefiniowany rƒôcznie:")
orders_df.printSchema()

print("\n Pr√≥bka danych z rƒôcznym schematem:")
orders_df.display(5, truncate=False)

### 2.4. Statystyki opisowe dla JSON

In [0]:
# Statystyki dla kolumn numerycznych
print(" Statystyki dla orders:")
orders_df.select("order_id", "customer_id", "total_amount").describe().display()

In [0]:
# Rozk≈Çad zam√≥wie≈Ñ wed≈Çug metody p≈Çatno≈õci
print("\n Rozk≈Çad zam√≥wie≈Ñ wed≈Çug metody p≈Çatno≈õci (payment_method):")
orders_df.groupBy("payment_method").count().orderBy("count", ascending=False).display()

In [0]:
# Top 10 klient√≥w z najwiƒôkszƒÖ liczbƒÖ zam√≥wie≈Ñ
print("\n Top 10 klient√≥w z najwiƒôkszƒÖ liczbƒÖ zam√≥wie≈Ñ:")
orders_auto_df.groupBy("customer_id").count().orderBy("count", ascending=False).limit(10).display()

### ‚úÖ ƒÜwiczenie 2: Eksploracja danych JSON

**Zadanie:**
1. Policz liczbƒô unikalnych klient√≥w w DataFrame `orders_auto_df`
2. Znajd≈∫ warto≈õƒá maksymalnƒÖ i minimalnƒÖ w kolumnie `total_amount`
3. Policz liczbƒô zam√≥wie≈Ñ wed≈Çug metody p≈Çatno≈õci (`payment_method`)

**Hint:** U≈ºyj `.select()`, `.distinct()`, `.count()`, `.agg()`, `.groupBy()`

In [0]:
# TODO: Policz liczbƒô unikalnych customer_id
# unique_customers = orders_auto_df.select("customer_id").distinct().count()
# print(f"Liczba unikalnych klient√≥w: {unique_customers}")

# TODO: Znajd≈∫ min i max total_amount
# from pyspark.sql.functions import min, max
# orders_auto_df.select(min("total_amount"), max("total_amount")).display()

# TODO: Policz zam√≥wienia wed≈Çug metody p≈Çatno≈õci
# orders_auto_df.groupBy("payment_method").count().display()

pass

---

## Czƒô≈õƒá 3: Import danych Parquet (Products)

### 3.1. Wczytanie Parquet (schemat wbudowany)

In [0]:
# Parquet zawiera ju≈º schemat wbudowany - nie trzeba go definiowaƒá
products_df = (
    spark.read
    .format("parquet")
    .load(PRODUCTS_PARQUET)
)

print(" Schemat Parquet (wbudowany):")
products_df.printSchema()

print("\n Pr√≥bka danych Parquet:")
products_df.display(5, truncate=False)

### 3.2. Eksploracja danych Parquet

In [0]:
# Podstawowe informacje
print(f" Liczba kolumn: {len(products_df.columns)}")
print(f" Nazwy kolumn: {products_df.columns}")
print(f" Liczba produkt√≥w: {products_df.count()}")


In [0]:
# Typy danych
print("\n Typy danych:")
for col_name, col_type in products_df.dtypes:
    print(f"  - {col_name}: {col_type}")

### 3.3. Statystyki opisowe dla Parquet

In [0]:
# Statystyki dla kolumn numerycznych
print(" Statystyki dla products:")
products_df.describe().display()


In [0]:
# Rozszerzone statystyki
print("\n Rozszerzone statystyki:")
products_df.summary().display()

### ‚úÖ ƒÜwiczenie 3: Analiza danych Parquet

**Zadanie:**
1. Znajd≈∫ ≈õredniƒÖ cenƒô produktu (je≈õli kolumna `price` istnieje)
2. Znajd≈∫ 5 najdro≈ºszych produkt√≥w
3. Policz produkty wed≈Çug kategorii (je≈õli kolumna istnieje)

**Hint:** U≈ºyj `.agg()`, `.orderBy()`, `.limit()`

In [0]:
from pyspark.sql.functions import avg
# TODO: Oblicz ≈õredniƒÖ cenƒô
products_df.select(avg("_____")).display()

# TODO: Znajd≈∫ 5 najdro≈ºszych produkt√≥w
products_df.orderBy(col("_____").desc()).limit(5).display()

# TODO: Policz produkty wed≈Çug kategorii
if "category" in products_df.columns:
    products_df.groupBy("category").count().display()


---

## Czƒô≈õƒá 4: Por√≥wnanie wydajno≈õci

### 4.1. Wczytanie CSV: inferSchema vs rƒôczny schemat

In [0]:
import time

# Test 1: Automatyczne wykrywanie schematu
start_auto = time.time()
df_auto = (
    spark.read
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .load(CUSTOMERS_CSV)
)
count_auto = df_auto.count()  # Action - wymusza wykonanie
time_auto = time.time() - start_auto

print(f"[BENCHMARK] Wczytanie CSV z inferSchema: {time_auto:.3f} sekund")
print(f"[BENCHMARK] Liczba wierszy: {count_auto}")

# Test 2: Rƒôczne zdefiniowanie schematu
start_manual = time.time()
df_manual = (
    spark.read
    .format("csv")
    .option("header", "true")
    .schema(customers_schema)
    .load(CUSTOMERS_CSV)
)
count_manual = df_manual.count()  # Action - wymusza wykonanie
time_manual = time.time() - start_manual

print(f"\n[BENCHMARK] Wczytanie CSV z rƒôcznym schematem: {time_manual:.3f} sekund")
print(f"[BENCHMARK] Liczba wierszy: {count_manual}")

# Por√≥wnanie
speedup = (time_auto - time_manual) / time_auto * 100
print(f"\n[WYNIK] Przyspieszenie: {speedup:.1f}%")

---

## Czƒô≈õƒá 5: Best Practices

### Zalecenia przy importowaniu danych:

1. **Zawsze definiuj schemat rƒôcznie**
   - Szybsze wczytywanie
   - Kontrola typ√≥w danych
   - Unikniƒôcie b≈Çƒôd√≥w typu

2. **Wybieraj odpowiedni format**
   - **Parquet** - najlepszy dla analityki (kolumnowy, kompresja)
   - **CSV** - ≈Çatwy do debugowania, ale wolniejszy
   - **JSON** - elastyczny dla danych semi-strukturalnych

3. **U≈ºywaj partycjonowania**
   - Przyspieszenie zapyta≈Ñ filtrujƒÖcych
   - Przyk≈Çad: partycjonowanie zam√≥wie≈Ñ wed≈Çug daty

4. **Sprawdzaj jako≈õƒá danych od razu**
   - `count()` - sprawd≈∫ liczbƒô wierszy
   - `describe()` - sprawd≈∫ rozk≈Çad warto≈õci
   - `printSchema()` - zweryfikuj typy

5. **U≈ºywaj `limit()` podczas eksperymentowania**
   - Przyspiesza iteracje nad kodem
   - Przyk≈Çad: `df.limit(1000).display()`

6. **Dokumentuj schematy**
   - U≈Çatwia utrzymanie kodu
   - Przyk≈Çad: komentarze przy definicji StructType

---

## Podsumowanie

W tym notebooku nauczy≈Çe≈õ siƒô:

‚úÖ **DataFrame Reader API**
- Wczytywanie danych z CSV, JSON, Parquet
- Konfiguracja opcji (header, inferSchema, delimiter)

‚úÖ **Rƒôczna definicja schematu**
- Tworzenie schemat√≥w za pomocƒÖ StructType i StructField
- Por√≥wnanie wydajno≈õci: inferSchema vs rƒôczny schemat

‚úÖ **Operacje eksploracyjne**
- Podstawowe operacje: columns, dtypes, count
- Statystyki: describe(), summary()
- Grupowanie i agregacja

‚úÖ **Best Practices**
- Zalecenie rƒôcznego definiowania schematu
- Wyb√≥r formatu danych dla r√≥≈ºnych scenariuszy
- Sprawdzanie jako≈õci danych

---

### Nastƒôpne kroki:

üìå **Kolejny notebook:** `03_basic_transformations_sql_pyspark.ipynb`  
üìå **Temat:** Transformacje danych, operacje SQL i PySpark API

---

## Zasoby dodatkowe

- [Databricks - Reading Data](https://docs.databricks.com/ingestion/index.html)
- [PySpark DataFrame API](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/dataframe.html)

---