# Databricks Training: Import i eksploracja danych

**ModuÅ‚:** Fundamentals & Data Exploration  
**Temat:** DataFrame Reader API, opcje wczytywania, konstrukcja schematÃ³w, podstawowe operacje eksploracyjne  
**Czas trwania:** 20 minut  
**Poziom:** PoczÄ…tkujÄ…cy

---

## Cel szkoleniowy

W tym notebooku nauczysz siÄ™:
- UÅ¼ywaÄ‡ DataFrame Reader API do wczytywania danych z rÃ³Å¼nych formatÃ³w
- KonfigurowaÄ‡ opcje czytania danych (header, delimiter, inferSchema)
- RÄ™cznie definiowaÄ‡ schematy za pomocÄ… StructType i StructField
- WykonywaÄ‡ podstawowe operacje eksploracyjne na DataFrame (columns, dtypes, count, describe, summary)
- PorÃ³wnywaÄ‡ automatyczne wykrywanie schematÃ³w z rÄ™cznÄ… definicjÄ…

---

## Kontekst biznesowy

Organizacja KION zarzÄ…dza danymi z rÃ³Å¼nych ÅºrÃ³deÅ‚:
- **Klienci** - dane w formacie CSV
- **ZamÃ³wienia** - dane w formacie JSON
- **Produkty** - dane w formacie Parquet

Zadaniem data engineera jest:
1. ZaimportowaÄ‡ dane z rÃ³Å¼nych formatÃ³w do Databricks
2. ZrozumieÄ‡ strukturÄ™ danych i typy kolumn
3. PrzygotowaÄ‡ dane do dalszych transformacji

---

## Podstawy teoretyczne

### DataFrame Reader API

Databricks udostÄ™pnia uniwersalne API do wczytywania danych:

```python
spark.read.format("format").option("key", "value").load("path")
```

Wspierane formaty:
- **CSV** - dane tabelaryczne z separatorami
- **JSON** - dane semi-strukturalne
- **Parquet** - kolumnowy format binarny z kompresjÄ…
- **Delta** - format transakcyjny (omÃ³wiony w kolejnych moduÅ‚ach)

### Opcje wczytywania danych

Dla **CSV**:
- `header=True` - pierwsza linia zawiera nazwy kolumn
- `inferSchema=True` - automatyczne wykrywanie typÃ³w danych
- `delimiter=","` - separator kolumn

Dla **JSON**:
- `multiLine=True` - JSON rozÅ‚oÅ¼ony na wiele linii
- `inferSchema=True` - wykrywanie struktury zagnieÅ¼dÅ¼onej

### Definicja schematu

Zalecana praktyka: **rÄ™czne definiowanie schematu** zamiast automatycznego wykrywania.

KorzyÅ›ci:
- Szybsze wczytywanie (brak koniecznoÅ›ci skanowania danych)
- Kontrola typÃ³w danych
- UnikniÄ™cie bÅ‚Ä™dÃ³w przy niepoprawnych danych

PrzykÅ‚ad:

```python
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType([
    StructField("customer_id", IntegerType(), False),
    StructField("name", StringType(), True)
])
```

### Operacje eksploracyjne

| Operacja | Opis |
|----------|------|
| `df.columns` | Lista nazw kolumn |
| `df.dtypes` | Lista typÃ³w kolumn |
| `df.count()` | Liczba wierszy |
| `df.printSchema()` | Struktura schematu |
| `df.describe()` | Statystyki opisowe (count, mean, stddev, min, max) |
| `df.summary()` | Rozszerzone statystyki (+ percentyle) |
| `df.show(n)` | WyÅ›wietl n wierszy |

---

## Inicjalizacja Å›rodowiska

Wykonujemy centralny skrypt konfiguracyjny:

In [0]:
%run ../00_setup

## Konfiguracja notebooka

Definiujemy zmienne specyficzne dla tego notebooka:

In [0]:
# ÅšcieÅ¼ki do katalogÃ³w z danymi (podkatalogi w DATASET_BASE_PATH z 00_setup)
CUSTOMERS_PATH = f"{DATASET_BASE_PATH}/customers"
ORDERS_PATH = f"{DATASET_BASE_PATH}/orders"
PRODUCTS_PATH = f"{DATASET_BASE_PATH}/products"

# ÅšcieÅ¼ki do konkretnych plikÃ³w
CUSTOMERS_CSV = f"{CUSTOMERS_PATH}/customers.csv"
ORDERS_JSON = f"{ORDERS_PATH}/orders_batch.json"
PRODUCTS_PARQUET = f"{PRODUCTS_PATH}/products.parquet"

print(f"ÅšcieÅ¼ka do pliku customers CSV: {CUSTOMERS_CSV}")
print(f"ÅšcieÅ¼ka do pliku orders JSON: {ORDERS_JSON}")
print(f"ÅšcieÅ¼ka do pliku products Parquet: {PRODUCTS_PARQUET}")

---

## CzÄ™Å›Ä‡ 1: Import danych CSV (Customers)

### 1.1. Wczytanie CSV z automatycznym wykrywaniem schematu

In [0]:
# Wczytanie danych CSV z automatycznym wykrywaniem schematu
customers_auto_df = (
    spark.read
    .format("csv")
    .option("header", "true")       # Pierwsza linia to nazwy kolumn
    .option("inferSchema", "true")  # Automatyczne wykrywanie typÃ³w danych
    .load(CUSTOMERS_CSV)
)

In [0]:
# WyÅ›wietl schemat
print(" Schemat wykryty automatycznie:")
customers_auto_df.printSchema()

In [0]:
print("\n PrÃ³bka danych (5 wierszy):")
customers_auto_df.show(5, truncate=False)

In [0]:
# WyÅ›wietl prÃ³bkÄ™ danych
print("\n PrÃ³bka danych :")
display(customers_auto_df.head())

### 1.2. Eksploracja danych CSV

In [0]:
# Lista nazw kolumn
print(" Kolumny DataFrame:")
customers_auto_df.columns

In [0]:
# Lista typÃ³w danych
print("\n Typy danych kolumn:")
customers_auto_df.dtypes

In [0]:
# Liczba wierszy
row_count = customers_auto_df.count()
print(f"\nLiczba wierszy: {row_count}")

### 1.3. Statystyki opisowe

In [0]:
from pyspark.sql.types import StructType, StructField, StringType

# Definicja schematu dla customers
# Struktura rzeczywista: customer_id, first_name, last_name, email, phone, city, state, country, registration_date, customer_segment
customers_schema = StructType([
    StructField("customer_id", StringType(), nullable=False),
    StructField("first_name", StringType(), nullable=True),
    StructField("last_name", StringType(), nullable=True), 
    StructField("email", StringType(), nullable=True),
    StructField("phone", StringType(), nullable=True),
    StructField("city", StringType(), nullable=True),
    StructField("state", StringType(), nullable=True),
    StructField("country", StringType(), nullable=True),
    StructField("registration_date", StringType(), nullable=True),  # Date as string, will convert later
    StructField("customer_segment", StringType(), nullable=True)
])

# Statystyki opisowe (count, mean, stddev, min, max)
print(" Statystyki opisowe (describe):")
customers_auto_df.describe().display()

In [0]:
# Rozszerzone statystyki (+ percentyle)
print("\n Rozszerzone statystyki (summary):")
customers_auto_df.summary().display()

### 1.4. RÄ™czna definicja schematu dla CSV

**Best Practice:** Definiowanie schematu manualnie zapewnia kontrolÄ™ i wydajnoÅ›Ä‡.

In [0]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, TimestampType

In [0]:
# Definicja schematu dla customers
# Struktura: customer_id (int), first_name (string), last_name (string), email (string), city (string), country (string), registration_date (timestamp)
customers_schema = StructType([
    StructField("customer_id", IntegerType(), nullable=False),
    StructField("first_name", StringType(), nullable=True),
    StructField("last_name", StringType(), nullable=True),
    StructField("city", StringType(), nullable=True),
    StructField("email", StringType(), nullable=True),
    StructField("country", StringType(), nullable=True),
    StructField("registration_date", TimestampType(), nullable=True)
])

In [0]:
# Wczytanie danych CSV z rÄ™cznie zdefiniowanym schematem
customers_df = (
    spark.read
    .format("csv")
    .option("header", "true")
    .schema(customers_schema)  # UÅ¼ycie zdefiniowanego schematu
    .load(CUSTOMERS_CSV)
)
customers_df.printSchema()

In [0]:
print("\n PrÃ³bka danych z rÄ™cznym schematem:")
customers_df.show(5, truncate=False)

### âœ… Ä†wiczenie 1: Wczytanie CSV z wÅ‚asnymi opcjami

**Zadanie:** Wczytaj plik CSV `customers.csv` ponownie, ale:
- Ustaw delimiter na `;` (celowo bÅ‚Ä™dny, aby zobaczyÄ‡ efekt)
- WyÅ‚Ä…cz `inferSchema`
- Zaobserwuj, jak to wpÅ‚ywa na wynik

**Hint:** UÅ¼yj `.option("delimiter", ";")`

In [0]:
# TODO: Wczytaj customers.csv z delimitorem `;` i bez inferSchema
# customers_wrong_df = spark.read.format("csv")...

# TODO: WyÅ›wietl schemat i 5 wierszy
# customers_wrong_df.printSchema()
# customers_wrong_df.show(5, truncate=False)

# Zaobserwuj, Å¼e wszystkie dane bÄ™dÄ… w jednej kolumnie


---

## CzÄ™Å›Ä‡ 2: Import danych JSON (Orders)

### 2.1. Wczytanie JSON z automatycznym wykrywaniem schematu

In [0]:
# Wczytanie danych JSON z automatycznym wykrywaniem schematu
orders_auto_df = (
    spark.read
    .format("json")
    .option("inferSchema", "true")
    .load(ORDERS_JSON)
)

print(" Schemat JSON wykryty automatycznie:")
orders_auto_df.printSchema()

In [0]:
print("\n PrÃ³bka danych JSON:")
orders_auto_df.display()

### 2.2. Eksploracja danych JSON

In [0]:
# Liczba kolumn i wierszy
print(f" Liczba kolumn: {len(orders_auto_df.columns)}")
print(f" Nazwy kolumn: {orders_auto_df.columns}")
print(f" Liczba wierszy: {orders_auto_df.count()}")

In [0]:
# Typy danych
print("\n Typy danych:")
for col_name, col_type in orders_auto_df.dtypes:
    print(f"  - {col_name}: {col_type}")

### 2.3. RÄ™czna definicja schematu dla JSON

In [0]:
from pyspark.sql.types import DoubleType, StringType, StructField, StructType, TimestampType, IntegerType

# Definicja schematu dla orders
# Struktura rzeczywista: order_id, customer_id, product_id, store_id, order_datetime, quantity, unit_price, discount_percent, total_amount, payment_method
orders_schema = StructType([
    StructField("order_id", StringType(), nullable=True),  # MoÅ¼e byÄ‡ null w danych
    StructField("customer_id", StringType(), nullable=False),
    StructField("product_id", StringType(), nullable=False),
    StructField("store_id", StringType(), nullable=False),
    StructField("order_datetime", StringType(), nullable=True),  # String, will convert to timestamp later
    StructField("quantity", IntegerType(), nullable=False),
    StructField("unit_price", DoubleType(), nullable=False),
    StructField("discount_percent", IntegerType(), nullable=False),
    StructField("total_amount", DoubleType(), nullable=False),
    StructField("payment_method", StringType(), nullable=False)
])

In [0]:
%skip
orders_schema = StructType([
    StructField("order_id", StringType(), nullable=False),
    StructField("customer_id", StringType(), nullable=True),
    StructField("order_datetime", TimestampType(), nullable=True),
    StructField("total_amount", DoubleType(), nullable=True),
    StructField("status", StringType(), nullable=True)
])

In [0]:
# Wczytanie danych JSON z rÄ™cznie zdefiniowanym schematem
orders_df = (
    spark.read
    .format("json")
    .schema(orders_schema)
    .load(ORDERS_JSON)
)

print(" Schemat JSON zdefiniowany rÄ™cznie:")
orders_df.printSchema()

print("\n PrÃ³bka danych z rÄ™cznym schematem:")
orders_df.display(5, truncate=False)

### 2.4. Statystyki opisowe dla JSON

In [0]:
# Statystyki dla kolumn numerycznych
print(" Statystyki dla orders:")
orders_df.select("order_id", "customer_id", "total_amount").describe().display()

In [0]:
# RozkÅ‚ad wartoÅ›ci dla kolumny 'status'
print("\n RozkÅ‚ad wartoÅ›ci w kolumnie 'status':")
orders_df.groupBy("customer_id").count().orderBy("count", ascending=False).display()

In [0]:
# RozkÅ‚ad wartoÅ›ci dla kolumny 'status'
print("\n RozkÅ‚ad wartoÅ›ci w kolumnie 'status':")
orders_auto_df.groupBy("customer_id").count().orderBy("count", ascending=False).display()

### âœ… Ä†wiczenie 2: Eksploracja danych JSON

**Zadanie:**
1. Policz liczbÄ™ unikalnych klientÃ³w w DataFrame `orders_auto_df`
2. ZnajdÅº wartoÅ›Ä‡ maksymalnÄ… i minimalnÄ… w kolumnie `total_amount`
3. Policz liczbÄ™ zamÃ³wieÅ„ w kaÅ¼dym statusie

**Hint:** UÅ¼yj `.select()`, `.distinct()`, `.count()`, `.agg()`, `.groupBy()`

In [0]:
# TODO: Policz liczbÄ™ unikalnych customer_id
# unique_customers = orders_auto_df.select("customer_id").____().count()
# print(f"Liczba unikalnych klientÃ³w: {unique_customers}")

# TODO: ZnajdÅº min i max total_amount
# from pyspark.sql.functions import min, max
# orders_auto_df.select(min("____"), __("total_amount")).display()

# TODO: Policz zamÃ³wienia wedÅ‚ug statusu
# orders_auto_df.groupBy("____").count().display()

pass

---

## CzÄ™Å›Ä‡ 3: Import danych Parquet (Products)

### 3.1. Wczytanie Parquet (schemat wbudowany)

In [0]:
# Parquet zawiera juÅ¼ schemat wbudowany - nie trzeba go definiowaÄ‡
products_df = (
    spark.read
    .format("parquet")
    .load(PRODUCTS_PARQUET)
)

print(" Schemat Parquet (wbudowany):")
products_df.printSchema()

print("\n PrÃ³bka danych Parquet:")
products_df.display(5, truncate=False)

### 3.2. Eksploracja danych Parquet

In [0]:
# Podstawowe informacje
print(f" Liczba kolumn: {len(products_df.columns)}")
print(f" Nazwy kolumn: {products_df.columns}")
print(f" Liczba produktÃ³w: {products_df.count()}")


In [0]:
# Typy danych
print("\n Typy danych:")
for col_name, col_type in products_df.dtypes:
    print(f"  - {col_name}: {col_type}")

### 3.3. Statystyki opisowe dla Parquet

In [0]:
# Statystyki dla kolumn numerycznych
print(" Statystyki dla products:")
products_df.describe().display()


In [0]:
# Rozszerzone statystyki
print("\n Rozszerzone statystyki:")
products_df.summary().display()

### âœ… Ä†wiczenie 3: Analiza danych Parquet

**Zadanie:**
1. ZnajdÅº Å›redniÄ… cenÄ™ produktu (jeÅ›li kolumna `price` istnieje)
2. ZnajdÅº 5 najdroÅ¼szych produktÃ³w
3. Policz produkty wedÅ‚ug kategorii (jeÅ›li kolumna istnieje)

**Hint:** UÅ¼yj `.agg()`, `.orderBy()`, `.limit()`

In [0]:
from pyspark.sql.functions import avg
# TODO: Oblicz Å›redniÄ… cenÄ™
products_df.select(avg("_____")).display()

# TODO: ZnajdÅº 5 najdroÅ¼szych produktÃ³w
products_df.orderBy(col("_____").desc()).limit(5).display()

# TODO: Policz produkty wedÅ‚ug kategorii
if "category" in products_df.columns:
    products_df.groupBy("category").count().display()


---

## CzÄ™Å›Ä‡ 4: PorÃ³wnanie wydajnoÅ›ci

### 4.1. Wczytanie CSV: inferSchema vs rÄ™czny schemat

In [0]:
import time

# Test 1: Automatyczne wykrywanie schematu
start_auto = time.time()
df_auto = (
    spark.read
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .load(CUSTOMERS_CSV)
)
count_auto = df_auto.count()  # Action - wymusza wykonanie
time_auto = time.time() - start_auto

print(f"[BENCHMARK] Wczytanie CSV z inferSchema: {time_auto:.3f} sekund")
print(f"[BENCHMARK] Liczba wierszy: {count_auto}")

# Test 2: RÄ™czne zdefiniowanie schematu
start_manual = time.time()
df_manual = (
    spark.read
    .format("csv")
    .option("header", "true")
    .schema(customers_schema)
    .load(CUSTOMERS_CSV)
)
count_manual = df_manual.count()  # Action - wymusza wykonanie
time_manual = time.time() - start_manual

print(f"\n[BENCHMARK] Wczytanie CSV z rÄ™cznym schematem: {time_manual:.3f} sekund")
print(f"[BENCHMARK] Liczba wierszy: {count_manual}")

# PorÃ³wnanie
speedup = (time_auto - time_manual) / time_auto * 100
print(f"\n[WYNIK] Przyspieszenie: {speedup:.1f}%")

---

## CzÄ™Å›Ä‡ 5: Best Practices

### Zalecenia przy importowaniu danych:

1. **Zawsze definiuj schemat rÄ™cznie**
   - Szybsze wczytywanie
   - Kontrola typÃ³w danych
   - UnikniÄ™cie bÅ‚Ä™dÃ³w typu

2. **Wybieraj odpowiedni format**
   - **Parquet** - najlepszy dla analityki (kolumnowy, kompresja)
   - **CSV** - Å‚atwy do debugowania, ale wolniejszy
   - **JSON** - elastyczny dla danych semi-strukturalnych

3. **UÅ¼ywaj partycjonowania**
   - Przyspieszenie zapytaÅ„ filtrujÄ…cych
   - PrzykÅ‚ad: partycjonowanie zamÃ³wieÅ„ wedÅ‚ug daty

4. **Sprawdzaj jakoÅ›Ä‡ danych od razu**
   - `count()` - sprawdÅº liczbÄ™ wierszy
   - `describe()` - sprawdÅº rozkÅ‚ad wartoÅ›ci
   - `printSchema()` - zweryfikuj typy

5. **UÅ¼ywaj `limit()` podczas eksperymentowania**
   - Przyspiesza iteracje nad kodem
   - PrzykÅ‚ad: `df.limit(1000).display()`

6. **Dokumentuj schematy**
   - UÅ‚atwia utrzymanie kodu
   - PrzykÅ‚ad: komentarze przy definicji StructType

---

## Podsumowanie

W tym notebooku nauczyÅ‚eÅ› siÄ™:

âœ… **DataFrame Reader API**
- Wczytywanie danych z CSV, JSON, Parquet
- Konfiguracja opcji (header, inferSchema, delimiter)

âœ… **RÄ™czna definicja schematu**
- Tworzenie schematÃ³w za pomocÄ… StructType i StructField
- PorÃ³wnanie wydajnoÅ›ci: inferSchema vs rÄ™czny schemat

âœ… **Operacje eksploracyjne**
- Podstawowe operacje: columns, dtypes, count
- Statystyki: describe(), summary()
- Grupowanie i agregacja

âœ… **Best Practices**
- Zalecenie rÄ™cznego definiowania schematu
- WybÃ³r formatu danych dla rÃ³Å¼nych scenariuszy
- Sprawdzanie jakoÅ›ci danych

---

### NastÄ™pne kroki:

ðŸ“Œ **Kolejny notebook:** `03_basic_transformations_sql_pyspark.ipynb`  
ðŸ“Œ **Temat:** Transformacje danych, operacje SQL i PySpark API

---

## Zasoby dodatkowe

- [Databricks - Reading Data](https://docs.databricks.com/ingestion/index.html)
- [PySpark DataFrame API](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/dataframe.html)

---