# Projekt Lakehouse na Azure – Szacunki i Analiza

---

## Zadanie 1 – Szacunkowy koszt roczny (Azure)

### Założenia:
- **Dane początkowe:** 10 TB
- **Miesięczny przyrost:** 200 GB → **rocznie:** 2.4 TB
- **Łącznie:** 12.4 TB

### Koszt roczny usług (wg Azure Pricing Calculator):

| Usługa             | Opis                                                                      | Koszt (USD / rok) |
|--------------------|---------------------------------------------------------------------------|--------------------|
| **Storage Account**| Azure Data Lake Gen2, 12.4 TB danych (hot, LRS)                          | ~$3,800            |
| **Databricks**     | 1 cluster (16 DBU x 8h x 30 dni x 12 mies.)                              | ~$11,000           |
| **Key Vault**      | 1 klucz HSM + 10k operacji miesięcznie                                   | ~$100              |
| **Data Factory**   | 50 pipeline'ów dziennie, 10 kopiowań                                      | ~$1,200            |
| **SQL Database**   | 2 vCore, 32 GB, General Purpose                                           | ~$1,300            |

** SUMA: ~ $17,400 – $20,000 / rok**


---

##  Zadanie 2 – Delta Lake vs Iceberg

| Cecha                       | **Delta Lake**                      | **Apache Iceberg**                 |
|----------------------------|-------------------------------------|------------------------------------|
| Wsparcie w Databricks      | Native                           |  Zewnętrzne                      |
| ACID                       | Tak                              |  Tak                             |
| Time travel                | Bardzo prosty                    |  Snapshot-based                  |
| Evolucja schem             | Łatwa                            |  Manualna aktualizacja manifest |
| Format                    | Parquet + Delta Log                | Parquet / Avro + Manifests        |
| Streaming support          | Rozwinięty                       |  Ograniczony                     |
| Społeczność                |  Szeroka (Databricks)             |  Rośnie (Netflix, Snowflake)    |
| Użycie ze Sparkiem        |  Native                           |  Potrzebna integracja           |

** Wniosek:**  
Delta Lake – bezpieczny wybór na Databricks i Spark.  
Iceberg – warto rozważyć przy vendor-neutral architecture.

---

## Zadanie 3 – Krytyka architektury medalionowej

> Architektura Bronze → Silver → Gold ma wiele zalet, ale nie zawsze jest potrzebna.

| #  | Krytyka                                 | Opis |
|----|------------------------------------------|------|
| 1  | Zbyt duża złożoność                      | Małe projekty nie potrzebują warstw. |
| 2  | Wydłużony time-to-insight                | Opóźnienie dostępu do danych. |
| 3  | Powielanie danych                        | Bronze, Silver i Gold to często duplikaty. |
| 4  | Trudny debug                             | Dane są przekształcone – trudne w śledzeniu. |
| 5  | Sztywność ETL                            | Pipeline są trudne do modyfikacji. |
| 6  | Brak potrzeby normalizacji               | Dane płaskie nie wymagają wielu etapów. |
| 7  | Duży nakład pracy                        | Więcej kodu, testów, dokumentacji. |
| 8  | Wersjonowanie problematyczne             | Trzeba kontrolować wiele wersji danych. |
| 9  | Zamieszanie zespołowe                    | Która warstwa zawiera właściwe dane? |
| 10 | Błąd propaguje się do Gold               | Brak walidacji wcześniej = złoto z błędem. |
| 11 | Nieprzyjazne ad-hoc BI                   | Dane nie są gotowe do szybkiej analizy. |
| 12 | Brak standaryzacji                       | Inna definicja Bronze w każdym projekcie. |
| 13 | Trudna migracja                          | Refaktoring wymaga zmiany każdej warstwy. |
| 14 | Niepotrzebne przy batch-only             | Gdy nie ma streamów – zbędne. |
| 15 | Trudna automatyzacja                     | Potrzeba ADF, Airflow, orchestration. |
| 16 | Złożone zarządzanie uprawnieniami       | Różne warstwy = różne ACL. |
| 17 | Problemy z CI/CD                         | Trudne testy transformacji. |
| 18 | Nadmierna abstrakcja                     | Użytkownicy nie wiedzą co się dzieje. |
| 19 | Wydajność                                | Niepotrzebne przetwarzanie dużych zbiorów. |
| 20 | Trudny onboarding                        | Nowy użytkownik się gubi. |

---



In [None]:
print('Done')

Done
