# 01 - Initialisation et Collecte des Donn√©es

## Objectif
Ce notebook permet d'initialiser l'environnement Big Data avec:
- Configuration de Spark avec Delta Lake
- Configuration de Kafka pour la collecte en temps r√©el
- Collecte des donn√©es depuis une API
- Stockage dans le Data Lake (architecture M√©daillon)

---

## 1. Installation et Import des Librairies

### Installation des d√©pendances

In [None]:
# Installation des d√©pendances depuis requirements.txt

# !pip install -r requirements.txt

# Note: Si vous utilisez Docker, les d√©pendances sont d√©j√† install√©es dans l'image

Collecting python-dotenv==1.0.0
  Downloading python_dotenv-1.0.0-py3-none-any.whl.metadata (21 kB)
Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.0


### Import des librairies

In [None]:
# Spark et Delta Lake
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from delta import *

# Kafka
from kafka import KafkaProducer, KafkaConsumer
from kafka.admin import KafkaAdminClient, NewTopic

# Traitement et visualisation
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Utilitaires
import json
import requests
import time
from datetime import datetime
import os
from dotenv import load_dotenv

load_dotenv()

print("Toutes les librairies ont √©t√© import√©es avec succ√®s")

‚úì Toutes les librairies ont √©t√© import√©es avec succ√®s


---
## 2. Configuration de SparkSession avec Delta Lake

In [None]:
builder = SparkSession.builder \
    .appName("BigData-DataLake-Medallion") \
    .master("local[*]") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .config("spark.sql.warehouse.dir", "/tmp/spark-warehouse") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true")

spark = configure_spark_with_delta_pip(builder).getOrCreate()

spark.sparkContext.setLogLevel("WARN")

print(f"‚úì SparkSession cr√©√©e avec succ√®s")
print(f"  Version Spark: {spark.version}")
print(f"  Application ID: {spark.sparkContext.applicationId}")

:: loading settings :: url = jar:file:/opt/conda/lib/python3.12/site-packages/pyspark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/jovyan/.ivy2/cache
The jars for the packages stored in: /home/jovyan/.ivy2/jars
io.delta#delta-spark_2.12 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-9d68febb-37af-4cd4-be03-8db7d3264b81;1.0
	confs: [default]
	found io.delta#delta-spark_2.12;3.3.2 in central
	found io.delta#delta-storage;3.3.2 in central
	found org.antlr#antlr4-runtime;4.9.3 in central
downloading https://repo1.maven.org/maven2/io/delta/delta-spark_2.12/3.3.2/delta-spark_2.12-3.3.2.jar ...
	[SUCCESSFUL ] io.delta#delta-spark_2.12;3.3.2!delta-spark_2.12.jar (494ms)
downloading https://repo1.maven.org/maven2/io/delta/delta-storage/3.3.2/delta-storage-3.3.2.jar ...
	[SUCCESSFUL ] io.delta#delta-storage;3.3.2!delta-storage.jar (65ms)
downloading https://repo1.maven.org/maven2/org/antlr/antlr4-runtime/4.9.3/antlr4-runtime-4.9.3.jar ...
	[SUCCESSFUL ] org.antlr#antlr4-runtime;4.9.3!antlr4-runtime.jar (84ms)
:: resolution report :: resolve 1340ms :: a

‚úì SparkSession cr√©√©e avec succ√®s
  Version Spark: 3.5.3
  Application ID: local-1768566906634


---
## 3. Architecture M√©daillon

### Principe de l'architecture en couches

Organisation des donn√©es en trois couches:

#### ü•â **Bronze** - Donn√©es brutes
- **Format**: Delta Lake (avec support Parquet)
- **Contenu**: Donn√©es brutes exactement comme re√ßues de la source
- **Objectif**: Conservation historique compl√®te, pas de transformation

#### ü•à **Silver** - Donn√©es nettoy√©es
- **Format**: Delta Lake
- **Contenu**: Donn√©es valid√©es, d√©dupliqu√©es, enrichies
- **Objectif**: Donn√©es de qualit√© pour l'analyse

#### ü•á **Gold** - Donn√©es agr√©g√©es
- **Format**: Delta Lake
- **Contenu**: Donn√©es agr√©g√©es pour cas d'usage sp√©cifiques
- **Objectif**: Optimisation pour les dashboard, rapports, ...

In [None]:
DATALAKE_PATH = "./datalake"

BRONZE_PATH = f"{DATALAKE_PATH}/bronze"
SILVER_PATH = f"{DATALAKE_PATH}/silver"
GOLD_PATH = f"{DATALAKE_PATH}/gold"

os.makedirs(BRONZE_PATH, exist_ok=True)
os.makedirs(SILVER_PATH, exist_ok=True)
os.makedirs(GOLD_PATH, exist_ok=True)

print("Structure du Data Lake cr√©√©e:")
print(f"Bronze: {BRONZE_PATH}")
print(f"Silver: {SILVER_PATH}")
print(f"Gold: {GOLD_PATH}")

‚úì Structure du Data Lake cr√©√©e:
  Bronze: ./datalake/bronze
  Silver: ./datalake/silver
  Gold: ./datalake/gold


---
## 4. Configuration de Kafka

### Architecture de streaming
On utilise ici Kafka pour la collecte en temps r√©el des donn√©es depuis l'API.

In [None]:
KAFKA_BOOTSTRAP_SERVERS = os.getenv('KAFKA_BOOTSTRAP_SERVERS', 'kafka1:9092')
KAFKA_TOPIC = os.getenv('KAFKA_TOPIC', 'opensky-data')

print(f"Configuration Kafka:")
print(f"  Bootstrap servers: {KAFKA_BOOTSTRAP_SERVERS}")
print(f"  Topic: {KAFKA_TOPIC}")

Configuration Kafka:
  Bootstrap servers: kafka1:9092
  Topic: opensky-data


### Cr√©ation du topic Kafka

Le topic Kafka permet de stocker un flux de donn√©es de mani√®re ordonn√©e et immuable. Nous utilisons trois partitions afin de permettre la parall√©lisation.

In [None]:
def create_kafka_topic(topic_name, num_partitions=3, replication_factor=1):
    """
    Cr√©e un topic Kafka s'il n'existe pas d√©j√†.
    
    Args:
        topic_name: Nom du topic √† cr√©er
        num_partitions: Nombre de partitions (par d√©faut 3)
        replication_factor: Facteur de r√©plication (par d√©faut 1)
    """
    try:
        admin_client = KafkaAdminClient(
            bootstrap_servers=KAFKA_BOOTSTRAP_SERVERS,
            client_id='admin'
        )
        
        existing_topics = admin_client.list_topics()
        
        if topic_name not in existing_topics:
            topic = NewTopic(
                name=topic_name,
                num_partitions=num_partitions,
                replication_factor=replication_factor
            )
            admin_client.create_topics(new_topics=[topic], validate_only=False)
            print(f"‚úì Topic '{topic_name}' cr√©√© avec succ√®s")
        else:
            print(f"‚Ñπ Topic '{topic_name}' existe d√©j√†")
            
        admin_client.close()
        
    except Exception as e:
        print(f"Erreur lors de la cr√©ation du topic: {e}")

create_kafka_topic(KAFKA_TOPIC)

‚úì Topic 'opensky-data' cr√©√© avec succ√®s


### Configuration du producteur Kafka

In [None]:
def get_kafka_producer():
    """
    Cr√©e et retourne un producteur Kafka configur√©.
    
    Returns:
        KafkaProducer: Producteur Kafka configur√© avec s√©rialisation JSON
    """
    try:
        producer = KafkaProducer(
            bootstrap_servers=KAFKA_BOOTSTRAP_SERVERS,
            value_serializer=lambda v: json.dumps(v).encode('utf-8'),
            key_serializer=lambda k: k.encode('utf-8') if k else None,
            acks='all',
            retries=3,
            max_in_flight_requests_per_connection=1
        )
        print("Producteur Kafka cr√©√© avec succ√®s")
        return producer
    except Exception as e:
        print(f"Erreur lors de la cr√©ation du producteur: {e}")
        return None

producer = get_kafka_producer()

‚úì Producteur Kafka cr√©√© avec succ√®s
