# Imports and Setup
This cell imports required libraries for Spark, HTTP requests, data validation, and MongoDB connectivity.

In [0]:
from pyspark.sql import SparkSession
import requests
import json
from pydantic import BaseModel
from typing import Optional, List
from datetime import datetime
from pymongo import MongoClient
from pymongo.server_api import ServerApi

# Data Models Definition
This cell defines Pydantic models for Points, Addresses, External IDs, Plots, and Buildings, which are used for data validation and structuring.

In [0]:
class Point(BaseModel):
    type: str
    coordinates: list  

class Address(BaseModel):
    id: str
    source: str
    street_number: Optional[str] = None
    street_rep: Optional[str] = None
    street: Optional[str] = None
    city_name: Optional[str] = None
    city_zipcode: Optional[str] = None
    city_insee_code: Optional[int] = None

class ExtID(BaseModel):
    id: str
    source: str
    source_version: Optional[str] = None
    created_at: Optional[datetime] = None

class Plot(BaseModel):
    id: str
    bdg_cover_ratio: Optional[float] = None

class Building(BaseModel):
    rnb_id: str
    status: Optional[str] = None
    point: Optional[Point] = None
    shape: Optional[Point] = None
    addresses: List[Address] = []
    ext_ids: List[ExtID] = []
    is_active: bool = True
    plots: List[Plot] = []


# MongoDB Setup and API Ingestion
This cell connects to MongoDB, fetches building data from the RNB API, validates it, and stores it in the database.

In [0]:
# MongoDB setup
client = MongoClient("mongodb+srv://mbipchristian_db_user:password@cluster0.scoxfhf.mongodb.net/?appName=Cluster0", server_api=ServerApi('1'))

db = client["rnb_db"]
collection = db["buildings_all"]

# API request
API_BASE = "https://rnb-api.beta.gouv.fr/api/alpha/buildings/?insee_code=33063&limit=100"

count = 0
while API_BASE:
    response = requests.get(API_BASE)
    response.raise_for_status()
    data = response.json()

    for b in data['results']:
        try:
            # Validation avec Pydantic
            building = Building(**b)
            # Insertion dans MongoDB
            collection.update_one(
                {"rnb_id": building.rnb_id},  # clé unique pour éviter doublons
                {"$set": building.model_dump()},
                upsert=True
            )
            count += 1
            if count % 100 == 0:
                print(f"{count} bâtiments ajoutés dans MongoDB")
        
        except Exception as e:
            print(f"Erreur pour le bâtiment {b.get('rnb_id')}: {e}")
    
    # passer à la page suivante
    url = data.get('next')

print("Tous les bâtiments récupérés et stockés dans MongoDB !")

100 bâtiments ajoutés dans MongoDB
200 bâtiments ajoutés dans MongoDB
300 bâtiments ajoutés dans MongoDB
400 bâtiments ajoutés dans MongoDB
500 bâtiments ajoutés dans MongoDB
600 bâtiments ajoutés dans MongoDB
700 bâtiments ajoutés dans MongoDB
800 bâtiments ajoutés dans MongoDB
900 bâtiments ajoutés dans MongoDB
1000 bâtiments ajoutés dans MongoDB
1100 bâtiments ajoutés dans MongoDB
1200 bâtiments ajoutés dans MongoDB
1300 bâtiments ajoutés dans MongoDB
1400 bâtiments ajoutés dans MongoDB
1500 bâtiments ajoutés dans MongoDB
1600 bâtiments ajoutés dans MongoDB
1700 bâtiments ajoutés dans MongoDB
1800 bâtiments ajoutés dans MongoDB
1900 bâtiments ajoutés dans MongoDB
2000 bâtiments ajoutés dans MongoDB
2100 bâtiments ajoutés dans MongoDB
2200 bâtiments ajoutés dans MongoDB
2300 bâtiments ajoutés dans MongoDB
2400 bâtiments ajoutés dans MongoDB
2500 bâtiments ajoutés dans MongoDB
2600 bâtiments ajoutés dans MongoDB
2700 bâtiments ajoutés dans MongoDB
2800 bâtiments ajoutés dans MongoDB
2