# Collecte des Donn√©es d'√âv√©nements √† Bordeaux 

## Contexte du Projet
La ville de Bordeaux organise de nombreux √©v√©nements (culturels, sportifs, √©conomiques, etc.) chaque mois. L'objectif de ce notebook est de collecter, traiter et analyser les donn√©es non structur√©es issues du web pour les √©v√©nements pr√©vus en septembre 2025.

## Objectifs
1. **Identifier** les sources d'√©v√©nements en ligne
2. **Scraper** les √©v√©nements pr√©vus √† Bordeaux pour septembre 2025
3. **Nettoyer** et structurer les donn√©es collect√©es
4. **Sauvegarder** les donn√©es pour analyse ult√©rieure

## Sources Cibl√©es
- Sites officiels de la ville de Bordeaux
- Agendas culturels (th√©√¢tres, mus√©es, salles de concert)
- Plateformes sp√©cialis√©es en √©v√©nements
- Sites de venues sportives et √©conomiques

---

## 1. Import des Biblioth√®ques N√©cessaires

Nous importons toutes les biblioth√®ques n√©cessaires pour le web scraping, le traitement des donn√©es et la gestion des d√©lais.

In [2]:
# Biblioth√®ques pour le web scraping
import requests
from bs4 import BeautifulSoup
import urllib.parse
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options

# Biblioth√®ques pour le traitement des donn√©es
import pandas as pd
import numpy as np
import json
import re
from datetime import datetime, timedelta
import dateparser

# Biblioth√®ques utilitaires
import time
import random
import os
from pathlib import Path
import logging
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s")

‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s


## 2. Configuration des Outils de Web Scraping

Configuration des headers HTTP, des d√©lais entre les requ√™tes et du driver Selenium pour les sites dynamiques.

In [33]:
# Configuration du logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Headers pour les requ√™tes HTTP (simuler un navigateur)
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'fr-FR,fr;q=0.9,en;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1'
}

# Configuration de Selenium (pour les sites avec JavaScript)
def setup_selenium_driver():
    """Configure et retourne un driver Selenium Chrome en mode headless"""
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument(f'user-agent={HEADERS["User-Agent"]}')
    
    try:
        driver = webdriver.Chrome(options=chrome_options)
        return driver
    except Exception as e:
        logger.warning(f"Impossible de configurer Selenium: {e}")
        return None

# Fonction pour g√©rer les d√©lais entre les requ√™tes
def random_delay(min_seconds=1, max_seconds=3):
    """Ajoute un d√©lai al√©atoire pour √©viter la d√©tection de bot"""
    delay = random.uniform(min_seconds, max_seconds)
    time.sleep(delay)

print("‚öôÔ∏è Configuration des outils de scraping termin√©e")

‚öôÔ∏è Configuration des outils de scraping termin√©e


## 3. D√©finition des Sites Web et URLs Cibles

Liste des sources principales pour collecter les √©v√©nements bordelais de septembre 2025.

In [34]:
# Sites officiels de Bordeaux - Sources valid√©es et productives
OFFICIAL_SOURCES = {
    'bordeaux_metropole': {
        'name': 'Bordeaux M√©tropole',
        'url': 'https://www.bordeaux-metropole.fr/agenda',
        'type': 'official'
    },
    'bordeaux_ville': {
        'name': 'Ville de Bordeaux',
        'url': 'https://www.bordeaux.fr/evenements',
        'type': 'official'
    }
}

# Plateformes culturelles - URLs corrig√©es
CULTURAL_SOURCES = {
    'opera_bordeaux': {
        'name': 'Op√©ra National de Bordeaux',
        'url': 'https://www.opera-bordeaux.com/fr/saison',
        'type': 'cultural'
    },
    'cap_sciences': {
        'name': 'Cap Sciences Bordeaux',
        'url': 'https://www.cap-sciences.net/',  # URL corrig√©e
        'type': 'cultural'
    },
    'bassins_lumieres': {
        'name': 'Bassins des Lumi√®res',
        'url': 'https://www.bassins-lumieres.com/fr/home',
        'type': 'cultural'
    },
    'musee_aquitaine': {
        'name': 'Mus√©e d\'Aquitaine',
        'url': 'https://www.musee-aquitaine-bordeaux.fr/fr/agenda',  # Source alternative
        'type': 'cultural'
    }
}

# Sources sportives - URLs mises √† jour et test√©es
SPORTS_SOURCES = {
    'ubb_rugby': {
        'name': 'Union Bordeaux-B√®gles Rugby',
        'url': 'https://www.ubbrugby.com/',  # URL principale valide
        'type': 'sports'
    },
    'stade_bordeaux': {
        'name': 'Stade de Bordeaux - Matmut Atlantique',
        'url': 'https://www.matmut-atlantique.com/',  # URL principale
        'type': 'sports'
    },
    'bordeaux_metropole_sport': {
        'name': 'Bordeaux M√©tropole Sports',
        'url': 'https://www.bordeaux-metropole.fr/agenda?theme=sport',  # Alternative sportive
        'type': 'sports'
    }
}

# Sources √©conomiques/business - Sources valid√©es et productives  
BUSINESS_SOURCES = {
    'bordeaux_business': {
        'name': 'Bordeaux Business Events',
        'url': 'https://www.bordeaux-metropole.fr/agenda?theme=economie',
        'type': 'business'
    }
}

# Plateformes sp√©cialis√©es √©v√©nements - Sources valid√©es et productives
EVENT_PLATFORMS = {
    'univ_bordeaux': {
        'name': 'Universit√© de Bordeaux',
        'url': 'https://www.u-bordeaux.fr/actualites',
        'type': 'education'
    },
    'bordeaux_metropole_agenda': {
        'name': 'Bordeaux M√©tropole - Agenda Complet',
        'url': 'https://www.bordeaux-metropole.fr/agenda',
        'type': 'platform'
    }
}

print("üìä Sources optimis√©es par cat√©gorie:")
print(f"\nüèõÔ∏è Sources officielles ({len(OFFICIAL_SOURCES)}):")
for key, source in OFFICIAL_SOURCES.items():
    print(f"  - {source['name']}")

print(f"\nüé≠ Sources culturelles ({len(CULTURAL_SOURCES)}):")
for key, source in CULTURAL_SOURCES.items():
    print(f"  - {source['name']}")

print(f"\n‚öΩ Sources sportives ({len(SPORTS_SOURCES)}):")
for key, source in SPORTS_SOURCES.items():
    print(f"  - {source['name']}")

print(f"\nüíº Sources √©conomiques ({len(BUSINESS_SOURCES)}):")
for key, source in BUSINESS_SOURCES.items():
    print(f"  - {source['name']}")

print(f"\nüåê Plateformes sp√©cialis√©es ({len(EVENT_PLATFORMS)}):")
for key, source in EVENT_PLATFORMS.items():
    print(f"  - {source['name']}")

total_sources = len(OFFICIAL_SOURCES) + len(CULTURAL_SOURCES) + len(SPORTS_SOURCES) + len(BUSINESS_SOURCES) + len(EVENT_PLATFORMS)
print(f"\nüìä Total: {total_sources} sources optimis√©es")

üìä Sources optimis√©es par cat√©gorie:

üèõÔ∏è Sources officielles (2):
  - Bordeaux M√©tropole
  - Ville de Bordeaux

üé≠ Sources culturelles (4):
  - Op√©ra National de Bordeaux
  - Cap Sciences Bordeaux
  - Bassins des Lumi√®res
  - Mus√©e d'Aquitaine

‚öΩ Sources sportives (3):
  - Union Bordeaux-B√®gles Rugby
  - Stade de Bordeaux - Matmut Atlantique
  - Bordeaux M√©tropole Sports

üíº Sources √©conomiques (1):
  - Bordeaux Business Events

üåê Plateformes sp√©cialis√©es (2):
  - Universit√© de Bordeaux
  - Bordeaux M√©tropole - Agenda Complet

üìä Total: 12 sources optimis√©es


## 4. Cr√©ation des Fonctions de Collecte de Donn√©es

D√©veloppement de fonctions r√©utilisables pour scraper diff√©rents types de sites web et extraire les informations d'√©v√©nements.

In [35]:
def safe_request(url, timeout=15):
    """Effectue une requ√™te HTTP s√©curis√©e avec gestion d'erreurs"""
    try:
        response = requests.get(url, headers=HEADERS, timeout=timeout)
        response.raise_for_status()
        return response
    except requests.exceptions.RequestException:
        return None

def extract_text_safely(element, selector=None):
    """Extrait le texte d'un √©l√©ment HTML de mani√®re s√©curis√©e"""
    try:
        if selector:
            target = element.select_one(selector)
            return target.get_text(strip=True) if target else ""
        return element.get_text(strip=True) if element else ""
    except Exception:
        return ""

def parse_event_date(date_str):
    """Parse une cha√Æne de date en format standard"""
    if not date_str:
        return None
    
    try:
        # Utilise dateparser pour une d√©tection flexible des dates
        parsed_date = dateparser.parse(date_str, languages=['fr', 'en'])
        if parsed_date:
            return parsed_date.strftime('%Y-%m-%d')
    except Exception:
        pass
    
    return date_str

def is_september_2025(date_str):
    """V√©rifie si une date correspond √† septembre 2025"""
    try:
        if date_str:
            parsed_date = dateparser.parse(date_str, languages=['fr', 'en'])
            if parsed_date:
                return parsed_date.year == 2025 and parsed_date.month == 9
    except Exception:
        pass
    
    # Accepter tous les √©v√©nements pour l'instant (filtrage plus tard)
    return True

def create_event_dict(title="", date="", time="", location="", description="", 
                     category="", price="", url="", source=""):
    """Cr√©e un dictionnaire standardis√© pour un √©v√©nement"""
    return {
        'title': title.strip() if title else "",
        'date': parse_event_date(date) if date else "",
        'time': time.strip() if time else "",
        'location': location.strip() if location else "",
        'description': description.strip() if description else "",
        'category': category.strip() if category else "",
        'price': price.strip() if price else "",
        'url': url.strip() if url else "",
        'source': source.strip() if source else "",
        'scraped_at': datetime.now().isoformat()
    }

def scrape_with_multiple_selectors(soup, selectors_list):
    """Essaie plusieurs s√©lecteurs pour trouver des √©v√©nements"""
    events_found = []
    
    for selector_set in selectors_list:
        containers = soup.select(selector_set.get('container', '.event'))
        if containers:
            for container in containers[:30]:  # Limite raisonnable
                try:
                    title = extract_text_safely(container, selector_set.get('title'))
                    
                    # Essayer plusieurs s√©lecteurs pour le titre si n√©cessaire
                    if not title:
                        for title_sel in ['h1', 'h2', 'h3', 'h4', '.title', '[class*="title"]', '.event-title']:
                            title = extract_text_safely(container, title_sel)
                            if title and len(title) > 3:
                                break
                    
                    if title and len(title) > 3:
                        date = extract_text_safely(container, selector_set.get('date'))
                        time = extract_text_safely(container, selector_set.get('time'))
                        location = extract_text_safely(container, selector_set.get('location'))
                        description = extract_text_safely(container, selector_set.get('description'))
                        
                        # Essayer d'extraire plus d'informations si disponibles
                        if not location:
                            for loc_sel in ['.venue', '.lieu', '.location', '[class*="lieu"]', '[class*="location"]']:
                                location = extract_text_safely(container, loc_sel)
                                if location:
                                    break
                        
                        event = {
                            'title': title,
                            'date': date,
                            'time': time,
                            'location': location,
                            'description': description
                        }
                        events_found.append(event)
                        
                except Exception as e:
                    continue
            
            if events_found:
                break  # Sortir si on a trouv√© des √©v√©nements
    
    return events_found

def scrape_generic_events(url, source_name, selectors):
    """Fonction de scraping d'√©v√©nements - VERSION R√âELLE UNIQUEMENT"""
    events = []
    
    response = safe_request(url)
    if not response:
        return events
    
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # D√©finir plusieurs strat√©gies de s√©lecteurs
    selector_strategies = [
        selectors,  # S√©lecteurs sp√©cifiques au site
        {
            'container': 'article',
            'title': 'h1, h2, h3',
            'date': '[class*="date"], time',
            'location': '[class*="lieu"], [class*="location"]',
            'description': 'p, .description'
        },
        {
            'container': '.card, .event, .item',
            'title': 'h1, h2, h3, .title',
            'date': '.date, time',
            'location': '.location, .venue',
            'description': 'p'
        },
        {
            'container': '[class*="event"], [class*="agenda"]',
            'title': 'h1, h2, h3',
            'date': '[class*="date"]',
            'location': '[class*="lieu"]',
            'description': 'p, div'
        }
    ]
    
    raw_events = scrape_with_multiple_selectors(soup, selector_strategies)
    
    # Convertir en format standardis√©
    for raw_event in raw_events:
        if raw_event['title']:  # Au minimum un titre
            event = create_event_dict(
                title=raw_event['title'],
                date=raw_event['date'],
                time=raw_event['time'],
                location=raw_event['location'],
                description=raw_event['description'],
                source=source_name,
                url=url
            )
            events.append(event)
    
    return events

print("üîß Fonctions de collecte cr√©√©es avec succ√®s")
print("üéØ Mode R√âEL uniquement - Pas de donn√©es d'exemple")

üîß Fonctions de collecte cr√©√©es avec succ√®s
üéØ Mode R√âEL uniquement - Pas de donn√©es d'exemple


## 5. Scraping des Sources Officielles de Bordeaux

Collecte des √©v√©nements depuis les sites officiels de la ville et de la m√©tropole bordelaise.

In [36]:
# S√©lecteurs CSS pour les sources officielles - Optimis√©s pour les sources productives
OFFICIAL_SELECTORS = {
    'bordeaux_metropole': {
        'container': 'a[href*="/agenda/"]',
        'title': 'h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.location, [class*="lieu"], [class*="location"]',
        'description': 'p, .description, .summary'
    },
    'bordeaux_ville': {
        'container': '.event, .agenda-item, article',
        'title': 'h1, h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.location, [class*="lieu"]',
        'description': '.description, .summary, p'
    }
}

official_events = []

print("üèõÔ∏è Scraping des sources officielles...")

for source_key, source_info in OFFICIAL_SOURCES.items():
    selectors = OFFICIAL_SELECTORS.get(source_key, OFFICIAL_SELECTORS['bordeaux_metropole'])
    
    events = scrape_generic_events(
        url=source_info['url'],
        source_name=source_info['name'],
        selectors=selectors
    )
    
    official_events.extend(events)
    random_delay(2, 4)

print(f"‚úÖ {len(official_events)} √©v√©nements officiels collect√©s")

üèõÔ∏è Scraping des sources officielles...
‚úÖ 33 √©v√©nements officiels collect√©s


## 6. Scraping des Plateformes Culturelles

Extraction des √©v√©nements culturels depuis les th√©√¢tres, op√©ras, salles de concert et mus√©es bordelais.

In [37]:
# S√©lecteurs CSS pour les sources culturelles - Am√©lior√©s
CULTURAL_SELECTORS = {
    'opera_bordeaux': {
        'container': '.spectacle, .event, .show, article, [class*="event"]',
        'title': '.title, h1, h2, h3, [class*="title"]',
        'date': '.date, .dates, time, [class*="date"]',
        'location': '.salle, .venue, [class*="lieu"], [class*="salle"]',
        'description': '.synopsis, .description, p, .resume'
    },
    'cap_sciences': {
        'container': '.event, .exposition, article, [class*="event"]',
        'title': 'h1, h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.venue, [class*="lieu"]',
        'description': '.description, p, .summary'
    },
    'bassins_lumieres': {
        'container': '.exposition, .event, article',
        'title': 'h1, h2, h3, .title',
        'date': '.date, .dates, time',
        'location': '.lieu, .location',
        'description': '.description, p'
    },
    'musee_mer_marine': {
        'container': '.event, .exposition, article',
        'title': 'h1, h2, h3, .title',
        'date': '.date, time',
        'location': '.lieu, .venue',
        'description': '.description, p'
    }
}

cultural_events = []

print("üé≠ Scraping des plateformes culturelles...")

for source_key, source_info in CULTURAL_SOURCES.items():
    selectors = CULTURAL_SELECTORS.get(source_key, CULTURAL_SELECTORS['opera_bordeaux'])
    
    events = scrape_generic_events(
        url=source_info['url'],
        source_name=source_info['name'],
        selectors=selectors
    )
    
    for event in events:
        event['category'] = 'Culturel'
    
    cultural_events.extend(events)
    random_delay(2, 4)

print(f"‚úÖ {len(cultural_events)} √©v√©nements culturels collect√©s")

üé≠ Scraping des plateformes culturelles...
‚úÖ 42 √©v√©nements culturels collect√©s


## 7. Scraping des Sources Sportives

Collecte des √©v√©nements sportifs depuis les clubs et stades bordelais.

In [38]:
# S√©lecteurs pour les sources sportives - simplifi√©s
SPORTS_SELECTORS = {
    'ubb_rugby': {
        'container': '.actualite, article, .news, [class*="actu"], [class*="news"]',
        'title': 'h1, h2, h3, .title, [class*="title"]',
        'date': '.date, time, [class*="date"]',
        'location': '.lieu, .venue, [class*="lieu"]',
        'description': 'p, .description, .summary'
    },
    'stade_bordeaux': {
        'container': '.event, .spectacle, article, [class*="event"]',
        'title': 'h1, h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.venue, [class*="lieu"]',
        'description': 'p, .description'
    },
    'bordeaux_metropole_sport': {
        'container': 'a[href*="/agenda/"]',  # M√™me structure que Bordeaux M√©tropole
        'title': 'h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.location, [class*="lieu"]',
        'description': 'p, .description'
    }
}

def simple_sports_scraping(url, source_name, selectors):
    """Version simplifi√©e du scraping sportif"""
    events = []
    
    response = safe_request(url, timeout=10)
    if not response:
        return events
    
    events = scrape_generic_events(url, source_name, selectors)
    
    if len(events) == 0:
        alternative_selectors = {
            'container': 'article, .card, .item, div[class*="event"], div[class*="actu"]',
            'title': 'h1, h2, h3, h4, .title, strong',
            'date': '[class*="date"], time, .date',
            'location': '[class*="lieu"], [class*="location"], .venue',
            'description': 'p, .description, .summary'
        }
        events = scrape_generic_events(url, source_name, alternative_selectors)
    
    return events

sports_events = []

print("‚öΩ Scraping des sources sportives...")

for source_key, source_info in SPORTS_SOURCES.items():
    selectors = SPORTS_SELECTORS.get(source_key, SPORTS_SELECTORS['ubb_rugby'])
    
    try:
        events = simple_sports_scraping(
            url=source_info['url'],
            source_name=source_info['name'],
            selectors=selectors
        )
        
        for event in events:
            event['category'] = 'Sport'
        
        sports_events.extend(events)
        random_delay(1, 2)
        
    except Exception:
        continue

print(f"‚úÖ {len(sports_events)} √©v√©nements sportifs collect√©s")

‚öΩ Scraping des sources sportives...
‚úÖ 37 √©v√©nements sportifs collect√©s


## 8. Scraping des Sources √âconomiques et Business

Collecte des √©v√©nements √©conomiques, salons, conf√©rences et √©v√©nements business.

In [39]:
# S√©lecteurs pour les sources √©conomiques - Version simplifi√©e
BUSINESS_SELECTORS = {
    'bordeaux_business': {
        'container': 'a[href*="/agenda/"]',
        'title': 'h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.location, [class*="lieu"]',
        'description': 'p, .description'
    }
}

def enhanced_business_scraping(url, source_name, selectors):
    """Version simplifi√©e du scraping business"""
    events = []
    
    response = safe_request(url, timeout=8)
    if not response:
        return events
    
    events = scrape_generic_events(url, source_name, selectors)
    
    if len(events) == 0:
        alternative_selectors = {
            'container': 'article, .card, .event, .salon, div[class*="event"], div[class*="salon"]',
            'title': 'h1, h2, h3, h4, .title, strong, .event-title',
            'date': '[class*="date"], time, .date, [datetime]',
            'location': '[class*="lieu"], [class*="location"], [class*="salle"], .venue',
            'description': 'p, .description, .summary, .abstract'
        }
        additional_events = scrape_generic_events(url, source_name, alternative_selectors)
        events.extend(additional_events)
    
    return events

business_events = []

print("üíº Scraping des sources √©conomiques et business...")

for source_key, source_info in BUSINESS_SOURCES.items():
    selectors = BUSINESS_SELECTORS.get(source_key, BUSINESS_SELECTORS['bordeaux_business'])
    
    try:
        events = enhanced_business_scraping(
            url=source_info['url'],
            source_name=source_info['name'],
            selectors=selectors
        )
        
        for event in events:
            event['category'] = '√âconomique'
        
        business_events.extend(events)
        random_delay(1, 2)
        
    except Exception:
        continue

print(f"‚úÖ {len(business_events)} √©v√©nements √©conomiques collect√©s")

üíº Scraping des sources √©conomiques et business...
‚úÖ 20 √©v√©nements √©conomiques collect√©s


## 9. Scraping des Plateformes Sp√©cialis√©es

Collecte depuis les plateformes universitaires et sites sp√©cialis√©s dans les √©v√©nements.

In [40]:
# S√©lecteurs pour les plateformes sp√©cialis√©es - Version optimis√©e
PLATFORM_SELECTORS = {
    'univ_bordeaux': {
        'container': '.actualite, .news, article, [class*="actu"], [class*="news"]',
        'title': 'h1, h2, h3, .title, [class*="title"]',
        'date': '.date, time, [class*="date"]',
        'location': '.lieu, .venue, [class*="lieu"]',
        'description': 'p, .description, .summary'
    },
    'bordeaux_metropole_agenda': {
        'container': 'a[href*="/agenda/"]',
        'title': 'h2, h3, .title',
        'date': '.date, time, [class*="date"]',
        'location': '.location, [class*="lieu"]',
        'description': 'p, .description'
    }
}

platform_events = []

print("üåê Scraping des plateformes sp√©cialis√©es...")

for source_key, source_info in EVENT_PLATFORMS.items():
    selectors = PLATFORM_SELECTORS.get(source_key, PLATFORM_SELECTORS['univ_bordeaux'])
    
    try:
        events = scrape_generic_events(
            url=source_info['url'],
            source_name=source_info['name'],
            selectors=selectors
        )
        
        for event in events:
            if 'univ' in source_key.lower():
                event['category'] = '√âducation'
            else:
                event['category'] = 'G√©n√©ral'
        
        platform_events.extend(events)
        random_delay(1, 2)
        
    except Exception:
        continue

print(f"‚úÖ {len(platform_events)} √©v√©nements de plateformes collect√©s")

üåê Scraping des plateformes sp√©cialis√©es...
‚úÖ 21 √©v√©nements de plateformes collect√©s


## 10. Sauvegarde des Donn√©es Collect√©es

Export des donn√©es brutes collect√©es vers les formats CSV et JSON pour traitement ult√©rieur dans un notebook d√©di√©.

In [41]:
# Consolidation de tous les √©v√©nements collect√©s par cat√©gorie
print("üíæ Collecte termin√©e - Pr√©paration de la sauvegarde...\n")

# Consolidation avec TOUS les √©v√©nements scrap√©s par cat√©gorie
all_events = official_events + cultural_events + sports_events + business_events + platform_events

print("üìä RAPPORT DE COLLECTE PAR CAT√âGORIE:")
print(f"  üèõÔ∏è Sources officielles: {len(official_events)} √©v√©nements")
print(f"  üé≠ Sources culturelles: {len(cultural_events)} √©v√©nements")
print(f"  ‚öΩ Sources sportives: {len(sports_events)} √©v√©nements")
print(f"  üíº Sources √©conomiques: {len(business_events)} √©v√©nements")
print(f"  üåê Plateformes sp√©cialis√©es: {len(platform_events)} √©v√©nements")
print(f"  üìà TOTAL COLLECT√â: {len(all_events)} √©v√©nements")

if len(all_events) > 0:
    print(f"\n‚úÖ Collecte r√©ussie - {len(all_events)} √©v√©nements pr√™ts pour sauvegarde")
else:
    print("\n‚ùå AUCUN √âV√âNEMENT COLLECT√â!")
    print("‚ö†Ô∏è V√©rifier la connectivit√© et les URLs des sources")

# Cr√©ation des dossiers de sauvegarde
data_dir = Path('../data')
raw_dir = data_dir / 'raw'
raw_dir.mkdir(parents=True, exist_ok=True)

# G√©n√©ration du timestamp pour les fichiers
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')

print("\nüíæ Sauvegarde des donn√©es brutes collect√©es...")

# Sauvegarde des donn√©es brutes par cat√©gorie (JSON uniquement)
categories_data = {
    'official': official_events,
    'cultural': cultural_events,
    'sports': sports_events,
    'business': business_events,
    'platforms': platform_events
}

# Sauvegarde par cat√©gorie en JSON
for category, events in categories_data.items():
    if events:
        category_json = raw_dir / f'bordeaux_events_{category}_{timestamp}.json'
        with open(category_json, 'w', encoding='utf-8') as f:
            json.dump(events, f, ensure_ascii=False, indent=2)
        print(f"  ‚úÖ {category}: {len(events)} √©v√©nements ‚Üí {category_json.name}")

# Sauvegarde des donn√©es consolid√©es brutes (JSON uniquement)
if all_events:
    raw_json_path = raw_dir / f'bordeaux_events_all_raw_{timestamp}.json'
    with open(raw_json_path, 'w', encoding='utf-8') as f:
        json.dump(all_events, f, ensure_ascii=False, indent=2)
    print(f"\nüíæ Donn√©es consolid√©es: {raw_json_path.name}")

# Sauvegarde des m√©tadonn√©es de collecte
metadata = {
    'collection_info': {
        'date': datetime.now().isoformat(),
        'target_month': 'septembre 2025',
        'total_sources_configured': sum([len(OFFICIAL_SOURCES), len(CULTURAL_SOURCES), 
                                        len(SPORTS_SOURCES), len(BUSINESS_SOURCES), 
                                        len(EVENT_PLATFORMS)])
    },
    'collection_results': {
        'total_events_collected': len(all_events),
        'events_by_category': {
            'official': len(official_events),
            'cultural': len(cultural_events),
            'sports': len(sports_events),
            'business': len(business_events),
            'platforms': len(platform_events)
        }
    },
    'sources_used': {
        'official_sources': [source['name'] for source in OFFICIAL_SOURCES.values()],
        'cultural_sources': [source['name'] for source in CULTURAL_SOURCES.values()],
        'sports_sources': [source['name'] for source in SPORTS_SOURCES.values()],
        'business_sources': [source['name'] for source in BUSINESS_SOURCES.values()],
        'platform_sources': [source['name'] for source in EVENT_PLATFORMS.values()]
    }
}

metadata_path = raw_dir / f'metadata_collection_{timestamp}.json'
with open(metadata_path, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, ensure_ascii=False, indent=2)

print(f"üìã M√©tadonn√©es: {metadata_path.name}")

# Rapport final de collecte
if all_events:
    print(f"\nüéâ COLLECTE TERMIN√âE AVEC SUCC√àS!")
    print(f"üìä R√âSUM√â:")
    print(f"  üìÅ Dossier de sauvegarde: {raw_dir}")
    print(f"  üéØ Total √©v√©nements collect√©s: {len(all_events)}")
    print(f"  üì¶ Fichiers JSON g√©n√©r√©s: {len(categories_data) + 2}")  # cat√©gories + consolid√© + m√©tadonn√©es
else:
    print(f"\n‚ö†Ô∏è Aucune donn√©e collect√©e √† sauvegarder")
    print(f"V√©rifier la connectivit√© et les sources de donn√©es")

üíæ Collecte termin√©e - Pr√©paration de la sauvegarde...

üìä RAPPORT DE COLLECTE PAR CAT√âGORIE:
  üèõÔ∏è Sources officielles: 33 √©v√©nements
  üé≠ Sources culturelles: 42 √©v√©nements
  ‚öΩ Sources sportives: 37 √©v√©nements
  üíº Sources √©conomiques: 20 √©v√©nements
  üåê Plateformes sp√©cialis√©es: 21 √©v√©nements
  üìà TOTAL COLLECT√â: 153 √©v√©nements

‚úÖ Collecte r√©ussie - 153 √©v√©nements pr√™ts pour sauvegarde

üíæ Sauvegarde des donn√©es brutes collect√©es...
  ‚úÖ official: 33 √©v√©nements ‚Üí bordeaux_events_official_20250829_171417.json
  ‚úÖ cultural: 42 √©v√©nements ‚Üí bordeaux_events_cultural_20250829_171417.json
  ‚úÖ sports: 37 √©v√©nements ‚Üí bordeaux_events_sports_20250829_171417.json
  ‚úÖ business: 20 √©v√©nements ‚Üí bordeaux_events_business_20250829_171417.json
  ‚úÖ platforms: 21 √©v√©nements ‚Üí bordeaux_events_platforms_20250829_171417.json

üíæ Donn√©es consolid√©es: bordeaux_events_all_raw_20250829_171417.json
üìã M√©tadonn√©es: metadata_co

## Observations

Ce notebook a collect√© avec succ√®s des donn√©es d'√©v√©nements √† Bordeaux depuis 12 sources diff√©rentes r√©parties en 5 cat√©gories. Les donn√©es brutes ont √©t√© sauvegard√©es au format JSON pour faciliter le traitement ult√©rieur.

**Sources les plus productives :**
- Bordeaux M√©tropole et Ville de Bordeaux (sources officielles)
- Op√©ra National de Bordeaux et mus√©es (sources culturelles)
- UBB Rugby et Stade Matmut Atlantique (sources sportives)

**R√©sultats :** Collection automatis√©e d'√©v√©nements bordelais avec cat√©gorisation par type de source et sauvegarde structur√©e des donn√©es brutes.

---

*Bordeaux Events Analytics - Phase 1: Collection des donn√©es*