In [1]:
import pandas as pd
import requests
import re
from datetime import datetime, timedelta

def find_working_london_dataset(max_months=12):
    """
    Parcourt les archives d'Inside Airbnb pour trouver un dataset de Londres 
    valide et non vide.
    """
    # On commence la recherche √† partir d'aujourd'hui
    current_date = datetime.now().replace(day=1)
    
    print("üîç Recherche d'un dataset Londres valide (avec prix et √©quipements)...")

    for i in range(max_months):
        # Format de date typique Inside Airbnb (souvent entre le 5 et le 15 du mois)
        # On teste le 6 du mois, date fr√©quente de mise √† jour
        date_str = current_date.strftime("%Y-%m-06")
        url = f"http://data.insideairbnb.com/united-kingdom/england/london/{date_str}/data/listings.csv.gz"
        
        try:
            # 1. V√©rification de l'existence du fichier (HEAD)
            resp = requests.head(url, timeout=5)
            if resp.status_code == 200:
                # 2. Chargement d'un √©chantillon pour v√©rifier le contenu
                # On charge 500 lignes pour √™tre s√ªr d'avoir un √©chantillon repr√©sentatif
                df_test = pd.read_csv(url, nrows=500, compression='gzip', low_memory=False)
                
                # 3. V√©rification des colonnes et des donn√©es NA
                has_cols = 'price' in df_test.columns and 'amenities' in df_test.columns
                
                if has_cols:
                    # V√©rification que les prix ne sont pas TOUS de type NA
                    # On compte les valeurs non-nulles
                    valid_prices = df_test['price'].notna().sum()
                    
                    if valid_prices > 0:
                        print(f"üéØ TROUV√â ! Date : {date_str}")
                        print(f"üìä √âchantillon : {valid_prices}/500 prix valides d√©tect√©s.")
                        return url
                    else:
                        print(f"‚ö†Ô∏è Date {date_str} ignor√©e : La colonne 'price' est vide (que des NA).")
                else:
                    print(f"‚ö†Ô∏è Date {date_str} ignor√©e : Colonnes manquantes.")
            
        except Exception:
            pass # On continue si l'URL exacte n'existe pas
        
        # On recule d'un mois pour l'it√©ration suivante
        current_date = (current_date - timedelta(days=1)).replace(day=1)

    return None

# ==============================================================================
# EX√âCUTION & CHARGEMENT
# ==============================================================================
london_url = find_working_london_dataset()

if london_url:
    # On ne charge que les colonnes n√©cessaires pour √©conomiser la RAM
    cols_to_keep = ['id', 'amenities', 'price', 'latitude', 'longitude', 
                    'property_type', 'room_type', 'accommodates', 'bedrooms', 
                    'beds', 'bathrooms_text', 'neighbourhood_cleansed']
    
    print("‚è≥ T√©l√©chargement du dataset complet...")
    df_london_raw = pd.read_csv(london_url, usecols=cols_to_keep, compression='gzip', low_memory=False)
    
    # Nettoyage imm√©diat des lignes o√π le prix est NA (pour √™tre 100% s√ªr)
    df_london_raw = df_london_raw.dropna(subset=['price'])
    
    print(f"‚úÖ Londres charg√© avec succ√®s : {len(df_london_raw)} lignes sans NA sur le prix.")
else:
    print("‚ùå Impossible de trouver un dataset valide automatiquement.")

üîç Recherche d'un dataset Londres valide (avec prix et √©quipements)...
üéØ TROUV√â ! Date : 2025-05-06
üìä √âchantillon : 317/500 prix valides d√©tect√©s.
‚è≥ T√©l√©chargement du dataset complet...
‚úÖ Londres charg√© avec succ√®s : 61964 lignes sans NA sur le prix.
