In [5]:
import requests
import os

def test_canada_opendata():
    """Test simple pour télécharger 1 fichier CSV du gouvernement canadien"""
    
    # URL de l'API
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    # Chercher des datasets avec CSV
    params = {
        'q': 'population',  # Recherche simple
        'fq': 'res_format:CSV',  # Filtre pour CSV seulement
        'rows': 1  # Juste 1 résultat pour tester
    }
    
    print("🔍 Recherche de données...")
    
    try:
        # Faire la requête à l'API
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        
        data = response.json()
        
        if not data.get('success'):
            print("❌ Erreur API")
            return
        
        datasets = data['result']['results']
        
        if not datasets:
            print("❌ Aucun dataset trouvé")
            return
        
        # Prendre le premier dataset
        return datasets
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erreur réseau: {e}")
    except Exception as e:
        print(f"❌ Erreur: {e}")


      

In [9]:
import requests
import os

def test_canada_opendata():
    """Test simple pour télécharger 1 fichier CSV du gouvernement canadien"""
    
    # URL de l'API
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    # Chercher des datasets avec CSV
    params = {
        'q': 'export',  # Recherche simple
        'fq': 'res_format:CSV',  # Filtre pour CSV seulement
        'rows': 1  # Juste 1 résultat pour tester
    }
    
    print("🔍 Recherche de données...")
    
    try:
        # Faire la requête à l'API
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        
        data = response.json()
        
        if not data.get('success'):
            print("❌ Erreur API")
            return
        
        datasets = data['result']['results']
        
        if not datasets:
            print("❌ Aucun dataset trouvé")
            return
        
        # Transformer datasets en table
        import pandas as pd
        
        print(f"📊 {len(datasets)} datasets trouvés")
        
        # Extraire les infos importantes
        table_data = []
        for dataset in datasets:
            # Compter les fichiers CSV
            csv_count = sum(1 for res in dataset.get('resources', []) 
                          if res.get('format', '').upper() == 'CSV')
            
            table_data.append({
                'Titre': dataset.get('title', 'Sans titre')[:50] + '...' if len(dataset.get('title', '')) > 50 else dataset.get('title', 'Sans titre'),
                'Organisation': dataset.get('organization', {}).get('title', 'Inconnue'),
                'Fichiers CSV': csv_count,
                'Dernière modif': dataset.get('metadata_modified', 'Inconnue')[:10],  # Juste la date
                'ID': dataset.get('id', '')
            })
        
        # Créer la table pandas
        df = pd.DataFrame(table_data)
        
        print("\n📋 Table des datasets:")
        print("=" * 80)
        print(df.to_string(index=False))
        
        return df
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erreur réseau: {e}")
    except Exception as e:
        print(f"❌ Erreur: {e}")



In [11]:
import requests
import os

def test_canada_opendata():
    """Recherche tous les datasets avec keyword NER"""
    
    # URL de l'API
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    # Chercher des datasets avec CSV
    params = {
        'q': 'NER',  # Recherche simple
        'fq': 'res_format:CSV',  # Filtre pour CSV seulement
        'rows': 100  # Juste 1 résultat pour tester
    }
    
    print("🔍 Recherche de données...")
    
    try:
        # Faire la requête à l'API
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        
        data = response.json()
        
        if not data.get('success'):
            print("❌ Erreur API")
            return
        
        datasets = data['result']['results']
        
        if not datasets:
            print("❌ Aucun dataset trouvé")
            return
        
        # Transformer datasets en table
        import pandas as pd
        
        print(f"📊 {len(datasets)} datasets trouvés")
        
        # Extraire les infos importantes
        table_data = []
        for dataset in datasets:
            # Compter les fichiers CSV
            csv_count = sum(1 for res in dataset.get('resources', []) 
                          if res.get('format', '').upper() == 'CSV')
            
            table_data.append({
                'Titre': dataset.get('title', 'Sans titre')[:50] + '...' if len(dataset.get('title', '')) > 50 else dataset.get('title', 'Sans titre'),
                'Organisation': dataset.get('organization', {}).get('title', 'Inconnue'),
                'Fichiers CSV': csv_count,
                'Dernière modif': dataset.get('metadata_modified', 'Inconnue')[:10],  # Juste la date
                'ID': dataset.get('id', '')
            })
        
        # Créer la table pandas
        df = pd.DataFrame(table_data)
        
        print("\n📋 Table des datasets:")
        print("=" * 80)
        print(df.to_string(index=False))
        
        return df
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erreur réseau: {e}")
    except Exception as e:
        print(f"❌ Erreur: {e}")



In [17]:
    
    # URL de l'API
api_url = "https://open.canada.ca/data/api/action/package_search"
    
    # Chercher des datasets avec CSV
params = {
        'q': 'NER',  # Recherche simple
        'fq': 'res_format:CSV',  # Filtre pour CSV seulement
        'rows': 100  # Juste 1 résultat pour tester
    }
    
print("🔍 Recherche de données...")
response = requests.get(api_url, params=params)

    

🔍 Recherche de données...


In [20]:
data = response.json()
data


{'help': 'https://open.canada.ca/data/api/3/action/help_show?name=package_search',
 'success': True,
 'result': {'count': 1,
  'facets': {},
  'facet_ranges': {'portal_release_date': {'counts': ['1925-09-05T00:00:00Z',
     1],
    'gap': '+100YEARS',
    'start': '1925-09-05T00:00:00Z',
    'end': '2125-09-05T00:00:00Z'}},
  'results': [{'association_type': [],
    'audience': [],
    'author': None,
    'author_email': None,
    'collection': 'primary',
    'contributor': {'en': '', 'fr': ''},
    'creator': '',
    'creator_user_id': '2dc5a12f-2a6f-4822-8514-165ea6bb05d9',
    'data_series_issue_identification': {'en': '', 'fr': ''},
    'data_series_name': {'en': 'EnerGuide Rating System Open Data',
     'fr': 'Données ouvertes du Système de cote ÉnerGuide '},
    'date_modified': '2025-07-07 00:00:00',
    'date_published': '2025-01-01 00:00:00',
    'digital_object_identifier': '',
    'display_flags': [],
    'frequency': 'P6M',
    'geographic_region': ['0'],
    'id': '0a7619f

In [14]:
import requests
import os

def test_canada_opendata():
    """Recherche tous les datasets avec keyword NER"""
    
    # URL de l'API
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    # Chercher des datasets avec CSV
    params = {
        'q': 'NER',  # Recherche simple
        'fq': 'res_format:CSV',  # Filtre pour CSV seulement
        'rows': 100  # Juste 1 résultat pour tester
    }
    
    print("🔍 Recherche de données...")
    
    try:
        # Faire la requête à l'API
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        
        data = response.json()
        
        if not data.get('success'):
            print("❌ Erreur API")
            return
        
        datasets = data['result']['results']
        
        if not datasets:
            print("❌ Aucun dataset trouvé")
            return
        
        # Transformer datasets en table
        import pandas as pd
        
        print(f"📊 {len(datasets)} datasets trouvés")
        
        # Extraire les infos importantes + détails CSV
        table_data = []
        for dataset in datasets:
            # Analyser tous les fichiers CSV
            csv_files = []
            for res in dataset.get('resources', []):
                if res.get('format', '').upper() == 'CSV':
                    csv_files.append({
                        'nom': res.get('name', 'Sans nom'),
                        'taille': res.get('size', 'Inconnue'),
                        'url': res.get('url', ''),
                        'description': res.get('description', 'Aucune')[:100] + '...' if len(res.get('description', '')) > 100 else res.get('description', 'Aucune')
                    })
            
            table_data.append({
                'Titre': dataset.get('title', 'Sans titre')[:50] + '...' if len(dataset.get('title', '')) > 50 else dataset.get('title', 'Sans titre'),
                'Organisation': dataset.get('organization', {}).get('title', 'Inconnue'),
                'Nb CSV': len(csv_files),
                'Date modif': dataset.get('metadata_modified', 'Inconnue')[:10],
                'ID': dataset.get('id', ''),
                'fichiers_csv': csv_files  # Détails des fichiers CSV
            })
        
        # Créer la table pandas
        df = pd.DataFrame(table_data)
        
        print("\n📋 Table des datasets:")
        print("=" * 80)
        print(df[['Titre', 'Organisation', 'Nb CSV', 'Date modif']].to_string(index=False))
        
        # Afficher détails des fichiers CSV
        print("\n📄 Détails des fichiers CSV:")
        print("=" * 100)
        for i, row in df.iterrows():
            if row['fichiers_csv']:
                print(f"\n🗂️  Dataset: {row['Titre']}")
                print(f"   Organisation: {row['Organisation']}")
                for j, csv_file in enumerate(row['fichiers_csv'], 1):
                    print(f"   📁 Fichier {j}: {csv_file['nom']}")
                    print(f"      Taille: {csv_file['taille']}")
                    print(f"      Description: {csv_file['description']}")
                    print(f"      URL: {csv_file['url']}")
        
        return df
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erreur réseau: {e}")
    except Exception as e:
        print(f"❌ Erreur: {e}")



In [21]:
import requests
import pandas as pd

def get_cer_all_csv():
    """Obtenir TOUTES les tables CSV du Canada Energy Regulator"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',  # Pas de mot-clé, on veut tout
        'fq': 'organization:cer-rec AND res_format:CSV',  # Seulement CER et CSV
        'rows': 1000  # Maximum
    }
    
    print("Recherche de TOUS les CSV du Canada Energy Regulator...")
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return None
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets du CER")
        
        # Extraire tous les fichiers CSV
        csv_list = []
        
        for dataset in datasets:
            dataset_title = dataset.get('title', 'Sans titre')
            dataset_id = dataset.get('id', '')
            last_modified = dataset.get('metadata_modified', 'Inconnue')[:10]
            
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    csv_list.append({
                        'Dataset': dataset_title,
                        'Fichier CSV': resource.get('name', 'Sans nom'),
                        'URL': resource.get('url', ''),
                        'Taille': resource.get('size', 'Inconnue'),
                        'Date modif': last_modified,
                        'Description fichier': resource.get('description', 'Aucune'),
                        'Dataset ID': dataset_id
                    })
        
        # Créer DataFrame
        df = pd.DataFrame(csv_list)
        
        print(f"\nTotal: {len(csv_list)} fichiers CSV du Canada Energy Regulator")
        print("\nListe complète des tables CSV:")
        print("=" * 120)
        
        # Afficher la liste avec détails
        print(df[['Fichier CSV', 'Taille', 'Date modif']].to_string(index=True))
        
        # Sauvegarder
        df.to_csv('canada_energy_regulator_csv_list.csv', index=False, encoding='utf-8')
        print(f"\nListe sauvegardée: canada_energy_regulator_csv_list.csv")
        
        return df
        
    except Exception as e:
        print(f"Erreur: {e}")
        return None


df = get_cer_all_csv()

Recherche de TOUS les CSV du Canada Energy Regulator...
Trouvé 62 datasets du CER

Total: 846 fichiers CSV du Canada Energy Regulator

Liste complète des tables CSV:
                                                                                              Fichier CSV    Taille  Date modif
0                                                      damage-prevention-regulation-contravention-reports  Inconnue  2025-09-05
1                                                      damage-prevention-regulation-contravention-reports  Inconnue  2025-09-05
2                                      damage-prevention-regulation-contravention-reports-data-dictionary  Inconnue  2025-09-05
3                                      damage-prevention-regulation-contravention-reports-data-dictionary  Inconnue  2025-09-05
4                                                                 crude-oil-exports-by-destination-annual     10550  2025-09-05
5                                                                 

In [15]:
print("🇨🇦 Test Open Data Canada")
print("=" * 30)
test_canada_opendata()

🇨🇦 Test Open Data Canada
🔍 Recherche de données...
📊 1 datasets trouvés
❌ Erreur: object of type 'NoneType' has no len()


In [22]:
import requests
import pandas as pd

def get_cer_all_csv():
    """Obtenir TOUTES les tables CSV du Canada Energy Regulator"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',  # Pas de mot-clé, on veut tout
        'fq': 'organization:cer-rec AND res_format:CSV',  # Seulement CER et CSV
        'rows': 1000  # Maximum
    }
    
    print("Recherche de TOUS les CSV du Canada Energy Regulator...")
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return None
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets du CER")
        
        # Extraire tous les fichiers CSV
        csv_list = []
        
        for dataset in datasets:
            dataset_title = dataset.get('title', 'Sans titre')
            dataset_id = dataset.get('id', '')
            last_modified = dataset.get('metadata_modified', 'Inconnue')[:10]
            
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    csv_list.append({
                        'Dataset': dataset_title,
                        'Fichier CSV': resource.get('name', 'Sans nom'),
                        'URL': resource.get('url', ''),
                        'Taille': resource.get('size', 'Inconnue'),
                        'Date modif': last_modified,
                        'Description fichier': resource.get('description', 'Aucune'),
                        'Dataset ID': dataset_id
                    })
        
        # Créer DataFrame
        df = pd.DataFrame(csv_list)
        
        print(f"\nTotal: {len(csv_list)} fichiers CSV anglais du Canada Energy Regulator")
        print("\nNoms des fichiers CSV (anglais seulement):")
        print("=" * 80)
        
        # Afficher seulement les noms
        for i, row in enumerate(csv_list, 1):
            print(f"{i:3d}. {row['Fichier CSV']}")
        
        # Sauvegarder juste les noms
        df = pd.DataFrame(csv_list)
        df[['Fichier CSV']].to_csv('cer_csv_names_english.csv', index=False, encoding='utf-8')
        print(f"\nNoms sauvegardés: cer_csv_names_english.csv")
        
        return df
        
    except Exception as e:
        print(f"Erreur: {e}")
        return None

if __name__ == "__main__":
    df = get_cer_all_csv()

Recherche de TOUS les CSV du Canada Energy Regulator...
Trouvé 62 datasets du CER

Total: 846 fichiers CSV anglais du Canada Energy Regulator

Noms des fichiers CSV (anglais seulement):
  1. damage-prevention-regulation-contravention-reports
  2. damage-prevention-regulation-contravention-reports
  3. damage-prevention-regulation-contravention-reports-data-dictionary
  4. damage-prevention-regulation-contravention-reports-data-dictionary
  5. crude-oil-exports-by-destination-annual
  6. crude-oil-exports-by-destination-annual
  7. crude-oil-exports-by-destination-monthly
  8. crude-oil-exports-by-destination-monthly
  9. crude-oil-exports-by-type-annual
 10. crude-oil-exports-by-type-annual
 11. crude-oil-exports-by-type-monthly
 12. crude-oil-exports-by-type-monthly
 13. crude-oil-exports-data-dictionary
 14. crude-oil-exports-data-dictionary
 15. refined-petroleum-products-exports-monthly
 16. refined-petroleum-products-exports-monthly
 17. refined-petroleum-products-exports-annual
 

In [24]:
import requests
import pandas as pd

def get_cer_all_csv():
    """Obtenir TOUTES les tables CSV du Canada Energy Regulator"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',  # Pas de mot-clé, on veut tout
        'fq': 'organization:cer-rec AND res_format:CSV',  # Seulement CER et CSV
        'rows': 1000  # Maximum
    }
    
    print("Recherche de TOUS les CSV du Canada Energy Regulator...")
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return None
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets du CER")
        
        # Extraire tous les fichiers CSV
        csv_list = []
        
        for dataset in datasets:
            dataset_title = dataset.get('title', 'Sans titre')
            dataset_id = dataset.get('id', '')
            last_modified = dataset.get('metadata_modified', 'Inconnue')[:10]
            
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    csv_list.append({
                        'Dataset': dataset_title,
                        'Fichier CSV': resource.get('name', 'Sans nom'),
                        'URL': resource.get('url', ''),
                        'Taille': resource.get('size', 'Inconnue'),
                        'Date modif': last_modified,
                        'Description fichier': resource.get('description', 'Aucune'),
                        'Dataset ID': dataset_id
                    })
        
        # Créer DataFrame
        df = pd.DataFrame(csv_list)
        
        print(f"\nTotal: {len(csv_list)} fichiers CSV anglais du Canada Energy Regulator")
        print("\nNoms des fichiers CSV (anglais seulement):")
        print("=" * 80)
        
        # Afficher seulement les noms
        for i, row in enumerate(csv_list, 1):
            print(f"{i:3d}. {row['Fichier CSV']}")
        
        # Sauvegarder juste les noms
        df = pd.DataFrame(csv_list)
        df[['Fichier CSV']].to_csv('cer_csv_names_english.csv', index=False, encoding='utf-8')
        print(f"\nNoms sauvegardés: cer_csv_names_english.csv")
        
        return df
        
    except Exception as e:
        print(f"Erreur: {e}")
        return None

df = get_cer_all_csv()

Recherche de TOUS les CSV du Canada Energy Regulator...
Trouvé 62 datasets du CER

Total: 846 fichiers CSV anglais du Canada Energy Regulator

Noms des fichiers CSV (anglais seulement):
  1. damage-prevention-regulation-contravention-reports
  2. damage-prevention-regulation-contravention-reports
  3. damage-prevention-regulation-contravention-reports-data-dictionary
  4. damage-prevention-regulation-contravention-reports-data-dictionary
  5. crude-oil-exports-by-destination-annual
  6. crude-oil-exports-by-destination-annual
  7. crude-oil-exports-by-destination-monthly
  8. crude-oil-exports-by-destination-monthly
  9. crude-oil-exports-by-type-annual
 10. crude-oil-exports-by-type-annual
 11. crude-oil-exports-by-type-monthly
 12. crude-oil-exports-by-type-monthly
 13. crude-oil-exports-data-dictionary
 14. crude-oil-exports-data-dictionary
 15. refined-petroleum-products-exports-monthly
 16. refined-petroleum-products-exports-monthly
 17. refined-petroleum-products-exports-annual
 

In [25]:
import requests
import pandas as pd
import os

def download_cer_csv_english():
    """Télécharger tous les CSV anglais du Canada Energy Regulator"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',
        'fq': 'organization:cer-rec AND res_format:CSV',
        'rows': 1000
    }
    
    print("Recherche et téléchargement des CSV anglais du CER...")
    
    # Créer dossier de téléchargement
    download_folder = "cer_csv_downloads"
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets du CER")
        
        # Collecter et filtrer les CSV
        csv_files = []
        seen_names = set()
        
        for dataset in datasets:
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    name = resource.get('name', 'Sans nom')
                    url = resource.get('url', '')
                    
                    # Détecter version française
                    is_french = any(indicator in url.lower() for indicator in [
                        '/francais/', '/fr/', '-fr.', '_fr.', 'french'
                    ]) or any(indicator in name.lower() for indicator in [
                        'français', 'francais', 'donnees'
                    ])
                    
                    # Normaliser nom pour détecter doublons
                    normalized = name.lower().strip()
                    
                    # Garder seulement anglais et éviter doublons
                    if not is_french and normalized not in seen_names:
                        csv_files.append({
                            'name': name,
                            'url': url,
                            'dataset': dataset.get('title', 'Unknown')
                        })
                        seen_names.add(normalized)
        
        print(f"Fichiers CSV anglais à télécharger: {len(csv_files)}")
        
        # Télécharger chaque fichier
        downloaded = []
        failed = []
        
        for i, csv_file in enumerate(csv_files, 1):
            print(f"{i:3d}/{len(csv_files)} - {csv_file['name']}")
            
            try:
                # Télécharger
                file_response = requests.get(csv_file['url'], timeout=30)
                file_response.raise_for_status()
                
                # Nettoyer nom de fichier
                safe_name = "".join(c for c in csv_file['name'] if c.isalnum() or c in (' ', '-', '_', '.')).strip()
                if not safe_name.endswith('.csv'):
                    safe_name += '.csv'
                
                # Sauvegarder
                filepath = os.path.join(download_folder, safe_name)
                with open(filepath, 'wb') as f:
                    f.write(file_response.content)
                
                downloaded.append({
                    'Fichier': safe_name,
                    'Dataset': csv_file['dataset'],
                    'Taille': f"{len(file_response.content)} bytes",
                    'Status': 'Téléchargé'
                })
                
            except Exception as e:
                failed.append({
                    'Fichier': csv_file['name'],
                    'Dataset': csv_file['dataset'],
                    'Erreur': str(e),
                    'Status': 'Échec'
                })
                print(f"    ERREUR: {e}")
        
        # Rapport final
        print(f"\nRésultats:")
        print(f"Téléchargés avec succès: {len(downloaded)}")
        print(f"Échecs: {len(failed)}")
        
        # Sauvegarder rapport
        all_results = downloaded + failed
        df = pd.DataFrame(all_results)
        df.to_csv(os.path.join(download_folder, 'download_report.csv'), index=False, encoding='utf-8')
        
        print(f"\nFichiers sauvegardés dans: {download_folder}/")
        print(f"Rapport: {download_folder}/download_report.csv")
        
        # Afficher liste des téléchargés
        if downloaded:
            print(f"\nFichiers téléchargés:")
            for item in downloaded:
                print(f"  - {item['Fichier']}")
        
        if failed:
            print(f"\nÉchecs:")
            for item in failed:
                print(f"  - {item['Fichier']}: {item['Erreur']}")
        
        return downloaded, failed
        
    except Exception as e:
        print(f"Erreur: {e}")
        return [], []

if __name__ == "__main__":
    download_cer_csv_english()

Recherche et téléchargement des CSV anglais du CER...
Trouvé 62 datasets du CER
Fichiers CSV anglais à télécharger: 428
  1/428 - damage-prevention-regulation-contravention-reports
  2/428 - damage-prevention-regulation-contravention-reports-data-dictionary
  3/428 - crude-oil-exports-by-destination-annual
  4/428 - crude-oil-exports-by-destination-monthly
  5/428 - crude-oil-exports-by-type-annual
  6/428 - crude-oil-exports-by-type-monthly
  7/428 - crude-oil-exports-data-dictionary
  8/428 - refined-petroleum-products-exports-monthly
  9/428 - refined-petroleum-products-exports-annual
 10/428 - refined-petroleum-products-exports-data-dictionary
 11/428 - Operations and Maintenance Activities 
 12/428 - Operations and Maintenance Activities Data Dictionary 
 13/428 - Pipeline Incidents
 14/428 - Pipeline Incidents Data Dictionary
 15/428 - Contamination
 16/428 - contamination-data-dictionary
 17/428 - electricity-exports-and-imports-monthly
 18/428 - electricity-exports-and-imports-

In [26]:
import requests
import pandas as pd
import os

def download_cer_csv_english():
    """Télécharger tous les CSV anglais du Canada Energy Regulator"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',
        'fq': 'organization:cer-rec AND res_format:CSV',
        'rows': 1000
    }
    
    print("Recherche et téléchargement des CSV anglais du CER...")
    
    # Créer dossier de téléchargement
    download_folder = "cer_csv_downloads"
    if not os.path.exists(download_folder):
        os.makedirs(download_folder)
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets du CER")
        
        # Collecter et filtrer les CSV
        csv_files = []
        seen_names = set()
        
        for dataset in datasets:
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    name = resource.get('name', 'Sans nom')
                    url = resource.get('url', '')
                    
                    # Détecter version française
                    is_french = any(indicator in url.lower() for indicator in [
                        '/francais/', '/fr/', '-fr.', '_fr.', 'french'
                    ]) or any(indicator in name.lower() for indicator in [
                        'français', 'francais', 'donnees'
                    ])
                    
                    # Normaliser nom pour détecter doublons
                    normalized = name.lower().strip()
                    
                    # Garder seulement anglais et éviter doublons
                    if not is_french and normalized not in seen_names:
                        csv_files.append({
                            'name': name,
                            'url': url,
                            'dataset': dataset.get('title', 'Unknown')
                        })
                        seen_names.add(normalized)
        
        print(f"Fichiers CSV anglais à télécharger: {len(csv_files)}")
        
        # Télécharger chaque fichier
        downloaded = []
        failed = []
        
        for i, csv_file in enumerate(csv_files, 1):
            print(f"{i:3d}/{len(csv_files)} - {csv_file['name']}")
            
            try:
                # Télécharger
                file_response = requests.get(csv_file['url'], timeout=30)
                file_response.raise_for_status()
                
                # Nettoyer nom de fichier
                safe_name = "".join(c for c in csv_file['name'] if c.isalnum() or c in (' ', '-', '_', '.')).strip()
                if not safe_name.endswith('.csv'):
                    safe_name += '.csv'
                
                # Sauvegarder
                filepath = os.path.join(download_folder, safe_name)
                with open(filepath, 'wb') as f:
                    f.write(file_response.content)
                
                downloaded.append({
                    'Fichier': safe_name,
                    'Dataset': csv_file['dataset'],
                    'Taille': f"{len(file_response.content)} bytes",
                    'Status': 'Téléchargé'
                })
                
            except Exception as e:
                failed.append({
                    'Fichier': csv_file['name'],
                    'Dataset': csv_file['dataset'],
                    'Erreur': str(e),
                    'Status': 'Échec'
                })
                print(f"    ERREUR: {e}")
        
        # Rapport final
        print(f"\nRésultats:")
        print(f"Téléchargés avec succès: {len(downloaded)}")
        print(f"Échecs: {len(failed)}")
        
        # Sauvegarder rapport
        all_results = downloaded + failed
        df = pd.DataFrame(all_results)
        df.to_csv(os.path.join(download_folder, 'download_report.csv'), index=False, encoding='utf-8')
        
        print(f"\nFichiers sauvegardés dans: {download_folder}/")
        print(f"Rapport: {download_folder}/download_report.csv")
        
        # Afficher liste des téléchargés
        if downloaded:
            print(f"\nFichiers téléchargés:")
            for item in downloaded:
                print(f"  - {item['Fichier']}")
        
        if failed:
            print(f"\nÉchecs:")
            for item in failed:
                print(f"  - {item['Fichier']}: {item['Erreur']}")
        
        return downloaded, failed
        
    except Exception as e:
        print(f"Erreur: {e}")
        return [], []

if __name__ == "__main__":
    download_cer_csv_english()

Recherche et téléchargement des CSV anglais du CER...
Trouvé 62 datasets du CER
Fichiers CSV anglais à télécharger: 428
  1/428 - damage-prevention-regulation-contravention-reports
  2/428 - damage-prevention-regulation-contravention-reports-data-dictionary
  3/428 - crude-oil-exports-by-destination-annual
  4/428 - crude-oil-exports-by-destination-monthly
  5/428 - crude-oil-exports-by-type-annual
  6/428 - crude-oil-exports-by-type-monthly
  7/428 - crude-oil-exports-data-dictionary
  8/428 - refined-petroleum-products-exports-monthly
  9/428 - refined-petroleum-products-exports-annual
 10/428 - refined-petroleum-products-exports-data-dictionary
 11/428 - Operations and Maintenance Activities 
 12/428 - Operations and Maintenance Activities Data Dictionary 
 13/428 - Pipeline Incidents
 14/428 - Pipeline Incidents Data Dictionary
 15/428 - Contamination
 16/428 - contamination-data-dictionary
 17/428 - electricity-exports-and-imports-monthly
 18/428 - electricity-exports-and-imports-

In [27]:
import requests
import pandas as pd
from datetime import datetime

def get_cer_september_updated_files():
    """Obtenir les fichiers CSV du CER mis à jour en septembre (vérification individuelle)"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',
        'fq': 'organization:cer-rec AND res_format:CSV',
        'rows': 1000
    }
    
    print("Recherche des fichiers CSV et vérification des dates de mise à jour...")
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return None
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets, vérification individuelle des fichiers...")
        
        september_files = []
        seen_names = set()
        total_files = 0
        
        for dataset in datasets:
            dataset_title = dataset.get('title', 'Sans titre')
            
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    total_files += 1
                    resource_id = resource.get('id', '')
                    name = resource.get('name', 'Sans nom')
                    url = resource.get('url', '')
                    
                    # Filtrer versions françaises
                    is_french = any(indicator in url.lower() for indicator in [
                        '/francais/', '/fr/', '-fr.', '_fr.', 'french'
                    ]) or any(indicator in name.lower() for indicator in [
                        'français', 'francais', 'donnees'
                    ])
                    
                    normalized = name.lower().strip()
                    
                    if is_french or normalized in seen_names:
                        continue
                    
                    # Vérifier la date de mise à jour individuelle du fichier
                    resource_url = f"https://open.canada.ca/data/api/action/resource_show"
                    resource_params = {'id': resource_id}
                    
                    try:
                        resource_response = requests.get(resource_url, params=resource_params)
                        if resource_response.status_code == 200:
                            resource_data = resource_response.json()
                            if resource_data.get('success'):
                                resource_info = resource_data['result']
                                last_modified = resource_info.get('last_modified', '')
                                
                                # Vérifier si mis à jour en septembre 2025
                                if last_modified and last_modified.startswith('2025-09'):
                                    september_files.append({
                                        'Fichier CSV': name,
                                        'Dataset': dataset_title,
                                        'Date mise à jour': last_modified[:10],
                                        'Heure': last_modified[11:19] if len(last_modified) > 10 else '',
                                        'URL': url,
                                        'Resource ID': resource_id
                                    })
                                    print(f"Trouvé: {name} - {last_modified[:10]}")
                    
                    except Exception as e:
                        print(f"Erreur vérification {name}: {e}")
                    
                    seen_names.add(normalized)
        
        print(f"\nVérification terminée: {total_files} fichiers analysés")
        
        if not september_files:
            print("Aucun fichier CSV mis à jour en septembre 2025")
            return None
        
        # Trier par date de mise à jour (plus récent en premier)
        september_files.sort(key=lambda x: x['Date mise à jour'], reverse=True)
        
        # Créer DataFrame et afficher
        df = pd.DataFrame(september_files)
        
        print(f"\nFichiers CSV mis à jour en septembre 2025: {len(september_files)}")
        print("=" * 100)
        
        for i, row in enumerate(september_files, 1):
            print(f"{i:2d}. {row['Fichier CSV']}")
            print(f"    Dataset: {row['Dataset']}")
            print(f"    Mis à jour: {row['Date mise à jour']} à {row['Heure']}")
            print(f"    URL: {row['URL']}")
            print()
        
        # Sauvegarder
        df.to_csv('cer_csv_september_2025_verified.csv', index=False, encoding='utf-8')
        print(f"Liste sauvegardée: cer_csv_september_2025_verified.csv")
        
        return df
        
    except Exception as e:
        print(f"Erreur: {e}")
        return None

if __name__ == "__main__":
    get_cer_september_updated_files()

Recherche des fichiers CSV et vérification des dates de mise à jour...
Trouvé 62 datasets, vérification individuelle des fichiers...

Vérification terminée: 846 fichiers analysés
Aucun fichier CSV mis à jour en septembre 2025


In [28]:
import requests
import pandas as pd

def get_cer_september_english_csv():
    """Obtenir les fichiers CSV du CER modifiés en septembre + version anglaise seulement"""
    
    api_url = "https://open.canada.ca/data/api/action/package_search"
    
    params = {
        'q': '',  # Pas de mot-clé, on veut tout
        'fq': 'organization:cer-rec AND res_format:CSV',  # Seulement CER et CSV
        'rows': 1000  # Maximum
    }
    
    print("Recherche de TOUS les CSV du Canada Energy Regulator...")
    
    try:
        response = requests.get(api_url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if not data.get('success'):
            print("Erreur API")
            return None
        
        datasets = data['result']['results']
        print(f"Trouvé {len(datasets)} datasets du CER")
        
        # ETAPE 1: Filtrer par date septembre 2025
        september_datasets = []
        for dataset in datasets:
            last_modified = dataset.get('metadata_modified', '')
            if last_modified.startswith('2025-09'):
                september_datasets.append(dataset)
        
        print(f"Datasets modifiés en septembre: {len(september_datasets)}")
        
        if not september_datasets:
            print("Aucun dataset modifié en septembre 2025")
            return None
        
        # ETAPE 2: Extraire tous les fichiers CSV de ces datasets
        csv_list = []
        
        for dataset in september_datasets:
            dataset_title = dataset.get('title', 'Sans titre')
            dataset_id = dataset.get('id', '')
            last_modified = dataset.get('metadata_modified', 'Inconnue')[:10]
            
            for resource in dataset.get('resources', []):
                if resource.get('format', '').upper() == 'CSV':
                    csv_list.append({
                        'Dataset': dataset_title,
                        'Fichier CSV': resource.get('name', 'Sans nom'),
                        'URL': resource.get('url', ''),
                        'Taille': resource.get('size', 'Inconnue'),
                        'Date modif': last_modified,
                        'Description fichier': resource.get('description', 'Aucune'),
                        'Dataset ID': dataset_id
                    })
        
        print(f"Total fichiers CSV (avec doublons): {len(csv_list)}")
        
        # ETAPE 3: Filtrer pour garder seulement les versions anglaises
        english_csv_list = []
        seen_names = set()
        
        for csv_file in csv_list:
            name = csv_file['Fichier CSV']
            url = csv_file['URL']
            
            # Détecter version française
            is_french = any(indicator in url.lower() for indicator in [
                '/francais/', '/fr/', '-fr.', '_fr.', 'french'
            ]) or any(indicator in name.lower() for indicator in [
                'français', 'francais', 'donnees'
            ])
            
            # Normaliser nom pour détecter doublons
            normalized = name.lower().strip()
            
            # Garder seulement anglais et éviter doublons
            if not is_french and normalized not in seen_names:
                english_csv_list.append(csv_file)
                seen_names.add(normalized)
        
        # Créer DataFrame final
        df = pd.DataFrame(english_csv_list)
        
        print(f"\nFichiers CSV anglais modifiés en septembre: {len(english_csv_list)}")
        print("\nListe des fichiers:")
        print("=" * 120)
        
        # Afficher la liste avec détails
        print(df[['Fichier CSV', 'Date modif', 'Taille']].to_string(index=True))
        
        # Sauvegarder
        df.to_csv('cer_csv_september_english.csv', index=False, encoding='utf-8')
        print(f"\nListe sauvegardée: cer_csv_september_english.csv")
        
        return df
        
    except Exception as e:
        print(f"Erreur: {e}")
        return None

if __name__ == "__main__":
    df = get_cer_september_english_csv()

Recherche de TOUS les CSV du Canada Energy Regulator...
Trouvé 62 datasets du CER
Datasets modifiés en septembre: 9
Total fichiers CSV (avec doublons): 46

Fichiers CSV anglais modifiés en septembre: 23

Liste des fichiers:
                                                           Fichier CSV  Date modif    Taille
0                   damage-prevention-regulation-contravention-reports  2025-09-05  Inconnue
1   damage-prevention-regulation-contravention-reports-data-dictionary  2025-09-05  Inconnue
2                              crude-oil-exports-by-destination-annual  2025-09-05     10550
3                             crude-oil-exports-by-destination-monthly  2025-09-05    165117
4                                     crude-oil-exports-by-type-annual  2025-09-05      6270
5                                    crude-oil-exports-by-type-monthly  2025-09-05    106926
6                                    crude-oil-exports-data-dictionary  2025-09-05      1240
7                           refi