## 1. Library Import

In [None]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import time
import json
import re
import os

## 3. API

In [None]:
API_KEY = input("\n Entrez votre clé API Anthropic: ").strip()

if not API_KEY:
    print(" Clé API requise")
    exit(1)

# Installer anthropic si nécessaire
try:
    import anthropic
except ImportError:
    print(" Installation du package anthropic...")
    os.system("pip install -q anthropic")
    import anthropic

client = anthropic.Anthropic(api_key=API_KEY)

# Détecter le modèle disponible
print("\n Détection du modèle Claude disponible...")
CLAUDE_MODEL = None

test_models = [
    ("claude-3-5-sonnet-20241022", "Sonnet 3.5 (Oct 2024)", 3.0),
    ("claude-3-5-sonnet-20240620", "Sonnet 3.5 (June 2024)", 3.0),
    ("claude-3-opus-20240229", "Opus 3", 15.0),
    ("claude-3-sonnet-20240229", "Sonnet 3", 3.0),
    ("claude-3-haiku-20240307", "Haiku 3", 0.25),
]

for model_id, model_name, cost_estimate in test_models:
    try:
        print(f"   Testing {model_name}...", end=" ")
        test_msg = client.messages.create(
            model=model_id,
            max_tokens=10,
            messages=[{"role": "user", "content": "test"}]
        )
        CLAUDE_MODEL = model_id
        CLAUDE_MODEL_NAME = model_name
        CLAUDE_COST = cost_estimate
        print(f"Ok")
        break
    except Exception as e:
        if "404" in str(e) or "not_found" in str(e):
            print(f"No")
        else:
            print(f"  {str(e)[:30]}")

if not CLAUDE_MODEL:
    print("\n Aucun modèle Claude accessible")
    print(" Vérifiez votre clé API et vos crédits sur console.anthropic.com")
    exit(1)

estimated_cost = (len(df) / 50) * (CLAUDE_COST / 1000) * 50 * 0.15
print(f"\n Modèle sélectionné : {CLAUDE_MODEL_NAME}")
print(f"   ID : {CLAUDE_MODEL}")
print(f"   Coût estimé : ~${estimated_cost:.2f} pour {len(df)} institutions")

confirm = input(f"\n  Continuer ? (oui/non): ").strip().lower()
if confirm not in ['oui', 'yes', 'y', 'o']:
    print(" Annulé")
    exit(0)



 Entrez votre clé API Anthropic: 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

 Détection du modèle Claude disponible...
   Testing Sonnet 3.5 (Oct 2024)... No
   Testing Sonnet 3.5 (June 2024)... No
   Testing Opus 3... 

Please migrate to a newer model. Visit https://docs.anthropic.com/en/docs/resources/model-deprecations for more information.
  test_msg = client.messages.create(
Please migrate to a newer model. Visit https://docs.anthropic.com/en/docs/resources/model-deprecations for more information.
  test_msg = client.messages.create(


No
   Testing Sonnet 3... No
   Testing Haiku 3... Ok

 Modèle sélectionné : Haiku 3
   ID : claude-3-haiku-20240307
   Coût estimé : ~$0.41 pour 10883 institutions

  Continuer ? (oui/non): oui


## 2. Data Import

In [None]:
# Monter Google Drive
try:
    from google.colab import drive
    drive.mount('/content/drive', force_remount=False)
    print(" Google Drive monté")
except:
    print("  Exécution en dehors de Google Colab")

# Charger le dataset
file_path = '/content/drive/My Drive/PSL L3/institutions_unique_avec_pays.csv'

try:
    df = pd.read_csv(file_path)
    print(f" {len(df)} institutions chargées")
except FileNotFoundError:
    print(f" Fichier introuvable : {file_path}")
    exit(1)

print(f"\n Aperçu des données :")
print(df.head(10))

Mounted at /content/drive
 Google Drive monté
 10883 institutions chargées

 Aperçu des données :
                                    institution_name           pays
0                                                 3M  United States
1                             A-T Children's Project  United States
2       A. Alfred Taubman Medical Research Institute  United States
3                   A.B. de Lautour Charitable Trust    New Zealand
4                           A.G. Leventis Foundation         Cyprus
5  A.H. Schultz-Stiftung zur Förderung Primatolog...    Switzerland
6                     A.L. Mailman Family Foundation  United States
7                           A.P. Giannini Foundation  United States
8  A.P. Møller og Hustru Chastine Mc-Kinney Mølle...        Denmark
9                              A.T. Still University  United States



## 3. LLM for classification


In [None]:
def create_prompt_batch(institutions_batch: list) -> str:
    """Crée un prompt optimisé pour un batch d'institutions"""

    csv_lines = ["institution_name,pays"]
    for inst in institutions_batch:
        csv_lines.append(f"{inst['institution_name']},{inst['pays']}")

    csv_input = "\n".join(csv_lines)

    prompt = f"""Tu es un expert en classification d'institutions de recherche et d'enseignement.

TÂCHE : Ajoute une colonne 'type_financement' à ce CSV avec :
- 0 si PUBLIQUE (universités publiques, agences gouvernementales, instituts nationaux)
- 1 si PRIVÉE (fondations privées, entreprises, universités privées, trusts)
- 2 si MIXTE (partenariats public-privé)

RÈGLES IMPORTANTES :
 Universités privées USA : Harvard, MIT, Stanford, Yale, Princeton, Duke, Cornell → 1
 Universités publiques USA : UC Berkeley, University of Michigan, State Universities → 0
 Fondations : Foundation, Trust, Stiftung, Fonds → 1
 Instituts nationaux : National Institutes, CNRS, NIH, NASA, Inserm → 0
 Entreprises : Corporation, Inc., LLC, GmbH, SA, AG → 1
 Universités européennes : généralement publiques → 0 (sauf privées explicites)

CSV À COMPLÉTER :
{csv_input}

RÉPONDS UNIQUEMENT PAR LE CSV COMPLÉTÉ avec la colonne type_financement.
Format exact :
institution_name,pays,type_financement
3M,United States,1
Harvard University,United States,1
Université de Paris,France,0

N'ajoute AUCUN texte avant ou après le CSV."""

    return prompt



In [None]:
def parse_csv_response(response_text: str) -> list:
    """Parse la réponse CSV du LLM"""
    response_text = response_text.strip()
    response_text = re.sub(r'```csv\n?', '', response_text)
    response_text = re.sub(r'```\n?', '', response_text)
    response_text = response_text.strip()

    lines = response_text.split('\n')
    results = []

    # Trouver l'en-tête
    header_idx = 0
    for i, line in enumerate(lines):
        if 'institution_name' in line.lower():
            header_idx = i
            break

    # Parser les données
    for line in lines[header_idx+1:]:
        if not line.strip():
            continue

        parts = line.split(',')
        if len(parts) >= 3:
            try:
                type_fin = parts[-1].strip()

                if type_fin.isdigit():
                    type_fin = int(type_fin)
                elif type_fin.lower() == 'nan' or not type_fin:
                    type_fin = np.nan
                else:
                    type_fin = int(type_fin)

                name = ','.join(parts[:-2]).strip('"').strip()
                pays = parts[-2].strip('"').strip()

                results.append({
                    'institution_name': name,
                    'pays': pays,
                    'type_financement': type_fin
                })
            except:
                continue

    return results



In [None]:
def call_claude_api(prompt: str, max_retries: int = 3) -> list:
    """Appelle l'API Claude"""
    for attempt in range(max_retries):
        try:
            message = client.messages.create(
                model=CLAUDE_MODEL,
                max_tokens=4000,
                temperature=0,
                messages=[{"role": "user", "content": prompt}]
            )

            response_text = message.content[0].text
            results = parse_csv_response(response_text)

            if results:
                return results
            else:
                raise ValueError("Aucun résultat parsé")

        except Exception as e:
            print(f"\n Tentative {attempt+1}/{max_retries} échouée : {str(e)[:60]}")
            if attempt < max_retries - 1:
                time.sleep(2 ** attempt)
            else:
                return None

    return None


## 5. Traitement

In [None]:
BATCH_SIZE = 50
DELAY_BETWEEN_BATCHES = 1.0

total = len(df)
batches = []

for i in range(0, total, BATCH_SIZE):
    batch = df.iloc[i:i+BATCH_SIZE].to_dict('records')
    batches.append(batch)

print(f"\n Configuration :")
print(f"   Total institutions : {total}")
print(f"   Taille batch : {BATCH_SIZE}")
print(f"   Nombre de batches : {len(batches)}")

all_results = []
failed_batches = []


for batch_idx, batch in enumerate(tqdm(batches, desc="Batches")):
    try:
        prompt = create_prompt_batch(batch)
        results = call_claude_api(prompt)

        if results:
            all_results.extend(results)
        else:
            print(f"\n  Batch {batch_idx+1} échoué")
            failed_batches.append((batch_idx, batch))

        if batch_idx < len(batches) - 1:
            time.sleep(DELAY_BETWEEN_BATCHES)

    except KeyboardInterrupt:
        print("\n\n  Interruption par l'utilisateur")
        print(f"   {len(all_results)} institutions classifiées jusqu'ici")
        break
    except Exception as e:
        print(f"\n Erreur batch {batch_idx+1}: {str(e)[:60]}")
        failed_batches.append((batch_idx, batch))




 Configuration :
   Total institutions : 10883
   Taille batch : 50
   Nombre de batches : 218
   Temps estimé : ~10.9 minutes


Batches: 100%|██████████| 218/218 [21:32<00:00,  5.93s/it]


## 6. Save

In [None]:
output_file = 'institutions_publics_privees.csv'
df_results.to_csv(output_file, index=False)
print(f" Fichier sauvegardé : {output_file}")

# Télécharger
try:
    from google.colab import files
    print("\n Téléchargement automatique...")
    files.download(output_file)
    print(" Fichier téléchargé")
except:
    print(f"\n Fichier disponible : {os.path.abspath(output_file)}")

# Sauvegarder les échecs
if failed_batches:
    failed_file = 'institutions_failed_batches.txt'
    with open(failed_file, 'w', encoding='utf-8') as f:
        for batch_idx, batch in failed_batches:
            f.write(f"\n=== Batch {batch_idx+1} ===\n")
            for inst in batch:
                f.write(f"{inst['institution_name']},{inst['pays']}\n")
    print(f"\n  Batches échoués sauvegardés : {failed_file}")

 Fichier sauvegardé : institutions_publics_privees.csv

 Téléchargement automatique...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

 Fichier téléchargé


## 7. Data visualisation

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

# Charger les données
df = pd.read_csv('institutions_publics_privees.csv')

# Compter
counts = df['type_financement'].value_counts().sort_index()

# Graphique
plt.figure(figsize=(10, 6))
bars = plt.bar(['Public', 'Privé', 'Mixte'],
               color=["#144a3a",  "#146b45", "#1f8f5a"])

plt.xlabel('Type de financement', fontsize=12)
plt.ylabel('Nombre d\'institutions', fontsize=12)
plt.title('Distribution des Types de Financement', fontsize=14, fontweight='bold')

# Ajouter les valeurs
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height,
             f'{int(height):,}', ha='center', va='bottom', fontsize=11)

plt.tight_layout()
plt.show()

FileNotFoundError: [Errno 2] No such file or directory: 'institutions_publics_privees.csv'