# üöÄ Ingestion CSV vers BigQuery - Version Minimaliste

**Objectif** : Ex√©cuter simplement la requ√™te LOAD DATA du Tutoriel 1

**Pr√©requis** : 
- Table `lake-471013.lakehouse_employee_data.employees` cr√©√©e (Tutoriel 1)
- Fichier `employees_5mb.csv` upload√© dans GCS
- Permissions BigQuery et GCS

In [None]:
# Installation et imports
!pip install google-cloud-bigquery -q

from google.cloud import bigquery
from google.colab import auth
import os

print("‚úÖ Installation termin√©e")

In [None]:
# Authentification Google Cloud
print("üîê Authentification en cours...")
auth.authenticate_user()

# Configuration du projet
PROJECT_ID = "lake-471013"  # ‚ö†Ô∏è Modifiez si n√©cessaire
os.environ['GOOGLE_CLOUD_PROJECT'] = PROJECT_ID

print(f"‚úÖ Authentifi√© sur le projet: {PROJECT_ID}")

In [None]:
# Configuration des param√®tres
FULL_TABLE_ID = "lake-471013.lakehouse_employee_data.employees"
GCS_URI = "gs://lakehouse-bucket-20250903/employees_5mb.csv"

print(f"üìÅ Table cible: {FULL_TABLE_ID}")
print(f"üìÑ Fichier source: {GCS_URI}")

# Initialiser le client BigQuery
client = bigquery.Client(project=PROJECT_ID)
print("‚úÖ Client BigQuery initialis√©")

In [None]:
# V√©rification rapide de la table
try:
    table = client.get_table(FULL_TABLE_ID)
    print(f"‚úÖ Table trouv√©e: {table.table_id}")
    print(f"üìä Lignes actuelles: {table.num_rows:,}")
except Exception as e:
    print(f"‚ùå Erreur: {str(e)}")
    print("üí° Assurez-vous que la table existe (voir Tutoriel 1)")

In [None]:
# üöÄ REQU√äTE D'INGESTION PRINCIPALE
ingestion_query = f"""
-- Flux d'ingestion principal depuis GCS avec sch√©ma forc√©
LOAD DATA INTO `{FULL_TABLE_ID}`
(id INT64, nom STRING, prenom STRING, email STRING, age INT64, ville STRING, 
 code_postal STRING, telephone STRING, salaire FLOAT64, departement STRING, 
 date_embauche DATE, statut STRING, score FLOAT64, latitude FLOAT64, 
 longitude FLOAT64, commentaire STRING, reference STRING, niveau STRING, 
 categorie STRING, timestamp TIMESTAMP)
FROM FILES (
  format = 'CSV',
  field_delimiter = ';',
  skip_leading_rows = 1,
  uris = ['{GCS_URI}']
);
"""

print("üöÄ Lancement de l'ingestion...")
print(f"üìÑ Source: {GCS_URI}")
print(f"üìÅ Destination: {FULL_TABLE_ID}")

In [None]:
# Ex√©cution de l'ingestion
try:
    # Compter les lignes avant
    count_before = client.query(f"SELECT COUNT(*) as count FROM `{FULL_TABLE_ID}`").result()
    rows_before = list(count_before)[0].count
    print(f"üìä Lignes avant ingestion: {rows_before:,}")
    
    # Lancer l'ingestion
    print("\n‚è≥ Ingestion en cours...")
    job = client.query(ingestion_query)
    job.result()  # Attendre la fin
    
    # Compter les lignes apr√®s
    count_after = client.query(f"SELECT COUNT(*) as count FROM `{FULL_TABLE_ID}`").result()
    rows_after = list(count_after)[0].count
    
    # R√©sum√©
    new_rows = rows_after - rows_before
    print("\n" + "="*50)
    print("‚úÖ INGESTION TERMIN√âE AVEC SUCC√àS!")
    print("="*50)
    print(f"üìà Lignes avant:     {rows_before:,}")
    print(f"üìà Lignes apr√®s:     {rows_after:,}")
    print(f"‚ûï Nouvelles lignes: {new_rows:,}")
    print(f"üìÑ Fichier trait√©:   {GCS_URI.split('/')[-1]}")
    
except Exception as e:
    print(f"\n‚ùå ERREUR LORS DE L'INGESTION:")
    print(f"   {str(e)}")
    print("\nüí° V√©rifications sugg√©r√©es:")
    print("   ‚Ä¢ Le fichier CSV existe-t-il dans GCS ?")
    print("   ‚Ä¢ Les permissions sont-elles correctes ?")
    print("   ‚Ä¢ La table de destination existe-t-elle ?")

In [None]:
# V√©rification finale - √âchantillon des donn√©es
print("üîç V√©rification des donn√©es ing√©r√©es:")

sample_query = f"""
SELECT 
    id, nom, prenom, email, departement, salaire, age
FROM `{FULL_TABLE_ID}` 
ORDER BY id 
LIMIT 5
"""

try:
    result = client.query(sample_query).result()
    df = result.to_dataframe()
    
    print("\nüìä √âchantillon des 5 premiers enregistrements:")
    display(df)
    
except Exception as e:
    print(f"‚ùå Erreur lors de la v√©rification: {str(e)}")

## ‚úÖ Ingestion Termin√©e!

Votre fichier CSV a √©t√© ing√©r√© avec succ√®s dans BigQuery.

### Prochaines √©tapes:
- Consultez le **Tutoriel 2** pour l'automatisation Python
- Explorez le **Tutoriel 3 complet** pour les analyses avanc√©es
- Impl√©mentez l'orchestration avec **Airflow** (Tutoriel 4)

### Liens utiles:
- [BigQuery Console](https://console.cloud.google.com/bigquery)
- [Documentation LOAD DATA](https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-csv)
