# Ingestion CSV vers BigQuery - Version Minimaliste

**Objectif** : Ex√©cuter simplement la requ√™te LOAD DATA du Tutoriel 1

**Pr√©requis** :
- Table `lake-471013.lakehouse_employee_data.employees` cr√©√©e (Tutoriel 1)
- Fichier `employees_5mb.csv` upload√© dans GCS
- Permissions BigQuery et GCS

## Installation Configuration et Authentification


In [13]:
# Installation et imports
!pip install google-cloud-bigquery -q

from google.cloud import bigquery
from google.colab import auth
import os

print("‚úÖ Installation termin√©e")

# Authentification Google Cloud
print(" -- Authentification en cours...")
auth.authenticate_user()

# Configuration du projet
PROJECT_ID = "lake-471013"  # ‚ö†Ô∏è Modifiez si n√©cessaire
os.environ['GOOGLE_CLOUD_PROJECT'] = PROJECT_ID

print(f"‚úÖ Authentifi√© sur le projet: {PROJECT_ID}")

‚úÖ Installation termin√©e
 -- Authentification en cours...
‚úÖ Authentifi√© sur le projet: lake-471013


## Configuration des Param√®tres

D√©finition des chemins et initialisation du client BigQuery :

- **Table cible** : `lake-471013.lakehouse_employee_data.employees`
- **Fichier source** : `gs://lakehouse-bucket-20250903/employees_5mb.csv`

In [14]:
# Configuration des param√®tres
FULL_TABLE_ID = "lake-471013.lakehouse_employee_data.employees"
GCS_URI = "gs://lakehouse-bucket-20250903/employees_5mb.csv"

print(f"üéØ Table cible: {FULL_TABLE_ID}")
print(f"üìÑ Fichier source: {GCS_URI}")

# Initialiser le client BigQuery
client = bigquery.Client(project=PROJECT_ID)
print("‚úÖ Client BigQuery initialis√©")

üéØ Table cible: lake-471013.lakehouse_employee_data.employees
üìÑ Fichier source: gs://lakehouse-bucket-20250903/employees_5mb.csv
‚úÖ Client BigQuery initialis√©


## Pr√©paration de la Requ√™te d'Ingestion

Construction de la requ√™te SQL qui va :

1. **Vider la table** avec `TRUNCATE TABLE`
2. **Charger les donn√©es** avec `LOAD DATA INTO`
3. **Configurer le format** CSV avec d√©limiteur `;`

### Structure des donn√©es attendues :
- 20 colonnes : id, nom, pr√©nom, email, √¢ge, ville, etc.
- Format CSV avec en-t√™tes (skip_leading_rows = 1)
- D√©limiteur point-virgule

In [15]:
# üöÄ REQU√äTE D'INGESTION PRINCIPALE
ingestion_query = f"""
-- Flux d'ingestion CSV vers BigQuery
-- Fichier source : employees
-- Table cible : employees_5mb.csv
-- Truncate avant bulk

TRUNCATE TABLE `lake-471013.lakehouse_employee_data.employees`;

LOAD DATA INTO `lake-471013.lakehouse_employee_data.employees`
(id INT64, nom STRING, prenom STRING, email STRING, age INT64, ville STRING,
 code_postal STRING, telephone STRING, salaire FLOAT64, departement STRING,
 date_embauche DATE, statut STRING, score FLOAT64, latitude FLOAT64,
 longitude FLOAT64, commentaire STRING, reference STRING, niveau STRING,
 categorie STRING, timestamp TIMESTAMP)
FROM FILES (
  format = 'CSV',
  field_delimiter = ';',
  skip_leading_rows = 1,
  uris = ['gs://lakehouse-bucket-20250903/employees_5mb.csv']
);
"""
print(f"üìÑ Source: {GCS_URI}")
print(f"üéØ Destination: {FULL_TABLE_ID}")

üìÑ Source: gs://lakehouse-bucket-20250903/employees_5mb.csv
üéØ Destination: lake-471013.lakehouse_employee_data.employees


## V√©rification de l'√âtat Initial

Contr√¥le que la table existe et affichage du nombre de lignes actuelles avant l'ingestion.

In [16]:
# V√©rification rapide de la table
try:
    table = client.get_table(FULL_TABLE_ID)
    print(f"‚úÖ Table trouv√©e: {table.table_id}")
    print(f"üìä Lignes actuelles: {table.num_rows:,}")
except Exception as e:
    print(f"‚ùå Erreur: {str(e)}")
    print("üí° Assurez-vous que la table existe (voir Tutoriel 1)")

‚úÖ Table trouv√©e: employees
üìä Lignes actuelles: 18,100


## Ex√©cution de l'Ingestion

Lancement du processus d'ingestion avec suivi en temps r√©el :

1. **Comptage avant** ingestion
2. **Ex√©cution** de la requ√™te LOAD DATA
3. **Comptage apr√®s** ingestion
4. **Rapport final** avec statistiques

In [17]:
# Ex√©cution de l'ingestion
try:
    # Compter les lignes avant
    count_before = client.query(f"SELECT COUNT(*) as count FROM `{FULL_TABLE_ID}`").result()
    rows_before = list(count_before)[0].count
    print(f"üìä Lignes avant ingestion: {rows_before:,}")

    # Lancer l'ingestion
    print("\n‚è≥ Ingestion en cours...")
    job = client.query(ingestion_query)
    job.result()  # Attendre la fin

    # Compter les lignes apr√®s
    count_after = client.query(f"SELECT COUNT(*) as count FROM `{FULL_TABLE_ID}`").result()
    rows_after = list(count_after)[0].count

    # R√©sum√©
    new_rows = rows_after - rows_before
    print("\n" + "="*50)
    print("‚úÖ INGESTION TERMIN√âE AVEC SUCC√àS!")
    print("="*50)
    print(f"üìà Lignes avant:     {rows_before:,}")
    print(f"üìà Lignes apr√®s:     {rows_after:,}")
    print(f"üìÑ Fichier trait√©:   {GCS_URI.split('/')[-1]}")

except Exception as e:
    print(f"\n‚ùå ERREUR LORS DE L'INGESTION:")
    print(f"   {str(e)}")
    print("\nüí° V√©rifications sugg√©r√©es:")
    print("   ‚Ä¢ Le fichier CSV existe-t-il dans GCS ?")
    print("   ‚Ä¢ Les permissions sont-elles correctes ?")
    print("   ‚Ä¢ La table de destination existe-t-elle ?")

üìä Lignes avant ingestion: 18,100

‚è≥ Ingestion en cours...

‚úÖ INGESTION TERMIN√âE AVEC SUCC√àS!
üìà Lignes avant:     18,100
üìà Lignes apr√®s:     18,100
üìÑ Fichier trait√©:   employees_5mb.csv
