In [2]:
# ====================================================================
# PROJET BUSINESS INTELLIGENCE - TECHSTORE
# ETL PIPELINE - PARTIE MEMBRE 1 : DATA EXTRACTION
# ====================================================================

# %% [markdown]
# # üìä Extraction des Donn√©es (Membre 1)
# 
# Ce notebook contient la partie extraction du pipeline ETL.
# **Responsable :** Membre 1 - Data Extraction Engineer
# 
# ## Objectifs :
# 1. ‚úÖ Extraire les donn√©es de MySQL (ERP)
# 2. ‚úÖ Scraper les prix des concurrents
# 3. ‚úÖ Extraire les factures legacy (OCR - BONUS)
# 4. ‚úÖ Valider la qualit√© des donn√©es extraites

# %% Imports pour tout le pipeline ETL
# Installer les d√©pendances manquantes (ex√©cuter uniquement dans le notebook)


# === Imports de base ===
import pandas as pd
import os
import warnings
warnings.filterwarnings('ignore')

# === Partie 1 : Extraction (Membre 1) ===
import mysql.connector
import requests
from bs4 import BeautifulSoup
import os
import sys
import time
from datetime import datetime

# === Partie 2 : Transformations (Membre 2 - Toi) ===
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
import pytesseract
from PIL import Image
import re
from fuzzywuzzy import process  # Pour le matching des prix concurrents

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")
print(f"üìÖ Date d'ex√©cution: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

# %% [markdown]
# ## 1Ô∏è‚É£ Configuration de la Connexion MySQL

# %% Configuration
MYSQL_CONFIG = {
    'host': 'boughida.com',
    'database': 'techstore_erp',
    'user': 'student_user_4ing',
    'password': 'bi_guelma_2025'
}

# Cr√©er les r√©pertoires n√©cessaires
os.makedirs('data/extracted', exist_ok=True)
os.makedirs('data/legacy_invoices', exist_ok=True)

print("üìã Configuration charg√©e")
print(f"   Serveur: {MYSQL_CONFIG['host']}")
print(f"   Base de donn√©es: {MYSQL_CONFIG['database']}")

# %% [markdown]
# ## 2Ô∏è‚É£ Connexion et Test

# %% Test de connexion
def test_connection():
    """Tester la connexion √† MySQL"""
    try:
        conn = mysql.connector.connect(**MYSQL_CONFIG)
        if conn.is_connected():
            print("‚úÖ Connexion MySQL r√©ussie!")
            
            # Tester une requ√™te simple
            cursor = conn.cursor()
            cursor.execute("SELECT DATABASE()")
            db_name = cursor.fetchone()[0]
            print(f"   Base de donn√©es active: {db_name}")
            
            # Lister les tables disponibles
            cursor.execute("SHOW TABLES")
            tables = cursor.fetchall()
            print(f"   Nombre de tables: {len(tables)}")
            
            conn.close()
            return True
    except Exception as e:
        print(f"‚ùå Erreur de connexion: {e}")
        return False

# Ex√©cuter le test
test_connection()

# %% [markdown]
# ## 3Ô∏è‚É£ Extraction des Tables MySQL

# %% Fonction d'extraction
def extract_mysql_table(table_name, conn):
    """Extraire une table MySQL vers DataFrame"""
    try:
        print(f"üìä Extraction: {table_name}...", end=" ")
        
        query = f"SELECT * FROM {table_name}"
        df = pd.read_sql(query, conn)
        
        # Sauvegarder en CSV
        filename = f"data/extracted/{table_name.replace('table_', '')}.csv"
        df.to_csv(filename, index=False, encoding='utf-8')
        
        print(f"‚úÖ {len(df)} lignes | {len(df.columns)} colonnes")
        
        return df
        
    except Exception as e:
        print(f"‚ùå Erreur: {e}")
        return None

# %% Extraction de toutes les tables
print("\n" + "="*60)
print("üöÄ EXTRACTION DES TABLES MySQL")
print("="*60 + "\n")

# Se connecter
conn = mysql.connector.connect(**MYSQL_CONFIG)

# Liste des tables √† extraire
tables_to_extract = [
    'table_sales',
    'table_products',
    'table_reviews',
    'table_customers',
    'table_stores',
    'table_cities',
    'table_categories',
    'table_subcategories'
]

# Dictionnaire pour stocker les DataFrames
dataframes = {}

# Extraire chaque table
for table in tables_to_extract:
    df = extract_mysql_table(table, conn)
    if df is not None:
        # Enlever le pr√©fixe "table_" pour le nom
        clean_name = table.replace('table_', '')
        dataframes[clean_name] = df

# Fermer la connexion
conn.close()

print("\n‚úÖ Extraction MySQL termin√©e!")
print(f"üì¶ {len(dataframes)} tables extraites")

# %% [markdown]
# ## 4Ô∏è‚É£ Aper√ßu des Donn√©es Extraites

# %% Afficher un aper√ßu
print("\n" + "="*60)
print("üìã APER√áU DES DONN√âES EXTRAITES")
print("="*60 + "\n")

for name, df in dataframes.items():
    print(f"\nüìä Table: {name}")
    print(f"   Dimensions: {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
    print(f"   Colonnes: {', '.join(df.columns.tolist()[:5])}...")
    print(f"   Aper√ßu:")
    print(df.head(3))
    print("-" * 60)

# %% [markdown]
# ## 5Ô∏è‚É£ Statistiques des Ventes

# %% Analyse rapide des ventes
df_sales = dataframes['sales']

print("\nüìä STATISTIQUES DES VENTES")
print("="*60)
print(f"Nombre total de ventes: {len(df_sales):,}")
print(f"Revenu total: {df_sales['Total_Revenue'].sum():,.2f} DZD")
print(f"Revenu moyen par vente: {df_sales['Total_Revenue'].mean():,.2f} DZD")
print(f"P√©riode: {df_sales['Date'].min()} ‚Üí {df_sales['Date'].max()}")

# %% [markdown]
# ## 6Ô∏è‚É£ Web Scraping - Prix Concurrents

# %% Import du module de scraping
print("\n" + "="*60)
print("üï∑Ô∏è  WEB SCRAPING - PRIX CONCURRENTS")
print("="*60 + "\n")

# Ajouter le r√©pertoire scripts au path pour l'import
sys.path.insert(0, 'scripts')

try:
    from scrape_competitors import scrape_with_fallback
    
    # Ex√©cuter le scraping
    df_competitor = scrape_with_fallback()
    
    if df_competitor is not None:
        print(f"\n‚úÖ Scraping termin√©: {len(df_competitor)} produits extraits")
        print(f"üíæ Fichier sauvegard√©: data/extracted/competitor_prices.csv")
        
        # Afficher un aper√ßu
        print("\nüìã Aper√ßu des prix concurrents:")
        print(df_competitor.head(10))
        
        # Ajouter au dictionnaire
        dataframes['competitor_prices'] = df_competitor
    else:
        print("‚ö†Ô∏è Aucune donn√©e de concurrent r√©cup√©r√©e")
        
except Exception as e:
    print(f"‚ùå Erreur lors du scraping: {e}")
    print("üìù Le module de scraping doit √™tre disponible dans scripts/scrape_competitors.py")

# %% [markdown]
# ## 7Ô∏è‚É£ Extraction des Factures Legacy (OCR - BONUS)

# %% OCR Processing
print("\n" + "="*60)
print("üìÑ EXTRACTION DES FACTURES LEGACY (OCR - BONUS)")
print("="*60 + "\n")

# Check if invoice images exist
invoice_dir = 'data/legacy_invoices'
has_invoices = os.path.exists(invoice_dir) and len([f for f in os.listdir(invoice_dir) 
                if f.lower().endswith(('.jpg', '.jpeg', '.png'))]) > 0

if has_invoices:
    print("üìÅ Factures d√©tect√©es, lancement de l'OCR...")
    
    try:
        from extract_legacy_invoices import InvoiceOCRProcessor
        
        # Initialize and run OCR processor
        processor = InvoiceOCRProcessor(invoice_dir)
        df_legacy = processor.process_and_save()
        
        if df_legacy is not None and len(df_legacy) > 0:
            print(f"\n‚úÖ OCR termin√©: {len(df_legacy)} factures trait√©es")
            print(f"üíæ Fichier sauvegard√©: data/extracted/legacy_sales.csv")
            
            # Display preview
            print("\nüìã Aper√ßu des ventes legacy:")
            print(df_legacy.head())
            
            # Add to dataframes dictionary
            dataframes['legacy_sales'] = df_legacy
            
        else:
            print("‚ö†Ô∏è Aucune donn√©e extraite par OCR")
            
    except ImportError:
        print("‚ö†Ô∏è Module OCR non trouv√© (scripts/extract_legacy_invoices.py)")
        print("   Cette √©tape est optionnelle (BONUS)")
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur OCR: {e}")
        print("   Utilisation de donn√©es manuelles √† la place...")
        
        try:
            from extract_legacy_invoices import create_manual_data
            df_legacy = create_manual_data()
            dataframes['legacy_sales'] = df_legacy
            print("‚úÖ Donn√©es manuelles cr√©√©es")
        except:
            print("   Passage de cette √©tape")
else:
    print("‚ÑπÔ∏è  Aucune facture trouv√©e dans data/legacy_invoices/")
    print("   Cette √©tape est optionnelle (BONUS)")
    print("   Pour activer: placez les images .jpg dans data/legacy_invoices/")

# %% [markdown]
# ## 8Ô∏è‚É£ Validation des Donn√©es Extraites

# %% V√©rifications de qualit√©
print("\n" + "="*60)
print("‚úÖ VALIDATION DES DONN√âES")
print("="*60 + "\n")

validation_results = []

for name, df in dataframes.items():
    # V√©rifier les valeurs manquantes
    missing = df.isnull().sum().sum()
    missing_pct = (missing / (df.shape[0] * df.shape[1])) * 100
    
    # V√©rifier les doublons
    duplicates = df.duplicated().sum()
    
    validation_results.append({
        'Table': name,
        'Lignes': len(df),
        'Colonnes': len(df.columns),
        'Valeurs_Manquantes': missing,
        'Pct_Manquant': f"{missing_pct:.2f}%",
        'Doublons': duplicates,
        'Statut': '‚úÖ' if missing_pct < 5 and duplicates < 10 else '‚ö†Ô∏è'
    })

df_validation = pd.DataFrame(validation_results)
print(df_validation.to_string(index=False))

# %% [markdown]
# ## 9Ô∏è‚É£ Export Summary Report

# %% Generate extraction summary
print("\n" + "="*60)
print("üìä G√âN√âRATION DU RAPPORT D'EXTRACTION")
print("="*60 + "\n")

summary = {
    'extraction_date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'total_tables': len(dataframes),
    'total_records': sum(len(df) for df in dataframes.values()),
    'files_created': []
}

# List all created files with sizes
for file in sorted(os.listdir('data/extracted')):
    file_path = f"data/extracted/{file}"
    file_size = os.path.getsize(file_path) / 1024  # KB
    summary['files_created'].append({
        'filename': file,
        'size_kb': round(file_size, 2),
        'records': len(pd.read_csv(file_path))
    })

# Save summary to JSON
import json
with open('data/extracted/extraction_summary.json', 'w') as f:
    json.dump(summary, f, indent=2)

print("‚úÖ Rapport d'extraction sauvegard√©: extraction_summary.json")

# %% [markdown]
# ## üîü R√©sum√© de l'Extraction

# %% R√©sum√© final
print("\n" + "="*70)
print("üìä R√âSUM√â DE L'EXTRACTION (MEMBRE 1)")
print("="*70 + "\n")

print("‚úÖ T√ÇCHES COMPL√âT√âES:")
print("   1. ‚úÖ Connexion MySQL √©tablie et test√©e")
print(f"   2. ‚úÖ {len([k for k in dataframes.keys() if k not in ['competitor_prices', 'legacy_sales']])} tables extraites de l'ERP")
print("   3. ‚úÖ Web scraping des prix concurrents effectu√©")

if 'legacy_sales' in dataframes:
    print("   4. ‚úÖ Extraction OCR des factures legacy (BONUS)")
else:
    print("   4. ‚è≠Ô∏è  Extraction OCR non effectu√©e (optionnel)")

print("   5. ‚úÖ Toutes les donn√©es sauvegard√©es en CSV")
print("   6. ‚úÖ Validation de la qualit√© des donn√©es effectu√©e")

print("\nüì¶ FICHIERS CR√â√âS:")
for file_info in summary['files_created']:
    print(f"   ‚Ä¢ {file_info['filename']:<30} ({file_info['size_kb']:>8.1f} KB) - {file_info['records']:>6,} lignes")

print(f"\nüìä STATISTIQUES GLOBALES:")
print(f"   ‚Ä¢ Total de lignes extraites: {summary['total_records']:,}")
print(f"   ‚Ä¢ Nombre de fichiers: {len(summary['files_created'])}")
print(f"   ‚Ä¢ Date d'extraction: {summary['extraction_date']}")

print("\nüöÄ PROCHAINE √âTAPE:")
print("   ‚Üí Membre 2 peut maintenant transformer ces donn√©es")
print("   ‚Üí Fichiers disponibles dans: data/extracted/")
print("   ‚Üí Rapport disponible dans: data/extracted/extraction_summary.json")

print("\nüí° NOTES POUR L'√âQUIPE:")
print("   ‚Ä¢ Les donn√©es ERP couvrent la p√©riode 2023-2025")
print("   ‚Ä¢ Les prix concurrents sont √† jour √† la date d'extraction")
if 'legacy_sales' in dataframes:
    print("   ‚Ä¢ Les factures legacy (2022) ont √©t√© num√©ris√©es (BONUS)")

print("\n" + "="*70)
print("‚úÖ EXTRACTION TERMIN√âE AVEC SUCC√àS")
print("="*70)

# %% [markdown]
# ## üìù Notes de D√©veloppement
# 
# ### Structure des fichiers cr√©√©s:
# - `sales.csv`: Transactions de vente (OLTP)
# - `products.csv`: Catalogue produits
# - `customers.csv`: Profils clients
# - `stores.csv`: Magasins
# - `cities.csv`: G√©ographie
# - `categories.csv` & `subcategories.csv`: Hi√©rarchie produits
# - `reviews.csv`: Avis clients (pour sentiment analysis)
# - `competitor_prices.csv`: Prix concurrents (web scraping)
# - `legacy_sales.csv`: Ventes 2022 (OCR - optionnel)
# 
# ### Prochaines √©tapes (Membre 2):
# - Charger ces CSV
# - Appliquer les transformations (nettoyage, enrichissement)
# - Calculer Net_Profit avec les fichiers Excel
# - Effectuer l'analyse de sentiment (VADER)
# - Pr√©parer les donn√©es pour le Data Warehouse

ModuleNotFoundError: No module named 'mysql'