# üîÆ DataLexir - D√©monstration Compl√®te

Ce notebook d√©montre l'utilisation compl√®te de DataLexir pour l'exploration de donn√©es et la g√©n√©ration de pipelines.

## üìã Sommaire

1. [Installation et Import](#installation)
2. [Pr√©paration des Donn√©es](#donn√©es)
3. [Exploration avec Elexbook](#exploration)
4. [G√©n√©ration du Pipeline](#pipeline)
5. [Application avec Elexdas (Pandas)](#elexdas)
6. [Application avec Elexpark (Spark)](#elexpark)
7. [Conclusion](#conclusion)

<a id="installation"></a>
## 1. üì¶ Installation et Import

Commen√ßons par installer et importer les biblioth√®ques n√©cessaires.

In [None]:
# Installation (si n√©cessaire)
# !pip install datalexir

# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime, timedelta

# Import DataLexir
from datalexir.elexbook import Elexbook
# from datalexir.elexdas import Elexdas
# from datalexir.elexpark import Elexpark

print("‚úÖ Imports r√©ussis !")

<a id="donn√©es"></a>
## 2. üìä Pr√©paration des Donn√©es

Cr√©ons un dataset de d√©monstration simulant des donn√©es de ventes e-commerce.

In [None]:
# G√©n√©ration d'un dataset de d√©monstration
np.random.seed(42)
n_records = 100000  # 100k enregistrements pour simuler un gros dataset

# G√©n√©ration des donn√©es
data = {
    'transaction_id': [f'T{i:06d}' for i in range(1, n_records + 1)],
    'customer_id': [f'C{np.random.randint(1, 10000):05d}' for _ in range(n_records)],
    'product_category': np.random.choice(['Electronics', 'Clothing', 'Books', 'Home', 'Sports', None], n_records, p=[0.25, 0.2, 0.15, 0.2, 0.15, 0.05]),
    'amount': np.random.lognormal(3, 1, n_records),
    'quantity': np.random.randint(1, 10, n_records),
    'date': [datetime(2024, 1, 1) + timedelta(days=np.random.randint(0, 365)) for _ in range(n_records)],
    'payment_method': np.random.choice(['Credit Card', 'PayPal', 'Bank Transfer', 'Cash'], n_records, p=[0.5, 0.3, 0.15, 0.05]),
    'discount_applied': np.random.choice([True, False], n_records, p=[0.3, 0.7]),
    'customer_rating': np.random.choice([1, 2, 3, 4, 5, None], n_records, p=[0.05, 0.1, 0.15, 0.35, 0.3, 0.05])
}

# Ajout de quelques valeurs manquantes
missing_indices = np.random.choice(n_records, size=int(n_records * 0.02), replace=False)
for idx in missing_indices:
    data['amount'][idx] = None

# Cr√©ation du DataFrame
sales_df = pd.DataFrame(data)

print(f"üìä Dataset g√©n√©r√© : {len(sales_df):,} lignes x {len(sales_df.columns)} colonnes")
print(f"üíæ Taille en m√©moire : {sales_df.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
sales_df.head()

In [None]:
# Aper√ßu du dataset
print("üìà Informations sur le dataset :")
print(sales_df.info())
print("\nüìä Statistiques descriptives :")
sales_df.describe()

<a id="exploration"></a>
## 3. üîç Exploration avec Elexbook

Maintenant, utilisons Elexbook pour explorer ce dataset sur un √©chantillon plus petit.

In [None]:
# Cr√©ation d'un Elexbook avec 5% du dataset
book = Elexbook(sales_df, sample=0.05)

print(f"üìñ Elexbook cr√©√© !")
print(f"üìä Dataset original : {len(book.df):,} lignes")
print(f"üéØ √âchantillon : {len(book.sample):,} lignes ({len(book.sample)/len(book.df)*100:.1f}%)")
print(f"üìù Historique : {len(book.history)} op√©rations")

In [None]:
# Exploration de base
print("üîç Aper√ßu de l'√©chantillon :")
book.head()

In [None]:
# V√©rification des valeurs manquantes
print("‚ùì Valeurs manquantes dans l'√©chantillon :")
book.isnull().sum()

In [None]:
# Nettoyage des donn√©es
print("üßπ Nettoyage des donn√©es...")

# Suppression des lignes avec des montants manquants
book.dropna(subset=['amount'])
print(f"‚úÖ Suppression des montants manquants : {len(book.sample)} lignes restantes")

# Remplissage des cat√©gories manquantes
book.fillna({'product_category': 'Unknown'})
print(f"‚úÖ Remplissage des cat√©gories manquantes")

# Remplissage des notes manquantes avec la m√©diane
median_rating = book.sample['customer_rating'].median()
book.fillna({'customer_rating': median_rating})
print(f"‚úÖ Remplissage des notes manquantes avec la m√©diane ({median_rating})")

In [None]:
# Conversions de types
print("üîÑ Conversion des types...")

# Conversion des types
book.astype({
    'amount': 'float64',
    'customer_rating': 'int64',
    'discount_applied': 'bool'
})

print("‚úÖ Types convertis")
print("\nüìä Types apr√®s conversion :")
print(book.sample.dtypes)

In [None]:
# Analyse exploratoire
print("üìà Analyse par cat√©gorie de produit :")
category_analysis = book.groupby('product_category')['amount'].agg(['count', 'mean', 'sum']).round(2)
print(category_analysis)

print("\nüí≥ Analyse par m√©thode de paiement :")
payment_analysis = book.groupby('payment_method')['amount'].agg(['count', 'mean']).round(2)
print(payment_analysis)

In [None]:
# Visualisation simple
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
book.sample['product_category'].value_counts().plot(kind='bar')
plt.title('Distribution des Cat√©gories de Produits')
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
book.sample['amount'].hist(bins=30)
plt.title('Distribution des Montants')
plt.xlabel('Montant')
plt.ylabel('Fr√©quence')

plt.tight_layout()
plt.show()

<a id="pipeline"></a>
## 4. ‚öôÔ∏è G√©n√©ration du Pipeline

Maintenant, g√©n√©rons le pipeline √† partir de notre exploration.

In [None]:
# G√©n√©ration du pipeline
pipeline = book.concatbook()

print("üîß Pipeline g√©n√©r√© !")
print(f"üìù Nombre d'op√©rations : {len(book.history)}")
print("\nüìã Historique des op√©rations :")
for i, operation in enumerate(book.history, 1):
    print(f"{i}. {operation['operation']} - {operation['arguments']}")

print("\n‚öôÔ∏è Pipeline structure :")
print(pipeline)

<a id="elexdas"></a>
## 5. üêº Application avec Elexdas (Pandas)

Appliquons maintenant le pipeline sur le dataset complet avec Elexdas.

In [None]:
# Note: Elexdas n'est pas encore impl√©ment√©, voici une simulation
print("üêº Simulation d'Elexdas...")
print("\nüîÑ Application du pipeline sur le dataset complet...")

# Simulation de l'application du pipeline
processed_df = sales_df.copy()

# Application manuelle des op√©rations du pipeline
print("1. Suppression des montants manquants...")
processed_df = processed_df.dropna(subset=['amount'])
print(f"   ‚úÖ {len(processed_df):,} lignes restantes")

print("2. Remplissage des cat√©gories manquantes...")
processed_df['product_category'] = processed_df['product_category'].fillna('Unknown')
print("   ‚úÖ Cat√©gories remplies")

print("3. Remplissage des notes manquantes...")
median_rating_full = processed_df['customer_rating'].median()
processed_df['customer_rating'] = processed_df['customer_rating'].fillna(median_rating_full)
print(f"   ‚úÖ Notes remplies avec la m√©diane ({median_rating_full})")

print("4. Conversion des types...")
processed_df = processed_df.astype({
    'amount': 'float64',
    'customer_rating': 'int64',
    'discount_applied': 'bool'
})
print("   ‚úÖ Types convertis")

print(f"\nüéØ Dataset final : {len(processed_df):,} lignes")
print(f"üíæ Taille en m√©moire : {processed_df.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

In [None]:
# Comparaison avant/apr√®s
print("üìä Comparaison avant/apr√®s traitement :")
print("\nAvant :")
print(sales_df.info())
print("\nApr√®s :")
print(processed_df.info())

<a id="elexpark"></a>
## 6. ‚ö° Application avec Elexpark (Spark)

Pour les tr√®s gros volumes, nous pourrions utiliser Elexpark avec Spark.

In [None]:
# Note: Elexpark n'est pas encore impl√©ment√©, voici une simulation
print("‚ö° Simulation d'Elexpark avec Spark...")
print("\nüí° Pour des datasets de plusieurs millions de lignes, Elexpark permettrait :")
print("   ‚Ä¢ Distribution automatique des calculs")
print("   ‚Ä¢ Optimisation des requ√™tes")
print("   ‚Ä¢ Gestion de la m√©moire pour les gros volumes")
print("   ‚Ä¢ Traitement parall√®le sur plusieurs machines")

# Exemple de code Elexpark (quand il sera impl√©ment√©)
spark_code = '''
# Code Elexpark futur
from pyspark.sql import SparkSession
from datalexir.elexpark import Elexpark

# Initialisation Spark
spark = SparkSession.builder.appName("DataLexir").getOrCreate()
spark_df = spark.createDataFrame(sales_df)

# Application du pipeline
elexpark = Elexpark(spark_df)
result_spark = elexpark.pipeline(pipeline)

# Collecte des r√©sultats
final_df = result_spark.toPandas()
'''

print("\nüìù Exemple de code Elexpark :")
print(spark_code)

<a id="conclusion"></a>
## 7. üéØ Conclusion

Cette d√©monstration montre le workflow complet de DataLexir :

In [None]:
print("üéØ R√©sum√© du workflow DataLexir :")
print("\n1. üìä Dataset original : 100,000 lignes")
print(f"2. üîç Exploration sur √©chantillon : {len(book.sample):,} lignes (5%)")
print(f"3. üßπ Nettoyage interactif : {len(book.history)} op√©rations")
print(f"4. ‚öôÔ∏è Pipeline g√©n√©r√© automatiquement")
print(f"5. üêº Application avec Pandas : {len(processed_df):,} lignes trait√©es")
print(f"6. ‚ö° Possibilit√© d'utiliser Spark pour de plus gros volumes")

print("\n‚ú® Avantages de DataLexir :")
print("   ‚Ä¢ Exploration rapide sur √©chantillons")
print("   ‚Ä¢ Interface interactive dans Jupyter")
print("   ‚Ä¢ G√©n√©ration automatique de pipelines")
print("   ‚Ä¢ Reproductibilit√© garantie")
print("   ‚Ä¢ Scalabilit√© avec Pandas et Spark")
print("   ‚Ä¢ Tra√ßabilit√© compl√®te des transformations")

print("\nüöÄ DataLexir : De l'exploration √† la production en quelques lignes !")

---

## üìö Ressources suppl√©mentaires

- [Documentation DataLexir](https://github.com/remiv1/data_elexir)
- [Guide de contribution](https://github.com/remiv1/data_elexir/blob/main/CONTRIBUTING.md)
- [Exemples suppl√©mentaires](https://github.com/remiv1/data_elexir/tree/main/notebooks)

**N'h√©sitez pas √† ‚≠ê le projet sur GitHub si DataLexir vous aide !**