# Analyse PySpark - Dataset Kaggle

Ce notebook démontre l'utilisation de PySpark pour analyser un dataset d'employés.

## 1. Importation et configuration

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, avg, min, max

# Créer une session Spark
spark = SparkSession.builder \
    .appName("Analyse Dataset Kaggle") \
    .getOrCreate()

spark.sparkContext.setLogLevel("WARN")
print("✓ Session Spark créée")

## 2. Chargement des données

In [None]:
# Charger le dataset
df = spark.read.csv("data/employee_data.csv", header=True, inferSchema=True)

print(f"Nombre de lignes: {df.count()}")
print(f"Nombre de colonnes: {len(df.columns)}")

# Afficher le schéma
df.printSchema()

## 3. Exploration des données

In [None]:
# Afficher les premières lignes
df.show(10)

In [None]:
# Statistiques descriptives
df.describe().show()

## 4. Analyses par département

In [None]:
# Statistiques par département
dept_stats = df.groupBy("department") \
    .agg(
        count("*").alias("nombre_employes"),
        avg("salary").alias("salaire_moyen"),
        avg("satisfaction_score").alias("satisfaction_moyenne")
    ) \
    .orderBy(col("salaire_moyen").desc())

dept_stats.show()

## 5. Corrélations

In [None]:
# Calculer les corrélations
print(f"Corrélation Salaire-Expérience: {df.stat.corr('salary', 'experience_years'):.3f}")
print(f"Corrélation Satisfaction-Performance: {df.stat.corr('satisfaction_score', 'performance_rating'):.3f}")
print(f"Corrélation Âge-Expérience: {df.stat.corr('age', 'experience_years'):.3f}")

## 6. Analyses avancées

In [None]:
# Employés à haute performance
high_performers = df.filter(col("performance_rating") >= 4.5)
print(f"Nombre d'employés à haute performance: {high_performers.count()}")

high_performers.select("id", "age", "department", "salary", "performance_rating") \
    .orderBy(col("performance_rating").desc()) \
    .show()

## 7. Fermeture

In [None]:
# Arrêter la session Spark
spark.stop()
print("✓ Session Spark arrêtée")