# Conversion d’un fichier CSV en Parquet avec PySpark

## 🎯 Objectif
Ce script a pour but de **convertir un fichier CSV en format Parquet** en utilisant **PySpark**.  
Le format **Parquet** est un format **colonnaire**, optimisé pour le traitement distribué et l’analyse de données massives.

## 🚀 Pourquoi passer de CSV à Parquet ?
- **Performance** : Parquet est beaucoup plus rapide à lire/écrire que CSV grâce à son organisation par colonnes.
- **Compression** : Le format Parquet applique automatiquement une compression efficace, réduisant la taille des données stockées.
- **Schéma explicite** : Contrairement au CSV qui est purement textuel, Parquet conserve le schéma (types de colonnes).
- **Compatibilité** : C’est le format standard utilisé par Spark, Hadoop, Hive, et la plupart des outils Big Data.

## 🛠️ Fonctionnement du script
1. Création d’une **session Spark**.
2. Lecture du fichier CSV avec détection automatique du schéma (`inferSchema=True`).
3. Écriture du DataFrame en **format Parquet**, avec ou sans partitionnement selon la présence de la colonne `id`.
4. Sauvegarde des données dans un répertoire de sortie.
5. Arrêt de la session Spark.

## 📂 Résultat
Le script génère un **dossier Parquet**, contenant :
- Des fichiers `.parquet` (un par partition ou par tâche Spark).
- Un fichier `_SUCCESS` qui indique que le job Spark s’est terminé correctement.

Exemple de structure :


In [20]:
from pyspark.sql import SparkSession
import os

# Créer une session Spark
spark = SparkSession.builder \
    .appName("CSV to Parquet Conversion") \
    .getOrCreate()

# Chemin du fichier CSV d'entrée
input_csv_path = "bcw_data.csv"

# Chemin du répertoire de sortie pour les fichiers Parquet Utiliser un chemin absolu mais dans mon $HOME (droits d'écriture)
output_parquet_path = os.path.expanduser("~/parquet_output")

# Lire le fichier CSV en DataFrame
# Vous pouvez ajuster les options selon votre fichier (ex: séparateur, en-têtes, etc.)
df = spark.read.csv(input_csv_path, header=True, inferSchema=True)

# Vérifier le schéma du DataFrame
df.printSchema()

# Partitionner les données par une ou plusieurs colonnes (exemple : "colonne_partition")
partition_column = "id"  # Remplacez par le nom de votre colonne
if partition_column in df.columns:
    # Écrire le DataFrame en format Parquet avec partitionnement
    df.write \
        .partitionBy(partition_column) \
        .mode("overwrite") \
        .parquet(output_parquet_path)
else:
    # Si la colonne de partition n'existe pas, écrire sans partitionnement
    df.write \
        .mode("overwrite") \
        .parquet(output_parquet_path)

print(f"Conversion terminée. Les fichiers Parquet sont enregistrés dans : {output_parquet_path}")

# Arrêter la session Spark
spark.stop()

root
 |-- id: integer (nullable = true)
 |-- diagnosis: string (nullable = true)
 |-- radius_mean: double (nullable = true)
 |-- texture_mean: double (nullable = true)
 |-- perimeter_mean: double (nullable = true)
 |-- area_mean: double (nullable = true)
 |-- smoothness_mean: double (nullable = true)
 |-- compactness_mean: double (nullable = true)
 |-- concavity_mean: double (nullable = true)
 |-- concave points_mean: double (nullable = true)
 |-- symmetry_mean: double (nullable = true)
 |-- fractal_dimension_mean: double (nullable = true)
 |-- radius_se: double (nullable = true)
 |-- texture_se: double (nullable = true)
 |-- perimeter_se: double (nullable = true)
 |-- area_se: double (nullable = true)
 |-- smoothness_se: double (nullable = true)
 |-- compactness_se: double (nullable = true)
 |-- concavity_se: double (nullable = true)
 |-- concave points_se: double (nullable = true)
 |-- symmetry_se: double (nullable = true)
 |-- fractal_dimension_se: double (nullable = true)
 |-- radi

DataFrame[id: int, diagnosis: string, radius_mean: double, texture_mean: double, perimeter_mean: double, area_mean: double, smoothness_mean: double, compactness_mean: double, concavity_mean: double, concave points_mean: double, symmetry_mean: double, fractal_dimension_mean: double, radius_se: double, texture_se: double, perimeter_se: double, area_se: double, smoothness_se: double, compactness_se: double, concavity_se: double, concave points_se: double, symmetry_se: double, fractal_dimension_se: double, radius_worst: double, texture_worst: double, perimeter_worst: double, area_worst: double, smoothness_worst: double, compactness_worst: double, concavity_worst: double, concave points_worst: double, symmetry_worst: double, fractal_dimension_worst: double, _c32: string]