# Conversion d‚Äôun fichier CSV en Parquet avec PySpark

## üéØ Objectif
Ce script a pour but de **convertir un fichier CSV en format Parquet** en utilisant **PySpark**.  
Le format **Parquet** est un format **colonnaire**, optimis√© pour le traitement distribu√© et l‚Äôanalyse de donn√©es massives.

## üöÄ Pourquoi passer de CSV √† Parquet ?
- **Performance** : Parquet est beaucoup plus rapide √† lire/√©crire que CSV gr√¢ce √† son organisation par colonnes.
- **Compression** : Le format Parquet applique automatiquement une compression efficace, r√©duisant la taille des donn√©es stock√©es.
- **Sch√©ma explicite** : Contrairement au CSV qui est purement textuel, Parquet conserve le sch√©ma (types de colonnes).
- **Compatibilit√©** : C‚Äôest le format standard utilis√© par Spark, Hadoop, Hive, et la plupart des outils Big Data.

## üõ†Ô∏è Fonctionnement du script
1. Cr√©ation d‚Äôune **session Spark**.
2. Lecture du fichier CSV avec d√©tection automatique du sch√©ma (`inferSchema=True`).
3. √âcriture du DataFrame en **format Parquet**, avec ou sans partitionnement selon la pr√©sence de la colonne `id`.
4. Sauvegarde des donn√©es dans un r√©pertoire de sortie.
5. Arr√™t de la session Spark.

## üìÇ R√©sultat
Le script g√©n√®re un **dossier Parquet**, contenant :
- Des fichiers `.parquet` (un par partition ou par t√¢che Spark).
- Un fichier `_SUCCESS` qui indique que le job Spark s‚Äôest termin√© correctement.

Exemple de structure :


In [20]:
from pyspark.sql import SparkSession
import os

# Cr√©er une session Spark
spark = SparkSession.builder \
    .appName("CSV to Parquet Conversion") \
    .getOrCreate()

# Chemin du fichier CSV d'entr√©e
input_csv_path = "bcw_data.csv"

# Chemin du r√©pertoire de sortie pour les fichiers Parquet Utiliser un chemin absolu mais dans mon $HOME (droits d'√©criture)
output_parquet_path = os.path.expanduser("~/parquet_output")

# Lire le fichier CSV en DataFrame
# Vous pouvez ajuster les options selon votre fichier (ex: s√©parateur, en-t√™tes, etc.)
df = spark.read.csv(input_csv_path, header=True, inferSchema=True)

# V√©rifier le sch√©ma du DataFrame
df.printSchema()

# Partitionner les donn√©es par une ou plusieurs colonnes (exemple : "colonne_partition")
partition_column = "id"  # Remplacez par le nom de votre colonne
if partition_column in df.columns:
    # √âcrire le DataFrame en format Parquet avec partitionnement
    df.write \
        .partitionBy(partition_column) \
        .mode("overwrite") \
        .parquet(output_parquet_path)
else:
    # Si la colonne de partition n'existe pas, √©crire sans partitionnement
    df.write \
        .mode("overwrite") \
        .parquet(output_parquet_path)

print(f"Conversion termin√©e. Les fichiers Parquet sont enregistr√©s dans : {output_parquet_path}")

# Arr√™ter la session Spark
spark.stop()

root
 |-- id: integer (nullable = true)
 |-- diagnosis: string (nullable = true)
 |-- radius_mean: double (nullable = true)
 |-- texture_mean: double (nullable = true)
 |-- perimeter_mean: double (nullable = true)
 |-- area_mean: double (nullable = true)
 |-- smoothness_mean: double (nullable = true)
 |-- compactness_mean: double (nullable = true)
 |-- concavity_mean: double (nullable = true)
 |-- concave points_mean: double (nullable = true)
 |-- symmetry_mean: double (nullable = true)
 |-- fractal_dimension_mean: double (nullable = true)
 |-- radius_se: double (nullable = true)
 |-- texture_se: double (nullable = true)
 |-- perimeter_se: double (nullable = true)
 |-- area_se: double (nullable = true)
 |-- smoothness_se: double (nullable = true)
 |-- compactness_se: double (nullable = true)
 |-- concavity_se: double (nullable = true)
 |-- concave points_se: double (nullable = true)
 |-- symmetry_se: double (nullable = true)
 |-- fractal_dimension_se: double (nullable = true)
 |-- radi

DataFrame[id: int, diagnosis: string, radius_mean: double, texture_mean: double, perimeter_mean: double, area_mean: double, smoothness_mean: double, compactness_mean: double, concavity_mean: double, concave points_mean: double, symmetry_mean: double, fractal_dimension_mean: double, radius_se: double, texture_se: double, perimeter_se: double, area_se: double, smoothness_se: double, compactness_se: double, concavity_se: double, concave points_se: double, symmetry_se: double, fractal_dimension_se: double, radius_worst: double, texture_worst: double, perimeter_worst: double, area_worst: double, smoothness_worst: double, compactness_worst: double, concavity_worst: double, concave points_worst: double, symmetry_worst: double, fractal_dimension_worst: double, _c32: string]