# Manipulation de fichier

SparkSQL est capable de lire et √©crire des donn√©es depuis ou vers des fichiers de diff√©rents formats. Ces fichiers peuvent √™tre des fichiers simples, des fichiers compress√©s, des fichiers partitionn√©s, des fichiers partitionn√©s sur HDFS.

Dans ce notebook, nous allons voir comment se comporte SparkSQL avec les fichiers.

## Pr√©ambule

In [None]:
import $ivy.`org.slf4j:slf4j-reload4j:2.0.6`
import $ivy.`org.apache.logging.log4j:log4j-api:2.8.2`
import $ivy.`org.apache.logging.log4j:log4j-slf4j-impl:2.8.2`

// Avoid disturbing logs
import org.apache.log4j._
import org.apache.log4j.varia._
BasicConfigurator.configure(NullAppender.getNullAppender())

import $ivy.`org.apache.spark::spark-core:3.2.1`
import $ivy.`org.apache.spark::spark-sql:3.2.1`
import $ivy.`org.apache.spark::spark-hive:3.2.1`

In [None]:
import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.apache.spark.rdd._

val spark = {
  NotebookSparkSession.builder()
    .master("local[*]")
    .appName("Spark tunning - Fichiers")
    .config("spark.sql.legacy.timeParserPolicy", "LEGACY")
    .config("spark.sql.warehouse.dir", "target/spark-warehouse")
    // .config("spark.hadoop.hive.metastore.warehouse.dir", "target/metastore")
    // .enableHiveSupport()
    .getOrCreate()
}

import spark.implicits._

Ex√©cutez la cellule ci-dessous √† chaque fois que vous souhaitez recommencer les exercices plus bas.

In [None]:
def cleanTarget = {
    import java.nio.file.{Files, Path, Paths}

    def deleteDirectory(path: Path): Unit = {
      if (Files.isDirectory(path)) {
        // List the directory contents and delete them recursively
        Files.list(path).forEach(deleteDirectory)
      }
      // Delete the file or directory (if it's a directory, it should be empty by now)
      try { Files.delete(path) } catch { case _: java.nio.file.NoSuchFileException => () }
    }

    val targetDirectory = Paths.get("target/")
    deleteDirectory(targetDirectory)
    Files.createDirectory(targetDirectory)
}

cleanTarget

## Lecture d'un fichier JSON compress√©

SparkSQL est capable de g√©rer naturellement les fichiers compress√©s, sur diff√©rents algorithmes de compression (gzip, bzip2, snappy, lz4, zstd...). La compression permet de gagner de l'espace de stockage et d'augmenter le d√©bit du transfert de donn√©es. Il sera en g√©n√©ral plus efficace sur les fichiers textes que sur les fichiers binaires. La compression demande un peu plus d'utilisation CPU.

Utilisez Spark pour charger le fichier JSON compress√©.

La m√©thode `.repartition()` plus bas permet de forcer la redistribution des donn√©es dans plusieurs partitions. La valeur pass√©e en param√®tre correspond au nombre de partitions souhait√©. Cette valeur est limit√©e par le nombre de Core/CPU disponibles.

In [None]:
val rawDataframe =
  spark.read
    .json("data/tweets.json.gz")
    .cache()
    .where($"_corrupt_record" isNull)
    .drop("_corrupt_record")

val dataframe =
  rawDataframe
    .repartition(4)

dataframe.show(numRows = 10)

Nous allons voir combien de partitions sont associ√©es au dataframe. Pour cela, nous allons utiliser l'interface RDD.

In [None]:
dataframe.rdd.getNumPartitions

## Sauvegarde dans des fichiers Parquet

Nous allons maintenant tester diff√©rents algorithmes de compression.

La fonction ci-dessous va permettre de visualiser pour chaque algorithme ses performances et termes de capacit√© de compression.

In [None]:
def testSaveParquet(dataframe: DataFrame, alg: String): Unit = {
  val file = s"tweets-$alg.parquet"
  dataframe.repartition(8).write.option("compression", alg).parquet(s"target/$file")
}

üë∑ Dans chaque cas ci-dessous, regardez et comparez les diff√©rents r√©sultats obtenus, aussi bien dans Spark UI qu'au niveau du syst√®me de fichiers (√† gauche de l'√©cran).

### Pas de compression

In [None]:
testSaveParquet(dataframe, "none")

### Snappy compression

In [None]:
testSaveParquet(dataframe, "snappy")

### GZip

In [None]:
testSaveParquet(dataframe, "gzip")

### ZStd

In [None]:
testSaveParquet(dataframe, "zstd")

In [None]:
val tweets = spark.read.parquet("target/tweets-gzip.parquet")

tweets.show(numRows = 5)

In [None]:
tweets.rdd.getNumPartitions

## Gestion par Spark

En utilisant les m√©thodes `.saveAsTable()` et `table()`, Spark va g√©rer sont propre espace de stockage. Ici, il s'agit de `target/spark-warehouse` (par d√©faut, `spark-warehouse`).

üë∑ Ex√©cuter les cellules ci-dessous.

In [None]:
dataframe.write.mode("overwrite").saveAsTable("tweets")

In [None]:
spark.read.table("tweets").show()

ü§î **Question** ü§î

* Explorez le r√©pertoire `target/spark-warehouse`. Comment est-ce que Spark organise le stockage et quel fomrat est utilis√© ?
* Quelles diff√©rences apparaissent avec l'approche vu pr√©c√©demment ?