## Date et Time - Manipulation de la date et l'heure
Voyons un aperçu de la date et de l'heure en utilisant les fonctions disponibles.
* Nous pouvons utiliser `current_date` pour obtenir la date du serveur d'aujourd'hui.
 * La date sera renvoyée au format **aaaa-MM-jj**.
* Nous pouvons utiliser `current_timestamp` pour obtenir l'heure actuelle du serveur.
 * L'horodatage sera renvoyé au format **aaaa-MM-jj HH:mm:ss.SSS**.
 * Les heures seront par défaut au format 24 heures.


In [2]:
val df = List("X").toDF("dummy")

df = [dummy: string]


[dummy: string]

In [3]:
import org.apache.spark.sql.functions.{current_date, current_timestamp}

In [4]:
df.select(current_date.alias("current_date")).show

+------------+
|current_date|
+------------+
|  2023-10-20|
+------------+



In [5]:
df.select(current_timestamp.alias("current_time")).show(false)

+-----------------------+
|current_time           |
+-----------------------+
|2023-10-20 11:09:30.195|
+-----------------------+



## Date et Time - Arithmétique
Effectuons l'arithmétique de la date et de l'heure à l'aide des fonctions pertinentes.
* Ajout de jours à une date ou à un horodatage - `date_add`
* Soustraire des jours d'une date ou d'un horodatage - `date_sub`
* Obtenir la différence entre 2 dates ou horodatages - `datediff`
* Obtenir un nombre de mois entre 2 dates ou horodatages - `months_between`
* Ajout de mois à une date ou à un horodatage - `add_months`
* Obtenir le jour suivant à partir d'une date donnée - `next_day`
* Toutes les fonctions sont explicites. Nous pouvons les appliquer à la date ou à l'horodatage standard. Toutes les fonctions renvoient la date même lorsqu'elles sont appliquées sur le champ d'horodatage.

### Application

Effectuons quelques traitements liées à l'arithmétique des dates.
* Obtenez d'abord de l'aide sur chaque fonction pour savoir les arguments qui doivent être passés.
* Créez un Dataframe nommé datetimesDF avec des colonnes date et heure.

In [6]:
val datetimes = List(("2014-02-28", "2014-02-28 10:00:00.123"),
                     ("2016-02-29", "2016-02-29 08:08:08.999"),
                     ("2017-10-31", "2017-12-31 11:59:59.123"),
                     ("2019-11-30", "2019-08-31 00:00:00.000")
                    )

datetimes = List((2014-02-28,2014-02-28 10:00:00.123), (2016-02-29,2016-02-29 08:08:08.999), (2017-10-31,2017-12-31 11:59:59.123), (2019-11-30,2019-08-31 00:00:00.000))


List((2014-02-28,2014-02-28 10:00:00.123), (2016-02-29,2016-02-29 08:08:08.999), (2017-10-31,2017-12-31 11:59:59.123), (2019-11-30,2019-08-31 00:00:00.000))

In [8]:
val datetimesDF = datetimes.toDF("date", "time")

datetimesDF = [date: string, time: string]


[date: string, time: string]

In [14]:
datetimesDF.show(false)

+----------+-----------------------+
|date      |time                   |
+----------+-----------------------+
|2014-02-28|2014-02-28 10:00:00.123|
|2016-02-29|2016-02-29 08:08:08.999|
|2017-10-31|2017-12-31 11:59:59.123|
|2019-11-30|2019-08-31 00:00:00.000|
+----------+-----------------------+



* Ajoutez 10 jours aux valeurs de date et d'heure.
* Soustrayez 10 jours des valeurs de date et d'heure.
* Obtenez la différence entre les valeurs current_date et date ainsi que les valeurs current_timestamp et time.
* Obtenez le nombre de mois entre les valeurs current_date et date ainsi que les valeurs current_timestamp et time.
* Ajoutez 3 mois aux valeurs de date ainsi qu'aux valeurs d'heure.

In [32]:
import org.apache.spark.sql.functions._
import spark.implicits._

Unknown Error: <console>:26: error: stable identifier required, but spark.implicits found.
       import spark.implicits._
                    ^


In [63]:
datetimesDF.
    withColumn("date_add_date", date_add($"date", 10)).
    withColumn("date_add_time", date_add($"time", 10)).
    withColumn("date_sub_date", date_sub($"date", 10)).
    withColumn("date_sub_time", date_sub($"time", 10)).
    show(false)

Unknown Error: <console>:34: error: not found: value date_add
           withColumn("date_add_date", date_add($"date", 10)).
                                       ^
<console>:35: error: not found: value date_add
           withColumn("date_add_time", date_add($"time", 10)).
                                       ^
<console>:36: error: not found: value date_sub
           withColumn("date_sub_date", date_sub($"date", 10)).
                                       ^
<console>:37: error: not found: value date_sub
           withColumn("date_sub_time", date_sub($"time", 10)).
                                       ^


In [53]:
import org.apache.spark.sql.functions.{current_date, current_timestamp, datediff}

In [54]:
datetimesDF.
    withColumn("datediff_date", datediff(current_date, $"date")).
    withColumn("datediff_time", datediff(current_timestamp, $"time")).
    show(false)

+----------+-----------------------+-------------+-------------+
|date      |time                   |datediff_date|datediff_time|
+----------+-----------------------+-------------+-------------+
|2014-02-28|2014-02-28 10:00:00.123|3170         |3170         |
|2016-02-29|2016-02-29 08:08:08.999|2439         |2439         |
|2017-10-31|2017-12-31 11:59:59.123|1829         |1768         |
|2019-11-30|2019-08-31 00:00:00.000|1069         |1160         |
+----------+-----------------------+-------------+-------------+



In [55]:
import org.apache.spark.sql.functions.{months_between, add_months, round}

In [56]:
datetimesDF.
    withColumn("months_between_date", round(months_between(current_date, $"date"), 2)).
    withColumn("months_between_time", round(months_between(current_timestamp, $"time"), 2)).  
    withColumn("add_months_date", add_months($"date", 3)).
    withColumn("add_months_time", add_months($"time", 3)).
    show(false)

+----------+-----------------------+-------------------+-------------------+---------------+---------------+
|date      |time                   |months_between_date|months_between_time|add_months_date|add_months_time|
+----------+-----------------------+-------------------+-------------------+---------------+---------------+
|2014-02-28|2014-02-28 10:00:00.123|104.19             |104.2              |2014-05-28     |2014-05-28     |
|2016-02-29|2016-02-29 08:08:08.999|80.16              |80.17              |2016-05-29     |2016-05-29     |
|2017-10-31|2017-12-31 11:59:59.123|60.1               |58.1               |2018-01-31     |2018-03-31     |
|2019-11-30|2019-08-31 00:00:00.000|35.13              |38.12              |2020-02-29     |2019-11-30     |
+----------+-----------------------+-------------------+-------------------+---------------+---------------+



## Date et Time - trunc et date_trunc

* Nous pouvons utiliser `trunc` ou `date_trunc` pour obtenir la date de début de la semaine, du mois, de l'année en cours, etc. en lui transmettant la date ou l'horodatage.
* Nous pouvons utiliser `trunc` pour obtenir la date de début du mois ou de l'année en lui transmettant la date ou l'horodatage 
    - par exemple `trunc(current_date(), "MM")` donnera le premier du mois en cours.
* Nous pouvons utiliser `date_trunc` pour obtenir la date de début du mois ou de l'année ainsi que l'heure de début de la journée ou de l'heure en lui transmettant l'horodatage.
 * Obtenir la date de début basée sur le mois - `date_trunc("MM", current_timestamp())`
 * Obtenir l'heure de début en fonction du jour - `date_trunc("DAY", current_timestamp())`

### Applications

Effectuons quelques applications pour comprendre trunc et date_trunc en détail.
* Créez un Dataframe nommé datetimesDF avec des colonnes date et heure.

In [1]:
val datetimes = List(("2014-02-28", "2014-02-28 10:00:00.123"),
                     ("2016-02-29", "2016-02-29 08:08:08.999"),
                     ("2017-10-31", "2017-12-31 11:59:59.123"),
                     ("2019-11-30", "2019-08-31 00:00:00.000")
                    )

datetimes = List((2014-02-28,2014-02-28 10:00:00.123), (2016-02-29,2016-02-29 08:08:08.999), (2017-10-31,2017-12-31 11:59:59.123), (2019-11-30,2019-08-31 00:00:00.000))


List((2014-02-28,2014-02-28 10:00:00.123), (2016-02-29,2016-02-29 08:08:08.999), (2017-10-31,2017-12-31 11:59:59.123), (2019-11-30,2019-08-31 00:00:00.000))

In [2]:
val datetimesDF = datetimes.toDF("date", "time")

datetimesDF = [date: string, time: string]


[date: string, time: string]

In [3]:
datetimesDF.show(truncate=false)

+----------+-----------------------+
|date      |time                   |
+----------+-----------------------+
|2014-02-28|2014-02-28 10:00:00.123|
|2016-02-29|2016-02-29 08:08:08.999|
|2017-10-31|2017-12-31 11:59:59.123|
|2019-11-30|2019-08-31 00:00:00.000|
+----------+-----------------------+



* Obtenez la date de début du mois  en utilisant le champ de date et la date de début de l'année en utilisant le champ d'heure.

In [5]:
import org.apache.spark.sql.functions.trunc
import spark.implicits._

Unknown Error: <console>:26: error: stable identifier required, but spark.implicits found.
       import spark.implicits._
                    ^


In [6]:
datetimesDF.
    withColumn("date_trunc", trunc($"date", "MM")).
    withColumn("time_trunc", trunc($"time", "yyyy")).
    show(false)

+----------+-----------------------+----------+----------+
|date      |time                   |date_trunc|time_trunc|
+----------+-----------------------+----------+----------+
|2014-02-28|2014-02-28 10:00:00.123|2014-02-01|2014-01-01|
|2016-02-29|2016-02-29 08:08:08.999|2016-02-01|2016-01-01|
|2017-10-31|2017-12-31 11:59:59.123|2017-10-01|2017-01-01|
|2019-11-30|2019-08-31 00:00:00.000|2019-11-01|2019-01-01|
+----------+-----------------------+----------+----------+



* Obtenez l'heure de début en utilisant le champ date et heure.

In [7]:
import org.apache.spark.sql.functions.date_trunc

In [8]:
datetimesDF.
    withColumn("date_dt", date_trunc("HOUR", $"date")).
    withColumn("time_dt", date_trunc("HOUR", $"time")).
    show(false)

+----------+-----------------------+-------------------+-------------------+
|date      |time                   |date_dt            |time_dt            |
+----------+-----------------------+-------------------+-------------------+
|2014-02-28|2014-02-28 10:00:00.123|2014-02-28 00:00:00|2014-02-28 10:00:00|
|2016-02-29|2016-02-29 08:08:08.999|2016-02-29 00:00:00|2016-02-29 08:00:00|
|2017-10-31|2017-12-31 11:59:59.123|2017-10-31 00:00:00|2017-12-31 11:00:00|
|2019-11-30|2019-08-31 00:00:00.000|2019-11-30 00:00:00|2019-08-31 00:00:00|
+----------+-----------------------+-------------------+-------------------+



## Date et heure - Extraction d'informations

Comprenons comment extraire des informations à partir de dates ou d'heures à l'aide de fonctions.

* Nous pouvons utiliser date_format pour extraire les informations requises dans un format souhaité à partir de la date ou de l'horodatage (timestamp).
* Il existe également des fonctions spécifiques pour extraire l'année, le mois, le jour dans une semaine, un jour dans un mois, le jour dans une année, etc.

### Applications

Effectuons quelques applications pour extraire les informations dont nous avons besoin à partir de la date ou de l'horodatage.

* Créez un Dataframe nommé datetimesDF avec des colonnes date et heure.


In [9]:
val datetimes = List(("2014-02-28", "2014-02-28 10:00:00.123"),
                     ("2016-02-29", "2016-02-29 08:08:08.999"),
                     ("2017-10-31", "2017-12-31 11:59:59.123"),
                     ("2019-11-30", "2019-08-31 00:00:00.000")
                    )

datetimes = List((2014-02-28,2014-02-28 10:00:00.123), (2016-02-29,2016-02-29 08:08:08.999), (2017-10-31,2017-12-31 11:59:59.123), (2019-11-30,2019-08-31 00:00:00.000))


List((2014-02-28,2014-02-28 10:00:00.123), (2016-02-29,2016-02-29 08:08:08.999), (2017-10-31,2017-12-31 11:59:59.123), (2019-11-30,2019-08-31 00:00:00.000))

In [10]:
val datetimesDF = datetimes.toDF("date", "time")

datetimesDF = [date: string, time: string]


[date: string, time: string]

In [11]:
datetimesDF.show(false)

+----------+-----------------------+
|date      |time                   |
+----------+-----------------------+
|2014-02-28|2014-02-28 10:00:00.123|
|2016-02-29|2016-02-29 08:08:08.999|
|2017-10-31|2017-12-31 11:59:59.123|
|2019-11-30|2019-08-31 00:00:00.000|
+----------+-----------------------+



* Obtenez l'année à partir des champs date et heure.

In [12]:
import org.apache.spark.sql.functions.year

In [13]:
datetimesDF.
    withColumn("date_year", year($"date")).
    withColumn("time_year", year($"time")).
    show(false)

+----------+-----------------------+---------+---------+
|date      |time                   |date_year|time_year|
+----------+-----------------------+---------+---------+
|2014-02-28|2014-02-28 10:00:00.123|2014     |2014     |
|2016-02-29|2016-02-29 08:08:08.999|2016     |2016     |
|2017-10-31|2017-12-31 11:59:59.123|2017     |2017     |
|2019-11-30|2019-08-31 00:00:00.000|2019     |2019     |
+----------+-----------------------+---------+---------+



* Obtenez le mois (à un ou deux chiffres) à partir des champs date et heure.

In [15]:
import org.apache.spark.sql.functions.month

In [16]:
datetimesDF.
    withColumn("date_month", month($"date")).
    withColumn("time_month", month($"time")).
    show(false)

+----------+-----------------------+----------+----------+
|date      |time                   |date_month|time_month|
+----------+-----------------------+----------+----------+
|2014-02-28|2014-02-28 10:00:00.123|2         |2         |
|2016-02-29|2016-02-29 08:08:08.999|2         |2         |
|2017-10-31|2017-12-31 11:59:59.123|10        |12        |
|2019-11-30|2019-08-31 00:00:00.000|11        |8         |
+----------+-----------------------+----------+----------+



* Obtenez l'année et le mois au format yyyyMM à partir de la date et de l'heure.

In [18]:
import org.apache.spark.sql.functions.date_format

In [19]:
datetimesDF.
    withColumn("date_ym", date_format($"date", "yyyyMM")).
    withColumn("time_ym", date_format($"time", "yyyyMM")).
    show(false)

+----------+-----------------------+-------+-------+
|date      |time                   |date_ym|time_ym|
+----------+-----------------------+-------+-------+
|2014-02-28|2014-02-28 10:00:00.123|201402 |201402 |
|2016-02-29|2016-02-29 08:08:08.999|201602 |201602 |
|2017-10-31|2017-12-31 11:59:59.123|201710 |201712 |
|2019-11-30|2019-08-31 00:00:00.000|201911 |201908 |
+----------+-----------------------+-------+-------+



* Obtenez le jour dans une semaine, le jour dans un mois et le jour dans un an à partir de la date et de l'heure.

In [20]:
val l = List("X")
val df = l.toDF("dummy")

l = List(X)
df = [dummy: string]


[dummy: string]

In [21]:
import org.apache.spark.sql.functions.{dayofweek, current_date, dayofmonth, dayofyear}

In [22]:
df.select(dayofweek(current_date)).show

+-------------------------+
|dayofweek(current_date())|
+-------------------------+
|                        1|
+-------------------------+



In [23]:
datetimesDF.
    withColumn("date_dow", dayofweek($"date")).
    withColumn("time_dow", dayofweek($"time")).
    withColumn("date_dom", dayofmonth($"date")).
    withColumn("time_dom", dayofmonth($"time")).
    withColumn("date_doy", dayofyear($"date")).
    withColumn("time_doy", dayofyear($"time")).
    show(false)

+----------+-----------------------+--------+--------+--------+--------+--------+--------+
|date      |time                   |date_dow|time_dow|date_dom|time_dom|date_doy|time_doy|
+----------+-----------------------+--------+--------+--------+--------+--------+--------+
|2014-02-28|2014-02-28 10:00:00.123|6       |6       |28      |28      |59      |59      |
|2016-02-29|2016-02-29 08:08:08.999|2       |2       |29      |29      |60      |60      |
|2017-10-31|2017-12-31 11:59:59.123|3       |1       |31      |31      |304     |365     |
|2019-11-30|2019-08-31 00:00:00.000|7       |7       |30      |31      |334     |243     |
+----------+-----------------------+--------+--------+--------+--------+--------+--------+



* Obtenez les informations de temps au format yyyyMMddHHmmss.

In [26]:
import org.apache.spark.sql.functions.date_format

In [27]:
datetimesDF.
    withColumn("time_ts", date_format($"time", "yyyyMMddHHmmss")).
    show(false)

+----------+-----------------------+--------------+
|date      |time                   |time_ts       |
+----------+-----------------------+--------------+
|2014-02-28|2014-02-28 10:00:00.123|20140228100000|
|2016-02-29|2016-02-29 08:08:08.999|20160229080808|
|2017-10-31|2017-12-31 11:59:59.123|20171231115959|
|2019-11-30|2019-08-31 00:00:00.000|20190831000000|
+----------+-----------------------+--------------+



In [29]:
datetimesDF.
    withColumn("date_us", date_format($"date", "MM-dd-yyyy")).
    withColumn("date_f", date_format($"date", "dd-MMM-yyyy")).
    show(false)

+----------+-----------------------+----------+-----------+
|date      |time                   |date_us   |date_f     |
+----------+-----------------------+----------+-----------+
|2014-02-28|2014-02-28 10:00:00.123|02-28-2014|28-Feb-2014|
|2016-02-29|2016-02-29 08:08:08.999|02-29-2016|29-Feb-2016|
|2017-10-31|2017-12-31 11:59:59.123|10-31-2017|31-Oct-2017|
|2019-11-30|2019-08-31 00:00:00.000|11-30-2019|30-Nov-2019|
+----------+-----------------------+----------+-----------+

