# Manipulation de Date avec Pyspark

## 1 Rappel sur la manipulation de date avec Python

La gestion du temps est trés importante en programmation.

> Norme POSIX par exemple


En effet, beaucoup de choses peuvent rendre un calcul de temps vite complexe  :

  - La gestion des fuseaux horaires
  - Les passages aux heures été, hiver

### 1.1 Librairie Datetime en Python 

Pour utiliser les dates et le temps en python nous utilisons la librairie `datetime`

Le lien vers la documentation officielle : [Datetime](https://docs.python.org/3/library/datetime.html)

#### Définir une date

Pour définir une date, nous utilisons la fonction `date`
```python
datetime.date(<année>,<mois>,<jour>)
```

In [None]:
# Importation de datetime
import datetime

# Nous récuperons notre objet qui sera <class 'datetime.date'>
date = datetime.date(2020,2,20)

print(date)

#### Définir une date et une heure
Pour définir une date et une heure nous utilisons la fonction `datetime` cette fois-ci :

Le format est le suivant :
 - `datetime.datetime(<annee>,<mois>,<jour>,<heure>,<minute>,<seconde>)`

In [None]:
# Importation de datetime
import datetime

date = datetime.datetime(2020,2,20, 11, 10, 33)
print(date)

#### Récupération de la date du jour

In [None]:
# Importation de datetime
import datetime

# Grâce à la fonction date.today() nous pouvons récupérer notre date du jour 
print(datetime.date.today())

In [None]:
# Importation de datetime
import datetime

# En passant par la fonction datetime.today() non seulement nous récupérons la date du jour mais aussi l'heure actuel 
print(datetime.datetime.today())

### 1.2 Les attributs possible sur les dates

En passant par la fonction `datetime.datetime` nous récupérons un objet dont la classe est la suivant :
 - <class 'datetime.datetime'>
 
Cela va nous faciliter la récupération de nos informations :
- Année -> `.year`
- Mois -> `.month`
- Jours -> `.day`
- Heures -> `.hour`
- Secondes -> `.second`

In [None]:
# Importation de datetime
import datetime

# Récupérons notre date
date = datetime.datetime.now()

# si vous voulez savoir le type 
# print(type(date))

# Exemple avec chaque information :
print("année   ",date.year)
print("mois    ",date.month)
print("jour    ",date.day)
print("heure   ",date.hour)
print("seconde ",date.second)

### 1.3 Les fonctions relatives au Date

Nous disposons de fonctions déja présentes en python pour le traitement de nos dates

#### Vérification du jour de la semaine

In [None]:
# Importation de datetime
import datetime

# Nous récupérons notre date
date = datetime.datetime.today()

# Les jours commence le lundi avec l'index 0
print("jour de la semaine     ",date.weekday())

# Les jours commences le lundi avec l'index 1
print("jour de la semaine iso ",date.isoweekday())


#### Remplacer ou modifier nos dates
La fonction replace permet de remplacer une valeur d'une date par une autre.

In [None]:
# Importation de datetime
import datetime

# Nous récupérons notre date
date = datetime.datetime.today()

# Affichage de notre date
print(date.month)

# Modification du mois de notre date
dans_trois_mois = date.month + 3
print(dans_trois_mois)

# Nous définissons directement le mois
nouvelle_date = date.replace(month = 5)
print(nouvelle_date)

#### Conversion en chaîne de caractères
Pour convertir en chaîne de caractères nous utilisons la méthode strftime(<pattern>).

Avec les règles:
  
- `%Y : année YYYY`
- `%m : mois entre 01 et 12`
- `%d : jour du mois entre 01 et 31`
- `%H : heure de 0 à 23`
- `%M : minute de 0 à 59`
- `%S : seconde de 0 à 59`
- `%z : décalage de time zone par rapport à UTC`
- `%a : jour de la semaine abrégé, dans la locale`
  
[Lien vers la documentation officielle](<https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes>)

In [None]:
# Importation de datetime
import datetime

# Nous récupérons notre date
date = datetime.datetime.today()

# Exemple de formatage avec l'aide de strftime()
print(date.strftime('%d/%m/%Y %H:%M et %S secondes'))

### 1.4 Les opérations entre dates

In [None]:
# Importation de datetime
import datetime

# Instancions une date 
date1 = datetime.datetime(2021,1,2,5)

# Récupérons la date d'aujourd'hui
date2 = datetime.datetime.now()

# Calculons maintenant la différence entre le deux
delta_entre_les_dates = date2-date1


print("delta", type(delta_entre_les_dates))
print("en jour", delta_entre_les_dates.days)
print("en secondes", delta_entre_les_dates.seconds)

In [None]:
# Importation de datetime
import datetime

# On peut également prévoir le delta directement par la fonction timedelta()
delta_time = datetime.timedelta(days=30)

# Si on affiche notre delta nous constaterons qu'il contient juste "30 days, 0:00:00"
print(delta_time)

# On peut donc directement par la suite manipuler cela
# Exemple :
# Affichage de la date du jour moins notre delta
print(datetime.datetime.now()-delta_time)

## 2 Rappel sur les dates en SQL

### 2.1 Obtenir la date du jour

Pour simplifier les requêtes et les rendre dynamiques, SQL nous fournit une fonction `NOW()` qui donne la date du jour.

Cette date répond au format **DATETIME** pas forcément lisible pour l'humain mais compréhensible pour SQL.  

SQL peut donc faire des comparaisons et utiliser directement le résultat de cette fonction.

[lien vers la documentation officiel](https://docs.databricks.com/spark/latest/spark-sql/language-manual/sql-ref-functions-builtin.html#date-timestamp-and-interval-functions)

In [None]:
%sql

SELECT NOW();


### 2.2 Transformer une date
Cette date peut être rendue lisible avec d'autres fonctions qui extraient des informations de la date.
- `MICROSECOND()` extrait la microseconde d'une date
- `SECOND()` extrait la seconde d'une date
- `MINUTE()` extrait la minute d'une date
- `HOUR()` extrait l'heure d'une date
- `DAYOFWEEK()` extrait le numéro de jour de la semaine (Dimanche étant le 1er jour et Samedi le 7ème jour)
- `DAY()` extrait le jour d'une date
- `MONTH()` extrait le mois d'une date
- `YEAR()` extrait l'année d'une date
- `DAYOFYEAR()` extrait le jour de l'année d'une date
- `QUARTER()` extrait le trimestre d'une date

In [None]:
%sql

-- Exemple des fonctions citées juste ci-dessus
SELECT
  SECOND(NOW()),
  MINUTE(NOW()),
  HOUR(NOW()),
  DAYOFWEEK(NOW()),
  DAY(NOW()),
  MONTH(NOW()),
  YEAR(NOW()),
  DAYOFYEAR(NOW()),
  QUARTER(NOW());

### 2.3 Formater une date
Une autre façon de transformer une date est de passer par un formatage avec la méthode `DATE_FORMAT()`.

Pour consulter la liste complète des pattern pour le format: [Format de date sur Databrick](https://docs.databricks.com/spark/latest/spark-sql/language-manual/sql-ref-datetime-pattern.html)

In [None]:
%sql
-- Exemple de formattage de date 
    -- Nous selectionnons juste l'année dans la premiere colonne  (l'année entiere)
    -- Nous selectionnons juste les deux derniers chiffres de l'année dans la seconde colonne
    -- Nous selectionnons juste le jour, le chiffre du mois et l'année en entière
SELECT date_format(NOW(), 'y'), date_format(NOW(), 'yy'), date_format(NOW(), 'd-MM-y');

### 2.4 Opération sur les dates
Il est possible d'ajouter ou soustraire des dates en elles. Ceci est possible grâce au format DATETIME qui attribut une valeur numérique aux dates.

`date_sub` et `date_add` permettent respectivement de supprimer et d'ajouter des jours à une date.

In [None]:
%sql
-- Dans cet exemple simple ne récupérons la date du jour à laquelle nous ajoutons 15 jours par le `DAY`
SELECT DAY(date_add(NOW(), 15))

In [None]:
%sql
-- Exemple concret avec la récupération les résultats des 7 derniers jours:
SELECT DISTINCT dtjour FROM bgescaf.gssdpfts WHERE dtjour BETWEEN date_sub('2020-02-02', 7) AND '2020-02-02';

## 3 Manipulation des dates en Pyspark 

Pyspark nous donne accés aux différentes méthodes que l'on vient de rappeler ci-dessus.  

Mais il nous en propose d'autres aussi !

### Récupération de la date en Pyspark

In [None]:
# Nous allons récupérer notre date de ce jour grâce à la fonction current_date()

# Récupérons dans un premier temps notre dataframe
# Vous remarquerez que l'on ne va utiliser que la colonne date_jour pour la manipulation de dates
mon_dataframe = spark.table("formation.arrivees").select("date_jour")

# Ajoutons à notre colonne date_jour la date d'aujourd'hui
mon_dataframe.select("date_jour",current_date().alias("current_date")).show(1)


### Manipulation du format en Pyspark

Pyspark nous donne la main sur le format de date que l'on souhaite manipuler grâce à la fonction `date_format()`

In [None]:
from pyspark.sql.functions import *
# Récupérons dans un premier temps notre dataframes
mon_dataframe = spark.table("formation.arrivees").select("date_jour")

# Nous allons ajouter dans notre ci-dessous une colonne qui
# contiendra la date présente dans la colonne "date_jour" mais dans un format différent
mon_dataframe.select("date_jour",date_format(col("date_jour"), "MM-dd-yyyy").alias("date_format")).show(1)

### Manipulation du type en Pyspark

Pyspark nous permet également de manipuler le type de nos données afin de par exemple transformer un string en date.

In [None]:
# Nous réalisons nos imports
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# Nous créons une session spark
spark_session = SparkSession.builder.getOrCreate()

# Nous allons nous même rentrer les données
donnee =[["1","2022-09-09"]]
# Puis l'on créer notre dataframe
mon_dataframe=spark.createDataFrame(donnee,["id","date_string"])

# Vérifions
mon_dataframe.printSchema()
mon_dataframe.show()

# Nous récupérons la date (type string) de ma première colonne afin de créer une nouvelle colonne qui aura la date (type date)
mon_dataframe2 = mon_dataframe.select("date_string",to_date(col("date_string"), "yyyy-MM-dd").alias("date_date"))

# Nous affichons notre Schema afin de vérifier 
# On pourra constater que ma deuxieme colonne est bien de type date
mon_dataframe2.printSchema()
mon_dataframe2.show()

### Calcul de date

Deux méthodes peuvent nous servir à calculer des intervalles de dates :
- `datediff()`
- `months_between()`

In [None]:
# Reprenons notre exemple précédent
# Nous réalisons nos imports
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# Nous créons une session spark
spark_session = SparkSession.builder.getOrCreate()

# Nous allons nous même rentrer les données
donnee =[["1","2022-07-09"]]
# Puis l'on créer notre dataframe
mon_dataframe=spark.createDataFrame(donnee,["id","date"])

mon_dataframe.show()

# Faisons maintenant la différence avec la date actuel et affichons cela dans une colonne grâce à datediff()
mon_dataframe.select("date",datediff(current_date(),"date").alias("difference_date")).show()

# Nous pouvons également calculer la différence en mois
mon_dataframe.select("date",months_between(current_date(),"date").alias("difference_mois")).show()

#On pourrait également diviser par 12 pour avoir le nombre d'année
# .withColumn("yearsDiff",months_between(current_date(),col("date"))/lit(12))

### Modification de date

Nous pouvons également comme vu précédemment modifier une date grâce aux fonctions :

- `add_months()`
- `date_add()`
- `date_sub()`

In [None]:
# Reprenons notre exemple précédent
# Nous réalisons nos imports
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# Nous créons une session spark
spark_session = SparkSession.builder.getOrCreate()

# Nous allons nous même rentrer les données
donnee =[["1","2022-09-09"]]
# Puis l'on créer notre dataframe
mon_dataframe=spark.createDataFrame(donnee,["id","date"])

mon_dataframe.show()

# Ajout de mois avec add_months()
mon_dataframe.select("date",add_months("date",3).alias("add_month_3mois")).show()

# Ajout avec date_add()
mon_dataframe.select("date",date_add("date",3).alias("date_add_3mois")).show()

# Soustraction avec date_sub()
mon_dataframe.select("date",date_sub("date",3).alias("date_sub_3mois")).show()

De nombreuse méthodes sont encore disponible.  
Voici une liste partielle  :
- `year()`
- `month()`
- `month()`
- `next_day()`
- `weekofyear()`
- `dayofweek()`
- `dayofmonth()`
- `dayofyear()`

## 4 Manipulation des timestamps en Pyspark

Nous pouvons également manipuler les timestamps avec Pyspark

In [None]:
from pyspark.sql.functions import *

# Récupérons dans un premier temps notre dataframes
mon_dataframe = spark.table("formation.arrivees").select("date_jour")

mon_dataframe.show(1)

# Nous pouvons récuperer la date et l'heure sous forme de timestamp grâce ) current_timestamp()
mon_dataframe.select("date_jour",current_timestamp().alias("timestamp_date_actuel")).show(1)


# Nous pouvons également manipuler les heures,minutes et secondes
mon_dataframe.select("date_jour",hour("date_jour").alias("heures"),minute("date_jour").alias("minutes"),second("date_jour").alias("secondes")).show(1)