In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("superstore").getOrCreate()

In [18]:
from pyspark.sql.types import StructField, StructType, IntegerType, FloatType, DateType, StringType
from pyspark.sql.functions import to_date, col, regexp_replace

In [13]:
sch = [StructField('Identifiant de la ligne', StringType(), True),

       StructField('ID commande', StringType(), True),

       StructField('Date de commande', StringType(), True),

       StructField("Date d'expédition", StringType(), True),

       StructField("Mode d'expedition", StringType(), True),

       StructField("ID client", StringType(), True),

       StructField("Nom du client", StringType(), True),

       StructField("Segment", StringType(), True),

       StructField("Ville", StringType(), True),

       StructField("Etat", StringType(), True),

       StructField("Pays", StringType(), True),

       StructField("Code postal", StringType(), True),

       StructField("Marché", StringType(), True),

       StructField("Région", StringType(), True),

       StructField("ID produit", StringType(), True),

       StructField("Catégorie", StringType(), True),

       StructField("Sous-catégorie", StringType(), True),

       StructField("Nom du produit", StringType(), True),

       StructField("Ventes", StringType(), True),

       StructField("Quantité", StringType(), True),

       StructField("Réduction", StringType(), True),

       StructField("Bénéfices", StringType(), True),

       StructField("Frais de port", StringType(), True),

       StructField("Priorité de la commande", StringType(), True)]

In [15]:
struct = StructType(fields=sch)

In [16]:
achats_df = spark.read.csv('global_superstore_fr.csv',header=True, sep=';', schema = struct)

In [17]:
achats_df.printSchema()

root
 |-- Identifiant de la ligne: string (nullable = true)
 |-- ID commande: string (nullable = true)
 |-- Date de commande: string (nullable = true)
 |-- Date d'expédition: string (nullable = true)
 |-- Mode d'expedition: string (nullable = true)
 |-- ID client: string (nullable = true)
 |-- Nom du client: string (nullable = true)
 |-- Segment: string (nullable = true)
 |-- Ville: string (nullable = true)
 |-- Etat: string (nullable = true)
 |-- Pays: string (nullable = true)
 |-- Code postal: string (nullable = true)
 |-- Marché: string (nullable = true)
 |-- Région: string (nullable = true)
 |-- ID produit: string (nullable = true)
 |-- Catégorie: string (nullable = true)
 |-- Sous-catégorie: string (nullable = true)
 |-- Nom du produit: string (nullable = true)
 |-- Ventes: string (nullable = true)
 |-- Quantité: string (nullable = true)
 |-- Réduction: string (nullable = true)
 |-- Bénéfices: string (nullable = true)
 |-- Frais de port: string (nullable = true)
 |-- Priorité de l

In [19]:
achats_df = achats_df.withColumn('Ventes', regexp_replace(col('Ventes'),',','.'))\
.withColumn('Bénéfices', regexp_replace(col('Bénéfices'),',','.'))\
.withColumn('Frais de port', regexp_replace(col('Frais de port'),',','.'))

In [23]:
achats_df.select(['Ventes','Bénéfices','Frais de port','Réduction']).show()

+------+---------+-------------+---------+
|Ventes|Bénéfices|Frais de port|Réduction|
+------+---------+-------------+---------+
| 13.08|     4.56|        1.03 |        0|
|252.16|    90.72|       13.45 |        0|
|193.28|    54.08|        9.63 |        0|
| 35.44|     4.96|        1.37 |        0|
|  71.6|    11.44|        3.79 |        0|
| 56.12|    21.32|        4.72 |        0|
| 56.12|    21.32|        4.11 |        0|
|344.64|   165.42|       26.20 |        0|
| 97.36|    19.44|        6.86 |        0|
|341.52|    13.64|       17.34 |        0|
| 12.06|     3.48|        1.13 |        0|
| 20.76|     9.54|        0.65 |        0|
|210.64|    50.48|       16.07 |        0|
|  80.1|    37.62|        8.86 |        0|
|132.64|    35.76|        6.20 |        0|
| 12.94|     1.02|        0.46 |        0|
| 18.84|     -6.6|        1.60 |      0.4|
|308.28|   -149.1|       27.77 |      0.4|
|40.176|   -6.064|        2.14 |      0.4|
| 8.784|   -4.836|        0.38 |      0.4|
+------+---

In [22]:
achats_df = achats_df.withColumn('Réduction', regexp_replace(col('Réduction'),',','.'))

In [24]:
achats_df.select(['Date de commande',"Date d'expédition"]).show()

+----------------+-----------------+
|Date de commande|Date d'expédition|
+----------------+-----------------+
|      02/10/2014|       06/10/2014|
|      15/10/2012|       20/10/2012|
|      15/10/2012|       20/10/2012|
|      15/10/2012|       20/10/2012|
|      15/10/2012|       20/10/2012|
|      15/10/2012|       20/10/2012|
|      27/09/2013|       01/10/2013|
|      27/09/2013|       01/10/2013|
|      27/09/2013|       01/10/2013|
|      27/09/2013|       01/10/2013|
|      27/09/2013|       01/10/2013|
|      05/03/2013|       12/03/2013|
|      05/03/2013|       12/03/2013|
|      24/09/2014|       01/10/2014|
|      18/10/2014|       23/10/2014|
|      18/10/2014|       23/10/2014|
|      26/06/2013|       01/07/2013|
|      26/06/2013|       01/07/2013|
|      26/06/2013|       01/07/2013|
|      26/06/2013|       01/07/2013|
+----------------+-----------------+
only showing top 20 rows



In [25]:
achats_df = achats_df.withColumn('Date de commande', to_date(col('Date de commande'), 'dd/MM/yyyy'))\
                        .withColumn("Date d'expédition", to_date(col("Date d'expédition"), 'dd/MM/yyyy'))

In [26]:
achats_df.select(['Date de commande',"Date d'expédition"]).show()

+----------------+-----------------+
|Date de commande|Date d'expédition|
+----------------+-----------------+
|      2014-10-02|       2014-10-06|
|      2012-10-15|       2012-10-20|
|      2012-10-15|       2012-10-20|
|      2012-10-15|       2012-10-20|
|      2012-10-15|       2012-10-20|
|      2012-10-15|       2012-10-20|
|      2013-09-27|       2013-10-01|
|      2013-09-27|       2013-10-01|
|      2013-09-27|       2013-10-01|
|      2013-09-27|       2013-10-01|
|      2013-09-27|       2013-10-01|
|      2013-03-05|       2013-03-12|
|      2013-03-05|       2013-03-12|
|      2014-09-24|       2014-10-01|
|      2014-10-18|       2014-10-23|
|      2014-10-18|       2014-10-23|
|      2013-06-26|       2013-07-01|
|      2013-06-26|       2013-07-01|
|      2013-06-26|       2013-07-01|
|      2013-06-26|       2013-07-01|
+----------------+-----------------+
only showing top 20 rows



In [27]:
achats_df = achats_df.withColumn("Identifiant de la ligne", col("Identifiant de la ligne").cast(IntegerType()))
achats_df = achats_df.withColumn("Ventes", col("Ventes").cast(FloatType()))
achats_df = achats_df.withColumn("Quantité", col("Quantité").cast(IntegerType()))
achats_df = achats_df.withColumn("Réduction", col("Réduction").cast(FloatType()))
achats_df = achats_df.withColumn("Bénéfices", col("Bénéfices").cast(FloatType()))
achats_df = achats_df.withColumn("Frais de port", col("Frais de port").cast(FloatType()))

In [28]:
achats_df.printSchema()

root
 |-- Identifiant de la ligne: integer (nullable = true)
 |-- ID commande: string (nullable = true)
 |-- Date de commande: date (nullable = true)
 |-- Date d'expédition: date (nullable = true)
 |-- Mode d'expedition: string (nullable = true)
 |-- ID client: string (nullable = true)
 |-- Nom du client: string (nullable = true)
 |-- Segment: string (nullable = true)
 |-- Ville: string (nullable = true)
 |-- Etat: string (nullable = true)
 |-- Pays: string (nullable = true)
 |-- Code postal: string (nullable = true)
 |-- Marché: string (nullable = true)
 |-- Région: string (nullable = true)
 |-- ID produit: string (nullable = true)
 |-- Catégorie: string (nullable = true)
 |-- Sous-catégorie: string (nullable = true)
 |-- Nom du produit: string (nullable = true)
 |-- Ventes: float (nullable = true)
 |-- Quantité: integer (nullable = true)
 |-- Réduction: float (nullable = true)
 |-- Bénéfices: float (nullable = true)
 |-- Frais de port: float (nullable = true)
 |-- Priorité de la comm

In [30]:
# dimension client
client_df = achats_df.select(
    ['ID client','Nom du client','Segment','Ville','Etat','Pays','Code postal', 'Marché', 'Région']
).distinct()

In [31]:
client_df.show()

+---------+--------------------+-----------------+-----------------+---------------+--------------------+-----------+---------------+-------+
|ID client|       Nom du client|          Segment|            Ville|           Etat|                Pays|Code postal|         Marché| Région|
+---------+--------------------+-----------------+-----------------+---------------+--------------------+-----------+---------------+-------+
| JD-15790|      Ignace Lagueux|     Consommateur|           Celaya|     Guanajuato|             Mexique|       null|AMÉRIQUE LATINE|   Nord|
| PR-18880| Paulette LeBatelier|     Consommateur|    Gómez Palacio|        Durango|             Mexique|       null|AMÉRIQUE LATINE|   Nord|
| PB-19105|Pierre-Paul Brunault|     Consommateur| General Escobedo|     Nuevo León|             Mexique|       null|AMÉRIQUE LATINE|   Nord|
| EM-13960|     Étienne Mathieu|     Consommateur|          Morelia|      Michoacán|             Mexique|       null|AMÉRIQUE LATINE|   Nord|
| KC-1

In [32]:
# dimension produit
produit_df = achats_df.select(
    ['ID produit','Nom du produit','Sous-catégorie']
).distinct()

In [33]:
produit_df.show()

+---------------+--------------------+--------------------+
|     ID produit|      Nom du produit|      Sous-catégorie|
+---------------+--------------------+--------------------+
|OFF-LA-10001038|Smead Legal Exhib...|          Étiquettes|
|FUR-TA-10004840|Hon Conference Ta...|              Tables|
|OFF-LA-10002015|Hon Round Labels,...|          Étiquettes|
|TEC-CO-10004521|HP Personal Copie...|       Photocopieurs|
|OFF-ST-10002632|Smead Shelving, I...|            Stockage|
|FUR-TA-10003597|Bevis Wood Table,...|              Tables|
|TEC-AC-10004752|Memorex Keyboard,...|         Accessoires|
|OFF-ST-10000560|Fellowes Trays, I...|            Stockage|
|OFF-SU-10004662|Elite Scissors, S...|         Fournitures|
|OFF-AP-10004245| Hoover Stove, Black|           Appareils|
|TEC-AC-10001355|Memorex Router, P...|         Accessoires|
|OFF-SU-10000153|Acme Shears, High...|         Fournitures|
|TEC-AC-10000271|Enermax Router, E...|         Accessoires|
|FUR-BO-10002574|Bush Corner Shelv...|  

In [None]:
LAZY EVALUATION!!!!

In [36]:
achat_df = achats_df.select(
    ['ID client', 'ID commande', 'ID produit', 'Identifiant de la ligne', 'Ventes',
 'Quantité',
 'Réduction',
 'Bénéfices',
 'Frais de port',
 'Priorité de la commande']
)

In [37]:
achat_df.show()

+---------+--------------+---------------+-----------------------+------+--------+---------+---------+-------------+-----------------------+
|ID client|   ID commande|     ID produit|Identifiant de la ligne|Ventes|Quantité|Réduction|Bénéfices|Frais de port|Priorité de la commande|
+---------+--------------+---------------+-----------------------+------+--------+---------+---------+-------------+-----------------------+
| SC-20575|MX-2014-143658|OFF-LA-10002782|                      1| 13.08|       3|      0.0|     4.56|         1.03|                Moyenne|
| KW-16570|MX-2012-155047|FUR-FU-10004015|                      2|252.16|       8|      0.0|    90.72|        13.45|                Moyenne|
| KW-16570|MX-2012-155047|FUR-BO-10002352|                      3|193.28|       2|      0.0|    54.08|         9.63|                Moyenne|
| KW-16570|MX-2012-155047|OFF-BI-10004428|                      4| 35.44|       4|      0.0|     4.96|         1.37|                Moyenne|
| KW-16570|MX