# Czyszczenie klastra

In [2]:
#%fs ls
#display(dbutils.fs.ls("/FileStore/"))
#dbutils.fs.rm("/FileStore/telco3.csv");
#dbutils.fs.rm("/police2/");

# Źródło danych

Dane zostały pobrane ze strony:https://www.kaggle.com/ulabox/ulabox-orders-with-categories-partials-2017. Zawarte są w nim dane dot. zakupów w Ulabox - jednym z najpopularniejszych delikatesów online. Zestaw danych zawiera zanonimizowany podzbiór 30 tys. zamówień z początku 2017 roku. W tym zbiorze danych reprezentowani są różne rodzaje klientów: zamieszkujący zarówno obszary miejskie, jak i wiejskie, lojalni, jak i jednorazowi. Zbór danych zawiera ok 10 tysięcy klientów.

Disclaimer: The Ulabox Online Supermarket Dataset 2017, accessed from https://www.github.com/ulabox/datasets

### W pliku znajdują się następujące zmienne: 

custome - id odróżniające klientów między sobą w zbiorze;

weekday - dzień tygodnia, w którym dokonano zakupów. Ze względu na brak informacji na ten temat, nie przypisywałam konkretnych nazw do dni tygodnia, jednak na podstawie analizy ruchu w poszczególne dni tygodnia, wydaje mi się, że są to oznaczenia w nomenklaturze amerykańskiej, tzn. 1 oznacza niedzielę, 7 - sobotę;

hour - godzina dokonania zakupów;

order - numer identyfikujący zamówienie;

total_items - liczba wszystkich przedmiotów w koszyku;

discount% - procentowa wartość udzielonego rabatu;

Food% - udział rachunku przypadający na art. spożywcze;

Fresh% - udział rachunku przypadający na żywność mrożoną i świeżą;

Drinks% - udział rachunku przypadający na napoje;

Home% - udział rachunku przypadający na chemię gospodarczą;

Beauty% - udział rachunku przypadający na art. higieniczne i kosmetyki;

Health% - udział rachunku przypadający na art. związane ze zdrowiem;

Baby% - udział rachunku przypadający na art. dla niemowląt;

Pets% - udział rachunku przypadający na art. dla zwierząt domowych;

### Problem badawczy

Analiza preferencji klientów kupujących w delikatesach online.

In [4]:
# File location and type
file_location = "/FileStore/tables/ulabox_orders.csv"
file_type = "csv"

# CSV options
infer_schema = "false"
first_row_is_header = "false"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

#Ogólne tabele dot. danych

In [6]:
display(df)

_c0,_c1,_c2,_c3,_c4,_c5,_c6,_c7,_c8,_c9,_c10,_c11,_c12,_c13
customer,order,total_items,discount%,weekday,hour,Food%,Fresh%,Drinks%,Home%,Beauty%,Health%,Baby%,Pets%
0,0,45,23.03,4,13,9.46,87.06,3.48,0,0,0,0,0
0,1,38,1.22,5,13,15.87,75.8,6.22,2.12,0,0,0,0
0,2,51,18.08,4,13,16.88,56.75,3.37,16.48,6.53,0,0,0
1,3,57,16.51,1,12,28.81,35.99,11.78,4.62,2.87,15.92,0,0
1,4,53,18.31,2,11,24.13,60.38,7.78,7.72,0,0,0,0
1,5,8,23.89,4,13,0,100.0,0,0,0,0,0,0
1,6,35,17.26,1,10,13.01,51.84,29.36,5.79,0,0,0,0
1,7,12,6.61,4,8,17.21,67.93,14.86,0,0,0,0,0
1,8,35,22.29,1,12,15.5,61.65,22.85,0,0,0,0,0


In [7]:
columns = df.filter((df['_c0'] == 'customer') & (df['_c1'] == 'order') & (df['_c2'] == 'total_items'))
data = df.subtract(columns)

# #header = df.filter((df['_c0'] == 'date') & (df['_c1'] == 'open') & (df['_c2'] == 'high'))

headerColumn = columns.first()

#looping columns for renaming 
for column in data.columns:
    data = data.withColumnRenamed(column, headerColumn[column])

data.show(truncate=False)

In [8]:
data.printSchema()

# Podstawowe transformacje danych (agregowanie, wyznaczenie wskaźników i kalkulacji). Tabele.

### Unpivoting data

W celu łatwiejszej agregacji danych muszę zmienić tabelę z szerokiej na długą. Rozwiązanie, które zastosowałam jest zakodowane na twardo, co byłoby problematyczne przy większej ilości kolumn do podmienienia, nie mniej jednak było najmniej skomplikowane, co dla mnie było znaczące.

In [11]:
from pyspark.sql.functions import lit

d1 = data.select(data.columns[:7]).withColumn("Category",lit("Food")).withColumnRenamed("Food%","Percentage")

d2 = data.select(data.columns[:8]).drop(data[6]).withColumn("Category",lit("Fresh")).withColumnRenamed("Fresh%","Percentage")

d3 = data.select(data.columns[:9]).withColumn("Category", lit("Drinks")).withColumnRenamed("Drinks%","Percentage")
d3 = d3.drop(d3[6]).drop(d3[7])

d4 = data.select(data.columns[:10]).withColumn("Category",lit("Home")).withColumnRenamed("Home%","Percentage")
d4 = d4.drop(d4[6]).drop(d4[7]).drop(d4[8])

d5 = data.select(data.columns[:11]).withColumn("Category",lit("Beauty")).withColumnRenamed("Beauty%","Percentage")
d5 = d5.drop(d5[6]).drop(d5[7]).drop(d5[8]).drop(d5[9])

d6 = data.select(data.columns[:12]).withColumn("Category",lit("Health")).withColumnRenamed("Health%","Percentage")
d6 = d6.drop(d6[6]).drop(d6[7]).drop(d6[8]).drop(d6[9]).drop(d6[10])

d7 = data.select(data.columns[:13]).withColumn("Category",lit("Baby")).withColumnRenamed("Baby%","Percentage")
d7 = d7.drop(d7[6]).drop(d7[7]).drop(d7[8]).drop(d7[9]).drop(d7[10]).drop(d7[11])

d8 = data.select(data.columns[:14]).withColumn("Category",lit("Pets")).withColumnRenamed("Pets%","Percentage")
d8 = d8.drop(d8[6]).drop(d8[7]).drop(d8[8]).drop(d8[9]).drop(d8[10]).drop(d8[11]).drop(d8[12])

d = d1.union(d2).union(d3).union(d4).union(d5).union(d6).union(d7).union(d8)
d = d.withColumnRenamed("discount%","discount")

d1.unpersist()
d2.unpersist()
d3.unpersist()
d4.unpersist()
d5.unpersist()
d6.unpersist()
d7.unpersist()
d8.unpersist()

In [12]:
from pyspark.sql.types import DoubleType
# from pyspark.sql.types import IntegerType
# Niestety rzutowanie na INTa nie zadziałało - stworzyło same NULLe.

d=d.withColumn("DiscountD", d.discount.cast(DoubleType())).withColumn("PercentageD", d.Percentage.cast(DoubleType())).withColumn("TotalItemsD", d.total_items.cast(DoubleType()))

d=d.withColumn("hourD", d.hour.cast(DoubleType()))
# d=d.withColumn("weekday", d.weekday.cast(DoubleType())).withColumn("weekdayi", d.weekday.cast(IntegerType()))

### Suma przemdiotów kupionych w poszczególne dni tygodnia

In [14]:
from pyspark.sql.functions import *
d.groupBy("weekday").agg(sum("TotalItemsD")).withColumnRenamed("sum(TotalItemsD)", "Sum of items purchased").orderBy("weekday").show()


In [15]:
#Tworzenie tymczasowej tabeli
d.createOrReplaceTempView("order_tmp");


#spark.sql("create table order_perm as select * from order_tmp");

#niestety czyszczenie klastra nie powiodło się i nie udało mi się zapisać tych danych do permanentnej tabeli - ale tak powinien wyglądać kod do zrobienia tego.

In [16]:
%sql
SELECT Category, SUM(PercentageD*TotalItemsD) as ItemsPurchased
FROM order_tmp group by Category;



Category,ItemsPurchased
Home,12898372.66999999
Food,25666405.74000001
Baby,5968624.589999995
Health,943377.11
Pets,861675.1799999998
Fresh,22494340.179999977
Drinks,21686776.130000003
Beauty,4602578.400000001


In [17]:
%sql

SELECT SUM(TotalItemsD) as value from order_tmp;

value
7617584.0


In [18]:
%sql

SELECT AVG(PercentageD*TotalItemsD) as ItemsPurchased
FROM order_tmp 
group by Category

ItemsPurchased
429.9457556666664
855.5468580000002
198.95415299999985
31.445903666666663
28.722506
749.8113393333326
722.8925376666667
153.41928000000004


# Analiza eksporacyjna danych - wykresy

### Rozkład gęstości odpowiadający na pytanie jakiej wysokości rabaty są udzielane.

In [20]:
display(d)

customer,order,total_items,discount,weekday,hour,Percentage,Category,DiscountD,PercentageD,TotalItemsD,hourD
9,101,15,6.27,7,10,18.1,Food,6.27,18.1,15.0,10.0
26,162,25,0.0,1,18,6.88,Food,0.0,6.88,25.0,18.0
55,281,44,2.63,2,13,16.32,Food,2.63,16.32,44.0,13.0
146,602,27,21.91,4,11,9.85,Food,21.91,9.85,27.0,11.0
163,647,21,5.0,4,14,32.89,Food,5.0,32.89,21.0,14.0
255,957,24,5.31,3,10,14.36,Food,5.31,14.36,24.0,10.0
266,1007,5,0.0,1,6,100.0,Food,0.0,100.0,5.0,6.0
288,1075,14,9.15,2,11,34.05,Food,9.15,34.05,14.0,11.0
330,1226,28,10.51,2,15,0.0,Food,10.51,0.0,28.0,15.0
487,1699,31,1.73,2,21,23.06,Food,1.73,23.06,31.0,21.0


### Jak przedstawia się rozkład liczby produktów w koszyku? Czy są one raczej zrównoważone cy istnieje duża ilość outlierów? Jaki jest rozstrzał wartości?

In [22]:
display(d)

customer,order,total_items,discount,weekday,hour,Percentage,Category,DiscountD,PercentageD,TotalItemsD,hourD
9,101,15,6.27,7,10,18.1,Food,6.27,18.1,15.0,10.0
26,162,25,0.0,1,18,6.88,Food,0.0,6.88,25.0,18.0
55,281,44,2.63,2,13,16.32,Food,2.63,16.32,44.0,13.0
146,602,27,21.91,4,11,9.85,Food,21.91,9.85,27.0,11.0
163,647,21,5.0,4,14,32.89,Food,5.0,32.89,21.0,14.0
255,957,24,5.31,3,10,14.36,Food,5.31,14.36,24.0,10.0
266,1007,5,0.0,1,6,100.0,Food,0.0,100.0,5.0,6.0
288,1075,14,9.15,2,11,34.05,Food,9.15,34.05,14.0,11.0
330,1226,28,10.51,2,15,0.0,Food,10.51,0.0,28.0,15.0
487,1699,31,1.73,2,21,23.06,Food,1.73,23.06,31.0,21.0


### Jak zmienia się ilość kupowanych przedmiotów w poszczególnych dniach?

In [24]:
display(d.groupBy("weekday").agg(sum("TotalItemsD")).withColumnRenamed("sum(TotalItemsD)", "Sum of items purchased").orderBy("weekday"))

weekday,Sum of items purchased
1,1529920.0
2,1267096.0
3,1200344.0
4,1052960.0
5,637680.0
6,593192.0
7,1336392.0


### "Ruch" w sklepie online w zależności od dnia tygodnia

In [26]:
display(d.groupBy("weekday").agg(count("customer")).withColumnRenamed("count(customer)", "noOfCustomer").orderBy("weekday"))

weekday,noOfCustomer
1,49896
2,39760
3,37664
4,32648
5,20304
6,18448
7,41280


### Jak zmienia się średnia wielkość zamówienia w zależności od pory dnia?

In [28]:
display(d.groupBy("hour","hourD").agg(avg("TotalItemsD")).withColumnRenamed("avg(TotalItemsD)", "AverageItemsPurchased").orderBy("hourD").drop("hourD"))

hour,AverageItemsPurchased
0,33.81209503239741
1,32.81935483870968
2,36.1764705882353
3,31.25
4,26.666666666666668
5,30.73684210526316
6,33.144
7,30.86871508379888
8,25.886609071274297
9,29.052105638829406


## Jaka godzina jest najbardziej zatłoczona?

In [30]:
display(d.groupBy("hour","hourD").agg(count("customer")).withColumnRenamed("count(customer)", "noOfCustomer").orderBy("hourD").drop("hourD"))

hour,noOfCustomer
0,7408
1,2480
2,952
3,608
4,384
5,456
6,1000
7,2864
8,7408
9,11208


### Jakiego typu produkty były wybierane przez konsumentów najczęściej?

Disclamer: w tym zbiorze danych procenty dot. udziałów kwotowych, a nie liczby produków. W związku z tym łączenie tych dwóch zmiennych wynika z bardzo zgrubnego założenia, że ceny we wszystkich kategoriach są take same pod względem rozkładu, śrendiej, etc. Przy rzeczywistym, niezanonimizowanym zestawie danych, można by rzeczywiście przeprowadzić dokładną analizę z tym związaną.

In [32]:
dAggr = d.withColumn("Items",d.TotalItemsD*d.PercentageD).groupBy("Category").agg(sum("Items")).withColumnRenamed("sum(TotalItemsD)", "ItemsPurchased").orderBy("Category")
display(dAggr)
# summed = d.select(sum("TotalItemsD")).collect()

# display(summed)

Category,sum(Items)
Baby,5968624.589999995
Beauty,4602578.400000001
Drinks,21686776.130000003
Food,25666405.74000001
Fresh,22494340.179999977
Health,943377.11
Home,12898372.66999999
Pets,861675.1799999998


# Podsumowanie


Jak można zuważyć ilość kupowanych przedmiotów nie zależy w większym stopniu od godziny, w której został dokonany zakup.

Na wykresach przedstawiających porę dnia, można zauważyć dwa wyraźne szczyty związane ze zwiększonym ruchem: między 10 a 12 oraz w graniach godziny 21-22.

W związku z tym, że zakupy przez Internet są wykonywane generalnie częściej w weekendy niż w ciągu tygodnia, można wysunąć hipotezę o znaczeniu poszcególnych liczb w kolunie weekday.