# Projekt IUM Politechnika Warszawska (Dokumentacja + Realizacja)

## Podstawowe informacje

### Prowadzący
dr inż. Paweł Zawistowski

### Autorzy
- Maciej Kasprzyk
- Wojciech Sitek

### Tytuł projektu
e-Shoppping - decyzja o zniżkach dla klientów

### Numer zadania
1.03

### Temat projektu
Niektórzy klienci nie mogą zdecydować się na zakup oglądając produkt na stronie – ale pewnie gdybyśmy wiedzieli, które to są osoby, to odpowiednia zniżka skłoniłaby ich do zakupu.

## Etap 1 - dokumentacja wstępna

### Termin
2020.05.01

### Do zrobienia
- definicja problemu biznesowego i zdefiniowanie zadania/zadań modelowania,.
- analiza danych z perspektywy realizacji tych zadań (trzeba ocenić, czy dostarczone dane są wystarczające – może czegoś brakuje, może coś trzeba poprawić, domagać się innych danych, ...)

# Definicja problemu biznesowego i zadań modelowania

1. Jaka jest obecna sytuacja?
    - W obecnej sytuacji działa aplikacja webowa sklepu internetowego, w którym można zdalnie dokonać zakupu produktów o określonej cenie.
    - Aplikacja rejestruje historię zakupów i obsługuje logowanie użytkowników.
    - Sklep zbiera logi ze swojej działalności o 4 rodzajach: użytkownicy, sesje, dostawy oraz produkty.
    - Sklep prosperuje bardzo dobrze, jednak kierownictwo nie chce "osiąść na laurach".

2. Jakie są obserwacje stanu faktycznego i przypuszczenia odnośnie działalności sklepu?
    - W firmie powstało przypuszczenie, że wielu klientów przegląda ofertę firmy, ale finalnie nie decyduje się na zakup produktów z powodu lekko zbyt wysokiej ceny.
    - Gdyby jednak dla konkretnego klienta zostało zaadrasowane zaproszenie do tańszego zakupu.

3. Co ma zostać wprowadzone?
    - Istnieje podejrzenie, że analiza działalności sklepu internetowego i wprowadzenie udogodnień związanych z uczeniem maszynowym przyniesie duże korzyści.
    - Zostało więc zaproponowane usprawnienie, polegające na przewidywaniu, czy zaproponować zniżkę klientowi przeglądającemu dany produkt, a jeśli tak to w jakiej wysokości.

4. Jakie są dostępne zasoby?
    - Zasoby, z których można korzystać podczas projektu to dane z przeszłości dotyczące użytkowników, sesji, dostaw oraz produktów oraz temat projektu zadany w konwencji biznesowej (bez szczegółów analitycznych czy technicznych).
    
6. Jakie są założenia i ograniczenia?
    - Kierownictwo przeznacza określoną kwotę tygodniowo na zniżki dla klientów. (Wybrany został okres tygodniowy, ponieważ zależnie od dnia tygodnia występują różne rodzaje zakupów z różnym nasileniem, a tydzień stanowi zazwyczaj pełny cykl czasowy.)
    - Rozwiązanie przyznaje zniżki o mniej więcej równej wartości. Chodzi o to, żeby nie wykorzystać całego budżetu na jeden produkt.
    - Rozwiązanie przyznaje zniżkę o wartości maksymalnie 20% wartości produktu. Celem rozwiązania nie jest spowodowanie za wszelką cenę za pomocą wszystkich kosztów, żeby klienci kupowali produkty, ale żeby w ramach ustalonego budżetu osiągnąć jak najwyższą sprzedaż.

5. Jakie właściwości i cechy powinno mieć rozwiązanie?
    - Rozwiązanie powinno proponować jak najmniejszą zniżkę taką, żeby klient, który nie zdecydowałby się na zakup, przekonał się do niego.

6. Słowniczek pojęć
    - sprzedaż - łączna kwota, za jaką kupiono dane produkty

### Biznesowe kryteria sukcesu
- Organizacja jest znana ze zniżek przy zakupach.
- Organizacja przewyższa konkurencję w niższych cenach produktów, a jednocześnie stosuje promocje tam, gdzie jest to najbardziej opłacalne.
- Inwestycja w przygotowanie i wdrożenie projektu zwraca się po określonym czasie, a następnie wytwarza zyski dla organizacji.
- Sklep może być reklamowany jako "inteligentny", "wykorzystujący nowoczesne narzędzia", "wykorzystujący sztuczną inteligencję".
    
### Zadania modelowania
W ramach projektu będą realizowane następujące zadania modelowania:
- Klasyfikator binarny - decyduje, czy klient kupi produkt bez zniżki, czy potrzebna mu jest zniżka. (Realizowany jako regresja z prawdopodobieństwem kupna bez zniżki jako wynikiem oraz ustalonymi przedziałami, od jakiej do jakiej wartości prawdopodobieństwa potrzebna jest zniżka. Warto zauważyć, że gdy p-stwo kupna jest bardzo duże, klient nie potrzebuje zniżki, bo i tak kupi produkt, oraz gdy p-stwo kupna jest bardzo małe, raczej żadna zniżka nie skłoni klienta do kupna)
- Regresja - decyduje o wysokości zniżki. Bierze pod uwagę dostępny budżet na przewidywaną ilość produktów, prawdopodobieństwo kupna bez zniżki (wyliczoną w pierwszym zadaniu modelowania) oraz inne atrybuty.

# Analiza danych

### Zadanie do wykonania
Analiza danych z perspektywy realizacji zdefiniowanych zadań modelowania (trzeba ocenić, czy dostarczone dane są wystarczające – może czegoś brakuje, może coś trzeba poprawić, domagać się innych danych, ...)

### Założenia analityczno-techniczne
Projekt będzie realizowany w języku Python 3. Cała dokumentacja i realizacja projektu znajduje się w jednym pliku typu Jupyter Notebook. Realizacja zostanie na końcu projektu wyeksportowana do pliku i skompresowana narzędziem _zip_. Dane zostają wczytane z 4 plików: _deliveries.jsonl_, _products.jsonl_, _sessions.jsonl_ oraz _users.jsonl_.

### Plan wykonania zadania
Analiza danych obejmuje wczytanie danych z plików, wymienionych powyżej, przeprowadzenie pogłębionej analizy tych danych za pomocą następujących bibliotek języka Python: _numpy_, _pandas_, _scikit-learn_ oraz wyciągnięcie wniosków na podstawie analizy danych oraz zadań biznesowych.

#### Analiza danych sesji

Po przeglądaniu danych stwierdzamy, że są braki w kolumnach `user_id` oraz `product_id`. Sprawdźmy jak dużo danych brakuje.

In [65]:
import json

events = []
with open("/sessions.txt") as file:
  lines = [x.strip() for x in file.readlines()]
  events = [json.loads(x) for x in lines]

def count_nones(array, field):
  return sum(e[field] is None for e in array)

print("Null products count: ", count_nones(events,'product_id'))
print("Null users count: ", count_nones(events,'user_id'))

Null products count:  2538
Null users count:  2501


Możemy uzupełnić `user_id` na podstawie wartości z tej samej sesji.

In [66]:
# prepare dict
user_of_session = dict() # session_id as key
for event in events:
  session_id = event['session_id']
  user_id = event['user_id']
  if user_id != None and not session_id in user_of_session:
    user_of_session[session_id] = user_id

# complete the data    
for event in events:
  if event['user_id'] == None and event['session_id'] in user_of_session:
    event['user_id'] = user_of_session[event['session_id']]

# check
print("Null users count: ", count_nones(events,'user_id'))

Null users count:  83


Usuńmy rekordy, których nie dało się wypełnić.

In [67]:
events = [e for e in events if e['user_id'] != None]
# check
print("Null products count: ", count_nones(events,'user_id'))

Null products count:  0


*Zakładamy, że regularność pola `product_id` wynika z charakterystki generatora i nie powinniśmy na jej podstawie uzupełniać danych.*  
Niestety nie możemy nic zrobić z brakującymi wartościami `product_id`.  
Usuńmy rekordy z brakujacymi danymi.  

In [68]:
events = [e for e in events if e['product_id'] != None]
# check
print("Null products count: ", count_nones(events,'product_id'))

Null products count:  0


Sprawdźmy ile jest rekordów oraz różnych sesji.

In [69]:
print("sessions count", len(user_of_session))
print("events count", len(events))

sessions count 9391
events count 48218


#### Analiza danych użytkowników


Dane użytkowników wyglądają na kompletne. Policzmy ile mamy rekordów.

In [70]:
users = []
with open("/users.txt") as file:
  lines = [x.strip() for x in file.readlines()]
  users = [json.loads(x) for x in lines]

print('users counts', len(users))

users counts 200


#### Analiza danych produktów

Po przejrzeniu danych produktów dostrzegamy, że niektóre ceny są błednę. Występują wartości ujemne oraz wartości, które są o kilka rzędów wielkości zawyżone. Rekordów produktów jest mało (około 300) a błednych jeszcze mniej (około 30). Dla poprawności modelu nie ma potrzeby, aby cena była znana dokładnie, ważny jest rząd wielkości. Najwygodniej będzie poprawić błędne rekordy ręcznie. Błędne ceny oszacujemy na podstawie naszej wiedzy eksperckiej na temat cen produktów w internecie (czytaj: sprawdzimy w google).

Spójrzmy na dane produktów po ręcznym skorygowaniu cen:

In [85]:
products = []
with open("/products_fix.txt") as file:
  lines = [x.strip() for x in file.readlines()]
  for line in lines:
    products.append(json.loads(line))


print('ujemne ceny:', sum(p["price"] < 0 for p in products))
print('ceny wyzsze niz 1000:', sum(p["price"] > 1000 for p in products))

ujemne ceny: 0
ceny wyzsze niz 1000: 18


Po poprawieniu nie mamy cen ujemnych. Sprawdźmy ceny wysokie.

In [88]:
for p in products:
  if p["price"] > 1000:
    print(p['price'],"--",p["product_name"])

2048.5 -- Kyocera FS-1135MFP
7639.0 -- Kyocera FS-3640MFP
3029.0 -- LCD Iiyama T1932MSC
1079.0 -- LCD NEC EA223WM
2199.9 -- Samsung Galaxy S III GT-i9300
1117.01 -- LCD Asus VK278Q
1419.0 -- LCD Asus PA248Q
2065.0 -- LCD Iiyama T1931SR
1998.14 -- Ricoh SG3110DN
2399.0 -- Samsung CLX-6260FR ### Gadżety Samsung ### Eksploatacja -10% ### Negocjuj Cenę ### Raty ### Szybkie Płatności ### Szybka Wysyłka
3777.0 -- Kyocera FS-C2026MFP
5126.0 -- Kyocera FS-3540MFP
4598.0 -- Kyocera FS-3040MFP
5301.9 -- Kyocera FS-3140MFP
5259.0 -- OKI B840dn
1816.97 -- Apple iPad mini 64GB
2317.02 -- Apple iPad mini 64GB 4G
1303.96 -- Plantronics Savi W740


Wszystkie ceny mieszczą się w przedzialne `(0 ; 10 000)`. Wszystkie powyżej `1000 zł` są uzasadnione, ponieważ dotyczą produktów faktycznie drogich.