In [25]:
# Adding autoreload will let you edit your package and see the changes without restarting the notebook.

%load_ext autoreload

%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [26]:
import pandas as pd

In [27]:
deliveries = pd.read_json("../data/raw/deliveries.jsonl", lines=True)
products = pd.read_json("../data/raw/products.jsonl", lines=True)
sessions = pd.read_json("../data/raw/sessions.jsonl", lines=True)
users = pd.read_json("../data/raw/users.jsonl", lines=True)

### Analiza jakosci danych w zbiorze "deliveries"

In [28]:
print("Typy w dataframe")
print(deliveries.dtypes)
print("\nIlosc pustych wartosci na kolumne")
print(deliveries.isna().sum())
deliveries["purchase_timestamp"] = pd.to_datetime(deliveries["purchase_timestamp"])
deliveries["delivery_timestamp"] = pd.to_datetime(deliveries["delivery_timestamp"])
deliveries["delivery_company"] = deliveries["delivery_company"].astype("Int64")
print("\nDataframe po probie konwersji typow")
print(deliveries.dtypes)
print(
    "\nCzy purchase_id to unikalny identyfikator? ",
    pd.Series(deliveries["purchase_id"]).is_unique,
)

Typy w dataframe
purchase_id             int64
purchase_timestamp     object
delivery_timestamp     object
delivery_company      float64
dtype: object

Ilosc pustych wartosci na kolumne
purchase_id             0
purchase_timestamp      0
delivery_timestamp    152
delivery_company      131
dtype: int64

Dataframe po probie konwersji typow
purchase_id                    int64
purchase_timestamp    datetime64[ns]
delivery_timestamp    datetime64[ns]
delivery_company               Int64
dtype: object

Czy purchase_id to unikalny identyfikator?  True


Kolumny delivery_timestamp i delivery_company zawierają
puste wartości.
W przyszłości należałoby albo dostać lepsze dane, albo te kolumny odsiać.
Pomyślna konwersja typów sugeruje, że typy danych w zbiorze
są takie jak oczekiwane.

### Analiza jakości danych w zbiorze "products"

In [29]:
print("Typy w dataframe")
print(products.dtypes)
print("\nIlosc pustych wartosci na kolumne")
print(products.isna().sum())
print(
    "\nCzy product_id to unikalny identyfikator?",
    pd.Series(products["product_id"]).is_unique,
)
print("\nLiczba niedodatnich cen", products["price"][products["price"] <= 0].count())
print("\nProdukty podejrzanie drogie (czesc moze byc poprawna)")
q = products["price"].quantile(0.90)
print(products[products["price"] > q])
print(
    "\nCzy wszystkie wartosci w kolumnie product_name sa stringami?",
    (products["product_name"].apply(type) == str).all(),
)
print(
    "\nCzy wszystkie wartosci w kolumnie category_path sa stringami?",
    (products["category_path"].apply(type) == str).all(),
)

Typy w dataframe
product_id         int64
product_name      object
category_path     object
price            float64
dtype: object

Ilosc pustych wartosci na kolumne
product_id       0
product_name     0
category_path    0
price            0
dtype: int64

Czy product_id to unikalny identyfikator? True

Liczba niedodatnich cen 20

Produkty podejrzanie drogie (czesc moze byc poprawna)
     product_id                                       product_name  \
1          1002                                 Kyocera FS-1135MFP   
2          1003                                 Kyocera FS-3640MFP   
3          1004                               Fallout 3 (Xbox 360)   
32         1033                                LCD Iiyama T1932MSC   
34         1035                      Samsung Galaxy S III GT-i9300   
64         1065                                    LCD Asus PA248Q   
65         1066                                 LCD Iiyama T1931SR   
74         1075                                     Ri

W zbiorze nie ma pustych wartości, product_id jest poprawnym kluczem głównym.
Ale w kolumnie 'price' mamy pewne wartości odstające,
które w większości są błędne.
Wśród tych wartości znajdują się wartości skrajnie duże, jak i ujemne.
Product_name i category_path to faktycznie zawsze stringi.

### Analiza jakości danych w zbiorze "sessions"

In [30]:
print("Typy w dataframe")
print(sessions.dtypes)
print("\nIlosc pustych wartosci na kolumne")
print(sessions.isna().sum())
sessions["user_id"] = sessions["user_id"].astype("Int64")
sessions["product_id"] = sessions["product_id"].astype("Int64")
sessions["purchase_id"] = sessions["purchase_id"].astype("Int64")
print("\nDataframe po probie konwersji typow")
print(sessions.dtypes)

Typy w dataframe
session_id                   int64
timestamp           datetime64[ns]
user_id                    float64
product_id                 float64
event_type                  object
offered_discount             int64
purchase_id                float64
dtype: object

Ilosc pustych wartosci na kolumne
session_id               0
timestamp                0
user_id               8723
product_id            8495
event_type               0
offered_discount         0
purchase_id         170657
dtype: int64

Dataframe po probie konwersji typow
session_id                   int64
timestamp           datetime64[ns]
user_id                      Int64
product_id                   Int64
event_type                  object
offered_discount             int64
purchase_id                  Int64
dtype: object


W zbiorze są puste wartości, w kolumnach user_id i product_id.
Wydaje się, że nie powinny być puste - każdy wiersz w ramach tej tablicy
jest powiązany z jakimś użytkownikiem i jakimś produktem.
Pomyślna konwersja typów sugeruje jednak, że wartości zmiennoprzecinkowych tam nie ma
(to, że typ kolumny to float wynika z pustych wartości w tychże kolumnach).
Nie ma tutaj żadnego klucza głównego, ale go nie potrzebujemy.

### Analiza jakości danych w zbiorze "users"

In [31]:
print("Typy w dataframe")
print(users.dtypes)
print("\nIlosc pustych wartosci na kolumne")
print(users.isna().sum())
print("\nCzy user_id to unikalny identyfikator?", pd.Series(users["user_id"]).is_unique)
print(
    "\nCzy wszystkie wartosci w kolumnie name sa stringami?",
    (users["name"].apply(type) == str).all(),
)
print(
    "\nCzy wszystkie wartosci w kolumnie city sa stringami?",
    (users["city"].apply(type) == str).all(),
)
print(
    "\nCzy wszystkie wartosci w kolumnie street sa stringami?",
    (users["street"].apply(type) == str).all(),
)

Typy w dataframe
user_id     int64
name       object
city       object
street     object
dtype: object

Ilosc pustych wartosci na kolumne
user_id    0
name       0
city       0
street     0
dtype: int64

Czy user_id to unikalny identyfikator? True

Czy wszystkie wartosci w kolumnie name sa stringami? True

Czy wszystkie wartosci w kolumnie city sa stringami? True

Czy wszystkie wartosci w kolumnie street sa stringami? True


W zbiorze nie ma pustych wartości, każda wartość, która powinna być stringiem, jest stringiem,
user_id to faktycznie unikalny identyfikator. Niemniej jednak zawarte tu dane
nie niosą nam prawdopodobnie żadnej wartości w kontekście zadania.