# Praca domowa nr 2
Eksplorowany przez nas zbiór danych dotyczy historii składanych zamówień w serwisie Allegro.

In [154]:
import pandas as pd
import numpy as np
import copy
import category_encoders as ce

from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from verstack.stratified_continuous_split import scsplit
from category_encoders import TargetEncoder
from category_encoders import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
import warnings
warnings.filterwarnings('ignore')

## Wczytanie i sprawdzenie danych

In [155]:
allegro = pd.read_csv('allegro-api-transactions.csv')
allegro.head()

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating,it_location,main_category
0,0,2016-04-03 21:21:08,4753602474,"['Komputery', 'Dyski i napędy', 'Nośniki', 'No...",1,1,radzioch666,59.99,1,997,0,50177,Warszawa,Komputery
1,1,2016-04-03 15:35:26,4773181874,"['Odzież, Obuwie, Dodatki', 'Bielizna damska',...",1,1,InwestycjeNET,4.9,1,9288,0,12428,Warszawa,"Odzież, Obuwie, Dodatki"
2,2,2016-04-03 14:14:31,4781627074,"['Dom i Ogród', 'Budownictwo i Akcesoria', 'Śc...",1,1,otostyl_com,109.9,1,895,0,7389,Leszno,Dom i Ogród
3,3,2016-04-03 19:55:44,4783971474,"['Książki i Komiksy', 'Poradniki i albumy', 'Z...",1,1,Matfel1,18.5,0,971,0,15006,Wola Krzysztoporska,Książki i Komiksy
4,4,2016-04-03 18:05:54,4787908274,"['Odzież, Obuwie, Dodatki', 'Ślub i wesele', '...",1,1,PPHU_RICO,19.9,1,950,0,32975,BIAŁYSTOK,"Odzież, Obuwie, Dodatki"


## Podział próbki

In [156]:
# Podział warstwowy według price
allegro_train, allegro_test = scsplit(allegro, test_size=0.3, random_state=42, stratify=allegro['price'])
allegro_train = allegro_train.reset_index(drop=True) # resetujemy indeksy wierszy
allegro_test= allegro_test.reset_index(drop=True)

allegro_train_tr,allegro_train_tst =scsplit(allegro_train, test_size=0.3, random_state=42, stratify=allegro['price'])
allegro_train_tr = allegro_train_tr.reset_index(drop=True) # resetujemy indeksy wierszy
allegro_train_tst =allegro_train_tst.reset_index(drop=True)

In [157]:
allegro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420020 entries, 0 to 420019
Data columns (total 14 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   lp                      420020 non-null  int64  
 1   date                    420020 non-null  object 
 2   item_id                 420020 non-null  int64  
 3   categories              420020 non-null  object 
 4   pay_option_on_delivery  420020 non-null  int64  
 5   pay_option_transfer     420020 non-null  int64  
 6   seller                  420020 non-null  object 
 7   price                   420020 non-null  float64
 8   it_is_allegro_standard  420020 non-null  int64  
 9   it_quantity             420020 non-null  int64  
 10  it_is_brand_zone        420020 non-null  int64  
 11  it_seller_rating        420020 non-null  int64  
 12  it_location             420020 non-null  object 
 13  main_category           420020 non-null  object 
dtypes: float64(1), int64

In [158]:
allegro.isnull().sum()

lp                        0
date                      0
item_id                   0
categories                0
pay_option_on_delivery    0
pay_option_transfer       0
seller                    0
price                     0
it_is_allegro_standard    0
it_quantity               0
it_is_brand_zone          0
it_seller_rating          0
it_location               0
main_category             0
dtype: int64

#  Budowanie

## Braki danych

Na pierwszy rzut oka wydaję się, że ramka nie zawiera braków. Trzeba wziąć jednak pod uwagę, że brak danych nie zawsze jest oznaczanu przez *NULL* czy *NaN*

Przyjrzyjmy się zatem kolumnom z wartościami liczbowymi.

In [159]:
allegro_train_tr.describe()

Unnamed: 0,lp,item_id,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating
count,205809.0,205809.0,205809.0,205809.0,205809.0,205809.0,205809.0,205809.0,205809.0
mean,210119.397874,5808823000.0,0.878436,0.812554,76.688166,0.583731,6773.397014,0.016559,20389.004077
std,121283.204238,338429900.0,0.326783,0.39027,429.431272,0.492941,23437.468604,0.127612,36601.764862
min,0.0,4415896000.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0
25%,105080.0,5651919000.0,1.0,1.0,8.99,0.0,6.0,0.0,1570.0
50%,210146.0,5967878000.0,1.0,1.0,24.99,1.0,95.0,0.0,6697.0
75%,315165.0,6070755000.0,1.0,1.0,67.99,1.0,931.0,0.0,21090.0
max,420019.0,6099916000.0,1.0,1.0,119000.0,1.0,99999.0,1.0,292074.0


Na tej podstawie stwierdzamy, że wartości "podejrzane" to 0 dla kolumny *price*, 0 dla *it_quantity* oraz -1 dla *it_seller_rating*. Zastosujemy imputację medianą.

In [160]:
def impute_missing(df):
    for column in ['price', 'it_quantity', 'it_seller_rating']:
        if column!='it_seller_rating':
            df[column].loc[df[column]==0]=df[column].loc[df[column]!=0].median()
        else:
            df[column].loc[df[column]==-1]=df[column].loc[df[column]!=-1].median()

In [161]:
impute_missing(allegro_train_tr)

## Encoding zmiennej *it-location*
zacznijmy od encodingu zmiennej *it_location*. Najpierw zmienię pierwsze litery rekordów na małe i to samo wykonam dla *main_category*. DO wykonania encodingu użyję TargetEncoder.

In [162]:
allegro_train_tr['it_location']=allegro_train_tr['it_location'].str.lower()
allegro_train_tr['main_category']=allegro_train_tr['main_category'].str.lower()

In [163]:
encoder=TargetEncoder()
allegro_train_tr['it_location']=encoder.fit_transform(allegro_train_tr['it_location'], allegro_train_tr['price'])
allegro_train_tr

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating,it_location,main_category
0,245512,2016-04-03 16:04:48,6091183856,"['Gry', 'Gry na konsole', 'Pegasus']",1,1,Sajgon6,14.99,0,237,0,514,66.919614,gry
1,112370,2016-04-03 19:33:34,6087575183,"['Odzież, Obuwie, Dodatki', 'Odzież i bielizna...",1,1,TheBestLook,59.99,1,237,0,936,68.514680,"odzież, obuwie, dodatki"
2,277719,2016-04-03 17:23:26,5880072408,"['Telefony i Akcesoria', 'Akcesoria GSM', 'Fol...",1,0,pawelec01,5.40,1,98645,0,5046,90.270269,telefony i akcesoria
3,243899,2016-04-03 09:56:18,5252897056,"['Dom i Ogród', 'Ogród', 'Narzędzia ogrodnicze...",1,1,cencik-tools,28.00,1,3,0,3029,122.458265,dom i ogród
4,111123,2016-04-03 16:13:14,5804280383,"['Telefony i Akcesoria', 'Akcesoria GSM', 'Pok...",1,1,KoshibaZ-T,25.49,1,807,0,4338,91.314765,telefony i akcesoria
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
205804,113631,2016-04-03 19:10:06,5935546262,"['Motoryzacja', 'Części samochodowe', 'Oświetl...",1,0,AgnaBoas,39.99,1,75,0,225,45.137251,motoryzacja
205805,268456,2016-04-03 14:32:14,6096748337,"['Uroda', 'Kosmetyki pielęgnacyjne', 'Ciało', ...",1,0,ECO-FUD,9.70,1,3,0,270,44.722719,uroda
205806,416308,2016-04-03 15:19:32,5271125404,"['Odzież, Obuwie, Dodatki', 'Odzież damska', '...",1,0,studio_anet,21.98,1,9685,0,29413,72.079900,"odzież, obuwie, dodatki"
205807,253825,2016-04-03 11:48:41,6089547624,"['Motoryzacja', 'Części do maszyn', 'Części do...",1,0,Farmexpert,59.95,0,8,0,1218,15.247662,motoryzacja


## Kategoryzacja zmiennych ciągłych
Zmienne ciągłe w analizowanej ramce danych to *price*, *it_quantity* i *it_seller_rating*. Do budowy naszego modelu wystarczy rozpatrywać ich wartości przedziałami. W przypadku *price*, *it_quantity* odpowiedniną kategorię przyporządkujemy biorąc pod uwagę *main_category* danego rekordu. Przyjrzyjmy się raz jeszcze opisom tych kolumn dla *main_category*. Natomiast w przypadku *it_seller_rating* nie wiemy w jaki sposób są przyznawane punkty za oceny zatem przyjmujemy, że dobry sprzedawca ma rating>=5000, a w przeciwnym przypadku jest zły - punkt podziału szacowałyśmy w okolicach mediany (6711).

In [164]:
allegro_train_tr.groupby(by='main_category').describe().loc[:,["price","it_quantity"]]

Unnamed: 0_level_0,price,price,price,price,price,price,price,price,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
main_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
antyki i sztuka,588.0,111.940357,282.747864,1.0,11.375,30.0,92.25,2790.0,588.0,1570.477891,10819.777002,1.0,237.0,237.0,237.0,99985.0
bilety,61.0,93.526393,184.956019,2.49,3.0,15.0,90.0,900.0,61.0,127.032787,110.490568,1.0,11.0,87.0,237.0,237.0
biuro i reklama,1594.0,33.126399,83.033298,1.0,3.8925,12.0,26.965,1356.0,1594.0,11284.195734,29585.779483,1.0,131.25,845.0,994.0,99998.0
biżuteria i zegarki,2852.0,57.278377,192.764351,1.0,5.9,14.9,44.0,7000.0,2852.0,4317.211781,19028.273994,1.0,18.0,237.0,858.25,99999.0
delikatesy,3898.0,20.043197,27.625101,1.0,5.39,11.99,24.0,384.0,3898.0,11680.516419,30561.125617,1.0,92.25,556.0,976.0,99999.0
dla dzieci,20494.0,70.83804,154.679828,1.0,12.99,30.0,79.0,12500.0,20494.0,4678.115644,19175.286295,1.0,39.0,237.0,833.0,99999.0
dom i ogród,44603.0,72.170357,186.00754,1.0,6.0,18.0,64.9,7400.0,44603.0,7541.785979,24344.457868,1.0,64.0,401.0,978.0,99999.0
filmy,483.0,33.808696,47.177958,1.89,9.99,19.98,37.345,485.0,483.0,162.666667,181.008066,1.0,7.0,237.0,237.0,999.0
fotografia,1171.0,154.009214,523.450129,1.0,14.9,29.0,69.9,9000.0,1171.0,7963.524338,25968.88725,1.0,22.0,237.0,934.5,99998.0
gry,3467.0,41.067055,55.380389,1.0,7.5,24.9,54.99,1200.0,3467.0,5179.236516,20091.11949,1.0,44.0,237.0,791.0,99996.0


In [165]:
# Funkcje zmieniające zmienne ciągłe na kategoryczne
def categorize_price(df):
    df2 = copy.deepcopy(df)
    for cat in df['main_category'].unique():
        summary =df2.loc[df2['main_category']==cat,"price"].describe()
        if summary[4]!=summary[6]:
            df.loc[df['main_category']==cat,'price'] = pd.cut(df.loc[df['main_category']==cat,'price'],bins=[0,summary[4],summary[6],119000],labels=['low','average','high'])
        else:
             df.loc[df['main_category']==cat,'price'] = pd.cut(df.loc[df['main_category']==cat,'price'],bins=[0,119000],labels=['average'])
    return

def categorize_quantity(df):
    df2 = copy.deepcopy(df)
    for cat in df['main_category'].unique():
        summary =df2.loc[df2['main_category']==cat,"it_quantity"].describe()
        if summary[4]!=summary[6]:
            df.loc[df['main_category']==cat,'it_quantity'] = pd.cut(df.loc[df['main_category']==cat,'it_quantity'],bins=[0,summary[4],summary[6],99999],labels=['low','average','high'])
        else:
             df.loc[df['main_category']==cat,'it_quantity'] = pd.cut(df.loc[df['main_category']==cat,'it_quantity'],bins=[0,119000],labels=['average'])
    return

def categorize_rating(df):
    df['it_seller_rating'] = pd.cut(df['it_seller_rating'],bins=[0,5000,292074],labels=['bad','good'])
    return

In [166]:
categorize_price(allegro_train_tr)
categorize_quantity(allegro_train_tr)
categorize_rating(allegro_train_tr)

Sprawdźmy czy kategoryzacje się powiodły - zmieniane kolumny powinny mieć odpowiednio 3, 3 i 2 unikatowe wartości.

In [167]:
# Sprawdzenie ilości unikatowych wartośći w każdej kolumnie
allegro_train_tr.nunique()

lp                        205809
date                       34455
item_id                   176834
categories                  8022
pay_option_on_delivery         2
pay_option_transfer            2
seller                     37480
price                          3
it_is_allegro_standard         2
it_quantity                    3
it_is_brand_zone               2
it_seller_rating               2
it_location                 3913
main_category                 27
dtype: int64

Jak widać kategoryzacja się powiodła.

### Encoding zmiennych ciągłych po kategoryacji

In [168]:
def encoding(df):
    le = LabelEncoder()
    for column in ['price', 'it_seller_rating', 'it_quantity']:    
        df[column] = le.fit_transform(df[column])               
    
    return 

In [169]:
encoding(allegro_train_tr)
allegro_train_tr

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating,it_location,main_category
0,245512,2016-04-03 16:04:48,6091183856,"['Gry', 'Gry na konsole', 'Pegasus']",1,1,Sajgon6,0,0,0,0,0,66.919614,gry
1,112370,2016-04-03 19:33:34,6087575183,"['Odzież, Obuwie, Dodatki', 'Odzież i bielizna...",1,1,TheBestLook,0,1,0,0,0,68.514680,"odzież, obuwie, dodatki"
2,277719,2016-04-03 17:23:26,5880072408,"['Telefony i Akcesoria', 'Akcesoria GSM', 'Fol...",1,0,pawelec01,2,1,1,0,1,90.270269,telefony i akcesoria
3,243899,2016-04-03 09:56:18,5252897056,"['Dom i Ogród', 'Ogród', 'Narzędzia ogrodnicze...",1,1,cencik-tools,0,1,2,0,0,122.458265,dom i ogród
4,111123,2016-04-03 16:13:14,5804280383,"['Telefony i Akcesoria', 'Akcesoria GSM', 'Pok...",1,1,KoshibaZ-T,0,1,0,0,0,91.314765,telefony i akcesoria
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
205804,113631,2016-04-03 19:10:06,5935546262,"['Motoryzacja', 'Części samochodowe', 'Oświetl...",1,0,AgnaBoas,0,1,0,0,0,45.137251,motoryzacja
205805,268456,2016-04-03 14:32:14,6096748337,"['Uroda', 'Kosmetyki pielęgnacyjne', 'Ciało', ...",1,0,ECO-FUD,0,1,2,0,0,44.722719,uroda
205806,416308,2016-04-03 15:19:32,5271125404,"['Odzież, Obuwie, Dodatki', 'Odzież damska', '...",1,0,studio_anet,0,1,1,0,1,72.079900,"odzież, obuwie, dodatki"
205807,253825,2016-04-03 11:48:41,6089547624,"['Motoryzacja', 'Części do maszyn', 'Części do...",1,0,Farmexpert,0,0,2,0,0,15.247662,motoryzacja


### Encoding zmiennej *main_category*
Do zakodowania *main_cateogry* użyłyśmy metody One Hot Encoding, bo unikatowych wartości tej kolumny nie jest tak wiele.

In [170]:
encoder = ce.OneHotEncoder(cols="main_category", use_cat_names=True)
allegro_train_tr = encoder.fit_transform(allegro_train_tr)
allegro_train_tr.head()

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,...,main_category_instrumenty,main_category_muzyka,main_category_biżuteria i zegarki,main_category_antyki i sztuka,"main_category_sprzęt estradowy, studyjny i dj-ski",main_category_fotografia,main_category_konsole i automaty,main_category_nieruchomości,main_category_bilety,main_category_filmy
0,245512,2016-04-03 16:04:48,6091183856,"['Gry', 'Gry na konsole', 'Pegasus']",1,1,Sajgon6,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,112370,2016-04-03 19:33:34,6087575183,"['Odzież, Obuwie, Dodatki', 'Odzież i bielizna...",1,1,TheBestLook,0,1,0,...,0,0,0,0,0,0,0,0,0,0
2,277719,2016-04-03 17:23:26,5880072408,"['Telefony i Akcesoria', 'Akcesoria GSM', 'Fol...",1,0,pawelec01,2,1,1,...,0,0,0,0,0,0,0,0,0,0
3,243899,2016-04-03 09:56:18,5252897056,"['Dom i Ogród', 'Ogród', 'Narzędzia ogrodnicze...",1,1,cencik-tools,0,1,2,...,0,0,0,0,0,0,0,0,0,0
4,111123,2016-04-03 16:13:14,5804280383,"['Telefony i Akcesoria', 'Akcesoria GSM', 'Pok...",1,1,KoshibaZ-T,0,1,0,...,0,0,0,0,0,0,0,0,0,0


## Wstępna walidacja z próbki budującej
Sprawdźmy czy przyjęte sposoby uzupełniania braków danych, kategoryzacji i encodingu są uniwersalne dla otrzymanych danych.

In [171]:
allegro_train_tst.describe()

Unnamed: 0,lp,item_id,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating
count,88205.0,88205.0,88205.0,88205.0,88205.0,88205.0,88205.0,88205.0,88205.0
mean,209910.861935,5810374000.0,0.87571,0.812108,76.988211,0.583674,6601.741557,0.016779,20280.966056
std,121219.203934,338817700.0,0.329914,0.390628,375.137928,0.492952,23097.049826,0.128444,36378.01067
min,2.0,4179879000.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0
25%,104628.0,5654928000.0,1.0,1.0,9.0,0.0,6.0,0.0,1583.0
50%,209634.0,5968788000.0,1.0,1.0,24.99,1.0,94.0,0.0,6690.0
75%,315098.0,6071330000.0,1.0,1.0,68.0,1.0,931.0,0.0,20813.0
max,420015.0,6099913000.0,1.0,1.0,64900.0,1.0,99999.0,1.0,292074.0


###  Uzupełnienie braków
Wartości podejrzane o oznaczanie braku danych są takie same jak w próbce treningowej

In [172]:
impute_missing(allegro_train_tst)

### Encoding zmiennej *it-location*

In [173]:
allegro_train_tst['it_location']=allegro_train_tst['it_location'].str.lower()
allegro_train_tst['main_category']=allegro_train_tst['main_category'].str.lower()

In [174]:
encoder=TargetEncoder()
allegro_train_tst['it_location']=encoder.fit_transform(allegro_train_tst['it_location'], allegro_train_tst['price'])
allegro_train_tst

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating,it_location,main_category
0,116128,2016-04-03 20:55:47,6042531265,"['Dla Dzieci', 'Odzież', 'Kurtki, płaszcze', '...",0,1,KAT-MODA,50.00,0,232,0,408,69.019500,dla dzieci
1,289135,2016-04-03 14:12:18,6097286903,"['RTV i AGD', 'AGD drobne', 'Higiena i pielęgn...",1,0,robziel,30.00,0,232,0,57,65.801370,rtv i agd
2,322646,2016-04-03 19:35:27,5074717838,"['Dom i Ogród', 'Utrzymanie czystości', 'Susza...",1,1,lampka_alladyna,29.00,1,983,0,13057,63.226077,dom i ogród
3,313677,2016-04-03 22:39:07,6069685251,"['Odzież, Obuwie, Dodatki', 'Odzież damska', '...",1,1,orek24,294.99,0,1,0,1960,81.951078,"odzież, obuwie, dodatki"
4,146424,2016-04-03 20:11:08,6048233675,"['Dom i Ogród', 'Ogród', 'Meble ogrodowe', 'Pa...",1,1,ZiAndrzej,249.00,0,980,0,60798,79.395460,dom i ogród
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88200,396978,2016-04-03 23:32:45,6036877026,"['Dom i Ogród', 'Ogród', 'Rośliny', 'Rośliny o...",1,1,kampas2,7.00,0,26,0,5954,126.996396,dom i ogród
88201,318134,2016-04-03 10:16:46,6092853417,"['Gry', 'Gry online (MMO)', 'Pozostałe']",0,1,Pixelobsessions,33.49,0,8527,0,1292,44.067922,gry
88202,291587,2016-04-03 18:12:38,5463639713,"['Uroda', 'Kosmetyki pielęgnacyjne', 'Pielęgna...",1,1,kosmetyki_ck,11.95,0,98930,0,154017,54.001500,uroda
88203,364688,2016-04-03 19:46:13,6066935746,"['Odzież, Obuwie, Dodatki', 'Obuwie', 'Akcesor...",1,1,bacolihit,43.00,0,25,0,2963,107.334603,"odzież, obuwie, dodatki"


### Kategoryzacja i encoding zmiennych ciągłych

In [175]:
allegro_train_tst.groupby(by='main_category').describe().loc[:,["price","it_quantity"]]

Unnamed: 0_level_0,price,price,price,price,price,price,price,price,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity,it_quantity
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
main_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
antyki i sztuka,238.0,96.750756,261.646442,1.0,13.625,29.99,77.2425,3000.0,238.0,1646.810924,11172.911182,1.0,232.0,232.0,232.0,99970.0
bilety,22.0,39.876364,96.83741,1.0,3.625,17.25,20.75,459.0,22.0,161.227273,197.785341,1.0,11.5,71.0,232.0,846.0
biuro i reklama,671.0,36.676051,96.709166,1.0,4.0,11.3,27.9,1450.0,671.0,10896.847988,28772.695512,1.0,192.0,836.0,997.0,99999.0
biżuteria i zegarki,1230.0,53.786846,183.722984,1.0,5.99,14.8,42.99,5320.0,1230.0,2769.26748,14368.39982,1.0,18.0,232.0,873.0,99997.0
delikatesy,1775.0,18.173313,27.400109,1.0,4.95,10.0,20.9,389.98,1775.0,13132.307606,32438.665836,1.0,76.5,524.0,978.0,99998.0
dla dzieci,8876.0,72.568578,138.33002,1.0,12.99,29.99,79.99,3198.0,8876.0,4244.654236,18078.286825,1.0,37.0,232.0,832.0,99999.0
dom i ogród,19106.0,71.441198,177.367966,1.0,6.0,18.0,65.0,5284.0,19106.0,7468.733382,24254.128244,1.0,60.0,392.0,977.0,99999.0
filmy,222.0,30.398919,29.379999,1.0,9.91,19.99,37.9,149.0,222.0,188.337838,678.06921,1.0,7.0,232.0,232.0,9986.0
fotografia,520.0,137.908519,411.489862,1.0,14.5,29.0,67.0,4899.0,520.0,7598.638462,25677.993195,1.0,19.0,232.0,905.0,99999.0
gry,1565.0,41.053412,60.314091,1.0,7.0,23.49,54.99,1340.0,1565.0,5765.900319,20878.158368,1.0,54.0,232.0,874.0,99997.0


In [176]:
categorize_price(allegro_train_tst)
categorize_quantity(allegro_train_tst)
categorize_rating(allegro_train_tst)

In [177]:
# Sprawdzenie ilości unikatowych wartośći w każdej kolumnie
allegro_train_tst.nunique()

lp                        88205
date                      27628
item_id                   81178
categories                 6775
pay_option_on_delivery        2
pay_option_transfer           2
seller                    24856
price                         3
it_is_allegro_standard        2
it_quantity                   3
it_is_brand_zone              2
it_seller_rating              2
it_location                2732
main_category                26
dtype: int64

In [178]:
encoding(allegro_train_tst)
allegro_train_tst

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,it_is_brand_zone,it_seller_rating,it_location,main_category
0,116128,2016-04-03 20:55:47,6042531265,"['Dla Dzieci', 'Odzież', 'Kurtki, płaszcze', '...",0,1,KAT-MODA,0,0,0,0,0,69.019500,dla dzieci
1,289135,2016-04-03 14:12:18,6097286903,"['RTV i AGD', 'AGD drobne', 'Higiena i pielęgn...",1,0,robziel,0,0,0,0,0,65.801370,rtv i agd
2,322646,2016-04-03 19:35:27,5074717838,"['Dom i Ogród', 'Utrzymanie czystości', 'Susza...",1,1,lampka_alladyna,0,1,1,0,1,63.226077,dom i ogród
3,313677,2016-04-03 22:39:07,6069685251,"['Odzież, Obuwie, Dodatki', 'Odzież damska', '...",1,1,orek24,1,0,2,0,0,81.951078,"odzież, obuwie, dodatki"
4,146424,2016-04-03 20:11:08,6048233675,"['Dom i Ogród', 'Ogród', 'Meble ogrodowe', 'Pa...",1,1,ZiAndrzej,1,0,1,0,1,79.395460,dom i ogród
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88200,396978,2016-04-03 23:32:45,6036877026,"['Dom i Ogród', 'Ogród', 'Rośliny', 'Rośliny o...",1,1,kampas2,0,0,2,0,1,126.996396,dom i ogród
88201,318134,2016-04-03 10:16:46,6092853417,"['Gry', 'Gry online (MMO)', 'Pozostałe']",0,1,Pixelobsessions,0,0,1,0,0,44.067922,gry
88202,291587,2016-04-03 18:12:38,5463639713,"['Uroda', 'Kosmetyki pielęgnacyjne', 'Pielęgna...",1,1,kosmetyki_ck,0,0,1,0,1,54.001500,uroda
88203,364688,2016-04-03 19:46:13,6066935746,"['Odzież, Obuwie, Dodatki', 'Obuwie', 'Akcesor...",1,1,bacolihit,0,0,0,0,0,107.334603,"odzież, obuwie, dodatki"


Kategoryzacja i encoding powiodły się. Określenie dobrego i złego sprzedawcy z przybliżeniem do 5000 dla mediany (tym razem 6690) ponownie uznajemy za rozsądne.

### Encoding zmiennej *main_category*

In [179]:
encoder = ce.OneHotEncoder(cols="main_category", use_cat_names=True)
allegro_train_tst = encoder.fit_transform(allegro_train_tst)
allegro_train_tst.head()

Unnamed: 0,lp,date,item_id,categories,pay_option_on_delivery,pay_option_transfer,seller,price,it_is_allegro_standard,it_quantity,...,main_category_przemysł,main_category_muzyka,main_category_biżuteria i zegarki,main_category_fotografia,main_category_instrumenty,main_category_konsole i automaty,main_category_filmy,"main_category_sprzęt estradowy, studyjny i dj-ski",main_category_antyki i sztuka,main_category_bilety
0,116128,2016-04-03 20:55:47,6042531265,"['Dla Dzieci', 'Odzież', 'Kurtki, płaszcze', '...",0,1,KAT-MODA,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,289135,2016-04-03 14:12:18,6097286903,"['RTV i AGD', 'AGD drobne', 'Higiena i pielęgn...",1,0,robziel,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,322646,2016-04-03 19:35:27,5074717838,"['Dom i Ogród', 'Utrzymanie czystości', 'Susza...",1,1,lampka_alladyna,0,1,1,...,0,0,0,0,0,0,0,0,0,0
3,313677,2016-04-03 22:39:07,6069685251,"['Odzież, Obuwie, Dodatki', 'Odzież damska', '...",1,1,orek24,1,0,2,...,0,0,0,0,0,0,0,0,0,0
4,146424,2016-04-03 20:11:08,6048233675,"['Dom i Ogród', 'Ogród', 'Meble ogrodowe', 'Pa...",1,1,ZiAndrzej,1,0,1,...,0,0,0,0,0,0,0,0,0,0


Wszystkie encodingi przebiegły pomyślnie.

# Wnioski

Podsumowując naszą klasyfikację zbioru *allegro-api-transactions* warto zauważyć kilka kluczowych kwestii:
1. Podział na próbkę treningową i walidacyjną przeprowadziłyśmy w trochę inny sposób niż zazwyczaj. Jako że zmienna celu *price* jest zmienną ciągłą, dopiero później ją kategoryzujemy, miała ona zbyt dużo unikalnych rekordów, by móc klasycznie rozdzielić nasze dane. Stąd użyłyśmy funkcji *scsplit* z pakietu przeznaczonego do podziału próbki przy wyżej opisanej sytuacji.
2. Nasz zbiór z pozoru nie miał braków danych, ale podejrzane wartości (0 i -1) wystąpiły dla 3 kolumn: *price*, *it_quantity*, *it_seller_rating*. We wszytkich trzech przypadkach zastąpiłyśmy je medianą z pozostałych rekordów dla każdej zmiennej.
3. Przeprowadziłyśmy kategoryzację zmiennych ciągłych: price, it_quantity oraz it_seller_rating dwóm pierwszym przyporządkowując kategorie *low*, *average* i *high*, a ostatniej *bad* oraz *good*. Kategorie *low*, *average* i *high* przyporządkowałyśmy biorąc pod uwagę podział na kwantyle (low - <25%, average - 25%-75%, high - >75%), a przy kategoryzacji zmiennej *it_seller_rating* szacowałyśmy granicę podziału w okolicah mediany.
4. Jeśli chodzi o encoding, zrobiłyśmy go klasycznie dla trzech wymienionych wyżej zmiennych, a także dla zmiennej *location* i *main_category*. Przy zmiennej *main_category* dobrym wyjściem okazał się one-hot encoding, jako że mamy stosunkowo małą ilość (27) unikalnych rekordów, zaś przy *location* zastosowałyśmy target encoding z uwagi na to, że tutaj mamy znacznie więcej różniących się wyników, a nie dodaje nam on zbędnych kolumn, a więc nie zwiększa rozmiaru ramki danych. Nie jest to rozwiązanie pozbawione wad, ale o ile zmienna *price* w zbiorze walidacyjnym nie będzie miała znacznie innego rozkładu, nie powinno dojść do przeuczenia.