# Data preview and text-fields splitting.

**Execution flow plan:**
1. This file starts with uploading train and test data. 
2. Train and test datasets are stored in pandas dataframes and previewed.
3. 'text-fields' column is splitted into 'title', 'description' and 'attributes'.
4. Modified train and test dataframes are stored in ../data/train_extended.pkl, ../data/train_extended.pkl respectively. Targets are also separately stored in ../data/target.pkl

## Uploading:

In [1]:
import pandas as pd

In [2]:
import os
TRAIN_PATH = os.path.join('..','data','train.parquet')
TEST_PATH = os.path.join('..','data','test.parquet')

In [3]:
train = pd.read_parquet(TRAIN_PATH)
test = pd.read_parquet(TEST_PATH)

In [4]:
train

Unnamed: 0,product_id,category_id,sale,shop_id,shop_title,rating,text_fields
0,325286,12171,False,9031,Aksik,5.00000,"{""title"": ""Зарядный кабель Borofone BX1 Lightn..."
1,888134,14233,False,18305,Sela,5.00000,"{""title"": ""Трусы Sela"", ""description"": ""Трусы-..."
3,1267173,13429,False,16357,ЮНЛАНДИЯ канцтовары,5.00000,"{""title"": ""Гуашь \""ЮНЫЙ ВОЛШЕБНИК\"", 12 цветов..."
4,1416943,2789,False,34666,вася-nicotine,4.00000,"{""title"": ""Колба для кальяна Крафт (разные цве..."
5,1058275,12834,False,26389,Lim Market,4.60000,"{""title"": ""Пижама женская, однотонная с шортам..."
...,...,...,...,...,...,...,...
99987,114402,14922,False,4955,СТЕКЛОФФ ПРО,3.62069,"{""title"": ""Прочное стекло 2D на Samsung Galaxy..."
99988,1594500,13028,False,19626,Hobby room,5.00000,"{""title"": ""Алмазная мозаика \""Ромашки\"" 40*50с..."
99989,790493,13407,False,22291,Море открыток,5.00000,"{""title"": ""Открытка \""Вместе навсегда\"" в краф..."
99990,114509,12100,False,2985,Oppa Market,5.00000,"{""title"": ""Пульт K10B-C1 для Rolsen"", ""descrip..."


In [5]:
""" 
    Get rows related to categories wich occure only ones.
    Then delete these rows.

    P.S. we need to delete categories that has only one product, because we can 
    not train model on such classes.
"""
# get unique categories
unique_categories = train[~train.duplicated(subset=["category_id"], keep=False)]
print(unique_categories.index)

# delete unique categories
train.drop(unique_categories.index, inplace=True)

# check that unique categories were deleted
unique_categories = train[~train.duplicated(subset=["category_id"], keep=False)]
print(unique_categories.index)

Int64Index([12129, 38228, 47073, 50186], dtype='int64')
Int64Index([], dtype='int64')


In [6]:
test

Unnamed: 0,product_id,sale,shop_id,shop_title,rating,text_fields
1,1997646,False,22758,Sky_Electronics,5.000000,"{""title"": ""Светодиодная лента Smart led Strip ..."
2,927375,False,17729,Di-Di Market,4.405941,"{""title"": ""Стекло ПЛЕНКА керамик матовое Honor..."
3,1921513,False,54327,VisionStore,4.000000,"{""title"": ""Проводные наушники с микрофоном jac..."
4,1668662,False,15000,FORNAILS,5.000000,"{""title"": ""Декоративная табличка \""Правила кух..."
5,1467778,False,39600,МОЯ КУХНЯ,5.000000,"{""title"": ""Подставка под ложку керамическая, п..."
...,...,...,...,...,...,...
24987,1914264,False,8598,Zoorbox,4.913043,"{""title"": ""Жесткий диск внутренний SSD KingDia..."
24988,1310569,False,27474,RenRin,5.000000,"{""title"": ""Браслет оберег на руку/красная нить..."
24989,978095,False,23395,Хобби и Ты,5.000000,"{""title"": ""Кабошон бантик в упаковке 2 шт"", ""d..."
24992,797547,False,16764,100000 мелочей,5.000000,"{""title"": ""Полка для ванной угловая, 20,5 х 20..."


**Fixing indexing:**

In [7]:
train.reset_index(drop=True, inplace=True)
train

Unnamed: 0,product_id,category_id,sale,shop_id,shop_title,rating,text_fields
0,325286,12171,False,9031,Aksik,5.00000,"{""title"": ""Зарядный кабель Borofone BX1 Lightn..."
1,888134,14233,False,18305,Sela,5.00000,"{""title"": ""Трусы Sela"", ""description"": ""Трусы-..."
2,1267173,13429,False,16357,ЮНЛАНДИЯ канцтовары,5.00000,"{""title"": ""Гуашь \""ЮНЫЙ ВОЛШЕБНИК\"", 12 цветов..."
3,1416943,2789,False,34666,вася-nicotine,4.00000,"{""title"": ""Колба для кальяна Крафт (разные цве..."
4,1058275,12834,False,26389,Lim Market,4.60000,"{""title"": ""Пижама женская, однотонная с шортам..."
...,...,...,...,...,...,...,...
91111,114402,14922,False,4955,СТЕКЛОФФ ПРО,3.62069,"{""title"": ""Прочное стекло 2D на Samsung Galaxy..."
91112,1594500,13028,False,19626,Hobby room,5.00000,"{""title"": ""Алмазная мозаика \""Ромашки\"" 40*50с..."
91113,790493,13407,False,22291,Море открыток,5.00000,"{""title"": ""Открытка \""Вместе навсегда\"" в краф..."
91114,114509,12100,False,2985,Oppa Market,5.00000,"{""title"": ""Пульт K10B-C1 для Rolsen"", ""descrip..."


In [8]:
test.reset_index(drop=True, inplace=True)
test

Unnamed: 0,product_id,sale,shop_id,shop_title,rating,text_fields
0,1997646,False,22758,Sky_Electronics,5.000000,"{""title"": ""Светодиодная лента Smart led Strip ..."
1,927375,False,17729,Di-Di Market,4.405941,"{""title"": ""Стекло ПЛЕНКА керамик матовое Honor..."
2,1921513,False,54327,VisionStore,4.000000,"{""title"": ""Проводные наушники с микрофоном jac..."
3,1668662,False,15000,FORNAILS,5.000000,"{""title"": ""Декоративная табличка \""Правила кух..."
4,1467778,False,39600,МОЯ КУХНЯ,5.000000,"{""title"": ""Подставка под ложку керамическая, п..."
...,...,...,...,...,...,...
16855,1914264,False,8598,Zoorbox,4.913043,"{""title"": ""Жесткий диск внутренний SSD KingDia..."
16856,1310569,False,27474,RenRin,5.000000,"{""title"": ""Браслет оберег на руку/красная нить..."
16857,978095,False,23395,Хобби и Ты,5.000000,"{""title"": ""Кабошон бантик в упаковке 2 шт"", ""d..."
16858,797547,False,16764,100000 мелочей,5.000000,"{""title"": ""Полка для ванной угловая, 20,5 х 20..."


## Splitting 'text-fields' column:

Splitting is needed because it will be later helpful for converting text into features

In [9]:
import json


def split_text_fields(df: pd.DataFrame) -> pd.DataFrame:
    """Gets dataframe (test or train) and splits the column 'text-fields' into
        'title', 'description', 'attributes'.

    Parameters
    ----------
    df: pd.DataFrame
        train or test data frame from the part above.

    Returns
    -------
    res: pd.DataFrame
        new dataframe with 'title', 'description' and 'attributes' columns.
        Column 'text-fields' is dropped.
    """

    sep_text_fields = pd.DataFrame(
        columns=["title", "description", "attributes"], dtype=str
    )

    # go through each row and parse value of 'text_fields' as json object.
    for i, text in enumerate(df["text_fields"]):
        json_obj = json.loads(text)

        sep_text_fields.loc[i] = [
            json_obj["title"],
            json_obj["description"],
            json_obj["attributes"],
        ]

        # status prints
        if (i + 1) % 5000 == 0:
            print(f"{i+1} rows were added")

    df = df.drop(["text_fields"], axis=1)
    res = pd.concat([df, sep_text_fields], axis=1)
    print(res.info())

    return res

In [10]:
# update train dataframe
train_extended = split_text_fields(train)
train_extended

5000 rows were added
10000 rows were added
15000 rows were added
20000 rows were added
25000 rows were added
30000 rows were added
35000 rows were added
40000 rows were added
45000 rows were added
50000 rows were added
55000 rows were added
60000 rows were added
65000 rows were added
70000 rows were added
75000 rows were added
80000 rows were added
85000 rows were added
90000 rows were added
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91116 entries, 0 to 91115
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   product_id   91116 non-null  int64  
 1   category_id  91116 non-null  int64  
 2   sale         91116 non-null  bool   
 3   shop_id      91116 non-null  int64  
 4   shop_title   91116 non-null  object 
 5   rating       91116 non-null  float64
 6   title        91116 non-null  object 
 7   description  91116 non-null  object 
 8   attributes   91116 non-null  object 
dtypes: bool(1), float64(1), int64(

Unnamed: 0,product_id,category_id,sale,shop_id,shop_title,rating,title,description,attributes
0,325286,12171,False,9031,Aksik,5.00000,Зарядный кабель Borofone BX1 Lightning для айф...,"<p><span style=""background-color: transparent;...","[Длина: 1м, Разъем: Lightning, Подерживает быс..."
1,888134,14233,False,18305,Sela,5.00000,Трусы Sela,Трусы-слипы из эластичного бесшовного трикотаж...,[]
2,1267173,13429,False,16357,ЮНЛАНДИЯ канцтовары,5.00000,"Гуашь ""ЮНЫЙ ВОЛШЕБНИК"", 12 цветов по 35 мл, БО...",<p>Гуашь высшего качества ЮНЛАНДИЯ поможет соз...,[]
3,1416943,2789,False,34666,вася-nicotine,4.00000,Колба для кальяна Крафт (разные цвета),"<p><span style=""color: rgb(149, 151, 153);"">Ун...","[Материал: стекло, Внутренний диаметр: 45 мм ,..."
4,1058275,12834,False,26389,Lim Market,4.60000,"Пижама женская, однотонная с шортами",<p>Лёгкая ткань! Комфортная посадка! Идеальная...,[]
...,...,...,...,...,...,...,...,...,...
91111,114402,14922,False,4955,СТЕКЛОФФ ПРО,3.62069,Прочное стекло 2D на Samsung Galaxy J5 Prime,"<h2 class=""ql-align-justify"">Защитное стекло 2...",[В магазине СТЕКЛОФФ есть стекла всех моделей ...
91112,1594500,13028,False,19626,Hobby room,5.00000,"Алмазная мозаика ""Ромашки"" 40*50см на подрамнике","<p class=""ql-align-justify"">Алмазная мозаика -...","[Алмазная мозаика на подрамнике, Тип выкладки:..."
91113,790493,13407,False,22291,Море открыток,5.00000,"Открытка ""Вместе навсегда"" в крафтовом конверт...",<p>Открытка 10*15 в крафтовом конверте.</p>,[]
91114,114509,12100,False,2985,Oppa Market,5.00000,Пульт K10B-C1 для Rolsen,<p>Подходит к аппаратуре Ролсен:</p><p>Rolsen ...,[Пульт для телевизоров Rolsen]


In [11]:
# update test dataframe
test_extended = split_text_fields(test)
test_extended

5000 rows were added
10000 rows were added
15000 rows were added
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16860 entries, 0 to 16859
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   product_id   16860 non-null  int64  
 1   sale         16860 non-null  bool   
 2   shop_id      16860 non-null  int64  
 3   shop_title   16860 non-null  object 
 4   rating       16860 non-null  float64
 5   title        16860 non-null  object 
 6   description  16860 non-null  object 
 7   attributes   16860 non-null  object 
dtypes: bool(1), float64(1), int64(2), object(4)
memory usage: 938.6+ KB
None


Unnamed: 0,product_id,sale,shop_id,shop_title,rating,title,description,attributes
0,1997646,False,22758,Sky_Electronics,5.000000,"Светодиодная лента Smart led Strip Light, с пу...","<p>Светодиодная лента LED, 5 м, RGB (Цветная) ...","[Легкость управления с пульта, а так же смартф..."
1,927375,False,17729,Di-Di Market,4.405941,Стекло ПЛЕНКА керамик матовое Honor 50 lite 10...,"<p><span style=""color: rgb(63, 62, 62);"">Защит...",[Honor 50 ПЛЕНКА!!! КРАЯ КЛЕЮТСЯ МОГУТ НЕ ПРО...
2,1921513,False,54327,VisionStore,4.000000,"Проводные наушники с микрофоном jack 3.5, IOS,...",<p>Наушники проводные с микрофоном отличное ка...,[Возможность использования как гарнитуры для П...
3,1668662,False,15000,FORNAILS,5.000000,"Декоративная табличка ""Правила кухни"", подстав...","<p>Декоративная табличка ""Правила кухни"" созда...",[]
4,1467778,False,39600,МОЯ КУХНЯ,5.000000,"Подставка под ложку керамическая, подложка ""Кл...",<p>Подложка керамическая с рисунком в подарочн...,"[Керамика., Размер: 255*90*30мм; ]"
...,...,...,...,...,...,...,...,...
16855,1914264,False,8598,Zoorbox,4.913043,Жесткий диск внутренний SSD KingDian 2.5 Inch ...,"<p><img src=""https://ke-images.servicecdn.ru/c...","[Интерфейс SSD SATA3 6.0 Гбит/с, Форм-фактор 2..."
16856,1310569,False,27474,RenRin,5.000000,Браслет оберег на руку/красная нить от сглаза/...,"<p>Красная нить - оберег, обладающий большой с...","[Насыщенный красный цвет, Хорошее плетение, Ун..."
16857,978095,False,23395,Хобби и Ты,5.000000,Кабошон бантик в упаковке 2 шт,"<p>Кабошон бантик, желтого цвета. Используется...","[Размер: 1.8 см., Пластик., В упаковке 2 шт.]"
16858,797547,False,16764,100000 мелочей,5.000000,"Полка для ванной угловая, 20,5 х 20,5 х 6,5 см...","<p>Полка для ванной угловая, 20,5×20,5×6,5 см,...","[Индивидуальная упаковка Без упаковки, Размер ..."


## Saving updated dataframes:

In [12]:
TRAIN_EXT_PATH = os.path.join("..", "data", "train_extended.pkl")
TEST_EXT_PATH = os.path.join("..", "data", "test_extended.pkl")
TARGET_PATH = os.path.join("..", "data", "target.pkl")

train_extended.to_pickle(TRAIN_EXT_PATH)
test_extended.to_pickle(TEST_EXT_PATH)
train_extended['category_id'].to_pickle(TARGET_PATH)