# Проект команды 306 - Проектный семинар

Состав команды:


1.   Алиев Хайрутдин Аллилович
2.   Зубов Дмитрий Сергеевич
3. Курбанов Иван Сергеевич
4. Лухнев Игорь Дмитриевич
5. Шишков Максим Алексеевич

## TL;DR


---
В данном документе проводится исследовательский анализ данных, а также обогащение данных для дальнейшего обучения


---


## Старт проекта

Ниже ячейка для установки отсутствующих пакетов через `pip`


In [226]:
# Use !pip install -q [your-package]
!pip install -q PyGithub
!pip install -q --upgrade google-api-python-client
!pip install -q github-contents
!pip install -q fsspec

Следующая ячейка для импорта установленных пакетов в проект

In [227]:
# use aliases for long names
import os
import requests
from github import Github as gh
from getpass import getpass
import re
import pandas as pd
import numpy as np
import base64
from io import StringIO
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords, wordnet
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from collections import Counter
from nltk import download
import seaborn as sns
from matplotlib import pyplot as plt

download('stopwords')
download('punkt')
download('averaged_perceptron_tagger')
download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

## Загрузка данных

Наша выборка сейчас лежит в репозитории проекта на GitHub - нам необходимо её загрузить в проект, чтобы вести с ней работу в дальнейшем.

Нейминг файлов: 'ff' + 'children'/'m'/'w' + 'item'/'sale'

    children - детский раздел

    m - мужской раздел

    w - женский раздел

    items - регулярный каталог

    sale - скидки


Описание полей в csv-файлов:


*   ffcollection - коллекция (Новый сезон - New Season, Предзаказ - Pre-Order, NaN - другое)
*   Brand - название брэнда
* Short_descr - краткое описание товара
* Final_Price - цена с учетом скидок
* avSizes - доступные размеры
* img - ссылка на изображение
* Discount - размер скидки в процентах
* Total_Price - цена товара
* cat - верхнеуровневая категория (обувь, одежда, аксессуары)



### Подключение к репозиторию через API GitHub

Запросим у пользователя его креды для подключения к репозиторию

In [228]:
login = input('Enter your login: ')
password = getpass('Enter the secret value: ')

Enter your login: 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
Enter the secret value: ··········


Подключаемся тогда, работаем, так сказать

In [229]:
repo_path = "IgorLukhnev/FarFetchRS"
# Запишем токен в переменную окружения
g_token = os.getenv('GITHUB_TOKEN', password)
# Вополним коннект
g = gh(g_token)
# Подключимся к репо
repo = g.get_repo(repo_path)
# Создаем объект для чтения файлов

Гуляя по репозиторию, скачиваем данные, но только те, что имеют правильный нейминг.

In [230]:
# Получаем содержание папки с данными
files = dict()
contents = repo.get_contents("Data")
for f in contents:
    if f.type != 'dir':
        print(f'{f.path} is reading')
        files[f.path] = pd.read_csv(StringIO(base64.b64decode(repo.get_git_blob(f.sha).content).decode("utf8")))

Data/citems.csv is reading
Data/ffchildrensale.csv is reading
Data/ffmsale.csv is reading
Data/ffwitems.csv is reading
Data/ffwsale.csv is reading
Data/mitems.csv is reading


## Начнем писать функции для преобразования текста

Функция для перевода частей речи, определяемых tager'ом, в знакомый для лемматайзера формат

In [231]:
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

Каждое описание токенизируем:


1.   приводим к нижнему регистру
2.   разбиваем текст на слова
3. выкидываем слова с цифрами или стоп-списка
4. определяем части речи
5. лемматизируем слова (отбрасываем леммы), указав часть речи
6. превращаем набор токенов вновь в текст



In [232]:
def preprocess(text, solution='simple'):
    txt = text.lower().split()
    for word in txt:
        if word.isdigit() or word in stopwords.words('english'): 
            txt.remove(word)
    text = ' '.join(txt)

    lemmatizer = WordNetLemmatizer()

    pos = pos_tag(word_tokenize(text))
    lemmatized = [lemmatizer.lemmatize(tag[0], get_wordnet_pos(tag[1])) for idx, tag in enumerate(pos)]
    return " ".join(lemmatized) if solution != 'simple' else ' '.join(tag[0] for tag in pos if tag[1].startswith('N'))

Функция для выбора более популярного слова из списка

In [233]:
def find_popular(word_cnt, word_list):
    w2c = [word_cnt[w] for w in word_list]
    if len(w2c) > 0:
        idx, _ = max(enumerate(w2c), key=lambda x: x[1])
        return word_list[idx]
    else:
        return None

### Самое популярное существительное в описании

Напишем функцию для классификации, используя популярнейшие существительные среди всех слов в описаниях внутри укрупненной укатегории

In [234]:
def class_by_popular_word(df, target='Short_descr', cat='cat', new_col='category1'):
    # получаем список укрупненных категорий
    categories = df[cat].unique()
    # начинаем обрабатывать каждую категорию в отдельности
    df[new_col] = 'unknown'
    for c in categories:
        print(f'Processing {c}')
        print(f'Now unknown = {(df[new_col] == "unknown").sum()}')
        # сформируем постоянную маску для индексов
        idx_mask = df[cat] == c
        word_cnt = Counter(' '.join(df.loc[idx_mask, target].apply(lambda x: preprocess(x))).split())
        # print(df.loc[idx_mask, target].apply(lambda x: preprocess(x)))
        # print(df.loc[idx_mask, target].apply(lambda x: preprocess(x).split()).apply(lambda x: find_popular(word_cnt, x)))
        df.loc[idx_mask, new_col] = df.loc[idx_mask, target].apply(lambda x: preprocess(x).split()).apply(lambda x: find_popular(word_cnt, x))
        print((df[new_col] == 'unknown').sum())

Применяем написанный алгоритм

In [235]:
for f in files:
    print(f'Processing file {f}')
    class_by_popular_word(files[f])

Processing file Data/citems.csv
Processing accessories
Now unknown = 70171
67900
Processing clothing
Now unknown = 67900
41730
Processing shoes
Now unknown = 41730
36376
Processing mocassins
Now unknown = 36376
36334
Processing boots
Now unknown = 36334
35839
Processing coats
Now unknown = 35839
35409
Processing jackets
Now unknown = 35409
33556
Processing moccasins
Now unknown = 33556
33553
Processing shorts
Now unknown = 33553
31020
Processing swimwear
Now unknown = 31020
29777
Processing tops
Now unknown = 29777
14876
Processing tracksuits
Now unknown = 14876
13861
Processing trainers
Now unknown = 13861
10986
Processing trousers
Now unknown = 10986
8376
Processing jumpsuits
Now unknown = 8376
8237
Processing denim
Now unknown = 8237
7708
Processing dresses
Now unknown = 7708
4468
Processing skirts
Now unknown = 4468
3751
Processing nursery
Now unknown = 3751
3126
Processing bags
Now unknown = 3126
3038
Processing babywear
Now unknown = 3038
1584
Processing brogues
Now unknown = 158

Посмотрим на результаты

In [236]:
for f in files:
    print(files[f].sample(10))

      ffcollection                  Brand                        Short_descr  \
42916          NaN           Versace Kids                 straight-leg jeans   
56498   New Season                   Molo     Pups-print high-waist leggings   
37810   New Season         Dsquared2 Kids                 logo-print T-shirt   
22507   New Season              Monnalisa     heart-print cat-eye sunglasses   
7336           NaN         Moncler Enfant          logo print padded jacket    
744            NaN             Fendi Kids      logo-embroidered babygrow set   
41702          NaN   Dolce & Gabbana Kids  embroidered logo long-sleeve body   
28478          NaN             Gucci Kids             stripe-detail cardigan   
38649   New Season  Stella McCartney Kids          colour-block denim skirt    
54816          NaN            Jordan Kids       Air Jordan 13 Retro sneakers   

      Total_Price Discount Final_Price  \
42916        $296      -0%        $296   
56498         $43      -0%         

### Обработка чисел

Получилось неплохо - давайте еще исправим несколько моментов: цены переведем в целочисленный формат, размер скидки - в десятичную дробь.

Напишем для этого специальную функцию: она определяет, с чем имеет дело и применяет необходимые правила преобразования

In [237]:
def convert_numbers(txt):
    ret = None
    if re.fullmatch('\$\d*.\d*', txt) is not None: # Проверяем что строка похожа на деньги
        ret = int(re.sub('[\D]', '', txt))
    elif re.fullmatch('[.-]\d{,3}%', txt) is not None: # Проверяем, что строка похожа на проценты
        ret = int(re.sub('[-%]', '', txt)) / 100
    return ret

In [238]:
def convert_values(df, target):
    df.loc[:, target] = df.loc[:, target].apply(lambda x: convert_numbers(x))

Применим наш конвертер ко всем датафреймам

In [239]:
# Создадим список строк, требующих изменения
to_convert = ['Final_Price', 'Discount', 'Total_Price']
# Применяем к каждому датафрейму
for f in files:
    for t in to_convert:
        convert_values(files[f], t)
    print(files[f].sample(10))

               ffcollection                 Brand  \
64584            New Season  Chiara Ferragni Kids   
28150                   NaN         Moschino Kids   
1241                    NaN            Gucci Kids   
3654   Positively Conscious           Camper Kids   
58518                   NaN         Tutu Du Monde   
17168            New Season              Fay Kids   
42785                   NaN        Off-White Kids   
17205            New Season         Moschino Kids   
20205                   NaN     Ralph Lauren Kids   
64130            New Season             Monnalisa   

                          Short_descr  Total_Price  Discount  Final_Price  \
64584            logo-printed T-shirt          109       0.0          109   
28150               Toy Bear playsuit          460       0.0          460   
1241         stripe-trim denim shorts          280       0.0          280   
3654    Bicho cut-out leather sandals           76       0.0           76   
58518               Sasher tutu

### Сохраним результат

In [240]:
for f in files:
    files[f].to_csv('simpleCat/' + f[5:])

### Продолжим анализ данных

Объединим датафреймы

Перед объединением датафреймы нужно привести к одному формату

In [241]:
for f in files:
    if re.fullmatch('Data/.{,2}m.{3,5}\.csv', f):
        print('males: ' + f)
        files[f]['sex'] = 'm'
    elif re.fullmatch('Data/.{,2}w.{3,5}\.csv', f):
        print('females: ' + f)
        files[f]['sex'] = 'w'
    elif re.fullmatch('Data/.{,2}c.*\.csv', f):
        print('children: ' + f)
        if f == 'Data/citems.csv':
            files[f] = files[f].drop(columns=['agecat', 'gender'])
            files[f]['avSizes'] = 'children'
        files[f]['sex'] = 'c'
    print(files[f].columns)

children: Data/citems.csv
Index(['ffcollection', 'Brand', 'Short_descr', 'Total_Price', 'Discount',
       'Final_Price', 'img', 'cat', 'category1', 'avSizes', 'sex'],
      dtype='object')
children: Data/ffchildrensale.csv
Index(['ffcollection', 'Brand', 'Short_descr', 'Total_Price', 'Discount',
       'Final_Price', 'avSizes', 'img', 'cat', 'category1', 'sex'],
      dtype='object')
males: Data/ffmsale.csv
Index(['ffcollection', 'Brand', 'Short_descr', 'Total_Price', 'Discount',
       'Final_Price', 'avSizes', 'img', 'cat', 'category1', 'sex'],
      dtype='object')
females: Data/ffwitems.csv
Index(['ffcollection', 'Brand', 'Short_descr', 'Final_Price', 'avSizes', 'img',
       'Discount', 'Total_Price', 'cat', 'category1', 'sex'],
      dtype='object')
females: Data/ffwsale.csv
Index(['ffcollection', 'Brand', 'Short_descr', 'Total_Price', 'Discount',
       'Final_Price', 'avSizes', 'img', 'cat', 'category1', 'sex'],
      dtype='object')
males: Data/mitems.csv
Index(['ffcollection

Объединим фреймы в один и сохраним его

In [242]:
all_data = pd.concat([files[x] for x in files], ignore_index=True)
all_data.to_csv('simpleCat/full_data.csv')

Посмотрим на полноту данных

In [243]:
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 464548 entries, 0 to 464547
Data columns (total 11 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   ffcollection  220959 non-null  object 
 1   Brand         464548 non-null  object 
 2   Short_descr   464548 non-null  object 
 3   Total_Price   464548 non-null  int64  
 4   Discount      464548 non-null  float64
 5   Final_Price   464547 non-null  float64
 6   img           464547 non-null  object 
 7   cat           464548 non-null  object 
 8   category1     463257 non-null  object 
 9   avSizes       464548 non-null  object 
 10  sex           464548 non-null  object 
dtypes: float64(2), int64(1), object(8)
memory usage: 39.0+ MB


Почистим данные, оставив только те, в детальной категории которых хотя бы 1000 товаров

In [244]:
to_work = all_data['category1'].value_counts()[all_data['category1'].value_counts() >= 1000]

In [245]:
to_work_data = all_data.loc[all_data['category1'].apply(lambda x: x in to_work), :].copy()

In [246]:
# to_work_data.loc[~to_work_data['avSize'].isna(), 'avSizes'] = to_work_data.loc[~to_work_data['avSize'].isna(), 'avSize']
# to_work_data.drop(columns=['avSize'], inplace=True)
to_work_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418948 entries, 0 to 464546
Data columns (total 11 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   ffcollection  201295 non-null  object 
 1   Brand         418948 non-null  object 
 2   Short_descr   418948 non-null  object 
 3   Total_Price   418948 non-null  int64  
 4   Discount      418948 non-null  float64
 5   Final_Price   418948 non-null  float64
 6   img           418948 non-null  object 
 7   cat           418948 non-null  object 
 8   category1     418948 non-null  object 
 9   avSizes       418948 non-null  object 
 10  sex           418948 non-null  object 
dtypes: float64(2), int64(1), object(8)
memory usage: 38.4+ MB


Заполним nan-значения:

    ffcollection -> 'unknown'
    Total_Price -> Final_Price / (1 - Discount)
    Final_Price -> Total_Price * (1 - Discount)

In [247]:
to_work_data['ffcollection'].fillna('unknown', inplace=True)
tp_mask = to_work_data['Total_Price'].isna()
to_work_data.loc[tp_mask, 'Total_Price'] = to_work_data.loc[tp_mask, 'Final_Price'] / (1 - to_work_data.loc[tp_mask, 'Discount'])
to_work_data.loc[tp_mask, 'Final_Price'] = to_work_data.loc[tp_mask, 'Total_Price'] * (1 - to_work_data.loc[tp_mask, 'Discount'])
to_work_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418948 entries, 0 to 464546
Data columns (total 11 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   ffcollection  418948 non-null  object 
 1   Brand         418948 non-null  object 
 2   Short_descr   418948 non-null  object 
 3   Total_Price   418948 non-null  float64
 4   Discount      418948 non-null  float64
 5   Final_Price   418948 non-null  float64
 6   img           418948 non-null  object 
 7   cat           418948 non-null  object 
 8   category1     418948 non-null  object 
 9   avSizes       418948 non-null  object 
 10  sex           418948 non-null  object 
dtypes: float64(3), object(8)
memory usage: 38.4+ MB


У нас есть товары, для которых неизвестна цена - предлагается исключить их из выборки

In [248]:
to_work_data.drop(index=to_work_data[to_work_data['Total_Price'].isna()].index, inplace=True)
to_work_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418948 entries, 0 to 464546
Data columns (total 11 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   ffcollection  418948 non-null  object 
 1   Brand         418948 non-null  object 
 2   Short_descr   418948 non-null  object 
 3   Total_Price   418948 non-null  float64
 4   Discount      418948 non-null  float64
 5   Final_Price   418948 non-null  float64
 6   img           418948 non-null  object 
 7   cat           418948 non-null  object 
 8   category1     418948 non-null  object 
 9   avSizes       418948 non-null  object 
 10  sex           418948 non-null  object 
dtypes: float64(3), object(8)
memory usage: 54.5+ MB


In [249]:
to_work_data.to_csv('simpleCat/final_data.csv')