# 9. Итоги
✔️ Итак, мы с вами познакомились с основными проблемами «грязных данных» и способами их решения. 

В этом модуле мы рассмотрели:
- работу с пропущенными значениями;
- методы поиска выбросов;
- методы выявления и ликвидации дубликатов и неинформативных признаков.

Для наглядности каждую проблему мы рассматривали отдельно. Но, как вы можете догадаться, каждая из них может косвенно влиять на другую. Поэтому очистка данных должна предполагать комплексное исследование — в этом и заключается её сложность.

Более того, как вы могли увидеть, не существует конкретного решения для каждого случая: каждый набор данных индивидуален. Необходимо помнить об этом и всегда рационально смотреть не только на данные, но и на результаты методов их очистки. Если на разработку проекта отводится достаточно времени, тестируйте разные подходы, стройте модели и сравнивайте их результаты.

Если вы захотите углубиться в очистку данных и статистические методы, то вашему вниманию предлагается дополнительная литература:

* Статья «[Подготовка данных в Data Science-проекте: рецепты для молодых хозяек](https://habr.com/ru/post/470650/)» (Хабр). Автор описывает общие подходы к очистке данных и какое место очистка занимает в бизнес-проекте.
* [Замечательная книга](https://itfy.org/threads/kniga-o-biblioteke-pandas-pandas-rabota-s-dannymi-abdraxmanov-m-i.1262/), которую вы можете использовать как справочник при работе с pandas. 
* Тем, кто хочет познакомиться с высокоуровневыми методами поиска выбросов, которые мы не рассмотрели в модуле, рекомендуем [эту статью по Anomaly Detection](https://dyakonov.org/2017/04/19/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA-%D0%B0%D0%BD%D0%BE%D0%BC%D0%B0%D0%BB%D0%B8%D0%B9-anomaly-detection/).

[Скачайте](https://lms.skillfactory.ru/assets/courseware/v1/8e167744630d1ae165781fe9f63b86e4/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DST_%D0%91%D0%BB%D0%BE%D0%BA_2_%D0%9C%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_14._%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85.pdf) конспект к модулю ↓ — он поможет вам лучше структурировать материал и время от времени возвращаться к самым важным понятиям и принципам.

## И ЭТО ЕЩЁ НЕ ВСЁ!

Знания по темам этого модуля зачастую проверяют работодатели на собеседованиях. Предлагаем вам ознакомиться с вопросом, с которым вы можете столкнуться при поиске работы. 

Важно! Это задание на самопроверку, оно необязательное, и мы не будем оценивать качество его решения. Настоятельно рекомендуем вам попробовать найти ответ самостоятельно.

Имеются [две базы данных](https://lms.skillfactory.ru/assets/courseware/v1/958d35ff25f2486f65613da4459e6647/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/Data_TSUM.xlsx) (два листа Excel-файла): база с ценами конкурентов (Data_Parsing) и внутренняя база компании (Data_Company).

В базе парсинга есть два id, однозначно определяющие товар: producer_id и producer_color.

В базе компании есть два аналогичных поля: item_id и color_id.

Нам известно, что коды в двух базах отличаются наличием набора служебных символов. В базе парсинга встречаются следующие символы: _, -, ~, \\, /.

Необходимо:

1. Считать данные из Excel в DataFrame (Data_Parsing) и (Data_Company).
2. Подтянуть к базе парсинга данные из базы компании (item_id, color_id, current_price) и сформировать столбец разницы цен в % (цена конкурента к нашей цене).
3. Определить сильные отклонения от среднего в разности цен в пределах бренда-категории (то есть убрать случайные выбросы, сильно искажающие сравнение). Критерий — по вкусу, написать комментарий в коде.
4. Записать новый файл Excel с базой парсинга, приклееными к ней столбцами из пункта 2 и с учётом пункта 3 (можно добавить столбец outlier и проставить Yes для выбросов).

In [5]:
import pandas as pd
import re

In [2]:
parsing = pd.read_excel('data/Data_TSUM.xlsx', sheet_name='Data_Parsing')
parsing.head()

Unnamed: 0,brand,Category,producer_id,producer_color,price
0,Valentino,Shoes,aaaaa1111_11,black,167
1,Valentino,Shoes,aaaaa1111_12,black,188
2,Valentino,Shoes,aaaaa1111_13,black,184
3,Valentino,Shoes,aaaaa1111_14,bla//ck,196
4,Valentino,Shoes,aaaaa1111_15,bla\\ck,250


In [4]:
parsing['producer_color'].unique()

array(['black', 'bla//ck', 'bla\\\\ck', 'bla__ck', 'bla\\\\c~k',
       'white_~', '~~~red'], dtype=object)

In [6]:
regex = re.compile(r'[^a-z]')
parsing['producer_color'] = parsing['producer_color'].apply(lambda x: regex.sub('', x))
parsing['producer_color'].unique()

In [9]:
company = pd.read_excel('data/Data_TSUM.xlsx', sheet_name='Data_Company')
company.head()

Unnamed: 0,brand,Category,item_id,color_id,current price
0,Valentino,Shoes,aaaaa111111,black,247
1,Valentino,Shoes,aaaaa111112,black,161
2,Valentino,Shoes,aaaaa111113,black,234
3,Valentino,Shoes,aaaaa111114,black,167
4,Valentino,Shoes,aaaaa111115,black,153


In [13]:
display(parsing['producer_id'][0])
display(company['item_id'][0])

'aaaaa1111_11'

'aaaaa111111'

In [17]:
regex = re.compile(r'[^a-z0-9]')
parsing['producer_id'] = parsing['producer_id'].apply(lambda x: regex.sub('', x))
display(parsing['producer_id'][0])
display(company['item_id'][0])


'aaaaa111111'

'aaaaa111111'

In [20]:
display(parsing.shape)
display(company.shape)

(75, 5)

(75, 5)

In [36]:
new_cols = dict(zip(company.columns[2: -1], parsing.columns[2: -1]))
display(new_cols)
company.rename(columns=new_cols, inplace=True)
display(parsing.columns)
display(company.columns)
display(company.head())

{'item_id': 'producer_id', 'color_id': 'producer_color'}

Index(['brand', 'Category', 'producer_id', 'producer_color', 'price'], dtype='object')

Index(['brand', 'Category', 'producer_id', 'producer_color', 'current price'], dtype='object')

Unnamed: 0,brand,Category,producer_id,producer_color,current price
0,Valentino,Shoes,aaaaa111111,black,247
1,Valentino,Shoes,aaaaa111112,black,161
2,Valentino,Shoes,aaaaa111113,black,234
3,Valentino,Shoes,aaaaa111114,black,167
4,Valentino,Shoes,aaaaa111115,black,153


In [42]:
parsing.loc[:, parsing.dtypes == 'object'] = parsing.select_dtypes(
    ['object']).apply(lambda x: x.astype('category'))
parsing.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75 entries, 0 to 74
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   brand           75 non-null     category
 1   Category        75 non-null     category
 2   producer_id     75 non-null     category
 3   producer_color  75 non-null     category
 4   price           75 non-null     int64   
dtypes: category(4), int64(1)
memory usage: 4.0 KB


In [43]:
company.loc[:, company.dtypes == 'object'] = company.select_dtypes(
    ['object']).apply(lambda x: x.astype('category'))
company.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 75 entries, 0 to 74
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   brand           75 non-null     category
 1   Category        75 non-null     category
 2   producer_id     75 non-null     category
 3   producer_color  75 non-null     category
 4   current price   75 non-null     int64   
dtypes: category(4), int64(1)
memory usage: 4.5 KB


In [53]:
data = pd.merge(left=parsing, right=company, how='outer', on = ['brand', 'producer_id', 'producer_color', 'Category'])
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 75 entries, 0 to 74
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   brand           75 non-null     category
 1   Category        75 non-null     category
 2   producer_id     75 non-null     category
 3   producer_color  75 non-null     category
 4   price           75 non-null     int64   
 5   current price   75 non-null     int64   
dtypes: category(4), int64(2)
memory usage: 5.1 KB


In [54]:
data.head()

Unnamed: 0,brand,Category,producer_id,producer_color,price,current price
0,Valentino,Shoes,aaaaa111111,black,167,247
1,Valentino,Shoes,aaaaa111112,black,188,161
2,Valentino,Shoes,aaaaa111113,black,184,234
3,Valentino,Shoes,aaaaa111114,black,196,167
4,Valentino,Shoes,aaaaa111115,black,250,153


In [55]:
data.tail()

Unnamed: 0,brand,Category,producer_id,producer_color,price,current price
70,Stone Island,Bags,sssss111131,red,164,165
71,Stone Island,Bags,sssss111132,red,158,196
72,Stone Island,Bags,sssss111133,red,194,236
73,Stone Island,Bags,sssss111134,red,256,222
74,Stone Island,Bags,sssss111135,red,205,275


In [56]:
data['price_ratio'] = (data['price'] / data['current price'] - 1) * 100
data.head()

Unnamed: 0,brand,Category,producer_id,producer_color,price,current price,price_ratio
0,Valentino,Shoes,aaaaa111111,black,167,247,-32.388664
1,Valentino,Shoes,aaaaa111112,black,188,161,16.770186
2,Valentino,Shoes,aaaaa111113,black,184,234,-21.367521
3,Valentino,Shoes,aaaaa111114,black,196,167,17.365269
4,Valentino,Shoes,aaaaa111115,black,250,153,63.398693


In [63]:
pivot = pd.pivot_table(data, index=['brand', 'Category', 'producer_id'])
pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,current price,price,price_ratio
brand,Category,producer_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Brioni,Bags,bbbbb111125,153,180,17.647059
Brioni,Bags,bbbbb111126,229,187,-18.340611
Brioni,Bags,bbbbb111127,183,153,-16.393443
Brioni,Bags,bbbbb111128,204,272,33.333333
Brioni,Bags,bbbbb111129,197,213,8.121827
...,...,...,...,...,...
Valentino,Shoes,aaaaa111120,255,178,-30.196078
Valentino,Shoes,aaaaa111121,292,171,-41.438356
Valentino,Shoes,aaaaa111122,250,237,-5.200000
Valentino,Shoes,aaaaa111123,171,288,68.421053


In [66]:
from scipy.stats import zscore
import numpy as np

In [83]:
data['z_score'] = data.groupby(['brand', 'Category'])['price_ratio'].apply(lambda x: np.abs(zscore(x)))
thresh = 2.0
data['is_outlier'] = data['z_score'] > thresh
data.head()

Unnamed: 0,brand,Category,producer_id,producer_color,price,current price,price_ratio,z_score,is_outlier
0,Valentino,Shoes,aaaaa111111,black,167,247,-32.388664,0.940534,False
1,Valentino,Shoes,aaaaa111112,black,188,161,16.770186,0.483068,False
2,Valentino,Shoes,aaaaa111113,black,184,234,-21.367521,0.62137,False
3,Valentino,Shoes,aaaaa111114,black,196,167,17.365269,0.500301,False
4,Valentino,Shoes,aaaaa111115,black,250,153,63.398693,1.833393,False


In [86]:
data.to_excel('data/result.xlsx', sheet_name='Result')