In [119]:
fraud = avito_data[avito_data["is_bad"]==1].copy()

In [121]:
fraud["#_of_digits"] = fraud["description"].apply(count_digits)

In [175]:
# цифрами точно не передан номер, с учетом домашнего телефона
fraud["phone_number_NOT_given_with_digits"] = fraud["#_of_digits"] < 6

In [153]:
fraud["contains_link"] = fraud["description"].str.contains("https://") |\
                            fraud["description"].str.contains(".ru")

fraud["contains_vk"] = fraud["description"].str.contains("vk") | \
                        fraud["description"].str.contains("вконтакте") | \
                        fraud["description"].str.contains("в контакте")

fraud["contains_inst"] = fraud["description"].str.contains("instagram") | \
                        fraud["description"].str.contains("инстагр")

fraud["contains_fb"] = fraud["description"].str.contains("facebook") | \
                        fraud["description"].str.contains("фейсбук")

In [161]:
# точные кейсы, где содержится номер телефона
fraud["contains_phone_number"] = fraud["description"]\
                                .str.contains("^((8|\+7)[\- ]?)?(\(?\d{3}\)?[\- ]?)?[\d\- ]{7,10}$") 


In [189]:
developed_fraud = fraud.query("phone_number_NOT_given_with_digits == False or contains_word_number == True or \
            contains_link == True or contains_vk == True or contains_inst == True or \
            contains_fb == True or contains_phone_number==True").copy()

In [190]:
developed_fraud.shape

(232003, 17)

In [195]:
avito_data.loc[avito_data.index.isin(developed_fraud.index), "fraud_developed"] = 1
avito_data.loc[~(avito_data.index.isin(developed_fraud.index)), "fraud_developed"] = 0

In [196]:
avito_data["fraud_developed"].value_counts()

0.0    752484
1.0    232003
Name: fraud_developed, dtype: int64

In [204]:
avito_data[avito_data["fraud_developed"]==1]["category"].value_counts()/avito_data.shape[0]

Транспорт              0.055086
Недвижимость           0.037067
Для дома и дачи        0.029941
Услуги                 0.027700
Личные вещи            0.026877
Бытовая электроника    0.020430
Животные               0.017248
Хобби и отдых          0.010184
Работа                 0.009377
Для бизнеса            0.001749
Name: category, dtype: float64

In [203]:
avito_data["category"].value_counts()/avito_data.shape[0]

Транспорт              0.212518
Личные вещи            0.202801
Бытовая электроника    0.154529
Для дома и дачи        0.134202
Недвижимость           0.102384
Хобби и отдых          0.065308
Услуги                 0.057574
Животные               0.031916
Работа                 0.026621
Для бизнеса            0.012146
Name: category, dtype: float64

## подготовка данных к модели

In [208]:
avito_data.head()

Unnamed: 0,title,description,subcategory,category,price,region,city,datetime_submitted,is_bad,fraud_developed
0,Диван-кровать,Продаем диван-кровать. Удобный механизм - евро...,Мебель и интерьер,Для дома и дачи,7000.0,Россия,Москва,2019-06-01 00:00:15.180656,0,0.0
1,Кожух рулевой колонки Даф хф 91 4509834,Кожух рулевой колонки DAF XF 94 (60066004)/\n ...,Запчасти и аксессуары,Транспорт,2290.0,Россия,Москва,2019-06-01 00:00:44.317933,0,0.0
2,Дешёвый буст аккаунтов Dota 4,! Буст аккаунтов с ммр выше 1000ммр не беру ! ...,Предложение услуг,Услуги,200.0,Северная Осетия,Владикавказ,2019-06-01 00:00:50.249692,1,1.0
3,Телевизор sharp.Смарт тв.Интернет,Продам телевизор . Диагональ 450.наличие входа...,Аудио и видео,Бытовая электроника,25000.0,Калининградская область,Советск,2019-06-01 00:00:50.325799,1,0.0
4,Открытка-конверт,Открытки-конверты ручной работы/\nВыполнены в ...,Коллекционирование,Хобби и отдых,150.0,Ставропольский край,Ессентукская,2019-06-01 00:00:56.632655,0,0.0


In [209]:
avito_data_prepared = avito_data[["subcategory", "category", "price", "region", \
                                  "city", "fraud_developed"]].copy()

In [218]:
sorted(avito_data_prepared["category"].unique())

['Бытовая электроника',
 'Для бизнеса',
 'Для дома и дачи',
 'Животные',
 'Личные вещи',
 'Недвижимость',
 'Работа',
 'Транспорт',
 'Услуги',
 'Хобби и отдых']

### one_hot_encoding для столбца "category"

- т.к. cardinality (мощность) тут маленькая и можно применить с легкостью one_hot_encoding

In [221]:
category = pd.get_dummies(avito_data_prepared["category"], prefix='category')

In [225]:
avito_data_prepared = pd.concat([avito_data_prepared.drop("category", axis=1), category], axis=1)

In [230]:
avito_data_prepared = avito_data_prepared.rename(columns={'category_Бытовая электроника': "category_consumer_electronics",
                                     'category_Для бизнеса': "category_for_business",
                                     'category_Для дома и дачи': "category_for_house", 
                                     'category_Животные': "category_animals", 
                                     'category_Личные вещи': "category_personal_belongings",
                                     'category_Недвижимость': "category_real_estate", 
                                     'category_Работа': "category_job", 
                                     'category_Транспорт': "category_transport",
                                     'category_Услуги': "category_services", 
                                     'category_Хобби и отдых': "category_hobby_rest"})

### Label encoding

- тут мощность столбца высокая, лучше сделать обычный label_encoding

In [236]:
avito_data_prepared.columns

Index(['subcategory', 'price', 'region', 'city', 'fraud_developed',
       'category_consumer_electronics', 'category_for_business',
       'category_for_house', 'category_animals',
       'category_personal_belongings', 'category_real_estate', 'category_job',
       'category_transport', 'category_services', 'category_hobby_rest'],
      dtype='object')

In [238]:
label_encoder = LabelEncoder()

object_cols = ['subcategory', 'region', 'city']

for col in object_cols:
    avito_data_prepared[col] = label_encoder.fit_transform(avito_data_prepared[col])

## Обработка пропущенных значений

In [257]:
avito_data_prepared.isnull().sum(axis = 0)

subcategory                          0
price                            58048
region                               0
city                                 0
fraud_developed                      0
category_consumer_electronics        0
category_for_business                0
category_for_house                   0
category_animals                     0
category_personal_belongings         0
category_real_estate                 0
category_job                         0
category_transport                   0
category_services                    0
category_hobby_rest                  0
dtype: int64

- Наилучшим решением мне представляется замена на среднее значение по субкатегории

In [287]:
avito_data_prepared["price"] = avito_data_prepared.loc[:,"price"].\
                               fillna(avito_data_prepared.groupby("subcategory")["price"]\
                               .transform("mean")).copy()