In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (12,8)
# import seaborn as sns
 
import os 
from os import path
from string import punctuation


In [5]:
def clean_strings(val):
	no_punc = ""
	for char in val:
		if char not in (punctuation):
			no_punc += char

	return no_punc

In [6]:
####### list all files

files = [file for file in os.listdir("./") if file[-3:] == "csv"]
print(files)

['items.csv', 'item_categories.csv', 'sales_train.csv', 'sample_submission.csv', 'shops.csv', 'test.csv']


In [7]:
############################################# Shops.csv

shops = pd.read_csv("./shops.csv")

shops.head()

Unnamed: 0,shop_name,shop_id
0,"!Якутск Орджоникидзе, 56 фран",0
1,"!Якутск ТЦ ""Центральный"" фран",1
2,"Адыгея ТЦ ""Мега""",2
3,"Балашиха ТРК ""Октябрь-Киномир""",3
4,"Волжский ТЦ ""Волга Молл""",4


In [8]:
print(shops.shape)

(60, 2)


In [9]:
# check any duplicates

print(shops.shape[0] == shops.nunique()) #true, no duplicate so far

shop_name    True
shop_id      True
dtype: bool


In [10]:
print(shops['shop_name'])

0                       !Якутск Орджоникидзе, 56 фран
1                       !Якутск ТЦ "Центральный" фран
2                                    Адыгея ТЦ "Мега"
3                      Балашиха ТРК "Октябрь-Киномир"
4                            Волжский ТЦ "Волга Молл"
5                              Вологда ТРЦ "Мармелад"
6                          Воронеж (Плехановская, 13)
7                              Воронеж ТРЦ "Максимир"
8                        Воронеж ТРЦ Сити-Парк "Град"
9                                   Выездная Торговля
10                         Жуковский ул. Чкалова 39м?
11                         Жуковский ул. Чкалова 39м²
12                                Интернет-магазин ЧС
13                                Казань ТЦ "Бехетле"
14                            Казань ТЦ "ПаркХаус" II
15                               Калуга ТРЦ "XXI век"
16                                   Коломна ТЦ "Рио"
17                      Красноярск ТЦ "Взлетка Плаза"
18                          

In [11]:
print(len(shops['shop_name']), len(set(shops['shop_name'])))

60 60


In [12]:
print(shops.duplicated('shop_name').unique())

[False]


In [13]:
groupbySize = shops.groupby('shop_id').size()

In [14]:
groupbySize

shop_id
0     1
1     1
2     1
3     1
4     1
5     1
6     1
7     1
8     1
9     1
10    1
11    1
12    1
13    1
14    1
15    1
16    1
17    1
18    1
19    1
20    1
21    1
22    1
23    1
24    1
25    1
26    1
27    1
28    1
29    1
30    1
31    1
32    1
33    1
34    1
35    1
36    1
37    1
38    1
39    1
40    1
41    1
42    1
43    1
44    1
45    1
46    1
47    1
48    1
49    1
50    1
51    1
52    1
53    1
54    1
55    1
56    1
57    1
58    1
59    1
dtype: int64

In [15]:
shops.isnull().sum()

shop_name    0
shop_id      0
dtype: int64

In [16]:
shops.sample(15)

Unnamed: 0,shop_name,shop_id
19,"Курск ТЦ ""Пушкинский""",19
28,"Москва ТЦ ""МЕГА Теплый Стан"" II",28
33,"Мытищи ТРК ""XL-3""",33
44,"Самара ТЦ ""Мелодия""",44
8,"Воронеж ТРЦ Сити-Парк ""Град""",8
21,"Москва МТРЦ ""Афи Молл""",21
47,"Сургут ТРЦ ""Сити Молл""",47
46,"Сергиев Посад ТЦ ""7Я""",46
36,"Новосибирск ТРЦ ""Галерея Новосибирск""",36
9,Выездная Торговля,9


In [17]:
###### Cleaning Shop names 

clean_shop_names = shops['shop_name'].apply(clean_strings)
clean_shop_names

0                       Якутск Орджоникидзе 56 фран
1                        Якутск ТЦ Центральный фран
2                                    Адыгея ТЦ Мега
3                       Балашиха ТРК ОктябрьКиномир
4                            Волжский ТЦ Волга Молл
5                              Вологда ТРЦ Мармелад
6                           Воронеж Плехановская 13
7                              Воронеж ТРЦ Максимир
8                         Воронеж ТРЦ СитиПарк Град
9                                 Выездная Торговля
10                         Жуковский ул Чкалова 39м
11                        Жуковский ул Чкалова 39м²
12                               Интернетмагазин ЧС
13                                Казань ТЦ Бехетле
14                            Казань ТЦ ПаркХаус II
15                               Калуга ТРЦ XXI век
16                                   Коломна ТЦ Рио
17                      Красноярск ТЦ Взлетка Плаза
18                               Красноярск ТЦ Июнь
19          

In [18]:
shops = shops.join(clean_shop_names, on=['shop_id'], rsuffix="_clean")
shops

Unnamed: 0,shop_name,shop_id,shop_name_clean
0,"!Якутск Орджоникидзе, 56 фран",0,Якутск Орджоникидзе 56 фран
1,"!Якутск ТЦ ""Центральный"" фран",1,Якутск ТЦ Центральный фран
2,"Адыгея ТЦ ""Мега""",2,Адыгея ТЦ Мега
3,"Балашиха ТРК ""Октябрь-Киномир""",3,Балашиха ТРК ОктябрьКиномир
4,"Волжский ТЦ ""Волга Молл""",4,Волжский ТЦ Волга Молл
5,"Вологда ТРЦ ""Мармелад""",5,Вологда ТРЦ Мармелад
6,"Воронеж (Плехановская, 13)",6,Воронеж Плехановская 13
7,"Воронеж ТРЦ ""Максимир""",7,Воронеж ТРЦ Максимир
8,"Воронеж ТРЦ Сити-Парк ""Град""",8,Воронеж ТРЦ СитиПарк Град
9,Выездная Торговля,9,Выездная Торговля


In [19]:
items_cat = pd.read_csv("./item_categories.csv")
items_cat.shape


(84, 2)

In [21]:
items_cat.head()

Unnamed: 0,item_category_name,item_category_id
0,PC - Гарнитуры/Наушники,0
1,Аксессуары - PS2,1
2,Аксессуары - PS3,2
3,Аксессуары - PS4,3
4,Аксессуары - PSP,4


In [22]:
items_cat.sample(10)

Unnamed: 0,item_category_name,item_category_id
33,Карты оплаты - Live!,33
66,"Подарки - Открытки, наклейки",66
24,Игры - XBOX ONE,24
42,"Книги - Артбуки, энциклопедии",42
59,Музыка - Музыкальное видео,59
61,Подарки - Атрибутика,61
37,Кино - Blu-Ray,37
79,Служебные,79
26,Игры Android - Цифра,26
53,Книги - Художественная литература,53


In [23]:
items_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84 entries, 0 to 83
Data columns (total 2 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   item_category_name  84 non-null     object
 1   item_category_id    84 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 1.4+ KB


In [24]:
items_cat.describe()

Unnamed: 0,item_category_id
count,84.0
mean,41.5
std,24.392622
min,0.0
25%,20.75
50%,41.5
75%,62.25
max,83.0


In [25]:
#### duplicates?
items_cat.shape[0] == items_cat.nunique()

item_category_name    True
item_category_id      True
dtype: bool

In [26]:
pd.set_option("display.max_rows", items_cat.shape[0])
items_cat

Unnamed: 0,item_category_name,item_category_id
0,PC - Гарнитуры/Наушники,0
1,Аксессуары - PS2,1
2,Аксессуары - PS3,2
3,Аксессуары - PS4,3
4,Аксессуары - PSP,4
5,Аксессуары - PSVita,5
6,Аксессуары - XBOX 360,6
7,Аксессуары - XBOX ONE,7
8,Билеты (Цифра),8
9,Доставка товара,9


In [27]:
items = pd.read_csv("./items.csv")

items.shape

(22170, 3)

In [28]:
items.head()

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40


In [29]:
items.sample(10)

Unnamed: 0,item_name,item_id,item_category_id
15198,Музыкальная шкатулка/HAPPY BIRTHDAY,15198,69
11362,Дойл Артур Конан Шесть Наполеонов и другие ра...,11362,43
21031,Футболка Battlefield Hardline Criminals XL,21031,61
13823,ЛЕГО БЭТМЕН,13823,40
3320,"FIFA 13 (с поддержкой PS Move) [PS3, русская в...",3320,19
6203,SADE The Ultimate Collection 3CD (фирм.),6203,56
11522,Жетон Call Of Duty Advanced Warfare,11522,70
6324,SPHERE Breathe (digipack),6324,55
20463,"Фигурка Diablo III Shadow Of Diablo 7""",20463,72
6243,SCORPIONS Crazy World,6243,55


In [30]:
items.describe()

Unnamed: 0,item_id,item_category_id
count,22170.0,22170.0
mean,11084.5,46.290753
std,6400.07207,15.941486
min,0.0,0.0
25%,5542.25,37.0
50%,11084.5,40.0
75%,16626.75,58.0
max,22169.0,83.0


In [31]:
items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22170 entries, 0 to 22169
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   item_name         22170 non-null  object
 1   item_id           22170 non-null  int64 
 2   item_category_id  22170 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 519.7+ KB


In [32]:
## find duplicated?

len(items['item_name']) == len(items['item_name']) # no duplicates?

True

In [33]:
print(items['item_name'].duplicated().unique()) #no duplicates

[False]
