# LESSON 5: PANDAS INTRODUCTION
<img src="image/pd_logo.png" width="400px"/>

## 1. Overall introduction
**pandas** is a Python package providing **fast, flexible, and expressive data structures** designed to make working with **“relational” or “labeled” data both easy and intuitive**.

**pandas** is well suited for many different kinds of data:
- **Tabular data** with heterogeneously-typed columns, as in an SQL table or Excel spreadsheet
- Ordered and unordered (not necessarily fixed-frequency) **time series data**.
- **Arbitrary matrix data** (homogeneously typed or heterogeneous) with row and column labels
- Any other form of **observational / statistical data** sets. The data need not be labeled at all to be placed into a pandas data structure

More detail about pandas can be found in this official [document](https://pandas.pydata.org/docs/user_guide/index.html).


## 2. Install and import pandas

In [1]:
!pip install pandas

You should consider upgrading via the '/Users/nguyenhuuminh/Works/env/bin/python -m pip install --upgrade pip' command.[0m


In [2]:
import pandas as pd

## 3. Data structures in pandas
There are two main data structures in pandas: **SERIES** and **DATAFRAME**. <br>
<img src="image/pd_series_df.png" width="600px"/>

### 3.1. Series
**Series** is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). <br>
Checkout all arguments of pandas.Series [here](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [3]:
# Init a pandas series without name
number_list = [4, 5, 6, 3, 1]
series_1 = pd.Series(data=number_list)
print(series_1, '\n', type(series_1))

0    4
1    5
2    6
3    3
4    1
dtype: int64 
 <class 'pandas.core.series.Series'>


In [4]:
# Init a pandas series with name
number_list = [4, 5, 6, 3, 1]
series_1 = pd.Series(data=number_list, name='Mango')
print(series_1, '\n', type(series_1))

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64 
 <class 'pandas.core.series.Series'>


In [5]:
series_2 = pd.Series(data=[5, 4, 3, 0, 2], name='Apple')
series_3 = pd.Series(data=[2, 3, 5, 2, 7], name='Banana')

print(series_2, '\n', type(series_2))
print(series_3, '\n', type(series_3))

0    5
1    4
2    3
3    0
4    2
Name: Apple, dtype: int64 
 <class 'pandas.core.series.Series'>
0    2
1    3
2    5
3    2
4    7
Name: Banana, dtype: int64 
 <class 'pandas.core.series.Series'>


### 3.2. Dataframe
#### 3.2.1. Create dataframe from Series, list or dict

In [6]:
# Create dataframe from ONE Series
test_df = pd.DataFrame(series_1)
print(test_df, '\n', type(test_df))

   Mango
0      4
1      5
2      6
3      3
4      1 
 <class 'pandas.core.frame.DataFrame'>


In [7]:
# Create dataframe from multiple Series
test_df = pd.concat([series_1, series_2, series_3], axis=1)
print(test_df, '\n', type(test_df))

   Mango  Apple  Banana
0      4      5       2
1      5      4       3
2      6      3       5
3      3      0       2
4      1      2       7 
 <class 'pandas.core.frame.DataFrame'>


In [8]:
# Create dataframe from dict
data_dict = {
    'Mango': [4, 5, 6, 3, 1],
    'Apple': [5, 4, 3, 0, 2],
    'Banana': [2, 3, 5, 2, 7]
}
test_df = pd.DataFrame(data_dict)
print(test_df, '\n', type(test_df))

   Mango  Apple  Banana
0      4      5       2
1      5      4       3
2      6      3       5
3      3      0       2
4      1      2       7 
 <class 'pandas.core.frame.DataFrame'>


#### 3.2.2. Create dataframe by reading from csv or xlsx file
##### Read from CSV file
We read a csv file into pandas dataframce by using `pd.read_csv()` function. More detail about this function can be found [here](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).
Some arguments that used a lot while processing data:
- `filepath_or_buffer`
- `usecols`
- `dtype`
- `chunksize`

In [9]:
test_df = pd.read_csv('data/predict_future_sales/items.csv')
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
22165,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
22166,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
22167,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
22168,Яйцо для Little Inu,22168,62


##### Read from XLSX file

In [10]:
test_df = pd.read_xlsx('')

AttributeError: module 'pandas' has no attribute 'read_xlsx'

## 4. Access element in Series and Dataframe
###  4.1. In Series

In [11]:
print(series_1)

# Access one element
print(series_1[0])

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64
4


In [12]:
# Access multiple elements
print(series_1[[1, 2, 3]])

1    5
2    6
3    3
Name: Mango, dtype: int64


In [13]:
# Access elements based on one condition
print(series_1[series_1 > 3])

0    4
1    5
2    6
Name: Mango, dtype: int64


In [14]:
# Access elements based on multiple conditions
print(series_1[(series_1 > 3) & (series_1 < 6)])

0    4
1    5
Name: Mango, dtype: int64


###  4.2. In Dataframe

In [15]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
22165,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
22166,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
22167,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
22168,Яйцо для Little Inu,22168,62


####  Access elements by columns

In [16]:
# Show all columns in dataframe
test_df.columns

Index(['item_name', 'item_id', 'item_category_id'], dtype='object')

In [17]:
# Access elements from one column in dataframe
test_df['item_name']

0                ! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.)         D
1        !ABBYY FineReader 12 Professional Edition Full...
2            ***В ЛУЧАХ СЛАВЫ   (UNV)                    D
3          ***ГОЛУБАЯ ВОЛНА  (Univ)                      D
4              ***КОРОБКА (СТЕКЛО)                       D
                               ...                        
22165               Ядерный титбит 2 [PC, Цифровая версия]
22166      Язык запросов 1С:Предприятия  [Цифровая версия]
22167    Язык запросов 1С:Предприятия 8 (+CD). Хрустале...
22168                                  Яйцо для Little Inu
22169                        Яйцо дракона (Игра престолов)
Name: item_name, Length: 22170, dtype: object

In [18]:
# Access elements from multiple columns in dataframe
test_df[['item_id', 'item_category_id']]

Unnamed: 0,item_id,item_category_id
0,0,40
1,1,76
2,2,40
3,3,40
4,4,40
...,...,...
22165,22165,31
22166,22166,54
22167,22167,49
22168,22168,62


####  Access elements by rows

In [19]:
# Access a row in dataframe
test_df.loc[1]

item_name           !ABBYY FineReader 12 Professional Edition Full...
item_id                                                             1
item_category_id                                                   76
Name: 1, dtype: object

In [20]:
# Access multiple rows in dataframe
test_df.loc[[1, 2, 22168]]

Unnamed: 0,item_name,item_id,item_category_id
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
22168,Яйцо для Little Inu,22168,62


####  Access elements by conditions

In [21]:
# Access elements by condition in dataframe
test_df[test_df.item_id > 1000]

Unnamed: 0,item_name,item_id,item_category_id
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,67
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,67
...,...,...,...
22165,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
22166,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
22167,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
22168,Яйцо для Little Inu,22168,62


In [22]:
# Access elements by multiple conditions in dataframe
test_df[(test_df.item_id > 1000) & (test_df.item_id < 2345)]

Unnamed: 0,item_name,item_id,item_category_id
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,67
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,67
...,...,...,...
2340,Call of Juarez: Bound in Blood (Essentials) [P...,2340,19
2341,"Call of Juarez: Gunslinger [PC, Jewel, русские...",2341,30
2342,Call of Juarez: Картель Limited Edition [Xbox ...,2342,23
2343,"Call of Juarez: Картель [PC, Jewel, русская ве...",2343,30


In [23]:
# Access elements by multiple conditions in dataframe
test_df[(test_df.item_id > 1000) & (test_df.item_id < 2345) & (test_df.item_category_id == 12)]

Unnamed: 0,item_name,item_id,item_category_id


## 5. Functions with dataframe

### 5.1. Basic functions

#### Delete one row or column by `drop()`

In [73]:
short_test_df = test_df.loc[1000:1010]
short_test_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"3D Action Puzzle ""Зомби"" Уборщик",1000,67
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,67
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,67
1006,3D Crystal Puzzle Дельфин XL,1006,67
1007,3D Crystal Puzzle Замок XL,1007,67
1008,3D Crystal Puzzle Заяц L,1008,67
1009,3D Crystal Puzzle Капля L Светильник,1009,67


In [74]:
# Delete one row by index
new_df = short_test_df.drop(index=1000, axis=1)
new_df

Unnamed: 0,item_name,item_id,item_category_id
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,67
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,67
1006,3D Crystal Puzzle Дельфин XL,1006,67
1007,3D Crystal Puzzle Замок XL,1007,67
1008,3D Crystal Puzzle Заяц L,1008,67
1009,3D Crystal Puzzle Капля L Светильник,1009,67
1010,3D Crystal Puzzle Клубника L Светильник,1010,67


In [75]:
# Delete multiple rows by index
new_df = short_test_df.drop(index=[1001, 1003, 1005, 1007, 1009], axis=1)
new_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"3D Action Puzzle ""Зомби"" Уборщик",1000,67
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
1006,3D Crystal Puzzle Дельфин XL,1006,67
1008,3D Crystal Puzzle Заяц L,1008,67
1010,3D Crystal Puzzle Клубника L Светильник,1010,67


In [76]:
# Delete one column by column name
new_df = short_test_df.drop(columns='item_name')
new_df

Unnamed: 0,item_id,item_category_id
1000,1000,67
1001,1001,67
1002,1002,67
1003,1003,67
1004,1004,67
1005,1005,67
1006,1006,67
1007,1007,67
1008,1008,67
1009,1009,67


In [77]:
# Delete multiple columns by column name
new_df = short_test_df.drop(columns=['item_name', 'item_category_id'])
new_df

Unnamed: 0,item_id
1000,1000
1001,1001
1002,1002
1003,1003
1004,1004
1005,1005
1006,1006
1007,1007
1008,1008
1009,1009


#### Drop duplicate row base on columns by `drop_duplicates()`

In [113]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
22165,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
22166,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
22167,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
22168,Яйцо для Little Inu,22168,62


In [115]:
test_df.drop_duplicates(subset='item_category_id')

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
12,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55
27,"007 Legends [PS3, русская версия]",27,19
28,"007 Legends [PС, Jewel, русская версия]",28,30
...,...,...,...
16834,Открытка Лакарт КОД 5 (в ассортименте),16834,50
17703,Правила дорожного движения 2009. Новейшая мето...,17703,51
17717,Прием денежных средств для 1С-Онлайн,17717,79
19700,ТОЛСТАЯ Е. Адмиралъ,19700,53


#### Process NULL value by `dropna()` and `fillna()`

In [78]:
import numpy as np

nan_df = pd.DataFrame(data={
    'name': ['Minh', np.nan, 'Hieu'],
    'age': [24, 30, None],
    'job': ['DS', 'DA', 'DE']
})
nan_df

Unnamed: 0,name,age,job
0,Minh,24.0,DS
1,,30.0,DA
2,Hieu,,DE


In [79]:
# Drop nan values by row
new_df = nan_df.dropna(axis=0)
new_df

Unnamed: 0,name,age,job
0,Minh,24.0,DS


In [80]:
# Drop nan values by columns
new_df = nan_df.dropna(axis=1)
new_df

Unnamed: 0,job
0,DS
1,DA
2,DE


In [81]:
# Fill all nan values with one specific value
new_df = nan_df.fillna(-1)
new_df

Unnamed: 0,name,age,job
0,Minh,24.0,DS
1,-1,30.0,DA
2,Hieu,-1.0,DE


In [82]:
# Fill nan values according to columns
new_df = nan_df.fillna({
    'name': 'Thao Anh',
    'age': -99,
    'job': 'student'
})
new_df

Unnamed: 0,name,age,job
0,Minh,24.0,DS
1,Thao Anh,30.0,DA
2,Hieu,-99.0,DE


#### Modify elements in dataframe by `apply()`

In [84]:
short_test_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"3D Action Puzzle ""Зомби"" Уборщик",1000,67
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,67
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,67
1006,3D Crystal Puzzle Дельфин XL,1006,67
1007,3D Crystal Puzzle Замок XL,1007,67
1008,3D Crystal Puzzle Заяц L,1008,67
1009,3D Crystal Puzzle Капля L Светильник,1009,67


In [86]:
short_test_df.item_category_id = short_test_df.item_category_id.apply(float)
short_test_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,item_name,item_id,item_category_id
1000,"3D Action Puzzle ""Зомби"" Уборщик",1000,67.0
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,67.0
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67.0
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,67.0
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67.0
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,67.0
1006,3D Crystal Puzzle Дельфин XL,1006,67.0
1007,3D Crystal Puzzle Замок XL,1007,67.0
1008,3D Crystal Puzzle Заяц L,1008,67.0
1009,3D Crystal Puzzle Капля L Светильник,1009,67.0


In [87]:
short_test_df.item_category_id = short_test_df.item_category_id.apply(lambda x: (x + 1) / 2)
short_test_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,item_name,item_id,item_category_id
1000,"3D Action Puzzle ""Зомби"" Уборщик",1000,34.0
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,34.0
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,34.0
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,34.0
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,34.0
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,34.0
1006,3D Crystal Puzzle Дельфин XL,1006,34.0
1007,3D Crystal Puzzle Замок XL,1007,34.0
1008,3D Crystal Puzzle Заяц L,1008,34.0
1009,3D Crystal Puzzle Капля L Светильник,1009,34.0


In [88]:
def plus_1_divide_2(x):
    return (x + 1) / 2

short_test_df.item_category_id = short_test_df.item_category_id.apply(plus_1_divide_2)
short_test_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,item_name,item_id,item_category_id
1000,"3D Action Puzzle ""Зомби"" Уборщик",1000,17.5
1001,"3D Action Puzzle ""Зомби"" Шахтер",1001,17.5
1002,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,17.5
1003,"3D Action Puzzle ""Техника"" Вертолет",1003,17.5
1004,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,17.5
1005,"3D Action Puzzle ""Техника"" Истребитель",1005,17.5
1006,3D Crystal Puzzle Дельфин XL,1006,17.5
1007,3D Crystal Puzzle Замок XL,1007,17.5
1008,3D Crystal Puzzle Заяц L,1008,17.5
1009,3D Crystal Puzzle Капля L Светильник,1009,17.5


### 5.2. Advanced functions

In [106]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
22165,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
22166,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
22167,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
22168,Яйцо для Little Inu,22168,62


#### Aggregate data by `groupby()` and `agg()`

In [107]:
new_df = test_df.groupby(by='item_category_id')
new_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1106c7640>

In [108]:
new_df = new_df.agg({'item_name': list, 'item_id': list})
new_df

Unnamed: 0_level_0,item_name,item_id
item_category_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,[PC: Гарнитура HyperX Cloud Core игровая стере...,"[5441, 16255, 16256, 16257]"
1,[PS2: Карта памяти 8 Мб черная (Memory Card 8M...,"[5606, 5740]"
2,"[PS Move Controller (Контроллер движений), PS ...","[5570, 5571, 5572, 5573, 5574, 5575, 5576, 560..."
3,[PS4/PS3: Гарнитура Tritton Kunai стерео прово...,"[5652, 5653, 5654, 5655, 5656, 5657, 5658, 565..."
4,[Black Horns PSP Slim Джинсовый чехол серый (B...,"[1955, 1956, 1957, 1958, 3111, 3666, 3667, 366..."
...,...,...
79,[Прием денежных средств для 1С-Онлайн],[17717]
80,"[Билет ""ИгроМир 2015"" - 2 октября 2015 (сайт) ...","[9244, 9246, 9248, 9250, 9252, 9254]"
81,[Компактдиск Mirex CD-R printable inkjet 48x C...,"[13346, 13347, 13349, 13352, 13355, 13356, 13358]"
82,[Компактдиск Mirex CD-R 700 Мб 48x Slim case P...,"[13344, 13345, 13348, 13350, 13351, 13353, 133..."


In [110]:
new_df = new_df.reset_index()
new_df

Unnamed: 0,item_category_id,item_name,item_id
0,0,[PC: Гарнитура HyperX Cloud Core игровая стере...,"[5441, 16255, 16256, 16257]"
1,1,[PS2: Карта памяти 8 Мб черная (Memory Card 8M...,"[5606, 5740]"
2,2,"[PS Move Controller (Контроллер движений), PS ...","[5570, 5571, 5572, 5573, 5574, 5575, 5576, 560..."
3,3,[PS4/PS3: Гарнитура Tritton Kunai стерео прово...,"[5652, 5653, 5654, 5655, 5656, 5657, 5658, 565..."
4,4,[Black Horns PSP Slim Джинсовый чехол серый (B...,"[1955, 1956, 1957, 1958, 3111, 3666, 3667, 366..."
...,...,...,...
79,79,[Прием денежных средств для 1С-Онлайн],[17717]
80,80,"[Билет ""ИгроМир 2015"" - 2 октября 2015 (сайт) ...","[9244, 9246, 9248, 9250, 9252, 9254]"
81,81,[Компактдиск Mirex CD-R printable inkjet 48x C...,"[13346, 13347, 13349, 13352, 13355, 13356, 13358]"
82,82,[Компактдиск Mirex CD-R 700 Мб 48x Slim case P...,"[13344, 13345, 13348, 13350, 13351, 13353, 133..."


#### Join two dataframes by using `pd.merge()`
<img src="image/pd_merge.png" width="400px"/>

In [124]:
# Create dummy dataframe
# index % 2 == 0
dummy_1_df = test_df.loc[list(range(0, len(test_df) - 1, 2))]
dummy_1_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
4,***КОРОБКА (СТЕКЛО) D,4,40
6,***УДАР ПО ВОРОТАМ (UNI) D,6,40
8,***ЧАЙ С МУССОЛИНИ D,8,40
...,...,...,...
22160,ЯРМАРКА ТЩЕСЛАВИЯ (Регион),22160,40
22162,ЯРОСТЬ,22162,40
22164,ЯРОСТЬ (BD),22164,37
22166,Язык запросов 1С:Предприятия [Цифровая версия],22166,54


In [125]:
# Create dummy dataframe
# index % 3 == 0
dummy_2_df = test_df.loc[list(range(0, len(test_df) - 1, 3))]
dummy_2_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
6,***УДАР ПО ВОРОТАМ (UNI) D,6,40
9,***ШУГАРЛЭНДСКИЙ ЭКСПРЕСС (UNI) D,9,40
12,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55
...,...,...,...
22155,"ЯДЫ, ИЛИ ВСЕМИРНАЯ ИСТОРИЯ ОТРАВЛЕНИЙ (BD)",22155,37
22158,ЯМА (rem),22158,40
22161,ЯРОСЛАВ. ТЫСЯЧУ ЛЕТ НАЗАД э (BD),22161,37
22164,ЯРОСТЬ (BD),22164,37


In [127]:
merged_df = pd.merge(dummy_1_df, dummy_2_df, how='inner', on='item_id')
merged_df

Unnamed: 0,item_name_x,item_id,item_category_id_x,item_name_y,item_category_id_y
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,40
1,***УДАР ПО ВОРОТАМ (UNI) D,6,40,***УДАР ПО ВОРОТАМ (UNI) D,40
2,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,55
3,/БОМБА ДЛЯ НЕВЕСТЫ /2DVD/ D,18,40,/БОМБА ДЛЯ НЕВЕСТЫ /2DVD/ D,40
4,/СМЕРТЕЛЬНЫЙ РАСКЛАД,24,40,/СМЕРТЕЛЬНЫЙ РАСКЛАД,40
...,...,...,...,...,...
3690,"Я, РОБОТ (BD)",22140,37,"Я, РОБОТ (BD)",37
3691,Я-ЛЕГЕНДА WB (BD),22146,37,Я-ЛЕГЕНДА WB (BD),37
3692,ЯВЛЕНИЕ (2012) (регион),22152,40,ЯВЛЕНИЕ (2012) (регион),40
3693,ЯМА (rem),22158,40,ЯМА (rem),40
