# LESSON 4: PANDAS INTRODUCTION
<img src="../images/pd_logo.png" width="400px"/>

## 1. Overall introduction
**pandas** is a Python package providing **fast, flexible, and expressive data structures** designed to make working with **“relational” or “labeled” data both easy and intuitive**.

**pandas** is well suited for many different kinds of data:
- **Tabular data** with heterogeneously-typed columns, as in an SQL table or Excel spreadsheet
- Ordered and unordered (not necessarily fixed-frequency) **time series data**.
- **Arbitrary matrix data** (homogeneously typed or heterogeneous) with row and column labels
- Any other form of **observational / statistical data** sets. The data need not be labeled at all to be placed into a pandas data structure

More detail about pandas can be found in this official [document](https://pandas.pydata.org/docs/user_guide/index.html).


## 2. Install and import pandas
Install pandas by running this command in jupyter notebook: 
`!conda install -c anaconda pandas -y`

In [1]:
import pandas as pd

## 3. Data structures in pandas
There are two main data structures in pandas: **SERIES** and **DATAFRAME**. <br>
<img src="../images/pd_series_df.png" width="600px"/>

### 3.1. Series
**Series** is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). <br>
Checkout all arguments of pandas.Series [here](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [2]:
# Init a pandas series without name
number_list = [4, 5, 6, 3, 1]

series_1 = pd.Series(data=number_list)
print(series_1, '\n', type(series_1))

0    4
1    5
2    6
3    3
4    1
dtype: int64 
 <class 'pandas.core.series.Series'>


In [3]:
# Init a pandas series with name
number_list = [4, 5, 6, 3, 1]

series_1 = pd.Series(data=number_list, name='Mango')
print(series_1, '\n', type(series_1))

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64 
 <class 'pandas.core.series.Series'>


In [4]:
series_2 = pd.Series(data=[5, 4, 3, 0, 2], name='Apple')
series_3 = pd.Series(data=[2, 3, 5, 2, 7], name='Banana')

print(series_2, '\n', type(series_2))
print(series_3, '\n', type(series_3))

0    5
1    4
2    3
3    0
4    2
Name: Apple, dtype: int64 
 <class 'pandas.core.series.Series'>
0    2
1    3
2    5
3    2
4    7
Name: Banana, dtype: int64 
 <class 'pandas.core.series.Series'>


### 3.2. Dataframe
#### 3.2.1. Create dataframe from Series, list or dict

In [5]:
# Create dataframe from ONE Series
test_df = pd.DataFrame(series_1)
print(test_df, '\n', type(test_df))

   Mango
0      4
1      5
2      6
3      3
4      1 
 <class 'pandas.core.frame.DataFrame'>


In [6]:
# Create dataframe from multiple Series
test_df = pd.concat([series_1, series_2, series_3], axis=1)
print(test_df, '\n', type(test_df))

   Mango  Apple  Banana
0      4      5       2
1      5      4       3
2      6      3       5
3      3      0       2
4      1      2       7 
 <class 'pandas.core.frame.DataFrame'>


In [7]:
# Create dataframe from dict
data_dict = {
    'Mango': [4, 5, 6, 3, 1],
    'Apple': [5, 4, 3, 0, 2],
    'Banana': [2, 3, 5, 2, 7]
}
test_df = pd.DataFrame(data_dict)
print(test_df, '\n', type(test_df))

   Mango  Apple  Banana
0      4      5       2
1      5      4       3
2      6      3       5
3      3      0       2
4      1      2       7 
 <class 'pandas.core.frame.DataFrame'>


#### 3.2.2. Create dataframe by reading from csv or xlsx file
##### Read from CSV file

In [25]:
test_df = pd.read_csv('../data/predict_future_sales/items_list_1.csv')
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


##### Read from XLSX file
To read `.xlsx` file by pandas, we have to install dependency (or engine):
- `xlrd` supports old-style Excel files (.xls).
- `openpyxl` supports newer Excel file formats.
- `odf` supports OpenDocument file formats (.odf, .ods, .odt).
- `pyxlsb` supports Binary Excel files.

In [None]:
!conda install -c anaconda openpyxl -y

In [None]:
# sheet_name=`integer` to load specific index sheet
test_df = pd.read_excel('data/predict_future_sales/data.xlsx', sheet_name=0, engine='openpyxl')

test_df

In [None]:
# sheet_name=`str` to load specific name sheet
test_df = pd.read_excel('data/predict_future_sales/data.xlsx', sheet_name='item_categories', engine='openpyxl')

test_df

In [None]:
# sheet_name=`list` (list of `integer` or `str`) to load multiple sheets into a `dict`
test_df = pd.read_excel('data/predict_future_sales/data.xlsx', sheet_name=[2, 'items'], engine='openpyxl')

test_df

In [None]:
# sheet_name=`None` to load all sheets into a `dict`
test_df = pd.read_excel('data/predict_future_sales/data.xlsx', sheet_name=None, engine='openpyxl')

test_df

## 4. Access element in Series and Dataframe
###  4.1. In Series

In [9]:
print(series_1)

# Access one element
print(series_1[2])

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64
6


In [11]:
# Access multiple elements
print(series_1[[1, 2, 3]])

1    5
2    6
3    3
Name: Mango, dtype: int64


In [12]:
# Access elements based on one condition
print(series_1[series_1 > 3])

0    4
1    5
2    6
Name: Mango, dtype: int64


In [13]:
# Access elements based on multiple conditions
print(series_1[(series_1 > 3) & (series_1 < 6)])

0    4
1    5
Name: Mango, dtype: int64


###  4.2. In Dataframe

In [14]:
test_df

Unnamed: 0,Mango,Apple,Banana
0,4,5,2
1,5,4,3
2,6,3,5
3,3,0,2
4,1,2,7


####  Access elements by columns

In [15]:
# Show all columns in dataframe
test_df.columns

Index(['Mango', 'Apple', 'Banana'], dtype='object')

In [16]:
# Access elements from one column in dataframe
test_df['Mango']

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64

In [17]:
# Access elements from multiple columns in dataframe
test_df[['Apple', 'Banana']]

Unnamed: 0,Apple,Banana
0,5,2
1,4,3
2,3,5
3,0,2
4,2,7


####  Access elements by rows

In [18]:
# Access a row in dataframe
test_df.loc[1]

Mango     5
Apple     4
Banana    3
Name: 1, dtype: int64

In [21]:
# Access multiple rows in dataframe
test_df.loc[[1, 2, 4]]

Unnamed: 0,Mango,Apple,Banana
1,5,4,3
2,6,3,5
4,1,2,7


####  Access elements by conditions

In [26]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


In [27]:
# Access elements by condition in dataframe
test_df[test_df.item_id > 1000]

Unnamed: 0,item_name,item_id,item_category_id
555,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
556,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
557,"3D Action Puzzle ""Техника"" Вертолет",1003,67
558,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
559,"3D Action Puzzle ""Техника"" Истребитель",1005,67
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


In [28]:
# Access elements by multiple conditions in dataframe
test_df[(test_df.item_id > 1000) & (test_df.item_id < 2345)]

Unnamed: 0,item_name,item_id,item_category_id
555,"3D Action Puzzle ""Зомби"" Шахтер",1001,67
556,"3D Action Puzzle ""Техника"" Бомбардировщик",1002,67
557,"3D Action Puzzle ""Техника"" Вертолет",1003,67
558,"3D Action Puzzle ""Техника"" Гоночная машинка",1004,67
559,"3D Action Puzzle ""Техника"" Истребитель",1005,67
...,...,...,...
1894,Call of Juarez: Bound in Blood (Essentials) [P...,2340,19
1895,"Call of Juarez: Gunslinger [PC, Jewel, русские...",2341,30
1896,Call of Juarez: Картель Limited Edition [Xbox ...,2342,23
1897,"Call of Juarez: Картель [PC, Jewel, русская ве...",2343,30


In [29]:
# Access elements by multiple conditions in dataframe
test_df[(test_df.item_id > 1000) & (test_df.item_id < 2345) & (test_df.item_category_id == 12)]

Unnamed: 0,item_name,item_id,item_category_id


## 5. Functions with dataframe

### 5.1. Basic functions

#### Delete one row or column by `drop()`

In [41]:
short_test_df = test_df.loc[1000:1010]
short_test_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,23
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,30
1002,"Arma lll [PC, русские субтитры]",1448,28
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,30
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,28
1005,"Armored Core V [PS3, русская документация]",1451,19
1006,"Armored Core V [Xbox 360, русская документация]",1452,23
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,19
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,23
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,22


In [43]:
# Delete one row by index
new_df = short_test_df.drop(index=1000)
new_df

Unnamed: 0,item_name,item_id,item_category_id
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,30
1002,"Arma lll [PC, русские субтитры]",1448,28
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,30
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,28
1005,"Armored Core V [PS3, русская документация]",1451,19
1006,"Armored Core V [Xbox 360, русская документация]",1452,23
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,19
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,23
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,22
1010,Army of Two (Classics) [Xbox 360. английская в...,1456,23


In [34]:
# Delete multiple rows by index
new_df = short_test_df.drop(index=[1001, 1003, 1005, 1007, 1009], axis=1)
new_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,23
1002,"Arma lll [PC, русские субтитры]",1448,28
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,28
1006,"Armored Core V [Xbox 360, русская документация]",1452,23
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,23
1010,Army of Two (Classics) [Xbox 360. английская в...,1456,23


In [44]:
# Delete one column by column name
new_df = short_test_df.drop(columns='item_name')
new_df

Unnamed: 0,item_id,item_category_id
1000,1446,23
1001,1447,30
1002,1448,28
1003,1449,30
1004,1450,28
1005,1451,19
1006,1452,23
1007,1453,19
1008,1454,23
1009,1455,22


In [36]:
# Delete multiple columns by column name
new_df = short_test_df.drop(columns=['item_name', 'item_category_id'])
new_df

Unnamed: 0,item_id
1000,1446
1001,1447
1002,1448
1003,1449
1004,1450
1005,1451
1006,1452
1007,1453
1008,1454
1009,1455


#### Drop duplicate row base on columns by `drop_duplicates()`

In [45]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


In [46]:
test_df.drop_duplicates()

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


In [48]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


In [47]:
test_df.drop_duplicates(subset='item_category_id')

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
12,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55
27,"007 Legends [PS3, русская версия]",27,19
28,"007 Legends [PС, Jewel, русская версия]",28,30
...,...,...,...
6868,"Комплект ""Microsoft Xbox One 1TB (CoD:AW) + ""...",13401,16
7220,Курьерская доставка (Boxberry),13753,9
9722,Наушники PHILIPS SBC HC8680,16255,0
10301,Открытка Лакарт КОД 5 (в ассортименте),16834,50


#### Process NULL value by `dropna()` and `fillna()`

In [50]:
import numpy as np

nan_df = pd.DataFrame(data={
    'name': ['Minh', np.nan, 'Hieu'],
    'age': [None, 30, None],
    'job': ['DS', 'DA', 'DE']
})
nan_df

Unnamed: 0,name,age,job
0,Minh,,DS
1,,30.0,DA
2,Hieu,,DE


In [51]:
# Drop nan values by row
new_df = nan_df.dropna(axis=0)
new_df

Unnamed: 0,name,age,job


In [52]:
# Drop nan values by columns
new_df = nan_df.dropna(axis=1)
new_df

Unnamed: 0,job
0,DS
1,DA
2,DE


In [54]:
# Fill all nan values with one specific value
new_df = nan_df.fillna('nan_value')
# new_1_df = new_df.fillna({
#     'age': -99
# })
new_df

Unnamed: 0,name,age,job
0,Minh,nan_value,DS
1,nan_value,30,DA
2,Hieu,nan_value,DE


In [55]:
nan_df

Unnamed: 0,name,age,job
0,Minh,,DS
1,,30.0,DA
2,Hieu,,DE


In [56]:
# Fill nan values according to columns
new_df = nan_df.fillna({
    'name': 'Thao Anh',
    'age': -99,
    'job': 'student'
})
new_df

Unnamed: 0,name,age,job
0,Minh,-99.0,DS
1,Thao Anh,30.0,DA
2,Hieu,-99.0,DE


In [57]:
new_df.loc[new_df.name == 'Minh', 'name'] = np.nan
new_df

Unnamed: 0,name,age,job
0,,-99.0,DS
1,Thao Anh,30.0,DA
2,Hieu,-99.0,DE


#### Modify elements in dataframe by `apply()`

In [58]:
short_test_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,23
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,30
1002,"Arma lll [PC, русские субтитры]",1448,28
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,30
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,28
1005,"Armored Core V [PS3, русская документация]",1451,19
1006,"Armored Core V [Xbox 360, русская документация]",1452,23
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,19
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,23
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,22


In [59]:
short_test_df.item_category_id = short_test_df.item_category_id.apply(float)
short_test_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,23.0
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,30.0
1002,"Arma lll [PC, русские субтитры]",1448,28.0
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,30.0
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,28.0
1005,"Armored Core V [PS3, русская документация]",1451,19.0
1006,"Armored Core V [Xbox 360, русская документация]",1452,23.0
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,19.0
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,23.0
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,22.0


In [60]:
short_test_df.item_category_id = short_test_df.item_category_id.apply(lambda x: (x + 1) / 2)
short_test_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,12.0
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,15.5
1002,"Arma lll [PC, русские субтитры]",1448,14.5
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,15.5
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,14.5
1005,"Armored Core V [PS3, русская документация]",1451,10.0
1006,"Armored Core V [Xbox 360, русская документация]",1452,12.0
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,10.0
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,12.0
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,11.5


In [61]:
def plus_1_divide_2(x):
    return (x + 1) / 2

short_test_df.item_category_id = short_test_df.item_category_id.apply(plus_1_divide_2)
short_test_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,6.5
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,8.25
1002,"Arma lll [PC, русские субтитры]",1448,7.75
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,8.25
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,7.75
1005,"Armored Core V [PS3, русская документация]",1451,5.5
1006,"Armored Core V [Xbox 360, русская документация]",1452,6.5
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,5.5
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,6.5
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,6.25


#### Save a dataframe to csv file by using `to_csv()`

In [64]:
short_test_df

Unnamed: 0,item_name,item_id,item_category_id
1000,"Arcania. The Complete Tale [Xbox 360, английск...",1446,6.5
1001,"Arma II: Второй фронт [PC, Jewel, русские субт...",1447,8.25
1002,"Arma lll [PC, русские субтитры]",1448,7.75
1003,"Arma lll [PС, Jewel, русские субтитры]",1449,8.25
1004,"Arma lll. Специальное издание [PС, русские суб...",1450,7.75
1005,"Armored Core V [PS3, русская документация]",1451,5.5
1006,"Armored Core V [Xbox 360, русская документация]",1452,6.5
1007,"Armored Core: Verdict Day [PS3, английская вер...",1453,5.5
1008,"Armored Core: Verdict Day [Xbox360, английская...",1454,6.5
1009,"Army Corps of Hell [PS Vita, английская версия]",1455,6.25


In [65]:
short_test_df.to_csv('short_test_df.csv', index=False)

### 5.2. Advanced functions

In [79]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


#### Aggregate data by `groupby()` and `agg()`

In [80]:
new_df = test_df.groupby(by='item_category_id')
new_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fbbe115aeb0>

In [81]:
new_df = new_df.agg({'item_name': list, 'item_id': sum})
new_df

Unnamed: 0_level_0,item_name,item_id
item_category_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,"[Наушники PHILIPS SBC HC8680, Наушники RITMIX ...",48768
2,[Thrustmaster. F1 Wireless Gamepad Ferrari 150...,236376
3,[Кабель универсальный HDMI Artplays 2 м (ver. ...,13071
4,[Black Horns PSP Slim Джинсовый чехол серый (B...,37140
6,[THRUSTMASTER Геймпад GPX черный (PC/ Xbox 360...,39094
...,...,...
77,[1С:Бизнес-курс. Анализ финансовой отчетности....,238776
78,"[100 чудес России [PC, Цифровая версия], 1C:Шк...",1147216
80,"[Билет ""ИгроМир 2015"" - 2 октября 2015 (сайт) ...",55494
81,[Компактдиск Mirex CD-R printable inkjet 48x C...,93463


In [82]:
new_df = new_df.reset_index()
new_df

Unnamed: 0,item_category_id,item_name,item_id
0,0,"[Наушники PHILIPS SBC HC8680, Наушники RITMIX ...",48768
1,2,[Thrustmaster. F1 Wireless Gamepad Ferrari 150...,236376
2,3,[Кабель универсальный HDMI Artplays 2 м (ver. ...,13071
3,4,[Black Horns PSP Slim Джинсовый чехол серый (B...,37140
4,6,[THRUSTMASTER Геймпад GPX черный (PC/ Xbox 360...,39094
...,...,...,...
72,77,[1С:Бизнес-курс. Анализ финансовой отчетности....,238776
73,78,"[100 чудес России [PC, Цифровая версия], 1C:Шк...",1147216
74,80,"[Билет ""ИгроМир 2015"" - 2 октября 2015 (сайт) ...",55494
75,81,[Компактдиск Mirex CD-R printable inkjet 48x C...,93463


#### Join two dataframes by using `pd.merge()`
<img src="../images/pd_merge.png" width="400px"/>

In [83]:
test_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40
...,...,...,...
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54
13787,Язык запросов 1С:Предприятия 8 (+CD). Хрустале...,22167,49
13788,Яйцо для Little Inu,22168,62


In [84]:
# Create dummy dataframe
# index % 2 == 0
dummy_1_df = test_df.loc[list(range(0, len(test_df) - 1, 2))]
dummy_1_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
4,***КОРОБКА (СТЕКЛО) D,4,40
6,***УДАР ПО ВОРОТАМ (UNI) D,6,40
8,***ЧАЙ С МУССОЛИНИ D,8,40
...,...,...,...
13780,ЯРМАРКА ТЩЕСЛАВИЯ (Регион),22160,40
13782,ЯРОСТЬ,22162,40
13784,ЯРОСТЬ (BD),22164,37
13786,Язык запросов 1С:Предприятия [Цифровая версия],22166,54


In [85]:
# Create dummy dataframe
# index % 3 == 0
dummy_2_df = test_df.loc[list(range(0, len(test_df) - 1, 3))]
dummy_2_df

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
6,***УДАР ПО ВОРОТАМ (UNI) D,6,40
9,***ШУГАРЛЭНДСКИЙ ЭКСПРЕСС (UNI) D,9,40
12,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55
...,...,...,...
13776,"ЯДЫ, ИЛИ ВСЕМИРНАЯ ИСТОРИЯ ОТРАВЛЕНИЙ (регион)",22156,40
13779,ЯНКОВСКИЙ,22159,40
13782,ЯРОСТЬ,22162,40
13785,"Ядерный титбит 2 [PC, Цифровая версия]",22165,31


In [86]:
merged_df = pd.merge(dummy_1_df, dummy_2_df, how='inner', on='item_id')
merged_df

Unnamed: 0,item_name_x,item_id,item_category_id_x,item_name_y,item_category_id_y
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,40
1,***УДАР ПО ВОРОТАМ (UNI) D,6,40,***УДАР ПО ВОРОТАМ (UNI) D,40
2,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,55
3,/БОМБА ДЛЯ НЕВЕСТЫ /2DVD/ D,18,40,/БОМБА ДЛЯ НЕВЕСТЫ /2DVD/ D,40
4,/СМЕРТЕЛЬНЫЙ РАСКЛАД,24,40,/СМЕРТЕЛЬНЫЙ РАСКЛАД,40
...,...,...,...,...,...
2294,Футболка Minecraft Powered by Redstone черная L,21181,61,Футболка Minecraft Powered by Redstone черная L,61
2295,Футболка Minecraft Three Creeper Moon черная S,21187,61,Футболка Minecraft Three Creeper Moon черная S,61
2296,"ЯДЫ, ИЛИ ВСЕМИРНАЯ ИСТОРИЯ ОТРАВЛЕНИЙ (регион)",22156,40,"ЯДЫ, ИЛИ ВСЕМИРНАЯ ИСТОРИЯ ОТРАВЛЕНИЙ (регион)",40
2297,ЯРОСТЬ,22162,40,ЯРОСТЬ,40


In [87]:
merged_df = pd.merge(dummy_1_df, dummy_2_df, how='left', on='item_id')
merged_df

Unnamed: 0,item_name_x,item_id,item_category_id_x,item_name_y,item_category_id_y
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,40.0
1,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40,,
2,***КОРОБКА (СТЕКЛО) D,4,40,,
3,***УДАР ПО ВОРОТАМ (UNI) D,6,40,***УДАР ПО ВОРОТАМ (UNI) D,40.0
4,***ЧАЙ С МУССОЛИНИ D,8,40,,
...,...,...,...,...,...
6890,ЯРМАРКА ТЩЕСЛАВИЯ (Регион),22160,40,,
6891,ЯРОСТЬ,22162,40,ЯРОСТЬ,40.0
6892,ЯРОСТЬ (BD),22164,37,,
6893,Язык запросов 1С:Предприятия [Цифровая версия],22166,54,,


In [88]:
merged_df = pd.merge(dummy_1_df, dummy_2_df, how='right', on='item_id')
merged_df

Unnamed: 0,item_name_x,item_id,item_category_id_x,item_name_y,item_category_id_y
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40.0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,40
1,,3,,***ГОЛУБАЯ ВОЛНА (Univ) D,40
2,***УДАР ПО ВОРОТАМ (UNI) D,6,40.0,***УДАР ПО ВОРОТАМ (UNI) D,40
3,,9,,***ШУГАРЛЭНДСКИЙ ЭКСПРЕСС (UNI) D,40
4,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,12,55.0,*МИХЕЙ И ДЖУМАНДЖИ Сука любовь,55
...,...,...,...,...,...
4592,"ЯДЫ, ИЛИ ВСЕМИРНАЯ ИСТОРИЯ ОТРАВЛЕНИЙ (регион)",22156,40.0,"ЯДЫ, ИЛИ ВСЕМИРНАЯ ИСТОРИЯ ОТРАВЛЕНИЙ (регион)",40
4593,,22159,,ЯНКОВСКИЙ,40
4594,ЯРОСТЬ,22162,40.0,ЯРОСТЬ,40
4595,,22165,,"Ядерный титбит 2 [PC, Цифровая версия]",31


In [89]:
merged_df = pd.merge(dummy_1_df, dummy_2_df, how='outer', on='item_id')
merged_df

Unnamed: 0,item_name_x,item_id,item_category_id_x,item_name_y,item_category_id_y
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40.0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,40.0
1,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40.0,,
2,***КОРОБКА (СТЕКЛО) D,4,40.0,,
3,***УДАР ПО ВОРОТАМ (UNI) D,6,40.0,***УДАР ПО ВОРОТАМ (UNI) D,40.0
4,***ЧАЙ С МУССОЛИНИ D,8,40.0,,
...,...,...,...,...,...
9188,,21178,,Футболка Minecraft One More Block черная M,61.0
9189,,21184,,Футболка Minecraft Run Away черная L,61.0
9190,,22153,,ЯВЛЕНИЕ (BD),37.0
9191,,22159,,ЯНКОВСКИЙ,40.0


In [90]:
merged_df = pd.merge(dummy_1_df, dummy_2_df, how='outer', on='item_id', indicator=True)
merged_df

Unnamed: 0,item_name_x,item_id,item_category_id_x,item_name_y,item_category_id_y,_merge
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40.0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,40.0,both
1,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40.0,,,left_only
2,***КОРОБКА (СТЕКЛО) D,4,40.0,,,left_only
3,***УДАР ПО ВОРОТАМ (UNI) D,6,40.0,***УДАР ПО ВОРОТАМ (UNI) D,40.0,both
4,***ЧАЙ С МУССОЛИНИ D,8,40.0,,,left_only
...,...,...,...,...,...,...
9188,,21178,,Футболка Minecraft One More Block черная M,61.0,right_only
9189,,21184,,Футболка Minecraft Run Away черная L,61.0,right_only
9190,,22153,,ЯВЛЕНИЕ (BD),37.0,right_only
9191,,22159,,ЯНКОВСКИЙ,40.0,right_only


## 6. Homework
### 6.1. Exercise 1:
Create dummy dataset which contains 5 data fields: "first_name", "last_name", "age", "job", "country" and 10 rows. (dataset contains 1 "country" named "Vietnam", 1 age is "20")

### 6.2. Exercise 2:
Create 5 Series for each field, after that, create a Dataframe from 5 Series, dump that Dataframe to csv file.

### 6.3. Exercise 3:
Read the csv file from excercise 2, add the string "my_first_name" in to each value in the "first_name", add the string "my_last_name" in to each value in the "last_name".

### 6.4. Exercise 4:
Print all rows whose "country" is "Vietnam", whose "country" is not "Vietnam", whose "age" is greater than "20", whose "age" is lower than or equal "20".