# Bài 5: Giới thiệu về PANDAS


![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png)

## I. GIỚI THIỆU

### 1. Pandas là gì? 

Pandas (viết tắt từ `Panel Data` -  bảng dữ liệu) là thư viện mã nguồn mở phục vụ cho việc phân tích và xử lý dữ liệu trong Python, được phát triển bởi Wes McKinney trong năm 2008. Thư viện này được thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (dạng bảng, đa chiều, ...) và dữ liệu chuỗi thời gian. Hiện nay, Pandas được sử dụng rộng rãi trong cả nghiên cứu lẫn phát triển các ứng dụng về khoa học dữ liệu.  


Pandas trở thành thư viện yêu thích của những nhà phân tích dữ liệu bởi:
- Pandas phù hợp với nhiều loại dữ liệu khác nhau:
    - Dữ liệu dạng bảng, như trong bảng SQL hoặc bảng tính Excel.
    - Dữ liệu chuỗi thời gian theo thứ tự và không có thứ tự.
    - Dữ liệu ma trận tùy ý với nhãn hàng và cột...
- Dễ dàng thao tác, phân tích, xử lý và trực quan hoá dữ liệu:
    - Khả năng xử lý dữ liệu mất mát (NaN,...), nhiễu, ...
    - Khả năng thay đổi kích thước: chèn và xóa cột, dòng
    - Khả năng căn chỉnh dữ liệu tự động và rõ ràng
    - Khả năng phân tách, gộp nối, chuyển đổi, định hình các tập dữ liệu 1 cách linh hoạt giúp cho việc tổng hợp và phân tích dữ liệu nhanh gọn, dễ dàng hơn.
    - Khả năng tải và lưu trữ dữ liệu theo nhiều format khác nhau: .csv, .txt, .excel, .pkl, .hdfs5, ...
    - Khả năng xử lí dữ liệu dạng chuỗi.
    - Khả năng tích hợp tốt với các thư viện khác của Python: SciPy, Matplotlib, Seaborn, Plotly, Sklearn, ...

### 2. Cài đặt

- Cài đặt khi tạo môi trường ảo:

`conda create -n hanh python=3.7 pandas`

- Cài đặt sau khi tạo xong môi trường ảo:

`conda install pandas`
hoặc 
`pip install pandas`

### 3 Import thư viện

In [1]:
import pandas as pd
%config Completer.use_jedi = False

**Reference**: 
- [Pandas Cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Python for Data Analysis](https://bedford-computing.co.uk/learning/wp-content/uploads/2015/10/Python-for-Data-Analysis.pdf)

## II. CÁC HÀM CƠ BẢN TRONG PANDAS

### 1. Objects trong Pandas

Trong Pandas, ta có 2 khái niệm:

- **DataFrames**: các bảng dữ liệu bao gồm nhiều hàng và nhiều cột, khởi tạo thông qua câu lệnh `pd.DataFrame()`
- **Series**: cột dữ liệu, khởi tạo thông qua câu lệnh `pd.Series()`

Bảng dữ liệu trong SQL gọi là bảng, Excel gọi là sheet, còn Python gọi đây là 1 DataFrame của Pandas.
Hiểu đơn giản, 1 cái Series là 1 cột của DataFrame. Ở mức máy tính thì Series là 1 object riêng và DataFrame là 1 object riêng. Tuy nhiên, có thể chuyển 1 Series thành DataFrame và chuyển DataFrame 1 cột thành Series.

![](https://media.geeksforgeeks.org/wp-content/cdn-uploads/creating_dataframe1.png)
![](https://analyticssavvy.com/wp-content/uploads/2020/05/series-and-dataframe.png)


#### 2.1 Khởi tạo 1 DataFrame

1. Tạo ra 1 DataFrame rỗng

In [2]:
df = pd.DataFrame() #create an empty dataframe
df

In [3]:
type(df)

pandas.core.frame.DataFrame

2. Tạo ra 1 DataFrame từ dict

In [4]:
dict1 = {'name':['MCI','Hanh', 'Long', 'Dat', 'Hoai'],
        'age':[10,11,12,14,15],
        'university':['MIT','Harvard','NYU','Paris13','MCU']}
df1 = pd.DataFrame(dict1, index=[f'student{i}' for i in range(1,6)])
df1

Unnamed: 0,name,age,university
student1,MCI,10,MIT
student2,Hanh,11,Harvard
student3,Long,12,NYU
student4,Dat,14,Paris13
student5,Hoai,15,MCU


3. Tạo ra 1 DataFrame từ list của list

In [5]:
li = [['MCI',10,'MIT'], ['Hanh',11,'Havard']]
df2 = pd.DataFrame(li, columns=['name', 'age', 'university'])
df2

Unnamed: 0,name,age,university
0,MCI,10,MIT
1,Hanh,11,Havard


4. Tạo ra 1 DataFrame từ zip

In [6]:
name = ['Zootop','Hanh', 'Long', 'Dat', 'Hoai']
age = [10,11,12,14,15]
tuple_li = list(zip(name, age))
df3 = pd.DataFrame(tuple_li,columns = ['Name', 'Age'])
df3

Unnamed: 0,Name,Age
0,MCI,10
1,Hanh,11
2,Long,12
3,Dat,14
4,Hoai,15


5. Tạo từ 1 chuỗi numpy

In [7]:
import numpy as np
df1 = pd.DataFrame(np.linspace(1,16,16).reshape(4,4), columns=['col1', 'col2','col3', 'col4'])
df1 = pd.DataFrame(np.linspace(1,16,16).reshape(4,4), columns=[f'col{i}' for i in range(1,5)])
df1

Unnamed: 0,col1,col2,col3,col4
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0
2,9.0,10.0,11.0,12.0
3,13.0,14.0,15.0,16.0


#### 2.2 Khởi tạo 1 Series

In [8]:
series = df2['name'] 
series

0     MCI
1    Hanh
Name: name, dtype: object

In [9]:
series = df2.name
series

0     MCI
1    Hanh
Name: name, dtype: object

**Đố vui**: Vì sao trong Pandas lại có 2 cách khác nhau để gọi 1 cột trong DataFrame?

In [10]:
series1 = pd.Series({'name':[1,2,3]})
series1

name    [1, 2, 3]
dtype: object

In [56]:
series2 = pd.Series(['M','C','I'], index=['Char1', 'Char2','Char3'], name='MCI')
series2

Char1    M
Char2    C
Char3    I
Name: MCI, dtype: object

In [58]:
series2 = pd.Series(np.array(['M','C','I']), index=['Char1', 'Char2','Char3'],name='MCI')
series2

Char1    M
Char2    C
Char3    I
Name: MCI, dtype: object

#### 2.3 Đọc/lưu 1 DataFrame

In [13]:
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
df.head(5)

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [14]:
df = pd.read_csv('../Assignments/Day 5/Ecommerce Purchases')
df.head(5)

Unnamed: 0,Address,Lot,AM or PM,Browser Info,Company,Credit Card,CC Exp Date,CC Security Code,CC Provider,Email,Job,IP Address,Language,Purchase Price
0,"16629 Pace Camp Apt. 448\nAlexisborough, NE 77...",46 in,PM,Opera/9.56.(X11; Linux x86_64; sl-SI) Presto/2...,Martinez-Herman,6011929061123406,02/20,900,JCB 16 digit,pdunlap@yahoo.com,"Scientist, product/process development",149.146.147.205,el,98.14
1,"9374 Jasmine Spurs Suite 508\nSouth John, TN 8...",28 rn,PM,Opera/8.93.(Windows 98; Win 9x 4.90; en-US) Pr...,"Fletcher, Richards and Whitaker",3337758169645356,11/18,561,Mastercard,anthony41@reed.com,Drilling engineer,15.160.41.51,fr,70.73
2,Unit 0065 Box 5052\nDPO AP 27450,94 vE,PM,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT ...,"Simpson, Williams and Pham",675957666125,08/19,699,JCB 16 digit,amymiller@morales-harrison.com,Customer service manager,132.207.160.22,de,0.95
3,"7780 Julia Fords\nNew Stacy, WA 45798",36 vm,PM,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0 ...,"Williams, Marshall and Buchanan",6011578504430710,02/24,384,Discover,brent16@olson-robinson.info,Drilling engineer,30.250.74.19,es,78.04
4,"23012 Munoz Drive Suite 337\nNew Cynthia, TX 5...",20 IE,AM,Opera/9.58.(X11; Linux x86_64; it-IT) Presto/2...,"Brown, Watson and Andrews",6011456623207998,10/25,678,Diners Club / Carte Blanche,christopherwright@gmail.com,Fine artist,24.140.33.94,es,77.82


### 2. Indexing

In [15]:
import seaborn as sns

In [16]:
tips_df = sns.load_dataset('tips') #seaborn-data github
tips_df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


Chọn tất cả các dòng (slicing):
- `loc`: location `df.loc[row_label,col_label]`, `series.loc[row_label]`
- `iloc`: index location `df.iloc[row_index,col_index]`, `series.iloc[row_index]`

Chọn 1 cell:
- `at`:  `df.at[row_label,col_label]`
- `iat`: `df.iat[row_index,col_index]`

In [17]:
tips_df.loc[1,'total_bill']

10.34

In [18]:
tips_df.loc[:5,:'sex']

Unnamed: 0,total_bill,tip,sex
0,16.99,1.01,Female
1,10.34,1.66,Male
2,21.01,3.5,Male
3,23.68,3.31,Male
4,24.59,3.61,Female
5,25.29,4.71,Male


In [19]:
tips_df.loc[1,] #tips_df.loc[1] 

total_bill     10.34
tip             1.66
sex             Male
smoker            No
day              Sun
time          Dinner
size               3
Name: 1, dtype: object

In [20]:
tips_df.iloc[:2,:5]

Unnamed: 0,total_bill,tip,sex,smoker,day
0,16.99,1.01,Female,No,Sun
1,10.34,1.66,Male,No,Sun


In [21]:
tips_df.at[1,'total_bill']

10.34

In [22]:
tips_df.iat[1,0]

10.34

In [23]:
tips_df['total_bill'].to_frame()

Unnamed: 0,total_bill
0,16.99
1,10.34
2,21.01
3,23.68
4,24.59
...,...
239,29.03
240,27.18
241,22.67
242,17.82


In [24]:
pd.DataFrame(tips_df['total_bill'])

Unnamed: 0,total_bill
0,16.99
1,10.34
2,21.01
3,23.68
4,24.59
...,...
239,29.03
240,27.18
241,22.67
242,17.82


In [25]:
tips_df[['total_bill']]

Unnamed: 0,total_bill
0,16.99
1,10.34
2,21.01
3,23.68
4,24.59
...,...
239,29.03
240,27.18
241,22.67
242,17.82


In [26]:
tips_df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [27]:
tips_df.tail(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


### 3. Masking

In [28]:
pd.options.display.max_rows = 300

In [29]:
tips_df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [30]:
pd.concat([tips_df.head(5),tips_df.tail(5)])

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [31]:
pd.concat([tips_df.iloc[:5],tips_df.iloc[-5:]])

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [32]:
# tips_df[tips_df['sex'] == 'Female']
tips_df.query("sex == 'Female'").head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
11,35.26,5.0,Female,No,Sun,Dinner,4


In [33]:
 tips_df[(tips_df['sex'] == 'Female') & (tips_df['smoker'] == 'Yes')].head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
67,3.07,1.0,Female,Yes,Sat,Dinner,1
72,26.86,3.14,Female,Yes,Sat,Dinner,2
73,25.28,5.0,Female,Yes,Sat,Dinner,2


### 5. Operations

#### 5.1 Groupby

![](https://blog.dask.org/images/split-apply-combine.png)

In [34]:
tips_df.groupby('sex').total_bill.mean()

sex
Male      20.744076
Female    18.056897
Name: total_bill, dtype: float64

In [35]:
tips_df['total_bill1'] = tips_df['total_bill'] + tips_df['tip']

In [36]:
tips_df.groupby('sex').total_bill1.mean()

sex
Male      23.833694
Female    20.890345
Name: total_bill1, dtype: float64

In [37]:
tips_df.groupby('sex').total_bill1.max()

sex
Male      60.81
Female    48.11
Name: total_bill1, dtype: float64

In [38]:
tips_df.groupby('sex').total_bill1.min()

sex
Male      9.00
Female    4.07
Name: total_bill1, dtype: float64

In [39]:
tips_df.groupby('sex').total_bill1.median()

sex
Male      21.77
Female    18.90
Name: total_bill1, dtype: float64

In [40]:
tips_df.groupby('sex').total_bill1.agg(lambda x:x.value_counts().index[0])

sex
Male      20.0
Female    15.0
Name: total_bill1, dtype: float64

In [41]:
tips_df.groupby('sex').agg({'total_bill':['mean','max'],'tip':['mean','max']})

Unnamed: 0_level_0,total_bill,total_bill,tip,tip
Unnamed: 0_level_1,mean,max,mean,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Male,20.744076,50.81,3.089618,10.0
Female,18.056897,44.3,2.833448,6.5


In [42]:
tips_df.groupby('sex').agg(mean_total_bill=('total_bill','mean'))

Unnamed: 0_level_0,mean_total_bill
sex,Unnamed: 1_level_1
Male,20.744076
Female,18.056897


In [43]:
tips_df.groupby(['sex','smoker'])[['total_bill','tip']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,22.2845,3.051167
Male,No,19.791237,3.113402
Female,Yes,17.977879,2.931515
Female,No,18.105185,2.773519


#### 5.2 Pivot

In [44]:
tips_df.sex.unique()

['Female', 'Male']
Categories (2, object): ['Male', 'Female']

In [45]:
tips_df.sex.nunique()

2

In [46]:
tips_df.sex.value_counts()

Male      157
Female     87
Name: sex, dtype: int64

In [47]:
tips_df.pivot_table(values='total_bill', index='day', columns='time',aggfunc='sum').plot.bar()

<AxesSubplot:xlabel='day'>

In [48]:
tips_df.pivot_table(values='total_bill', index='day', columns='time',aggfunc='sum').plot(kind='bar')

<AxesSubplot:xlabel='day'>

In [49]:
tips_df.pivot_table(values='total_bill', index='time', columns='day',aggfunc='sum').plot(kind='bar')

<AxesSubplot:xlabel='time'>

#### 5.3 Others

|Merge methods| SQL Join Name | Meaning| _merge|
|-|-|-|-|
|left| LEFT OUTER JOIN|Chỉ sử dụng keys bên trái|left_only|
|right| RIGHT OUTER JOIN|Chỉ sử dụng keys bên phải|right_only|
|outer|FULL OUTER JOIN|Sử dụng keys của cả 2 dataframes|both|
|inner|INNER JOIN|Chỉ sử dụng keys giao nhau của 2 dataframes|both|

![](https://lh3.googleusercontent.com/-n76c6dtr5sw/YBO5d-3PzGI/AAAAAAAAAh8/xiT6YIzePLEXArb8uU1f1vgg8JRXYeg8ACLcBGAsYHQ/image.png) 

In [50]:
tips_df.sort_values('tip', ascending=False)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,total_bill1
170,50.81,10.0,Male,Yes,Sat,Dinner,3,60.81
212,48.33,9.0,Male,No,Sat,Dinner,4,57.33
23,39.42,7.58,Male,No,Sat,Dinner,4,47.0
59,48.27,6.73,Male,No,Sat,Dinner,4,55.0
141,34.3,6.7,Male,No,Thur,Lunch,6,41.0
214,28.17,6.5,Female,Yes,Sat,Dinner,3,34.67
183,23.17,6.5,Male,Yes,Sun,Dinner,4,29.67
47,32.4,6.0,Male,No,Sun,Dinner,4,38.4
239,29.03,5.92,Male,No,Sat,Dinner,3,34.95
88,24.71,5.85,Male,No,Thur,Lunch,2,30.56


In [51]:
tips_df.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size',
       'total_bill1'],
      dtype='object')

In [52]:
left = tips_df.head(10)[['total_bill','tip']].reset_index()
right = tips_df.loc[5:15][['tip','sex']].reset_index()

In [53]:
left

Unnamed: 0,index,total_bill,tip
0,0,16.99,1.01
1,1,10.34,1.66
2,2,21.01,3.5
3,3,23.68,3.31
4,4,24.59,3.61
5,5,25.29,4.71
6,6,8.77,2.0
7,7,26.88,3.12
8,8,15.04,1.96
9,9,14.78,3.23


In [54]:
right

Unnamed: 0,index,tip,sex
0,5,4.71,Male
1,6,2.0,Male
2,7,3.12,Male
3,8,1.96,Male
4,9,3.23,Male
5,10,1.71,Male
6,11,5.0,Female
7,12,1.57,Male
8,13,3.0,Male
9,14,3.02,Female


In [55]:
left.merge(right, on=['index','tip'], how='left')

Unnamed: 0,index,total_bill,tip,sex
0,0,16.99,1.01,
1,1,10.34,1.66,
2,2,21.01,3.5,
3,3,23.68,3.31,
4,4,24.59,3.61,
5,5,25.29,4.71,Male
6,6,8.77,2.0,Male
7,7,26.88,3.12,Male
8,8,15.04,1.96,Male
9,9,14.78,3.23,Male
