In [2]:
%matplotlib inline
import matplotlib
import seaborn as sns
import numpy as np
matplotlib.rcParams['savefig.dpi'] = 144

# Pandas

Pandas là một thư viện phổ biến trong Python được sử dụng để làm việc với dữ liệu và phân tích dữ liệu. 
Loại dữ liệu chính của Pandas là các bảng dữ liệu (data frames), và chuỗi dữ liệu (Data series).
Các thao tác với dữ liệu  thể được sắp xếp, lọc, chọn, thêm mới dữ liệu và thực hiện nhiều thao tác khác trên dữ liệu.




In [3]:
import pandas as pd

In [18]:
?pd.DataFrame

**1. Tạo một data frame**

Để tạo một đối tượng dataframe trong Pandas, chúng ta có thể sử dụng hàm `pandas.DataFrame()`.

Các tham số của hàm này bao gồm dữ liệu (như một mảng NumPy hoặc một dictionary) và các tham số khác như tên các cột hoặc chỉ số của các dòng.

**2. Các hàm đọc file trong Pandas**

Pandas hỗ trợ đọc các file định dạng khác nhau và trả về kiểu dữ liệu dataframe. Các hàm thực hiện gồm có:

`read_csv`: đọc dữ liệu từ một file có định dạng (extension) .csv và trả về một DataFrame.

`read_excel`: đọc dữ liệu từ một file Excel và trả về một DataFrame.

`read_json`: đọc dữ liệu từ một file JSON và trả về một DataFrame.

`read_sql`: đọc dữ liệu từ một cơ sở dữ liệu SQL và trả về một DataFrame.

In [4]:
# Tạo df từ numpy array
random_data = np.random.random((4,3))
print(random_data)
df_random = pd.DataFrame(random_data, columns=['a', 'b', 'c'])
df_random

[[0.61517655 0.26984043 0.08845983]
 [0.49056838 0.06958108 0.92739476]
 [0.91460094 0.48079776 0.96546449]
 [0.79584098 0.49054109 0.31245058]]


Unnamed: 0,a,b,c
0,0.615177,0.26984,0.08846
1,0.490568,0.069581,0.927395
2,0.914601,0.480798,0.965464
3,0.795841,0.490541,0.312451


In [5]:
# Tạo DataFrame từ các dữ liệu dict of lists
d = {"col1": [1, 2,3,4], "col2": ["A","B", "X", "Y"]}
df_d = pd.DataFrame(data=d)
print(d, "\n", type(d) )
print(df_d, "\n", type(df_d))

{'col1': [1, 2, 3, 4], 'col2': ['A', 'B', 'X', 'Y']} 
 <class 'dict'>
   col1 col2
0     1    A
1     2    B
2     3    X
3     4    Y 
 <class 'pandas.core.frame.DataFrame'>


In [6]:
# Đọc từ file csv vào dataframe
df_csv = pd.read_csv("data/customers.csv")

**3. Một số hàm xem thông tin của Pandas DataFrame**

`dataframe.head()`: Hiển thị 5 dòng đầu tiên của bảng ghi; head(15) hiển thị 15 dòng đầu

`dataframe.tail(n)`: Trả về n dòng cuối cùng của dataframe.

`dataframe.shape`: Trả về tuple số dòng và số cột của dataframe.

`dataframe.size`: Kiểm tra kích thước của bảng ghi (số dòng x số cột)

`dataframe.columns`: Trả về danh sách tên cột của dataframe.

`dataframe.index`: Trả về chỉ số của các dòng của dataframe.

`dataframe.info()`: Hiển thị thông tin về dataframe, bao gồm số lượng giá trị không bị thiếu và kiểu dữ liệu của từng cột.

`dataframe.describe()`: Hiển thị thống kê mô tả cho dataframe, bao gồm số lượng, giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất, giá trị lớn nhất và các giá trị percentiles.

 

In [7]:
# Hiển thị kích thước của dataframe
df_csv.shape

(519, 3)

In [8]:
# Hiển thị danh sách tên cột của df
print(df_csv.columns)

Index(['id', 'name', 'billing_country'], dtype='object')


In [9]:
# hiển thị thông tin chi tiết các cột/columns của df
df_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               519 non-null    int64 
 1   name             519 non-null    object
 2   billing_country  519 non-null    object
dtypes: int64(1), object(2)
memory usage: 12.3+ KB


In [10]:
# Hiển thị các thống kê mô tả (đối với các cột dữ liệu số)cho df
df_csv.describe()

Unnamed: 0,id
count,519.0
mean,1073.188825
std,605.982618
min,1.0
25%,519.0
50%,1079.0
75%,1593.0
max,2096.0


**4. Một số thao tác xử lý dữ liệu trong dataframe**


*4.1. Truy cập phần tử của dataframe*

- Sử dụng dấu ngoặc vuông [] để truy cập vào một cột của DataFrame.  Vì `DataFrame` là `dict` của `Series`, nên chúng ta có thể chọn một cột và sau đó chọn một hàng bằng cách sử dụng ký hiệu dấu ngoặc vuông, chứ không phải ngược lại 

- `dataframe.loc`: Truy cập một nhóm các hàng và cột theo (các) nhãn hoặc một mảng boolean. Cú pháp: `dataframe.loc[row_labels][column_labels]` hoặc`dataframe.loc[row_labels, column_labels]`

- `dataframe.iloc`: truy cập vào một nhóm các dòng và cột của DataFrame bằng index số. Cú pháp  `dataframe.iloc[row_index][column_index]`

In [11]:
# Hiển thị 10 dòng đầu của cột "name"
df_csv['name'].head(10)

0    Serenity Ladner
1       Lucy Baldwin
2     Skylar Coffman
3       Riley Kinsey
4     Heidi Spurlock
5      Makenna Rojas
6    Lillian Strange
7        Erin Gorman
8         Abigail Le
9       Alana Herzog
Name: name, dtype: object

In [12]:
# Xem phần tử thứ/hàng 10 của cột "name" 
df_csv['name'][9]

'Alana Herzog'

In [13]:
# Câu lệnh này không đúng
df_csv[100]['name']

KeyError: 100

In [14]:
#  Truy cập phần tử ở hàng 101, cột "name"  bằng hàm loc[]
print(df_csv.loc[100, 'id'])

# Truy cập các phần tử ở 2 cột đầu tiên trong hàng đầu tiên (index=0)
print(df_csv.iloc[0][0:2])

422
id                    1
name    Serenity Ladner
Name: 0, dtype: object


*4.2 Các phép toán trên dataframe*

- Mỗi cột là 1 series tương đương 1 mảng numpy array 1 chiều. Do đó, các phép toán dùng cho numpy array đều dùng cho series trong pandas.

- Vì dataframe là kiểu `dict` của `series` nên các hàm toán học và thao tác với `dict` cũng được dùng trong df.

- Thao tác làm thay đổi kích thước DF: thêm, xóa hàng/cột, gộp nhiều DF.
    - Thêm cột vào vị trí cuối DF, ta chỉ cần gán giá trị cho một cột mới với tên cột tương ứng. Để thêm cột vào vị trí xác định, ta dùng hàm `dataframe.insert()`. Cú pháp: `df.insert(loc, column, value)`
    - Thêm hàng vào DF, ta dùng hàm `dataframe.append()`. 
    - Để xóa cột, hàng, ta dùng hàm `dataframe.drop()`.
    - Để hợp nhất nhiều DF ta dùng `dataframe.merge()`.
    

In [15]:
#Tạo 1 df gồm 10 đối tượng (entries)
df_user = pd.read_csv("data/customers.csv").iloc[:10]
print(df_user, "\n", df_user.shape)

   id             name billing_country
0   1  Serenity Ladner          Canada
1   2     Lucy Baldwin          Canada
2   5   Skylar Coffman             USA
3   6     Riley Kinsey             USA
4   7   Heidi Spurlock          Canada
5  10    Makenna Rojas          Canada
6  15  Lillian Strange          Canada
7  17      Erin Gorman          Canada
8  18       Abigail Le             USA
9  22     Alana Herzog             USA 
 (10, 3)


In [16]:
# Thêm một cột thông tin về tuổi (age) với các giá trị từ list
age = [21, 25, 56, 33, 28, 26, 33, 29, 41, 20]
df_user["age"] = age
print(df_user)

   id             name billing_country  age
0   1  Serenity Ladner          Canada   21
1   2     Lucy Baldwin          Canada   25
2   5   Skylar Coffman             USA   56
3   6     Riley Kinsey             USA   33
4   7   Heidi Spurlock          Canada   28
5  10    Makenna Rojas          Canada   26
6  15  Lillian Strange          Canada   33
7  17      Erin Gorman          Canada   29
8  18       Abigail Le             USA   41
9  22     Alana Herzog             USA   20


In [17]:
df_user.drop("age", axis = 1, inplace= True)
df_user

Unnamed: 0,id,name,billing_country
0,1,Serenity Ladner,Canada
1,2,Lucy Baldwin,Canada
2,5,Skylar Coffman,USA
3,6,Riley Kinsey,USA
4,7,Heidi Spurlock,Canada
5,10,Makenna Rojas,Canada
6,15,Lillian Strange,Canada
7,17,Erin Gorman,Canada
8,18,Abigail Le,USA
9,22,Alana Herzog,USA


In [18]:
# Dùng hàm insert để thêm cột vào vị trí thứ 3
df_user.insert(2, "age", age)
df_user

Unnamed: 0,id,name,age,billing_country
0,1,Serenity Ladner,21,Canada
1,2,Lucy Baldwin,25,Canada
2,5,Skylar Coffman,56,USA
3,6,Riley Kinsey,33,USA
4,7,Heidi Spurlock,28,Canada
5,10,Makenna Rojas,26,Canada
6,15,Lillian Strange,33,Canada
7,17,Erin Gorman,29,Canada
8,18,Abigail Le,41,USA
9,22,Alana Herzog,20,USA


In [19]:
# Xóa hàng thứ 3 của DF. 
df_user.drop(2)
df_user.shape

(10, 4)

Hàm `drop()` trong câu lệnh trên chỉ xóa tạm thời, và kết quả tạo ra 1 bản sao df mới được sửa đổi, df cũ không bị thay đổi. 

Hầu hết các thao tác trong Pandas trả về một bản sao của DataFrame, thay vì sửa đổi chính đối tượng DataFrame. Do đó, để thay đổi vĩnh viễn DataFrame, chúng ta cần gán lại biến df hoặc sử dụng từ khóa inplace.

Ví dụ, để xóa trực tiếp trong df hiện tại (df_user), truyền vào tham số `inplace= True`.


In [20]:
df_user.drop(2, inplace = True)
df_user.shape

(9, 4)

In [21]:
df_user

Unnamed: 0,id,name,age,billing_country
0,1,Serenity Ladner,21,Canada
1,2,Lucy Baldwin,25,Canada
3,6,Riley Kinsey,33,USA
4,7,Heidi Spurlock,28,Canada
5,10,Makenna Rojas,26,Canada
6,15,Lillian Strange,33,Canada
7,17,Erin Gorman,29,Canada
8,18,Abigail Le,41,USA
9,22,Alana Herzog,20,USA



Hàm `merge()` trong Pandas DataFrame được sử dụng để kết hợp (merge) hai hoặc nhiều DataFrame thành một DataFrame duy nhất dựa trên một hoặc nhiều cột chung (key).

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)`

Trong đó:

- left và right là hai DataFrame cần kết hợp
- on, left_on và right_on là các cột chung được sử dụng để kết hợp các DataFrame. Nếu không được chỉ định, Pandas sẽ sử dụng tất cả các cột chung trong các DataFrame
- how xác định loại kết hợp được sử dụng, bao gồm 'inner' (giao của hai tập hợp), 'outer' (hợp của hai tập hợp), 'left' (tập hợp trái và các phần tử chung) và 'right' (tập hợp phải và các phần tử chung)
- left_index và right_index xác định xem liệu chỉ số của DataFrame nào có được sử dụng làm key
- sort xác định xem kết quả có được sắp xếp theo key không
- suffixes là tên đuôi để thêm vào các tên cột bị trùng lặp trong trường hợp kết hợp có các cột trùng tên
- indicator cho biết liệu kết quả có thêm cột _merge để chỉ ra cách mà các key được kết hợp hay không.


 Ví dụ, để kết hợp hai DataFrame "df_user" và "df2" theo cột chung "key", ta có thể sử dụng mã sau:



 

In [37]:
df2 = pd.read_csv("data/orders.csv")

print(df2.head())
print(df2.shape)

   id  customer_id  product_id delivery_country
0   0         1866         686            India
1   1         1921         617            China
2   1         1921          54          Armenia
3   1         1921         566            China
4   1         1921         128          Lebanon
(2000, 4)


# Lọc khung dữ liệu

Một trong những công cụ phân tích mạnh mẽ của Pandas DataFrame là cú pháp lọc dữ liệu của nó. Thông thường, chúng ta sẽ chỉ cần làm việc với một tập hợp con dữ liệu nhất định dựa trên một số tiêu chí.
Các hàm lọc dữ liệu như: 
- count(): đếm số lượng dữ liệu theo 1 tiêu chí cụ thể 
- unique(): liệt kê danh sách các giá trị khác nhau
- fillna(): phương thức fillna() để điền giá trị 0 vào các ô dữ liệu bị thiếu (NaN) của DataFrame  

In [41]:
df2['delivery_country'].unique().shape

(89,)

In [44]:
# Lọc thông tin id và delivery_country của các order có product_id nhỏ hơn hoặc bằng 100
partial_df =  df2[df2['product_id'] <= 100][["id", "delivery_country"]]  
print(partial_df.head())
print(partial_df.shape)

    id delivery_country
2    1          Armenia
11   4           Mexico
30  12           Russia
38  15           Norway
45  19            Qatar
(209, 2)


How does this filtering work?

When we write `df['billing_country'] == 'USA'`, Pandas selects the `'billing_country'` column and checks whether each row is `'USA'`. If so, that row is marked `True`, and if not, it is marked `False`. This is how we would normally expect a conditional to work, only now applied to an entire Pandas `Series`. We end up with a Pandas `Series` of Boolean variables.

In [51]:
# Đếm số đơn hàng được giao tới USA
(df2['delivery_country'] == 'China').sum()

116

# Bài tập thực hành

Bài 1. Tạo 1 DataFrame tên 'df' từ mảng numpy array kích thước 20x5 các số nguyên có giá trị ngẫu nhiên từ 0 đến 20, với tên cột là ['c0','c1', 'c2'. 'c3', 'c4']. Hãy mô tả các thông số thống kê của 'df'. 

Bài 2. Thực hiện các thao tác sau với df:
    
    a. Hiển thị 4 entries đầu tiên và 2 entries cuối cùng của df
    b. Hiển thị 10 phần tử đầu tiên của cột "c1"
    c. Hiển thị 3 phần tử cuối cùng của cột "c1"
    d. Bổ sung 1 cột "c5" gồm dãy các số 10.
    e. Tìm phần tử có giá trị lớn nhất trong df.
    f. Xóa hàng thứ 5 và cột 'c1' của df.
 
Bài 3. Đọc file Salaries.csv vào dataframe tên df_salary và thực hiện các thao tác sau:

    a. Xem kích thước của df_salary
    b. Xem thông tin của df_salary
    c. Mô tả thống kê các thông tin của df_salary
    d. Xác định giá trị trung bình của trường thông tin lương cơ bản "BasePay"
    e. Tính tổng số tiền trả ngoài giờ "OvertimePay"
    f. Tìm tên của nhân viên có số tiền trả ngoài giờ "OvertimePay" cao nhất
    g. Tìm tên của nhân viên được trả lương "TotalPay" cao nhất
    h. Tìm nghề có mức lương cơ sở cao nhất.
    i. Có bao nhiêu nghề nghiệp trong bảng?
    j. Hãy thay thế các giá trị trống và thay thế bằng số 0.
    