# Tổng quan về Pandas trong Python

Pandas là một thư viện Python cung cấp các cấu trúc dữ liệu nhanh, mạnh mẽ, linh hoạt và mang hàm ý. Tên thư viện được bắt nguồn từ panel data (bảng dữ liệu). Pandas được thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (dạng bảng, đa chiều, có tiềm năng không đồng nhất) và dữ liệu chuỗi thời gian.



### Vì sao nên dùng pandas ?

Pandas phù hợp với nhiều loại dữ liệu khác nhau:

* Dữ liệu dạng bảng với các cột được nhập không đồng nhất, như trong bảng SQL hoặc bảng tính Excel.
* Dữ liệu chuỗi thời gian theo thứ tự và không có thứ tự (không nhất thiết phải có tần số cố định).
* Dữ liệu ma trận tùy ý (được nhập đồng nhất hoặc không đồng nhất) với nhãn hàng và cột.
* Bất kỳ hình thức khác của các bộ dữ liệu quan sát / thống kê. Dữ liệu thực sự không cần phải được dán nhãn vào cấu trúc dữ liệu pandas.
* Pandas được xây dựng dựa trên NumPy. Hai cấu trúc dữ liệu chính của pandas là:
 * Series (1 chiều)
 * DataFrame (2 chiều) 


### Ưu điểm của pandas:
* Dễ dàng xử lý dữ liệu mất mát, được biểu thị dưới dạng NaN, trong dữ liệu dấu phẩy động cũng như dấu phẩy tĩnh theo ý người dùng mong muốn: bỏ qua hoặc chuyển sang 0
* Khả năng thay đổi kích thước: các cột có thể được chèn và xóa khỏi DataFrame và các đối tượng chiều cao hơn
* Căn chỉnh dữ liệu tự động và rõ ràng: các đối tượng có thể được căn chỉnh rõ ràng với một bộ nhãn hoặc người dùng chỉ cần bỏ qua các nhãn và để Series, DataFrame, v.v. tự động căn chỉnh dữ liệu cho bạn trong các tính toán
* Chức năng group by mạnh mẽ, linh hoạt để thực hiện các hoạt động kết hợp phân tách áp dụng trên các tập dữ liệu, cho cả dữ liệu tổng hợp và chuyển đổi
* Dễ dàng chuyển đổi dữ liệu rời rạc (ragged), chỉ mục khác nhau (differently-indexed) trong các cấu trúc dữ liệu khác của Python và NumPy thành các đối tượng DataFrame
* Cắt lát (slicing) thông minh dựa trên nhãn, lập chỉ mục ưa thích (fancy indexing) và tập hợp lại (subsetting) các tập dữ liệu lớn 
* Gộp (merging) và nối (joining) các tập dữ liệu trực quan
* Linh hoạt trong định hình lại (reshaping) và xoay (pivoting) các tập dữ liệu
* Dán nhãn phân cấp (hierarchical) của các trục (có thể có nhiều nhãn trên mỗi đánh dấu)
* Các công cụ IO mạnh mẽ để tải dữ liệu từ các tệp phẳng (flat file) như CSV và delimited, tệp Excel, cơ sở dữ liệu và lưu / tải dữ liệu từ định dạng HDF5 cực nhanh
* Chức năng theo chuỗi thời gian (time series) cụ thể: tạo phạm vi ngày và chuyển đổi tần số, thống kê cửa sổ di chuyển, dịch chuyển ngày và độ trễ.
* Tích hợp tốt với các thư viện khác của python như SciPy, Matplotlib, Plotly, v.v.
* Hiệu suất tốt

### Cài đặt thư viện Pandas
* Sử dụng pip và gõ lệnh: **pip install pandas**
* Hoặc bằng Anaconda, dùng lệnh: **conda install pandas**

Để tìm các cách cài đặt pandas khác bạn hãy xem thêm tại https://pandas.pydata.org/pandas-docs/stable/getting_started/install.html

Lưu ý: Cần cài đặt thư viện NumPy trước (nếu cài bằng Anaconda thì NumPy đã có sẵn).

### Khai báo thư viện Pandas:

In [1]:
import pandas as pd

Có thể thay đổi **pd** bằng từ khác nhưng không nên thay đổi vì các tài liệu hướng dẫn đều ngầm quy ước như vậy.

### 1. Series

**Series** là mảng một chiều giống như mảng **Numpy**, hay như một cột của một bảng, nhưng nó bao gồm thêm một bảng đánh label. **Series** có thể được khởi tạo thông qua **NumPy**, kiểu **Dict** hoặc các dữ liệu vô hướng bình thường. **Series** có nhiều thuộc tính như **index, array, values, dtype, v.v.** Bạn có thể thực hiện chuyển đổi **Series** sang dạng **dtype** xác định, tạo bảng copy, trả về dạng bool của một thành phần, chuyển **Series** từ **DatetimeIndex** sang **PeriodIndex, v.v**

**Tạo Series cơ bản:**

In [2]:
# Không chuyển index:
pd.Series([0,1,2,3])

# pandas sẽ mặc định truyền index từ 0 đến len(data)-1.

0    0
1    1
2    2
3    3
dtype: int64

In [3]:
# Có chuyển index:
pd.Series([0,1,2,3], index=["a","b","c","d"])

a    0
b    1
c    2
d    3
dtype: int64

**Tạo Series từ Lists:**

In [4]:
labels = ['a', 'b', 'c']
nums = [1, 2, 3]
pd.Series(data = nums, dtype = float) 

0    1.0
1    2.0
2    3.0
dtype: float64

In [5]:
pd.Series(data = nums, index = labels , dtype = float)
# or: pd.Series( nums, labels , float)

a    1.0
b    2.0
c    3.0
dtype: float64

In [6]:
pd.Series(data = nums) # dtype = int (default)
# = pd.Series(nums)

0    1
1    2
2    3
dtype: int64

**Tạo Series từ Numpy Array:**

Similar to Lists

In [7]:
import numpy as np
arr = np.array([4, 5, 6])
arr

array([4, 5, 6])

In [8]:
pd.Series(arr)

0    4
1    5
2    6
dtype: int32

In [9]:
pd.Series(arr, labels, float) # dtype = int (default)

a    4.0
b    5.0
c    6.0
dtype: float64

**Tạo Series từ Numpy Array:**


In [10]:
nums = [1, 2, 3]
labels = ['a', 'b', 'c']
dic = {'x':7, 'n':8, '3': '@' }
dic2 = {1 : 2, 2: '@', 'c': 3}
dic3 = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}

In [11]:
pd.Series(dic)

x    7
n    8
3    @
dtype: object

In [12]:
pd.Series(dic, nums)

1    NaN
2    NaN
3    NaN
dtype: object

In [13]:
pd.Series(dic2, labels)

a    NaN
b    NaN
c      3
dtype: object

In [14]:
ser = pd.Series(dic3 , index = ['a', 'c', 'b', 'd', 'e', 'f'])
ser

a    -1.3
c     NaN
b    11.7
d     2.0
e     NaN
f    10.0
dtype: float64

*Chúng ta tạo **dic3** có index a, b, d, f, g. Sau đó tạo **Series** từ dict data này nhưng các index c và e không có trong dict nên dữ liệu tại các index này bị thiếu **(missing data)**. pandas hiển thị **NaN** để báo các dữ liệu này bị trống.*

**Tạo Series từ Scalar:**

Nếu dữ liệu là một giá trị scalar, index phải được cung cấp. Giá trị sẽ được lặp lại để phù hợp với độ dài của index.



In [15]:
pd.Series(5, index=[1, 2, 3, 4, 5])

1    5
2    5
3    5
4    5
5    5
dtype: int64

Truy cập dữ liệu của Series tương tự với ndarray trong NumPy.

**Lấy dữ liệu tại index cụ thể:**

In [16]:
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
ser

a    -1.3
c     NaN
b    11.7
d     2.0
e     NaN
f    10.0
dtype: float64

In [17]:
print(ser['d'])
print(ser['c'])

2.0
nan


**Lấy dữ liệu từ đầu đến vị trí index cụ thể:**

In [18]:
ser[:'d']

a    -1.3
c     NaN
b    11.7
d     2.0
dtype: float64

**Lấy dữ liệu theo vị trí: 2 dữ liệu đầu**

In [19]:
ser[:2]

a   -1.3
c    NaN
dtype: float64

**Lấy 3 dữ liệu cuối**

In [20]:
ser[-3:]

d     2.0
e     NaN
f    10.0
dtype: float64

**Chuyển đổi sang dạng khác:**

Lấy dạng array của **Series** bằng **numpy.array**

In [21]:
a = np.array(ser)
print(a)

[-1.3  nan 11.7  2.   nan 10. ]


-------

### 2. DataFrame

**Dataframe** là cấu trúc dữ liệu được gắn nhãn hai chiều với các cột và hàng như bảng tính **(spreadsheet)** hoặc bảng **(table)**. Giống như **Series**, **DataFrame** có thể chứa bất kỳ loại dữ liệu nào. Một điều quan trọng cần làm nổi bật là tất cả các cột trong khung dữ liệu là **series Pandas**. Vì vậy, một **DataFrame** là sự kết hợp của nhiều **Series** đóng vai trò như các cột! **DataFrame** được sử dụng rộng rãi và là một trong những cấu trúc dữ liệu quan trọng nhất.

**Tạo DataFrame từ dict các Series:**

In [22]:
# tạo dict từ các series
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
     'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
s

{'một': a    1.0
 b    2.0
 c    3.0
 e    5.0
 dtype: float64,
 'hai': a    1.0
 b    2.0
 c    3.0
 d    4.0
 dtype: float64}

In [23]:
# tại DataFrame từ dict
df = pd.DataFrame(s)
df

Unnamed: 0,một,hai
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0
e,5.0,


**Tạo DataFrame từ dict các Series ( theo các index được chọn ):**

In [24]:
df = pd.DataFrame(s, index=['a','c','d'])
df

Unnamed: 0,một,hai
a,1.0,1.0
c,3.0,3.0
d,,4.0


**Chọn cột ( column selection ):**

In [25]:
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
     'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
     'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(s)
df

Unnamed: 0,một,hai,ba
a,1.0,1.0,9.0
b,2.0,2.0,-1.3
c,3.0,3.0,3.5
d,,4.0,41.1
e,5.0,,


In [26]:
df_hai = df['hai']
df_hai

a    1.0
b    2.0
c    3.0
d    4.0
e    NaN
Name: hai, dtype: float64

**Thêm cột bốn với giá trị mỗi ô theo công thức:**

In [27]:
df['bốn'] = df['hai'] - df['ba']
df

Unnamed: 0,một,hai,ba,bốn
a,1.0,1.0,9.0,-8.0
b,2.0,2.0,-1.3,3.3
c,3.0,3.0,3.5,-0.5
d,,4.0,41.1,-37.1
e,5.0,,,


**Thêm cột với giá trị vô hướng (scalar value):**

In [28]:
df['Check'] = 'OK'
df

Unnamed: 0,một,hai,ba,bốn,Check
a,1.0,1.0,9.0,-8.0,OK
b,2.0,2.0,-1.3,3.3,OK
c,3.0,3.0,3.5,-0.5,OK
d,,4.0,41.1,-37.1,OK
e,5.0,,,,OK


**Thêm cột không cùng số lượng index với DataFrame:**

In [29]:
df['Khác'] = df['hai'][:3]
df

Unnamed: 0,một,hai,ba,bốn,Check,Khác
a,1.0,1.0,9.0,-8.0,OK,1.0
b,2.0,2.0,-1.3,3.3,OK,2.0
c,3.0,3.0,3.5,-0.5,OK,3.0
d,,4.0,41.1,-37.1,OK,
e,5.0,,,,OK,


**Thêm cột True / False theo điều kiện:**

In [30]:
df['KT'] = df['một'] == 3.0
df

Unnamed: 0,một,hai,ba,bốn,Check,Khác,KT
a,1.0,1.0,9.0,-8.0,OK,1.0,False
b,2.0,2.0,-1.3,3.3,OK,2.0,False
c,3.0,3.0,3.5,-0.5,OK,3.0,True
d,,4.0,41.1,-37.1,OK,,False
e,5.0,,,,OK,,False


**Dùng hàm insert. Thêm cột "chèn" ở giữa cột hai, ba và có giá trị bằng cột một:**

In [31]:
df.insert(2, 'chèn', df['một'])
df

Unnamed: 0,một,hai,chèn,ba,bốn,Check,Khác,KT
a,1.0,1.0,1.0,9.0,-8.0,OK,1.0,False
b,2.0,2.0,2.0,-1.3,3.3,OK,2.0,False
c,3.0,3.0,3.0,3.5,-0.5,OK,3.0,True
d,,4.0,,41.1,-37.1,OK,,False
e,5.0,,5.0,,,OK,,False


**Xóa cột (column deletion):**

Có thể xóa cột bằng lệnh **def** hoặc hàm **pop** hoặc hàm **drop**

In [32]:
# Xóa cột 'một':
df.drop('một', axis = 1, inplace = True)
df

Unnamed: 0,hai,chèn,ba,bốn,Check,Khác,KT
a,1.0,1.0,9.0,-8.0,OK,1.0,False
b,2.0,2.0,-1.3,3.3,OK,2.0,False
c,3.0,3.0,3.5,-0.5,OK,3.0,True
d,4.0,,41.1,-37.1,OK,,False
e,,5.0,,,OK,,False


In [33]:
# Xóa cột 'hai':
del df['hai']
df

Unnamed: 0,chèn,ba,bốn,Check,Khác,KT
a,1.0,9.0,-8.0,OK,1.0,False
b,2.0,-1.3,3.3,OK,2.0,False
c,3.0,3.5,-0.5,OK,3.0,True
d,,41.1,-37.1,OK,,False
e,5.0,,,OK,,False


In [34]:
# Xóa cột 'chèn':
df.pop('chèn')
df

Unnamed: 0,ba,bốn,Check,Khác,KT
a,9.0,-8.0,OK,1.0,False
b,-1.3,3.3,OK,2.0,False
c,3.5,-0.5,OK,3.0,True
d,41.1,-37.1,OK,,False
e,,,OK,,False


**Lập chỉ mục/ lựa chọn:**

![1.png](attachment:1.png)

**Chọn dòng theo label:**

In [35]:
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
     'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
     'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(s)
df

Unnamed: 0,một,hai,ba
a,1.0,1.0,9.0
b,2.0,2.0,-1.3
c,3.0,3.0,3.5
d,,4.0,41.1
e,5.0,,


In [36]:
df.loc['a']

một    1.0
hai    1.0
ba     9.0
Name: a, dtype: float64

**Chọn dòng theo vị trí nguyên:**

In [37]:
df.iloc[4] # tính từ 0: 0 - 1 - 2 - 3 - 4

một    5.0
hai    NaN
ba     NaN
Name: e, dtype: float64