#  Giới thiệu thư viện Pandas
**Nội dung:**
1. Giới thiệu
2. Series
3. DataFrame

## 1. Giới thiệu
### 1.1 Pandas là gì?

+ Là thư viện Python mã nguồn mở theo BSD-licensed, hiệu suất cao.
+ Cung cấp các công cụ phân tích dữ liệu, cấu trúc dữ liệu dễ dàng sử dụng cho NNLT Python.
+ Python với Pandas được sử dụng trong nhiều lĩnh vực, bao gồm khoa học, kinh tế, phân tích thống kê, ...
+ Cài đặt: `pip install pandas`
+ Import thư viện để sử dụng: `import pandas as pd`

**Pandas có 3 kiểu cấu trúc dữ liệu:**
+ Series
+ DataFrame
+ Panel

Các cấu trúc dữ liệu này được xây dựng trên NumPy array, có tốc độ nhanh.

### 1.2 Ưu điểm
+ Hỗ trợ đa dạng dữ liệu
+ Tích hợp dữ liệu
+ Chuyển đổi dữ liệu
+ Hỗ trợ dữ liệu time series
+ Thống kê mô tả

**Kích thước (Dimension) và mô tả:** có thể xem Data Frame là một container của series, Panel là một container của Data Frame.


## 2. Series
### 2.1 Series là gì?
**Series** là **mảng một chiều có gán nhãn**, có khả năng chứa các phần tử với kiểu dữ liệu khác nhau (integer, string, float, python objects, ...)

Các axis label của Series được gọi là index.
### 2.2 Phương thức tạo series
`pandas.Series(data, index, dtype, copy)`
**Trong đó:**
+ Data: dữ liệu từ nhiều dạng khác nhau như ndarray, list, constants
+ Index: giá trị của index là duy nhất và số lượng index = số lượng phần tử. Mặc định sẽ có giá trị trong `np.arrange(n)` nếu người dùng không tự tạo index.
+ dtype: kiểu dữ liệu (tuỳ chọn)
+ copy: tạo bản copy (tuỳ chọn)

In [1]:
# Khởi tạo series
import numpy as np
import pandas as pd
print(pd.__version__)

1.5.2


In [2]:
nd_array_1 = np.array(['a', 'b', 'c', 'd'])
s1 = pd.Series(nd_array_1)
print(s1)

0    a
1    b
2    c
3    d
dtype: object


In [3]:
# Tạo series từ ndarray
print(nd_array_1)
s2 = pd.Series(nd_array_1, index=[100, 101, 102, 103])
print(s2)

['a' 'b' 'c' 'd']
100    a
101    b
102    c
103    d
dtype: object


In [4]:
# Tạo series từ dictionary
dic_1 = {'a':0, 'b':1., 'c':2.}
s3 = pd.Series(dic_1)
print(s3)

a    0.0
b    1.0
c    2.0
dtype: float64


In [5]:
# Create a Series from Scalar: index phải được thiết lập
s4 = pd.Series(10, index=[0, 1, 2, 3])
print(s4)

0    10
1    10
2    10
3    10
dtype: int64


### Lấy dòng đầu, dòng cuối, dùng:  
`head()` hoặc `tail()`

In [6]:
s4.head(3) # 3 dòng đầu

0    10
1    10
2    10
dtype: int64

In [7]:
s4.tail(2) # 2 dòng cuối

2    10
3    10
dtype: int64

### Tạo series mới bằng các ánh xạ từ series đang có , dùng:
`map(lambda)`

In [8]:
print(s4)

0    10
1    10
2    10
3    10
dtype: int64


In [9]:
s5 = s4.map(lambda x: x*x)
s5

0    100
1    100
2    100
3    100
dtype: int64

### Hàm thống kê
+ `count()`: Trả về số lượng các phần tử khác null.
+ `sum()`: Trả về tổng các giá trị.
+ `mean()`: Trả về giá trị tủn bình.
+ `median()`: Trả về giá trị trung vị (hay trung bình giữa của các giá trị).
+ `mode()`: Trả về giá trị có tần suất xuất hiện nhiều nhất.
+ `std()`: Trả về độ lệch chuẩn các giá trị.
+ `min()`: Trả về giá trị nhỏ nhất.
+ `max()`: Trả về giá trị lớn nhất.
+ `abs`: Trả về giá trị tuyệt đối.
+ `prod`: Product of Values.
+ `cumsum()`: Trả về tổng tích luỹ (Cumulative Sum).
+ `cumprod()`: Cumulative Product.

Thông tin thống kê chung, dùng: `describe()`

In [10]:
s6 = pd.Series([-3.24, -1.5, -2.5, 1.4, 1.2, 5.6, 8.9, 4.3, -3.2, -4.1, -2.2, 2.2, 3.1])
print(s6)
print("Số phần tử khác null:", s6.count())

0    -3.24
1    -1.50
2    -2.50
3     1.40
4     1.20
5     5.60
6     8.90
7     4.30
8    -3.20
9    -4.10
10   -2.20
11    2.20
12    3.10
dtype: float64
Số phần tử khác null: 13


In [11]:
print("Sum:", s6.sum())
print("mean:", s6.mean())
print("median:", s6.median())
print("Mode:", s6.mode())
print("Std:", s6.std())

Sum: 9.96
mean: 0.7661538461538462
median: 1.2
Mode: 0    -4.10
1    -3.24
2    -3.20
3    -2.50
4    -2.20
5    -1.50
6     1.20
7     1.40
8     2.20
9     3.10
10    4.30
11    5.60
12    8.90
dtype: float64
Std: 3.9808574002374963


In [12]:
print("Min:", s6.min())
print("Max:", s6.max())
print("Abs:", s6.abs())
print("Prod:", s6.prod())
print("Cumsum:", s6.cumsum().values)
print("Cumprod:", s6.cumprod().values)

Min: -4.1
Max: 8.9
Abs: 0     3.24
1     1.50
2     2.50
3     1.40
4     1.20
5     5.60
6     8.90
7     4.30
8     3.20
9     4.10
10    2.20
11    2.20
12    3.10
dtype: float64
Prod: 861138.367537029
Cumsum: [-3.24 -4.74 -7.24 -5.84 -4.64  0.96  9.86 14.16 10.96  6.86  4.66  6.86
  9.96]
Cumprod: [-3.24000000e+00  4.86000000e+00 -1.21500000e+01 -1.70100000e+01
 -2.04120000e+01 -1.14307200e+02 -1.01733408e+03 -4.37453654e+03
  1.39985169e+04 -5.73939195e+04  1.26266623e+05  2.77786570e+05
  8.61138368e+05]


In [13]:
print(s6.describe())

count    13.000000
mean      0.766154
std       3.980857
min      -4.100000
25%      -2.500000
50%       1.200000
75%       3.100000
max       8.900000
dtype: float64


## 3. DataFrame
### 3.1 DataFrame là gì?

DataFrame là một cấu trúc dữ liệu 2D (two-dimensional), dữ liệu được tổ chức theo dòng và cột.

**Đặc điểm:**
+ Các cột có nhiều kiểu dữ liệu khác nhau
+ Kích thước có thể thay đổi
+ Trục được gán nhãn (dòng và cột)
+ Có thể thực hiện các phép tính số học theo dòng và cột

### 3.2 Phương thức tạo DataFrame
`pandas.DataFrame(Data, index, columns, dtype, copy)`

**Trong đó:**
+ **data**: dữ liệu (list, dict, series, ndarray, dataframe)
+ **index**: danh sách các dòng; index = ["tên dòng 1", "tên dòng 2"]
+ **columns**: danh sách các cột, columns = ["tên cột 1", "tên cột 2"]
+ **dtype**: kiểu dữ liệu các cột
+ **copy**: copy dữ liệu hay không, mặc định là **False**.

In [14]:
# Tạo dataframe từ list
lst2 = [['Bibi', 7], ['Xuxu', 6], ['Kent', 8], ['Alex', 8], ['Jack', 11], ['Clarke', 15]]
df = pd.DataFrame(lst2, columns=['Name', 'Age'])
df

Unnamed: 0,Name,Age
0,Bibi,7
1,Xuxu,6
2,Kent,8
3,Alex,8
4,Jack,11
5,Clarke,15


### 3.3 Thao tác trên cột
+ Lấy dữ liệu theo cột
+ Thêm cột
+ Xoá cột, dùng: `del/pop()`
+ Xem danh sách các cột, dùng `columns`
+ Lấy dữ liệu theo dòng
+ Cập nhật dữ liệu của dòng
+ Lấy dữ liệu theo điều kiện
+ Thêm dòng, dùng `append()`
+ Xoá dòng, dùng `drop()`
+ Sắp xếp: theo index, dùng `sort_index()`. Theo giá trị, dùng `sort_values()`
+ Xếp hạng, dùng `rank()`
+ Xem thông tin data frame, dùng `info()`

In [15]:
# Lấy dữ liệu theo cột
print("Lấy cột Name:", df['Name'])

Lấy cột Name: 0      Bibi
1      Xuxu
2      Kent
3      Alex
4      Jack
5    Clarke
Name: Name, dtype: object


In [16]:
# Thêm cột
df['Score'] = pd.Series([10, 9, 9, 8, 10, 8])
df

Unnamed: 0,Name,Age,Score
0,Bibi,7,10
1,Xuxu,6,9
2,Kent,8,9
3,Alex,8,8
4,Jack,11,10
5,Clarke,15,8


In [17]:
# Xoá cột dùng del
del df['Score']
df

Unnamed: 0,Name,Age
0,Bibi,7
1,Xuxu,6
2,Kent,8
3,Alex,8
4,Jack,11
5,Clarke,15


In [18]:
# Xoá cột dùng pop
df.pop('Age')
df

Unnamed: 0,Name
0,Bibi
1,Xuxu
2,Kent
3,Alex
4,Jack
5,Clarke


In [19]:
# Xem danh sách các cột
print(df.columns)

Index(['Name'], dtype='object')


In [20]:
# Lấy dữ liệu theo dòng
print(df.loc[2]) # lấy trên dòng 2

Name    Kent
Name: 2, dtype: object


In [21]:
# Cập nhật dữ liệu của dòng
df.loc[1, 'Name'] = 'Lucas'
df

Unnamed: 0,Name
0,Bibi
1,Lucas
2,Kent
3,Alex
4,Jack
5,Clarke


In [22]:
# Lấy dữ liệu theo điều kiện
d = [['Ken', 15, 10, 'Male'], ['Lyly', 16, 9, 'Female'], 
     ['Lucas', 18, 9, 'Male'], ['Alex', 18, 10, 'Male'],
     ['Jack', 16, 9, 'Male'], ['David', 17, 10, 'Male'], 
     ['Tom', 15, 8, 'Male'], ['Grey', 16, 9, 'Male'],
     ['Lucifer', 18, 10, 'Male'], ['Hana', 18, 10, 'Female'], 
     ['Rose', 18, 10, 'Female'], ['Pinky', 18, 10, 'Female']]
df_new = pd.DataFrame(d, columns=['Name', 'Age', 'Score', 'Sex'])
df_new

Unnamed: 0,Name,Age,Score,Sex
0,Ken,15,10,Male
1,Lyly,16,9,Female
2,Lucas,18,9,Male
3,Alex,18,10,Male
4,Jack,16,9,Male
5,David,17,10,Male
6,Tom,15,8,Male
7,Grey,16,9,Male
8,Lucifer,18,10,Male
9,Hana,18,10,Female


In [23]:
print("Giá trị dòng 3 - cột Name là: \n", df_new.loc[3,:])

Giá trị dòng 3 - cột Name là: 
 Name     Alex
Age        18
Score      10
Sex      Male
Name: 3, dtype: object


In [24]:
print("Những người có tuổi lớn hơn 17 là: \n", df_new.loc[df_new['Age']>17])

Những người có tuổi lớn hơn 17 là: 
        Name  Age  Score     Sex
2     Lucas   18      9    Male
3      Alex   18     10    Male
8   Lucifer   18     10    Male
9      Hana   18     10  Female
10     Rose   18     10  Female
11    Pinky   18     10  Female


In [25]:
# Thêm dòng 
df = pd.DataFrame([['Henry', 15, 10, 'Male']], columns=['Name', 'Age', 'Score', 'Sex'])
df_2 = df_new.append(df)
df_2

  df_2 = df_new.append(df)


Unnamed: 0,Name,Age,Score,Sex
0,Ken,15,10,Male
1,Lyly,16,9,Female
2,Lucas,18,9,Male
3,Alex,18,10,Male
4,Jack,16,9,Male
5,David,17,10,Male
6,Tom,15,8,Male
7,Grey,16,9,Male
8,Lucifer,18,10,Male
9,Hana,18,10,Female


In [26]:
# Xoá dòng theo label
df_4 = df_new.drop([3]) # dòng 3, là index 4
df_4

Unnamed: 0,Name,Age,Score,Sex
0,Ken,15,10,Male
1,Lyly,16,9,Female
2,Lucas,18,9,Male
4,Jack,16,9,Male
5,David,17,10,Male
6,Tom,15,8,Male
7,Grey,16,9,Male
8,Lucifer,18,10,Male
9,Hana,18,10,Female
10,Rose,18,10,Female


In [27]:
# Sắp xếp theo index
df_new.sort_index()

Unnamed: 0,Name,Age,Score,Sex
0,Ken,15,10,Male
1,Lyly,16,9,Female
2,Lucas,18,9,Male
3,Alex,18,10,Male
4,Jack,16,9,Male
5,David,17,10,Male
6,Tom,15,8,Male
7,Grey,16,9,Male
8,Lucifer,18,10,Male
9,Hana,18,10,Female


In [28]:
# Sắp xếp theo values
df_new.sort_values(by='Age')

Unnamed: 0,Name,Age,Score,Sex
0,Ken,15,10,Male
6,Tom,15,8,Male
1,Lyly,16,9,Female
4,Jack,16,9,Male
7,Grey,16,9,Male
5,David,17,10,Male
2,Lucas,18,9,Male
3,Alex,18,10,Male
8,Lucifer,18,10,Male
9,Hana,18,10,Female


In [29]:
# Xếp hạng 
df_new.rank()

Unnamed: 0,Name,Age,Score,Sex
0,6.0,1.5,9.0,8.5
1,9.0,4.0,3.5,2.5
2,7.0,9.5,3.5,8.5
3,1.0,9.5,9.0,8.5
4,5.0,4.0,3.5,8.5
5,2.0,6.0,9.0,8.5
6,12.0,1.5,1.0,8.5
7,3.0,4.0,3.5,8.5
8,8.0,9.5,9.0,8.5
9,4.0,9.5,9.0,2.5


In [30]:
# Xem thông tin data frame
df_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    12 non-null     object
 1   Age     12 non-null     int64 
 2   Score   12 non-null     int64 
 3   Sex     12 non-null     object
dtypes: int64(2), object(2)
memory usage: 512.0+ bytes
