# Các đối tượng cơ bản trong pandas

## Giới thiệu

Nếu các bạn đã từng làm việc với mảng 1 chiều và 2 chiều trong thư viện `numpy`, thì các đối tượng `pandas.Series` và `pandas.DataFrame` có thể xem như là các phiên bản nâng cấp của mảng 1 chiều và 2 chiều.

Để bắt đầu bài học, chúng ta sẽ import những thư viện cần thiết

In [1]:
import numpy as np
import pandas as pd

## Đối tượng `pandas.Series`

`pandas.Series` là mảng 1 chiều **có gắn nhãn**, bạn có thể tạo ra một `pandas.Series` từ một `list` như sau:

In [12]:
test_data = [0.25, 0.5, 0.75, 1.0]
s = pd.Series(test_data)
print(s)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Để thấy sự khác nhau giữa `pandas.Series` và `ndarray`, chúng ta tạo ra một `ndarray` tương ứng từ list `data`

In [14]:
a = np.array(test_data)
print(a)

array([0.25, 0.5 , 0.75, 1.  ])

Như các bạn có thể thấy, trong `pandas.Series` ngoài các giá trị có trong list `data` thì nó có 2 thuộc tính khác :
* Một thuộc tính giá trị [0, 1, 2, 3] : đây được gọi là nhãn (label) của `pandas.Series` s.
* Một thuộc tính là `dtype` : đây là kiểu dữ liệu của các phần tử trong `pandas.Series` s. 

Bạn có thể truy xuất các thuộc tính này bằng các câu lệnh tương ứng sau :

In [36]:
print("s' values : ", s.values)  # Các phần tử trong Series
print("s' label : ", s.axes)     # Nhãn của Series
print("s' dtype : ", s.dtype)    # Kiểu dữ liệu của các phần tử trong Series

s' values :  [0.25 0.5  0.75 1.  ]
s' label :  [RangeIndex(start=0, stop=4, step=1)]
s' dtype :  float64


Nhưng nếu chỉ có như vậy thì cũng không có gì khác biệt so với `ndarray` 1 chiều? 

Câu trả lời chính là bạn có thể thay đổi `label` của một Series theo cách như sau :

In [19]:
s_new = pd.Series(data = test_data, index = [101, 102, 103, 104])
print(s_new)

101    0.25
102    0.50
103    0.75
104    1.00
dtype: float64


Ta-da!🤗 Thế là chúng ta có `label` khác rồi!😀

Cuối cùng, chúng ta phương thức khởi tạo `pandas.Series` như sau :

In [None]:
pd.Series(
    data,     # Có thể là array, list, dictionary hoặc giá trị vô hướng
    index,    # Tuỳ chọn, nếu có thì giá trị trong index phải duy nhất và số lượng phải bằng số phần tử của data
    dtype,    # Kiểu dữ liệu (tuỳ chọn)
    copy      # True hoặc False. Tạo bản copy (tuỳ chọn). Giá trị mặc định là False
)

Ví dụ :

In [20]:
# Tạo Series từ một ndarray 1 chiều
# Tạo ndarray 1 chiều
a1 = np.array([_*_ for _ in range(5)])
# Tạo Series, nếu không có giá trị cho index thì nó sẽ tự động sinh ra
s1 = pd.Series(a1)
print(s1)

0     0
1     1
2     4
3     9
4    16
dtype: int32


In [22]:
# Tạo Series từ dictionary
# Tạo dictionary
d = {
    "UK" : "Pound",
    "USA" : "US Dollar"
}
# Tạo Series, lúc này label sẽ là key của dictionary (nếu không chỉ ra index)
s2 = pd.Series(d)
print(s2)

UK         Pound
USA    US Dollar
dtype: object


In [24]:
# Tạo Series từ 1 giá trị vô hướng
s3 = pd.Series('chihuahua', index = ['a', 'b', 'c'])
print(s3)

a    chihuahua
b    chihuahua
c    chihuahua
dtype: object


## Các thao tác trên `pandas.Series`

### Truy xuất phần tử từ `pandas.Series`

Chúng ta có thể truy xuất đến một (hoặc nhiều) phần tử của một `pandas.Series` bằng `label` hoặc thứ tự tương ứng của một (hoặc nhiều) phần tử đó. Ví dụ :

In [26]:
# Tạo Series 
s4 = pd.Series([1, 2, 3, 4, 5], index = ['a', 'b', 'c', 'd', 'e'])
print(s4)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [27]:
# Lấy phần tử đầu tiên
print('Cách 1 : ', s4[0])
print('Cách 2 : ', s4['a'])

Cách 1 :  1
Cách 2 :  1


In [30]:
# Lấy các phần tử đầu đến cận 2
print('Từ đầu đến cận 2 :')
print(s4[:2])

Từ đầu đến cận 2 :
a    1
b    2
dtype: int64


In [31]:
# Lấy các phần tử từ vị trí 1 đến vị trí 3
print('Từ vị trí 1 đến vị trí 3:')
print(s4[1:4])

Từ vị trí 1 đến vị trí 3:
b    2
c    3
d    4
dtype: int64


In [32]:
# Lấy các phần tử theo label
print("Các phần tử có label 'a', 'c' : ")
print(s4[['a', 'c']])

Các phần tử có label 'a', 'c' : 
a    1
c    3
dtype: int64


Ngoài ra, chúng ta còn có hai phương thức là `.head(n)` và `.tail(n)` để lấy ra `n` phần tử ở đầu và cuối của `pandas.Series`

In [49]:
# Lấy ra 2 phần tử đầu
print('Hai phần tử đầu :')
print(s4.head(2))
# Lấy ra 2 phần tử cuối
print('Hai phần tử ở cuối :')
print(s4.tail(2))

Hai phần tử đầu :
a    1
b    2
dtype: int64
Hai phần tử ở cuối :
d    4
e    5
dtype: int64


**Câu hỏi** : Cho s là một `pandas.Series`, `s.head()` và `s.tail()` sẽ trả về cái gì?

### Cập nhật phần tử `pandas.Series`

Để cập nhật một (hoặc nhiều) phần tử, bạn chỉ cần gọi phần tử bạn muốn rồi gán giá trị mới cho nó.

In [33]:
# Tạo Series
s5 = pd.Series([1, 2, 3], index = ['a', 'b', 'c'])
print('Trước : ')
print(s5)
# Gán giá trị mới cho phần tử có label là 'b'
s5['b'] = 100
print('Sau : ')
print(s5)

Trước : 
a    1
b    2
c    3
dtype: int64
Sau : 
a      1
b    100
c      3
dtype: int64


### Thêm bớt phần tử vào `pandas.Series`

Để thêm **1** phần tử mới vào `pandas.Series`, bạn có thể thực hiện như sau :

In [59]:
# Tạo Series
s6 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
print('Trước : ')
print(s6)
# Thêm một phần tử mới có giá trị là 100 và label là 'g'
s6['g'] = 100
print('Sau : ')
print(s6)

Trước : 
a    1
b    2
c    3
d    4
dtype: int64
Sau : 
a      1
b      2
c      3
d      4
g    100
dtype: int64


Để xoá **1** phần tử có sẵn trong `pandas.Series`, bạn có thể thực hiện theo cách sau :

In [60]:
# Chúng ta sẽ dùng lại Series s6 ở trên
print('Trước khi xoá : ')
print(s6)
# Xoá phần tử có label là 'a'
s6 = s6.drop(['a'])
print("Sau khi xoá phần tử có label 'a' : ")
print(s6)

Trước khi xoá : 
a      1
b      2
c      3
d      4
g    100
dtype: int64
Sau khi xoá phần tử có label 'a' : 
b      2
c      3
d      4
g    100
dtype: int64


**Câu hỏi**:
1. Trên đây là hướng dẫn thêm/xoá 1 phần tử, vậy bạn có thể thêm/xoá nhiều phần tử hay không? Nếu có thể, trình bày cách làm.
2. Giả sử một `pandas.Series` có tên là s có label là ['a', 'b', 'c', 'd']. Điều gì sẽ xảy ra nếu bạn thực thi câu lệnh : 
```
s[1] = some_value
```

### Truy xuất một số thông tin về một `pandas.Series` bất kỳ

Ngoài các thuộc tính `.values`, `.axes` và `.dtype` như đề cập ở trên, một `pandas.Series` còn có nhiều thuộc tính khác, như :

In [41]:
# Tạo Series
s6 = pd.Series(np.random.randint(5))
# Lấy kích thước của Series
print('Size : ', s6.size)
# Lấy số chiều của Series
print('Number of dimensions : ', s6.ndim)
# Kiểm tra Series có phải rỗng
print('Is Empty : ', s6.empty)

Size :  1
Number of dimensions :  1
Is Empty :  False


### Một số phương thức thống kê

Cho một `pandas.Series` tên s. Chúng ta có các phương thức thống kê như sau :
1. `s.count()` : trả về số lượng các phần tử khác NaN (Not a Number, một giá trị đặc biệt của python)
2. `s.sum()` : trả về tổng các phần tử
3. `s.mean()` : trả về trung bình các phần tử
4. `s.median()` : trả về trung vị
5. `s.mode()` : trả về mốt (phần tử xuất hiện nhiều lần nhất)
6. `s.std()` : trả về độ lệch chuẩn
7. `s.min()` : trả về giá trị nhỏ nhất
8. `s.max()` : trả về giá trị lớn nhất
9. `s.abs()` : trả về giá trị tuyệt đối
10. `s.cumsum()` : trả về tổng tích luỹ
11. `s.describe()` : trả về thống kê mô tả