# Pandas - Series
Series: Mảng 1 chiều có gắn nhãn

In [4]:
import pandas as pd
import numpy as np

## 1. Khởi tạo
**`pandas.Series(data, index, dtype, copy)`**

### 1.1. Khởi tạo từ list

In [2]:
# Tạo Series từ list
list = ['a','b','c','d']
s = pd.Series(list)
s

0    a
1    b
2    c
3    d
dtype: object

In [6]:
# Tạo Series từ nparray
age_arr = np.array([23, 24, 34])
age_ser = pd.Series(age_arr)
age_ser

0    23
1    24
2    34
dtype: int64

In [12]:
# Tạo Series từ list với index gắn nhãn
s = pd.Series(list, index=['hv1','hv2','hv3','hv4'])
s

hv1    a
hv2    b
hv3    c
hv4    d
dtype: object

### 1.2. Khởi tạo từ file

In [9]:
# Load file ra nparray trước
height_arr = np.loadtxt('data/data.txt', delimiter=',')
height_ser = pd.Series(height_arr)
height_ser

0    1.57
1    1.65
2    1.63
3    1.58
4    1.57
5    1.68
6    1.65
7    1.70
8    1.64
9    1.67
dtype: float64

### 1.3. Các hàm khởi tạo khác

In [10]:
# Tạo Series từ tuple
tuple = (7.5, 6, 8, 9)
s3 = pd.Series(tuple)
s3

0    7.5
1    6.0
2    8.0
3    9.0
dtype: float64

In [11]:
# Tạo Series từ hằng số
s4 = pd.Series(10, index=[0, 1, 2, 3])
s4

0    10
1    10
2    10
3    10
dtype: int64

### 1.4. Xem thông tin Series

In [13]:
s

hv1    a
hv2    b
hv3    c
hv4    d
dtype: object

In [14]:
# dtype: Kiểu dữ liệu của các phần tử trong Series
s.dtype

dtype('O')

In [17]:
# size: Số phần tử
s.size

4

In [16]:
# ndim: Số chiều của Series
s.ndim

1

In [18]:
# shape: Kiểu tuple biểu thị số chiều, số phần tử trong mỗi chiều
s.shape

(4,)

In [19]:
# Danh sách index
s.index

Index(['hv1', 'hv2', 'hv3', 'hv4'], dtype='object')

## 2. Truy xuất phần tử
- `loc`: Truy xuất theo index gắn nhãn
- `iloc`: Truy xuất theo index ngầm định

### 2.1. Truy xuất theo index

In [21]:
# Giá trị tại label hv1
s.loc['hv1']

'a'

In [22]:
# Giá trị phần tử 0
s.iloc[0]

'a'

### 2.2. Truy xuất nhiều phần tử

In [23]:
# Giá trị tại index từ 0->2
s.iloc[0:2]

hv1    a
hv2    b
dtype: object

In [24]:
# Giá trị tại các index 0,1,3
s.iloc[[0,1,3]]

hv1    a
hv2    b
hv4    d
dtype: object

In [25]:
# Giá trị tại các label 'hv1', 'hv2'
s[['hv1','hv4']]

hv1    a
hv4    d
dtype: object

In [28]:
# 2 dòng đầu
s.head(2)

hv1    a
hv2    b
dtype: object

In [29]:
# 2 dòng cuối
s.tail(2)

hv3    c
hv4    d
dtype: object

### 2.3. Truy xuất theo điều kiện

In [30]:
# Theo điều kiện
s[s == 'a']

hv1    a
dtype: object

## 3. Thao tác với Series

### 3.1. Thêm vào Series

In [32]:
# Sử dụng label
s['hv5'] = 'g'
s

hv1    a
hv2    b
hv3    c
hv4    d
hv5    g
dtype: object

In [33]:
# Sử dụng concat
new_hv = pd.Series(['c', 'd'], index=['hv6', 'hv7'])
s = pd.concat([s, new_hv])
s

hv1    a
hv2    b
hv3    c
hv4    d
hv5    g
hv6    c
hv7    d
dtype: object

### 3.2. Sửa phần tử

In [66]:
s['hv1'] = 'c'
s

hv1    c
hv2    b
hv3    c
hv4    d
hv5    g
dtype: object

### 3.3. Xóa phần tử

In [36]:
# Xóa theo label
s.drop('hv7')

hv1    Minh
hv2       b
hv3       c
hv4       d
hv5       g
hv6       c
dtype: object

In [38]:
# Xóa theo index
s.drop(s.index[-1])

hv1    Minh
hv2       b
hv3       c
hv4       d
hv5       g
hv6       c
dtype: object

In [40]:
# Xóa và cập nhật
# s = s.drop(s.index[-1])
s.drop(s.index[-1], inplace=True)
s

hv1    Minh
hv2       b
hv3       c
hv4       d
hv5       g
dtype: object

## 4. Thống kê

In [46]:
print("Sum:", height_ser.sum())
print("Min:", height_ser.min())
print("Max:", height_ser.max())
print("Mean:", height_ser.mean())
print("Median:", height_ser.median())
print("Std:", height_ser.std())
print("Q1 25%:", height_ser.quantile(0.25))
print("Q1 50%:", height_ser.quantile(0.5))
print("Q1 75%:", height_ser.quantile(0.75))
print("Mode:", height_ser.mode())

Sum: 16.34
Min: 1.57
Max: 1.7
Mean: 1.634
Median: 1.645
Std: 0.04647580015448895
Q1 25%: 1.5925
Q1 50%: 1.645
Q1 75%: 1.665
Mode: 0    1.57
1    1.65
dtype: float64


In [45]:
# Thống kê nhanh
height_ser.describe()

count    10.000000
mean      1.634000
std       0.046476
min       1.570000
25%       1.592500
50%       1.645000
75%       1.665000
max       1.700000
dtype: float64

In [49]:
# Đếm theo nhóm
gender_ser = pd.Series([True, False, True, False, True])
gender_ser.value_counts()

True     3
False    2
dtype: int64

## 5. Sort

In [52]:
# Sort tăng dần
age_ser.sort_values()

0    23
1    24
2    34
dtype: int64

In [53]:
# Sort giảm dần
age_ser.sort_values(ascending=False)

2    34
1    24
0    23
dtype: int64

In [54]:
# Sort theo index
age_ser.sort_index()

0    23
1    24
2    34
dtype: int64

## 6. Operator

In [51]:
t = age_ser + 1
t

0    24
1    25
2    35
dtype: int64

## 7. Utils

In [61]:
# Tạo Series từ series khác
count_s = s.map(lambda x: len(x))
count_s

hv1    4
hv2    1
hv3    1
hv4    1
hv5    1
dtype: int64

In [62]:
# Tạo Series từ series khác dùng apply
def count(s):
    return len(s)
count_s = s.apply(count)
count_s

hv1    4
hv2    1
hv3    1
hv4    1
hv5    1
dtype: int64

In [64]:
# Ép kiểu
age_ser.astype(float)

0    23.0
1    24.0
2    34.0
dtype: float64

In [67]:
# Trả về kiểu list
s.tolist()

['c', 'b', 'c', 'd', 'g']

In [69]:
# Check trùng lắp
s.duplicated(keep=False)

hv1     True
hv2    False
hv3     True
hv4    False
hv5    False
dtype: bool

In [71]:
# Xóa trùng lắp giữ lại first
s.drop_duplicates(keep='first')

hv1    c
hv2    b
hv4    d
hv5    g
dtype: object