Pandas là thư viện quan trọng nhất theo ý kiến của nhiều nhà khoa học dữ liệu khi bạn muốn làm việc với dữ liệu trong Python. Nhiệm vụ chính của Pandas là xử lý và biến đổi dữ liệu. Trước khi đi khám phá thư viện này, chúng ta cần cài đặt và import nó:

```python
# Cài đặt bằng pip
pip install pandas

# Cài đặt bằng conda
conda install pandas
```

In [1]:
# import pandas
import numpy as np
import pandas as pd

## 1. Series

{{< figure src="./series.png" width=80% >}}

Series là cấu trúc dữ liệu giống với các mảng Numpy một chiều nhưng có thêm một thuộc tính là labels. Series có thể được tạo ra từ một giá trị vô hướng _(scalar)_, một list, một mảng numpy hoặc một dictionary sử dụng hàm `pd.Series()`.

### 1.1. Tạo series

Chúng ta bắt đầu tạo một series đơn giản từ list. Theo mặc định các labels và index bắt đầu từ `0`.


In [2]:
pd.Series(data = [-5, 1.3, 21, 6, 3])

0    -5.0
1     1.3
2    21.0
3     6.0
4     3.0
dtype: float64

Chúng ta có thể gán nhãn _(labels)_ cụ thể cho các giá trị thay vì sử dụng index:

In [3]:
pd.Series(data = [-5, 1.3, 21, 6, 3],
          index = ['a', 'b', 'c', 'd', 'e'])

a    -5.0
b     1.3
c    21.0
d     6.0
e     3.0
dtype: float64

Tạo một series từ dictionary:

In [4]:
pd.Series(data = {'a': 10, 'b': 20, 'c': 30})

a    10
b    20
c    30
dtype: int64

Tạo một series từ mảng numpy:

In [5]:
pd.Series(data = np.random.randn(3))

0    0.103119
1   -1.431701
2   -0.745353
dtype: float64

Tạo series từ scalar:

In [6]:
pd.Series(3.141)

0    3.141
dtype: float64

In [7]:
pd.Series(data=3.141, index=['a', 'b', 'c'])

a    3.141
b    3.141
c    3.141
dtype: float64

### 1.2. Thuộc tính

Hai thuộc tính quan trọng nhất của series là _index_ và _array_:

- **index**: Mảng các chỉ số hoặc labels của series.
- **array**: Mảng chứa các dữ liệu trong series.

Ví dụ:

In [8]:
s = pd.Series(data = np.random.randn(5))
s.index

RangeIndex(start=0, stop=5, step=1)

In [9]:
s.array

<PandasArray>
[  0.6727783719149419,   -0.182362859573495, -0.17737350985083752,
   1.0327929875759876,   -0.813223486205808]
Length: 5, dtype: float64

In [10]:
s.to_numpy()

array([ 0.67277837, -0.18236286, -0.17737351,  1.03279299, -0.81322349])

### 1.3. Indexing và slicing

Giả sử ta có một series như sau:

In [11]:
s = pd.Series(data = range(5),
              index = ['A', 'B', 'C', 'D', 'E'])
s

A    0
B    1
C    2
D    3
E    4
dtype: int64

Chúng ta có thể lấy ra các phần tử sử dụng index là các chỉ số chỉ vị trí tương tự như trong list, array.

In [12]:
# Lấy ra một phần tử
s[0]

0

In [13]:
# Lấy ra nhiều phần tử
s[[1, 3, 2]]

B    1
D    3
C    2
dtype: int64

In [14]:
# Slicing
s[0:3]

A    0
B    1
C    2
dtype: int64

Series tương tự như dictionary, ta cũng có thể lấy các phần tử dựa vào labels.

In [15]:
# Lấy ra một phần tử
s["A"]

0

In [16]:
# Lấy ra nhiều phần tử
s[["B", "D", "C"]]

B    1
D    3
C    2
dtype: int64

In [17]:
# Kiểm tra xem một labels có trong series hay không
"A" in s

True

Lưu ý khi sử dụng labels, nếu các labels không phải là duy nhất:

In [18]:
x = pd.Series(data = range(5),
              index = ["A", "A", "A", "B", "C"])
x["A"]

A    0
A    1
A    2
dtype: int64

Tương tự như numpy, chúng ta cũng có thể sử dụng _boolean mask_ để lấy ra các phần tử thỏa mãn một điều kiện nào đó.

In [19]:
idx = (s > 1)
idx

A    False
B    False
C     True
D     True
E     True
dtype: bool

In [20]:
s[idx]

C    2
D    3
E    4
dtype: int64

### 1.4. Toán tử

Không như mảng numpy, các toán tử `+, -, *, /` giữa hai series sẽ dựa vào labels của các phần tử mà không phải là vị trí của nó:

{{< figure src="./series_addition.png" >}}

Ví dụ:

In [21]:
s1 = pd.Series(data = range(4),
               index = ["A", "B", "C", "D"])
s1

A    0
B    1
C    2
D    3
dtype: int64

In [22]:
s2 = pd.Series(data = range(10, 14),
               index = ["B", "C", "D", "E"])
s2

B    10
C    11
D    12
E    13
dtype: int64

In [23]:
s1 + s2

A     NaN
B    11.0
C    13.0
D    15.0
E     NaN
dtype: float64

Như bạn có thể thấy vì `A` và `E` bị thiếu giá trị cho nên kết quả trả về là `NaN`

### 1.5. Missing value

Chúng ta sử dụng `np.nan` để đại diện cho missing value.

In [24]:
s3 = pd.Series([1, 2, 3, np.nan])
s3

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

In [25]:
# Kiểm tra giá trị missing
s3.isnull()

0    False
1    False
2    False
3     True
dtype: bool

In [26]:
# Kiểm tra các giá trị không missing
pd.notnull(s3)

0     True
1     True
2     True
3    False
dtype: bool

## 2. DataFrames

{{< figure src="./pandas-structures-annotated.png" >}}

Có nhiều cách để nghĩ về DataFrames. Bạn có thể nghĩ DataFrames giống như các bảng dữ liệu trong Excel hoặc database. Nó cũng gần giống với một dictionary với key là tên biến, cột, còn giá trị là một series.

### 2.1. Tạo DataFrames

Cú pháp tổng quát:

```python
# array_2d: Là mảng dữ liệu 2 chiều của các giá trị
# index là list các labels 
# columns là danh sách tên cột, biến
pd.DataFrame(array_2d, index, columns)

# Dictionary với key là tên biến, values là list các giá trị
pd.DataFrame(dictionary, index)
```

Ví dụ:

```python
# lists of lists
pd.DataFrame([['Tom', 7], 
              ['Mike', 15], 
              ['Tiffany', 3]
              ])

# array	
pd.DataFrame(np.array([['Tom', 7], 
                       ['Mike', 15], 
                       ['Tiffany', 3]
                       ]))

# dictionary
pd.DataFrame({"Name": ['Tom', 'Mike', 'Tiffany'], 
              "Number": [7, 15, 3]})

# Series	
pd.DataFrame({"Name": pd.Series(['Tom', 'Mike', 'Tiffany']), 
              "Number": pd.Series([7, 15, 3])})

# list of tuples
pd.DataFrame(zip(['Tom', 'Mike', 'Tiffany'], 
                 [7, 15, 3]
                 ))
```



### 2.2. Indexing và slicing

Chúng ta có 5 cách để lấy ra các phần tử từ trong DataFrame:

- Sử dụng `[]`
- Sử dụng `.loc[]` với index là các labels.
- Sử dụng `.iloc[]` với index là các chỉ số chỉ vị trí.
- Sử dụng _boolean mask_.
- Sử dụng `.query()`

Chúng ta có một DataFrame đơn giản như sau:

In [27]:
df = pd.DataFrame({"Name": ["Tom", "Mike", "Tiffany"],
                   "Language": ["Python", "Python", "R"],
                   "Courses": [5, 4, 7]})
df

Unnamed: 0,Name,Language,Courses
0,Tom,Python,5
1,Mike,Python,4
2,Tiffany,R,7


**Lọc các cột với `[]`:**

In [28]:
# Lấy ra một cột
# Trả về một series
df['Name']

0        Tom
1       Mike
2    Tiffany
Name: Name, dtype: object

In [29]:
# Lấy ra một tập hợp các cột, trả về một df
df[['Name']]

Unnamed: 0,Name
0,Tom
1,Mike
2,Tiffany


In [30]:
df[['Name', 'Courses']]

Unnamed: 0,Name,Courses
0,Tom,5
1,Mike,4
2,Tiffany,7


**Lọc các quan sát và các cột với `.loc` và `.iloc`:**

In [31]:
# Lấy ra một hàng, sẽ trả về một series
df.iloc[0]

Name           Tom
Language    Python
Courses          5
Name: 0, dtype: object

In [32]:
# Lấy ra một tập hợp các hàng, trả về dataframe
df.iloc[0:3]

Unnamed: 0,Name,Language,Courses
0,Tom,Python,5
1,Mike,Python,4
2,Tiffany,R,7


In [33]:
# Lọc các quan sát và các cột
df.iloc[0:2, [1, 2]]

Unnamed: 0,Language,Courses
0,Python,5
1,Python,4


In [34]:
# Lọc các quan sát sử dụng label
df.loc[:, ['Name']]

Unnamed: 0,Name
0,Tom
1,Mike
2,Tiffany


Đôi khi, chúng ta sẽ phải sử dụng kết hợp giữa các labels với các chỉ số chỉ vị trí:

In [35]:
print(df.index)
print(df.columns)

RangeIndex(start=0, stop=3, step=1)
Index(['Name', 'Language', 'Courses'], dtype='object')


In [36]:
df.loc[df.index[0], 'Courses']

5

In [37]:
df.loc[2, df.columns[1]]

'R'

**Lọc các quan sát với boolean mask:**

In [38]:
df

Unnamed: 0,Name,Language,Courses
0,Tom,Python,5
1,Mike,Python,4
2,Tiffany,R,7


In [39]:
df['Courses'] > 5

0    False
1    False
2     True
Name: Courses, dtype: bool

In [40]:
df[df['Courses'] > 5]

Unnamed: 0,Name,Language,Courses
2,Tiffany,R,7


In [41]:
df[df['Name'] == "Tom"]

Unnamed: 0,Name,Language,Courses
0,Tom,Python,5


**Lọc các quan sát với `.query()`**

Tương tự như _boolean masks_, nhưng chỉ khác nhau về mặt cú pháp.

In [42]:
df.query("Courses > 4 & Language == 'Python'")

Unnamed: 0,Name,Language,Courses
0,Tom,Python,5


In [43]:
# Chúng ta có thể sử dụng tham số với @variable
course_threshold = 4
df.query("Courses > @course_threshold")

Unnamed: 0,Name,Language,Courses
0,Tom,Python,5
2,Tiffany,R,7


Tổng kết, chúng ta có những trường hợp sau:

```python
# Select column, return series
df['Column_name']

# Select row slice
df[row_1_int:row_2_int]

# Select row/columns by labels
df.loc[row_label(s), col_label(s)]

# Select row/columns by index
df.iloc[row_int(s), col_int(s)]

# Select row by index, column by labels
df.loc[df.index[row_int], col_label]

# Select row by labels, columb by index
df.loc[row_label, df.columns[col_int]]

# Select by boolean expression
df.query("expression")

# query with parameter
df.query("Courses > @course_threshold")
```

### 2.3. Import CSV file

Cú pháp:

```python
# path: đường dẫn đến file, có thể là url
# index_col: Chỉ định cột làm index
# header, skiprows
# parse_dates = True: Cố gắng xác định các cột có kiểu datetime
pd.read_csv(path, index_col, parse_dates, )
```

Ví dụ:

In [44]:
df = pd.read_csv('./cycling_data.csv', parse_dates = True)
df

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
5,"16 Sep 2019, 13:57:48",Morning Ride,Ride,2272,12.45,Rested after the weekend!
6,"17 Sep 2019, 00:15:47",Afternoon Ride,Ride,1973,12.45,Legs feeling strong!
7,"17 Sep 2019, 13:43:34",Morning Ride,Ride,2285,12.6,Raining
8,"18 Sep 2019, 13:49:53",Morning Ride,Ride,2903,14.57,Raining today
9,"18 Sep 2019, 00:15:52",Afternoon Ride,Ride,2101,12.48,Pumped up tires


### 2.4. Các toán tử

DataFrames có nhiều hàm được xây dựng sẵn phục vụ cho các mục đích phân tích và xử lý dữ liệu.

Một số ví dụ:

In [45]:
df.sum()

Date        10 Sep 2019, 00:13:0410 Sep 2019, 13:52:1811 S...
Name        Afternoon RideMorning RideAfternoon RideMornin...
Type        RideRideRideRideRideRideRideRideRideRideRideRi...
Time                                                   115922
Distance                                               392.69
Comments    RainrainWet road but nice weatherStopped for p...
dtype: object

In [46]:
df.min()

Date                         1 Oct 2019, 00:15:07
Name                               Afternoon Ride
Type                                         Ride
Time                                         1712
Distance                                    11.79
Comments    A little tired today but good weather
dtype: object

In [47]:
df['Time'].min()

1712

In [48]:
df['Time'].idxmin()

20

In [49]:
df.loc[20]

Date               27 Sep 2019, 01:00:18
Name                      Afternoon Ride
Type                                Ride
Time                                1712
Distance                           12.47
Comments    Tired by the end of the week
Name: 20, dtype: object

In [50]:
# Sắp xếp theo value
# ascending = True
df.sort_values(by = 'Time')

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
20,"27 Sep 2019, 01:00:18",Afternoon Ride,Ride,1712,12.47,Tired by the end of the week
26,"3 Oct 2019, 00:45:22",Afternoon Ride,Ride,1724,12.52,Feeling good
22,"1 Oct 2019, 00:15:07",Afternoon Ride,Ride,1732,,Legs feeling strong!
24,"2 Oct 2019, 00:13:09",Afternoon Ride,Ride,1756,,A little tired today but good weather
16,"25 Sep 2019, 00:07:21",Afternoon Ride,Ride,1775,12.1,Feeling really tired
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"
18,"26 Sep 2019, 00:13:33",Afternoon Ride,Ride,1860,12.52,raining
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"


In [51]:
# Sort by index
df.sort_index(ascending = False)

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.7,Really cold! But feeling good
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
27,"3 Oct 2019, 13:47:36",Morning Ride,Ride,2182,12.68,Wet road
26,"3 Oct 2019, 00:45:22",Afternoon Ride,Ride,1724,12.52,Feeling good
25,"2 Oct 2019, 13:46:06",Morning Ride,Ride,2134,13.06,Bit tired today but good weather
24,"2 Oct 2019, 00:13:09",Afternoon Ride,Ride,1756,,A little tired today but good weather
23,"1 Oct 2019, 13:45:55",Morning Ride,Ride,2222,12.82,Beautiful morning! Feeling fit


## 3. View DataFrames

Xem n hàng đầu tiên hoặc cuối cùng của DataFrame

In [52]:
# Lấy 5 hàng đầu tiên
df.head(5)

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week


In [53]:
# Lấy 5 hàng cuối cùng
df.tail(5)

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.7,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"


Một số thuộc tính của DataFrame:

- `.shape`: Tương tự như shape của mảng numpy.
- `.info()`: Xem một số thông tin về kiểu dữ liệu của từng cột, biến.
- `.describe()`: Một số thông tin thống kê mô tả cơ bản

In [54]:
df.shape

(33, 6)

In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Date      33 non-null     object 
 1   Name      33 non-null     object 
 2   Type      33 non-null     object 
 3   Time      33 non-null     int64  
 4   Distance  31 non-null     float64
 5   Comments  33 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 1.7+ KB


In [56]:
df.describe()

Unnamed: 0,Time,Distance
count,33.0,31.0
mean,3512.787879,12.667419
std,8003.309233,0.428618
min,1712.0,11.79
25%,1863.0,12.48
50%,2118.0,12.62
75%,2285.0,12.75
max,48062.0,14.57


Theo mặc định thì, nếu DataFrame có nhiều hơn 60 dòng, Pandas sẽ hiển thị 5 dòng đầu tiên và 5 dòng cuối cùng của DataFrame, ngược lại nó sẽ hiển thị tất cả các dòng. Bạn cũng có thể sử dụng tùy chọn sau để thay đổi `60` thành một con số bất kỳ mà bạn muốn.

In [57]:
# n = 20
pd.set_option("display.max_rows", 20)

## 4. Data manipulation

### 4.1. Đổi tên cột

Có hai cách để đổi tên cột bằng Pandas:

- Đổi tên một hoặc một số cột với `df.rename()`
- Đổi tên tất cả các cột với `df.columns()`

In [58]:
df

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


In [59]:
df.rename(columns = {"Date": "Datetime",
                     "Comments": "Notes"}
         )
df

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


Ôi chuyện gì đã xảy ra vậy, rõ ràng chúng ta đã đổi tên các cột nhưng trên thực tế nó không thay đổi. Phương thức `df.rename()` tạo ra một bản sao mới. Do đó ta phải gán lại nó cho `df`.

In [60]:
df = df.rename(columns={"Date": "Datetime",
                   "Comments": "Notes"})
df

Unnamed: 0,Datetime,Name,Type,Time,Distance,Notes
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


### 4.2. Thay đổi index

Chúng ta có một số cách thay đổi index của DataFrame:

- `df.set_index()`: Chỉ định một cột làm index
- `df.index.name`: Đổi tên index
- `df.reset_index()`: Chuyển index hiện tại thành một cột 
- `df.index`: Thay đổi index thông qua thuộc tính


In [61]:
df

Unnamed: 0,Datetime,Name,Type,Time,Distance,Notes
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


In [62]:
# df.set_index sẽ tạo ra một copy
df = df.set_index('Datetime')
df.index.name = "Date Index"
df

Unnamed: 0_level_0,Name,Type,Time,Distance,Notes
Date Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...
"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


In [63]:
df = df.reset_index()
df

Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


### 4.3. Thêm hoặc xóa cột

Chúng ta có thể thêm hoặc xóa columns với:

- Sử dụng `df['variable_name']` để thêm một cột mới 
- Sử dụng `df.drop()` để xóa các cột

In [64]:
df['Rider'] = 'Tom Beuzen'
df['Avg Speed'] = df['Distance'] * 1000 / df['Time']  # avg. speed in m/s
df

Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes,Rider,Avg Speed
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain,Tom Beuzen,6.055662
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain,Tom Beuzen,5.148163
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather,Tom Beuzen,6.720344
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise,Tom Beuzen,5.857664
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week,Tom Beuzen,6.599683
...,...,...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind",Tom Beuzen,6.754011
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good,Tom Beuzen,5.909725
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!,Tom Beuzen,6.838675
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise,Tom Beuzen,5.192854


In [65]:
df = df.drop(columns = ['Rider', 'Avg Speed'])
df

Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise


### 4.4. Thêm hoặc xóa hàng

Tương tự như với cột chúng ta cũng có hai cách để thêm hoặc xóa hàng:

- Thêm các hàng với `df.append()`
- Xóa các hàng với `df.drop()`

In [66]:
another_row = pd.DataFrame([["12 Oct 2019, 00:10:57", "Morning Ride", "Ride",
                             2331, 12.67, "Washed and oiled bike last night"]],
                           columns = df.columns,
                           index = [33])
df = df.append(another_row)
df

  df = df.append(another_row)


Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.70,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"


In [67]:
df.drop(index = range(30, 34))

Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
...,...,...,...,...,...,...
25,"2 Oct 2019, 13:46:06",Morning Ride,Ride,2134,13.06,Bit tired today but good weather
26,"3 Oct 2019, 00:45:22",Afternoon Ride,Ride,1724,12.52,Feeling good
27,"3 Oct 2019, 13:47:36",Morning Ride,Ride,2182,12.68,Wet road
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"


### 4.5. Sửa đổi giá trị

Khi muốn sửa đổi một giá trị bên trong DataFrame ta nên sử dụng `.loc` hoặc `.iloc`, vì sử dụng `[]` sẽ tạo ra một bản copy. Ví dụ:

In [68]:
df[df['Time'] > 4000]['Time'] = 2000

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[df['Time'] > 4000]['Time'] = 2000


In [69]:
df[df['Time'] > 4000]

Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes
10,"19 Sep 2019, 00:30:01",Afternoon Ride,Ride,48062,12.48,Feeling good


In [70]:
df.loc[df['Time'] > 4000, 'Time'] = 2000
df[df['Time'] > 4000]

Unnamed: 0,Date Index,Name,Type,Time,Distance,Notes


## 5. Data reshaping

Chúng ta có 3 cách để biển đổi cấu trúc một DataFrame:

- `df.melt()`: Chuyển dữ liệu từ dạng wide về long.
- `df.pivot()`: Chuyển dữ liệu từ dạng long về wide.
- `df.pivot_table()`: Tương tự như pivot, nhưng xử lý được nhiều index hơn.

### 5.1. Melt và pivot

Giả sử ta có một DataFrame như sau:

In [71]:
df = pd.DataFrame({"Name": ["Tom", "Mike", "Tiffany", "Varada", "Joel"],
                   "2018": [1, 3, 4, 5, 3],
                   "2019": [2, 4, 3, 2, 1],
                   "2020": [5, 2, 4, 4, 3]})
df

Unnamed: 0,Name,2018,2019,2020
0,Tom,1,2,5
1,Mike,3,4,2
2,Tiffany,4,3,4
3,Varada,5,2,4
4,Joel,3,1,3


In [80]:
df_long = df.melt(id_vars = "Name",
                  var_name = "Year",
                  value_name = "Courses")
df_long

Unnamed: 0,Name,Year,Courses
0,Tom,2018,1
1,Mike,2018,3
2,Tiffany,2018,4
3,Varada,2018,5
4,Joel,2018,3
5,Tom,2019,2
6,Mike,2019,4
7,Tiffany,2019,3
8,Varada,2019,2
9,Joel,2019,1


In [81]:
df.melt(id_vars = "Name",
        value_vars = ["2019", "2020"],
        var_name = "Year",
        value_name = "Courses")

Unnamed: 0,Name,Year,Courses
0,Tom,2019,2
1,Mike,2019,4
2,Tiffany,2019,3
3,Varada,2019,2
4,Joel,2019,1
5,Tom,2020,5
6,Mike,2020,2
7,Tiffany,2020,4
8,Varada,2020,4
9,Joel,2020,3


In [95]:
df_wide = df_long.pivot(index = "Name",
                        columns = "Year",
                        values = "Courses")
df_wide = df_wide.reset_index()
df_wide.columns.name = None
df_wide

Unnamed: 0,Name,2018,2019,2020
0,Joel,3,1,3
1,Mike,3,4,2
2,Tiffany,4,3,4
3,Tom,1,2,5
4,Varada,5,2,4


### 5.2. Pivot table

In [96]:
# Trường hợp có nhiều cột index
df = pd.DataFrame({"Name": ["Tom", "Tom", "Mike", "Mike"],
                   "Department": ["CS", "STATS", "CS", "STATS"],
                   "2018": [1, 2, 3, 1],
                   "2019": [2, 3, 4, 2],
                   "2020": [5, 1, 2, 2]})
df                   

Unnamed: 0,Name,Department,2018,2019,2020
0,Tom,CS,1,2,5
1,Tom,STATS,2,3,1
2,Mike,CS,3,4,2
3,Mike,STATS,1,2,2


In [97]:
df = df.melt(id_vars = ['Name', 'Department'],
             value_name = 'Courses',
             var_name = 'Year')
df

Unnamed: 0,Name,Department,Year,Courses
0,Tom,CS,2018,1
1,Tom,STATS,2018,2
2,Mike,CS,2018,3
3,Mike,STATS,2018,1
4,Tom,CS,2019,2
5,Tom,STATS,2019,3
6,Mike,CS,2019,4
7,Mike,STATS,2019,2
8,Tom,CS,2020,5
9,Tom,STATS,2020,1


In [98]:
df.pivot_table(index = "Name", 
               columns='Year', 
               values='Courses', 
               aggfunc='sum')

Year,2018,2019,2020
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mike,4,6,4
Tom,3,5,6


In [99]:
df.pivot_table(index = ["Name", "Department"], 
               columns='Year', 
               values='Courses', 
               aggfunc='sum')

Unnamed: 0_level_0,Year,2018,2019,2020
Name,Department,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mike,CS,3,4,2
Mike,STATS,1,2,2
Tom,CS,1,2,5
Tom,STATS,2,3,1


## 6. Merge and Concat

### 6.1. Concat

Đôi khi chúng ta sẽ phải làm việc giữa nhiều DataFrame, và việc kết hợp giữa các DataFrame với nhau là một trong những việc chúng ta phải làm.



In [117]:
df1 = pd.DataFrame({'A': [1, 3, 5],
                    'B': [2, 4, 6]})
df2 = pd.DataFrame({'A': [7, 9, 11],
                    'B': [8, 10, 12]})
df1

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6


In [118]:
df2

Unnamed: 0,A,B
0,7,8
1,9,10
2,11,12


In [114]:
# Kết hợp 2 dataframe theo chiều dọc
pd.concat((df1, df2), axis = 0, ignore_index=True)

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10
5,11,12


In [115]:
# Đổi tên columns
df2.columns = ['C', 'D']

# Kết hợp 2 dataframe theo chiều ngang
pd.concat((df1, df2), axis = 1)

Unnamed: 0,A,B,C,D
0,1,2,7,8
1,3,4,9,10
2,5,6,11,12


### 6.2. Merge

Chúng ta có thể nghĩ merge hai DataFrame tương tự như phép JOIN 2 bảng trong SQL vậy. Giả sử ta có hai bảng như sau:

{{< figure src="./merge.png" >}}

In [120]:
df1 = pd.DataFrame({"name": ['Magneto', 'Storm', 'Mystique', 'Batman', 'Joker', 'Catwoman', 'Hellboy'],
                    'alignment': ['bad', 'good', 'bad', 'good', 'bad', 'bad', 'good'],
                    'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'male'],
                    'publisher': ['Marvel', 'Marvel', 'Marvel', 'DC', 'DC', 'DC', 'Dark Horse Comics']})
df2 = pd.DataFrame({'publisher': ['DC', 'Marvel', 'Image'],
                    'year_founded': [1934, 1939, 1992]})



**Inner Join**

{{< figure src="./inner_join.png" >}}

In [121]:
pd.merge(df1, df2, how = "inner", on = "publisher")

Unnamed: 0,name,alignment,gender,publisher,year_founded
0,Magneto,bad,male,Marvel,1939
1,Storm,good,female,Marvel,1939
2,Mystique,bad,female,Marvel,1939
3,Batman,good,male,DC,1934
4,Joker,bad,male,DC,1934
5,Catwoman,bad,female,DC,1934


**Outer Join**

{{< figure src="./outer_join.png" >}}

In [122]:
pd.merge(df1, df2, how = "outer", on = "publisher")

Unnamed: 0,name,alignment,gender,publisher,year_founded
0,Magneto,bad,male,Marvel,1939.0
1,Storm,good,female,Marvel,1939.0
2,Mystique,bad,female,Marvel,1939.0
3,Batman,good,male,DC,1934.0
4,Joker,bad,male,DC,1934.0
5,Catwoman,bad,female,DC,1934.0
6,Hellboy,good,male,Dark Horse Comics,
7,,,,Image,1992.0


**Left Join**

{{< figure src="./left_join.png" >}}

In [123]:
pd.merge(df1, df2, how = "left", on = "publisher")

Unnamed: 0,name,alignment,gender,publisher,year_founded
0,Magneto,bad,male,Marvel,1939.0
1,Storm,good,female,Marvel,1939.0
2,Mystique,bad,female,Marvel,1939.0
3,Batman,good,male,DC,1934.0
4,Joker,bad,male,DC,1934.0
5,Catwoman,bad,female,DC,1934.0
6,Hellboy,good,male,Dark Horse Comics,


## 7. Apply and groupby

### 7.1. Apply

Trong Python, có hai loại hàm: Một là các hàm nhận đối số đầu vào là một mảng và trả về một mảng. Một loại khác thì ngược lại, chỉ nhận đối số đầu vào là một scalar. Do đó cũng có hai phương thức được xây dựng tương ứng với hai loại hàm này, để áp dụng một hàm với từng phần tử trong DataFrame.

- `df.apply()`: Sử dụng với loại hàm thứ nhất.
- `df.applymap()`: Sử dụng với loại hàm thứ hai.

In [127]:
df = pd.read_csv('./cycling_data.csv')
df[['Time', 'Distance']].apply(np.sin)

Unnamed: 0,Time,Distance
0,-0.901866,0.053604
1,-0.901697,0.447197
2,-0.035549,-0.046354
3,-0.739059,0.270228
4,-0.236515,-0.086263
...,...,...
28,-0.683372,0.063586
29,0.150056,0.133232
30,0.026702,0.023627
31,-0.008640,0.221770


In [128]:
df[['Time']].apply(lambda x: x / 3600)

Unnamed: 0,Time
0,0.578889
1,0.703056
2,0.517500
3,0.608889
4,0.525278
...,...
28,0.519444
29,0.596944
30,0.511389
31,0.684167


In [131]:
int([5, 10])

TypeError: int() argument must be a string, a bytes-like object or a real number, not 'list'

In [132]:
df[['Time']].applymap(int)

Unnamed: 0,Time
0,2084
1,2531
2,1863
3,2192
4,1891
...,...
28,1870
29,2149
30,1841
31,2463


### 7.2. Groupby

Hàm `df.groupby()` được sử dụng để nhóm dữ liệu thành các nhóm, sau đó ta có thể sử dụng các hàm thống kê cho từng nhóm này.

{{< figure src="./groupby_2.png" >}}

In [133]:
dfg = df.groupby(by = 'Name')
dfg.groups

{'Afternoon Ride': [0, 2, 4, 6, 9, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32], 'Morning Ride': [1, 3, 5, 7, 8, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31]}

In [134]:
dfg.mean()

Unnamed: 0_level_0,Time,Distance
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Afternoon Ride,4654.352941,12.462
Morning Ride,2299.875,12.86


In [135]:
dfg.aggregate(['mean', 'sum', 'count'])

  dfg.aggregate(['mean', 'sum', 'count'])


Unnamed: 0_level_0,Time,Time,Time,Distance,Distance,Distance
Unnamed: 0_level_1,mean,sum,count,mean,sum,count
Name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Afternoon Ride,4654.352941,79124,17,12.462,186.93,15
Morning Ride,2299.875,36798,16,12.86,205.76,16


## 8. Summary

Như vậy, trong bài viết này chúng ta đã đi qua hầu hết những thứ cơ bản trong Pandas.

**Làm quen với Pandas**

- Tạo Series với `pd.Series()` 
- Tạo DataFrames với `pd.DataFrame(array_2d, index, column)`
- Indexing và slicing với: `df[], df.loc[], df.iloc[], df.query()`
- Các toán tử giữa 2 Series kết hợp với nhau dựa vào labels.
- Import data với `pd.read_csv`

**Basic data wrangling**

- Xem thông tin về DataFrame với `df.head()`, `df.tail()`, `df.info()`, `df.describe()`
- Đổi tên cột với `df.columns` và `df.rename()`
- Thay đổi index với `df.set_index()`, `df.index.name`, `df.reset_index()`, `df.index`
- Thêm cột với `df['variable_name']`
- Thêm hàng với `df.append()`
- Xóa cột hoặc hàng với `df.drop(columns)` và `df.drop(index)`
- DataFrame reshaping với `df.melt()`, `df.pivot()`, `df.pivot_table()`
- Gộp hai bảng dữ liệu với `df.concat()`, `df.merge()`
- Áp dụng một hàm với từng phần tử sử dụng `df.apply()` và `df.applymap()`
- Groupby và Aggregate với `df.groupby()`