# Pandas


**Reference for pandas**
1. [Pandas official Document](https://pandas.pydata.org/docs/reference/index.html)
1. [Python Data Science Handbook
](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html)


Pandas là gì
- Pandas is a newer package *built on top of NumPy*, and provides an efficient implementation of a `DataFrame`.
- `DataFrames` are essentially *multidimensional arrays* with attached *row and column labels*, and often with heterogeneous types and/or missing data.
- Offering a convenient storage interface for labeled data, Pandas implements a number of powerful *data operations* familiar to users of both `database` frameworks and `spreadsheet` programs.

**Pandas** (Panel data) là một công cụ quan trọng trong nghiên cứu và ứng dụng để xử lý `dữ liệu dạng bảng` (tabular data)

In [None]:
import pandas as pd
import numpy as np

## Pandas series

`Series` là mảng một chiều gồm các dữ liệu được index. Có thể xem nó như một *cột dữ liệu*\
Series gồm:
- Một mảng các **values** cùng kiểu
- Một mảng các nhãn dữ liệu, gọi là **index**

In [None]:
# Tạo ra Series từ List


In [None]:
# Truy cập values


In [None]:
# Truy cập index


In [None]:
# Index trong Series có thể là mảng bất kỳ, không nhất thiết phải là 0,1,2...


In [None]:
# Tên SV và điểm tương ứng của một môn học nào đó ;-)
names_list = [ 
    "PT", "BV", "HH", "ĐĐ", "HH", "AN", "CN", "DĐ", "DP", "HĐ", 
    "MN", "MT", "PT", "SH", "TN", "TN", "AN", "BN", "BV", "BN", 
    "CN", "CV", "DL", "DT", "ĐN", "ĐN", "HN", "HL", "HV", "HV", 
    "HT", "KĐ", "KV", "LP", "MB", "PH", "PN", "PN", "QV", "QL", 
    "ST", "ST", "ST", "SH", "TN", "TN", "TN", "TB", "TN", "TL", 
    "TL", "TN", "TL", "VH", "VH", "VP", "GT", "KN", "LĐ", "SN" 
]
grades_list = [
    7.0, 0.0, 0.0, 6.5, 0.5, 6.0, 0.0, 0.5, 9.0, 9.0, 
    0.5, 7.5, 0.5, 0.5, 7.5, 0.0, 8.5, 0.5, 9.5,  10, 
    0.5, 9.0, 0.0, 0.5, 5.5, 8.5, 7.0, 9.5, 8.5, 9.0, 
    9.0, 5.0, 9.5, 0.5, 9.5, 0.5, 8.5, 7.5, 9.0, 9.0, 
    9.5, 6.0, 0.0, 9.5, 7.5, 9.5, 6.0, 7.0, 9.0, 9.0, 
    9.0, 0.5, 9.0, 9.5, 9.0, 9.5, 9.0, 0.5, 9.5, 5.5
]

In [None]:
# Tạo names_series từ names_list


In [None]:
# Tạo grades_series từ grades_list


Pandas series khác gì với 1D Numpy array?

In [None]:
# Pandas series có nhiều hơn các hàm/toán-tử/phương-thức 
# Ví dụ, để tính các đại lượng thống kê mô tả của grades_series:
grades_series.describe()

In [None]:
# Pandas series ngoài truy xuất các phần tử thông qua 
# chỉ số vị trí giống như 1D Numpy array thì còn có thể truy xuất
# thông qua tên của phần tử (Pandas gọi tên là index)


In [None]:
# Tìm SV có điểm cao nhất
# In ra tên của SV và điểm tương ứng


In [None]:
# Tìm SV có điểm cao nhất
# In ra tên của SV và điểm tương ứng


In [None]:
# Cộng 2 series khác với cộng 2 array
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([30, 20, 10], index=['c', 'b', 'a'])


In [None]:
# Cộng 2 series khác với cộng 2 array
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6, 7], index=['b', 'c', 'd', 'e'])


In [None]:
# Series còn có thể tạo ra từ dictionary
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}


In [None]:
# Dân số của California


In [None]:
# Khác với dictionary, Series hỗ trợ slicing


## Pandas dataframe

Pandas **dataframe** dùng để lưu dữ liệu 2 chiều (dữ liệu `dạng bảng`). Đây là cấu trúc dữ liệu thường được dùng trong Khoa Học Dữ Liệu.

So với 2D Numpy array thì Pandas dataframe:
- Cho phép các cột có kiểu dữ liệu khác nhau
- Cho phép truy xuất thông qua tên dòng & cột (bên cạnh chỉ số vị trí dòng & cột như ở Numpy)
- Cung cấp nhiều hơn các toán-tử/hàm/phương-thức để xử lý dữ liệu.

### Cách tạo dataframe
- Dùng list và column name(s).- Từ dictionary.- Từ Series - Từ CSV file.

In [None]:
# Từ list và column names
pd.DataFrame([1, 2, 3],
             columns=["Numbers"])

In [None]:
pd.DataFrame([[1, "one"], [2, "two"]],
            columns = ["Number", "Description"])

In [None]:
# Từ dictionary
pd.DataFrame({"Fruit":["Strawberry", "Orange"], 
              "Price": [5.49, 3.99]})

In [None]:
pd.DataFrame([{"Fruit":"Strawberry", "Price":5.49},
             {"Fruit":"Orange", "Price":3.99}])

In [None]:
# Từ Series
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}


In [None]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}


### Đọc dữ liệu từ file vào dataframe

Dữ liệu: [MovieLens 100K Dataset](https://files.grouplens.org/datasets/movielens/ml-latest-small.zip). Có tất cả 4 file csv, trong phần demo bên dưới chỉ dùng 2 file.

Theo [file mô tả dữ liệu](https://files.grouplens.org/datasets/movielens/ml-latest-small-README.html):
>This dataset (ml-latest-small) describes 5-star rating and free-text tagging activity from MovieLens, a movie recommendation service. It contains 100836 ratings and 3683 tag applications across 9742 movies. These data were created by 610 users between March 29, 1996 and September 24, 2018. This dataset was generated on September 26, 2018.
>
>Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

In [None]:
# Đọc dữ liệu từ file movies.csv vào dataframe movies_df
# Đọc dữ liệu từ file ratings.csv vào dataframe ratings_df
# Ở đây, mình đặt các file csv trong thư mục Data/ml-latest-small


### Xem nhanh một vài dòng của dataframe

In [None]:
# Xem vài dòng đầu


In [None]:
# Xem vài dòng cuối


In [None]:
# Xem vài dòng ngẫu nhiên


### Xem các thông tin của dataframe

In [None]:
# Xem số dòng


In [None]:
# Xem số dòng và số cột


In [None]:
# Xem tên của các cột


In [None]:
# Xem tên của các dòng


In [None]:
# Xem kiểu dữ liệu của các cột


In [None]:
# Xem phần dữ liệu của dataframe, kết quả sẽ là một Numpy array
# Hiện tại thì ở bên dưới dataframe lưu trữ bằng cách gom các
# cột có cùng kiểu dữ liệu vào một Numpy array. Do đó:
# - Nếu tất cả các cột của dataframe có cùng kiểu dữ liệu
#   thì array được lấy ra chính là array bên dưới của dataframe
# - Ngược lại thì array được lấy ra là một array được tạo mới 
#   với dtype là object (con trỏ trỏ tới một đối tượng Python 
#   bất kỳ)


In [None]:
# Xem tất cả cùng một lúc!


### Truy xuất dữ liệu ở dataframe

#### df.iloc[...]: Integer-Based Extraction
`df.iloc[r, c]` chọn item bằng cách xác định vị trí dòng và cột (integer position)

- `r` có thể là:
    - Một chỉ số vị trí (0, 1, 2, ...)
    - List/array/series các chỉ số vị trí
    - Slicing theo chỉ số vị trí
    - List/array các giá trị True/False (hiện tại thì `iloc` không chạy được với series True/False)
- `c` tương tự như `r`
- Dùng một chỉ số vị trí (một con số) thì kết quả sẽ bị giảm chiều
    - Nếu hoặc `r` hoặc `c` là một chỉ số vị trí (một con số) thì kết quả là series
    - Nếu cả `r` và `c` đều là một chỉ số vị trí (một con số) thì kết quả là một giá trị

In [None]:
# Lấy ra phần tử ở dòng có chỉ số vị trí 2 
# và cột có chỉ số vị trí 1 ở movies_df


In [None]:
# Lấy ra các phần tử ở dòng có chỉ số vị trí 2 và 4 
# và cột có chỉ số vị trí 1 và 2 ở movies_df


In [None]:
# Lấy ra các phần tử từ dòng có chỉ số vị trí 2 đến 4 
# và từ cột có chỉ số vị trí 1 đến 2 ở movies_df


In [None]:
# Lấy ra dòng ở chỉ số vị trí 2 của movies_df


In [None]:
# Lấy ra cột ở chỉ số vị trí 1 của movies_df


In [None]:
# Lấy ra các dòng của ratings_df mà có rating >= 3 và <= 4


#### df.loc[...]: Label-Based Extraction

`df.loc[r, c]`
Cho phép truy xuất dữ liệu dựa trên `nhãn` của dòng và cột

- `r` có thể là: 
    - Một tên
    - List/array/series các tên
    - Slicing theo tên (khác với slicing theo chỉ số vị trí, slicing theo tên bao gồm cả start **và end**)
    - List/array/series các giá trị True/False (lưu ý, nếu dùng series thì index của series sẽ được dùng để căn với index của `df`) 
- `c` tương tự như `r`
- Dùng một tên thì kết quả sẽ bị giảm chiều
    - Nếu hoặc `r` hoặc `c` là một tên thì kết quả là series
    - Nếu cả `r` và `c` đều là một tên thì kết quả là một giá trị

In [None]:
# Lấy ra phần tử ở dòng có tên 2 và cột có tên 'title' ở movies_df


In [None]:
# Lấy ra các phần tử ở dòng có tên 2 và 4 
# và cột có tên 'title' và 'genres' ở movies_df


In [None]:
# Lấy ra các phần tử từ dòng có tên 2 đến tên 4 
# và từ cột có tên 'title' đến tên 'genres' ở movies_df


In [None]:
# Lấy ra dòng có tên là 2 của movies_df


In [None]:
# Lấy ra cột có tên là 'title' của movies_df


In [None]:
# Lấy ra các dòng của ratings_df mà có rating >= 3 và <= 4


#### df.loc[] vs df.iloc[]
- `.loc` truy xuất dựa trên nhãn
- `.iloc` truy xuất dựa trên chỉ số nguyên\
Thường sẽ dùng `.loc` do mang tính tổng quát và dễ hiểu hơn 


#### df[...]: Context-dependent Extraction
- Truy xuất với ý nghĩa dựa vào ngữ cảnh. Tùy vào ngữ cảnh, `[]` tương đương với `.loc` hoặc `.iloc`
- Trên thực tế, cách viết này phổ biến hơn `.loc` hoặc `.iloc` do ngắn gọn và dễ hiểu hơn.

- `df[tên hoặc list các tên]` là shortcut của `df.loc[:, tên hoặc list các tên]`
- `df[list/array/series các giá trị True/False]` là shortcut của `df.loc[list/array/series các giá trị True/False, :]`
- `df[slicing]` là shortcut của `df.iloc[slicing, :]`

In [None]:
# Chọn ra các bộ phim có rating > 4


### Thay đổi dữ liệu ở dataframe

df.iloc[...] =

df.loc[...] = 

df[...] = 

Các cách làm này sẽ không có vấn đề gì. Bây giờ ta hãy xem một ví dụ mà sẽ xảy ra vấn đề.

In [None]:
# Tạo ra một bản copy (deep copy) của ratings_df để thử nghiệm


In [None]:
# Lấy ra một dataframe gồm các dòng có rating bằng 5
# rồi sửa lại rating thành 4.9


Lý do `df` không thay đổi là vì câu lệnh thay đổi rating ở trên gồm 2 bước:

1. Truy xuất `df` để lấy ra dataframe gồm các dòng có rating bằng 5. Trong Pandas thường là không biết chắc được kết quả truy xuất là view hay là copy của dataframe ban đầu. Trong ví dụ ở trên, kết quả truy xuất là copy.
2. Thay đổi rating trên kết quả truy xuất. Vì kết quả truy xuất là copy của `df` nên `df` sẽ không bị thay đổi.

Để thay đổi `df` thì ta đừng cho tách thành 2 bước với kết quả trung gian:

### Thay đổi tên dòng/cột ở dataframe

Đổi tên một vài dòng/cột

Đổi tên tất cả các dòng/cột theo một qui luật nào đó

### Thay đổi cột index (cột tên dòng) ở dataframe

In [None]:
# Cho cột movieId từ cột thường thành cột index


In [None]:
# Cho cột title từ cột thường thành cột index
# và cột movieId thì cột index thành cột thường


## Thay đổi kiểu dữ liệu của cột ở dataframe

s.astype dùng để ép kiểu dữ liệu của một series.

In [None]:
ratings_df.info()

In [None]:
# Thay đổi dữ liệu của cột 'timestamp' sang datetime 


pd.to_datetime chuyên dùng để ép kiểu dữ liệu datetime, có thể xử lý được những trường hợp phức tạp mà s.astype không làm được.

In [None]:
# Thay đổi dữ liệu của cột 'timestamp' sang datetime 

In [None]:
# Trường hợp mà s.astype không làm được
s = pd.Series(['1*1*2021', '30*1*2021'])


## Thực hiện thao tác với cột có kiểu dữ liệu dạng thời gian ở dataframe

s.dt.thao-tac-x

## Thực hiện thao tác với cột có kiểu dữ liệu dạng chuỗi ở dataframe

## Thêm/xóa dòng/cột ở dataframe

Thêm dòng/cột\
Để thêm cột, dùng `[]` để tham chiếu đến cột mới, sau đó gán cho nó một Series hay array với chiều dài phù hợp.

In [None]:
# Shortcut để thêm cột (hoặc cập nhật một cột đã có sẵn)


Xóa dòng/cột

## Tính toán trên dữ liệu với Pandas

- Nếu thực hiện `phép toán một ngôi` trên một đối tượng pandas, kết quả sẽ là đối tượng pandas với index được giữ nguyên 

In [None]:
ser = pd.Series(np.random.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

- Nếu thực hiện `phép toán hai ngôi` trên đối tượng Series hoặc DataFrame, Pandas sẽ căn chỉnh các chỉ mục trong quá trình thực hiện phép toán. Điều này rất thuận tiện khi làm việc với dữ liệu không đầy đủ

### Index alignment in Series

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

Mảng kết quả chứa *union* các index của hai mảng đầu vào, có thể được xác định bằng cách sử dụng:

In [None]:
# Fill-in values


### Index alignment in DataFrame

In [None]:
A = pd.DataFrame(np.random.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

In [None]:
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Operations Between DataFrame and Series