# Bài 3: Pandas (part 1)

## 1. Tổng quan
- High-performance data manipulation and analysis tool
- Pandas là viết tắc của Panel Data Analysis
- Được tạo ra bởi Wes McKinney năm 2008 khi ông làm ở 1 công ty tài chính (sau đó được open source)
- Key features:
    - Fast
    - Hỗ trợ indexing / subsetting theo location và lable
    - Hỗ trợ các công cụ cho data aggregation and transformations
    - Hỗ trợ các công cụ cho time series
    - High performance merging of data

### Pandas data structures
- 3 structures:
    1. Series (1 chiều) 
        - 1D labeled homogeneous array
    1. Data Frames (2 chiều)
        - General 2D labeled table
        - Các cột có thể khác kiểu dữ liệu
    1. Panel (nhiều chiều)
        - General nD labeled array

## 2. Series

In [None]:
# Import các gói cần thiết
import numpy as np
import pandas as pd

### 2.1 Khởi tạo

In [None]:
# Từ list
s = pd.Series([1, 2, 3])

In [None]:
# View
s

In [None]:
# Type
type(s)

- Bản chất phần data của series chính là một numpy array

In [None]:
# Extract values
s.values

In [None]:
# Type of values
type(s.values)

- Series chỉ khác np array là nó được phủ lên 1 chiều index

In [None]:
# Thường index sẽ được tự động sinh ra và start từ 0
# Trừ khi user explicitly gán index cho mỗi element
s.index

In [None]:
# Convert index to list
s.index.tolist()

In [None]:
# Explicitly set index cho series
s = pd.Series([1, 2, 3], index=["A", "B", "C"])

In [None]:
# View
s

In [None]:
# View index
s.index

#### Khởi tạo từ các loại iterable khác

- Từ np array

In [None]:
a = np.array([1, 2, 3, 4])
pd.Series(a)

- Từ dict

In [None]:
d = {
    1: "A",
    2: "B", 
    3: "C"
}

pd.Series(d)

- Từ 2D list

In [None]:
l = [
    [1, "A"],
    [2, "B"], 
    [3, "C"]
]

pd.Series(dict(l))

### 2.2. Basic info

In [None]:
# Initialize
s = pd.Series([1, 2, 3, 4, 5])
s

In [None]:
# Size
s.size

In [None]:
# Data type
s.dtype

In [None]:
# Shape (never used)
s.shape

### 2.3. Indexing a series

Series được index theo 2 kiểu

- Location-based: giống với list (dùng `.iloc`)
- Label-based: giống với dict (dùng `.loc`)

#### A) Location-based indexing (iloc)

In [None]:
# Initialize
s = pd.Series(range(10, 15))

In [None]:
# View series
s

In [None]:
# 1st element
s.iloc[0]

In [None]:
# 3rd element
s.iloc[2]

In [None]:
# Last element
s.iloc[-1]

In [None]:
# Truy cập vào phần tử thứ 2 và đổi thành 99
# Index and write
s.iloc[1] = 99
s

#### B) Labeled based indexing (loc)
- `iloc` tương tự list index
- `loc` tương tự dict index

In [None]:
# Create series
# Giả lập GDA của 5 nước
s = pd.Series(
    [1000,980, 720, 550, 230], 
    index=["USA", "JPN", "CHN", "CAN", "VIE"]
)

In [None]:
# View
s

In [None]:
# Canada
s.loc["CAN"]

In [None]:
# Vietnam
s.loc["VIE"]

In [None]:
# Nếu index ko tồn tại sẽ báo lỗi key error như dict
# s.loc["LAO"]

### 2.4. Slicing a series

In [None]:
# Create a series
s = pd.Series(list("abcde"), index=range(1, 6)) 

In [None]:
# View
s

#### A) Location-based slicing

- Same as Python style (start inclusive, stop exclusive)

In [None]:
# First 3 elem (stop not included)
s.iloc[:3]

In [None]:
# 2nd to 3rd
s.iloc[1:3]

In [None]:
# First to 2nd-to-last
s.iloc[:-1]

In [None]:
# First to last
s.iloc[:]

#### B) Label-based slicing

Different from Python style, both start and stop are inclusive

In [None]:
# In lại s
s

In [None]:
# Label 1 to 3
s.loc[1:3]

In [None]:
# Label 2 to end
s.loc[2:]

In [None]:
# 2 to 5
s.loc[2:4]

### 2.5. Basic info of a series

In [None]:
# Create series
s = pd.Series(range(10))

In [None]:
# View
s

In [None]:
# View first 5 elements
s.head()

In [None]:
# View first 3 elems
s.head(3)

In [None]:
# View last 3 elems
s.tail(3)

In [None]:
# View number of elements
s.size

In [None]:
# View data type of elements
s.dtype

In [None]:
# View values (return a numpy array)
s.values

In [None]:
# View index
s.index

In [None]:
# Index as list
s.index.tolist()

- View more here: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

#### 2.6. Common operations

In [None]:
# Initialize
s = pd.Series([1, 2, -5, 4, 0, -7, 9, -3, -3, np.nan, np.infty, -np.infty])
s

- Element-wise operations

In [None]:
# Absolute values
s.abs()

In [None]:
# Add
# Try with -, *, /, **
s + 10

In [None]:
# Comparison
s[s > 0]

In [None]:
# Non-null values
s[s.notnull()]

In [None]:
# Non-null and non-infinity values
s[s.notnull() & ~np.isinf(s)]

In [None]:
# Count number of null values
s.isnull().sum()

In [None]:
# Count proportion of null values
s.isnull().mean()

- Summary statistics

In [None]:
# Initialize
s = pd.Series([1, 2, 1, 1, 3, 5, 2])
s

In [None]:
# Sum
s.sum()

In [None]:
# Mean
s.mean()

- Unique values

In [None]:
# Initialize
s = pd.Series(["A", "A", "B", "C", "B", "B", "C", "B", "A"])
s

In [None]:
# Unique values
s.unique()

In [None]:
# Number of unique values
s.nunique()

In [None]:
# Distribution of unique values
s.value_counts()

In [None]:
# Value count sort by index
s.value_counts().sort_index()

In [None]:
# Value counts as proportion
s.value_counts(normalize=True)

In [None]:
# Value counts as percentage
s.value_counts(normalize=True) * 100

In [None]:
# Value counts as percentage and sort index
s.value_counts(normalize=True).sort_index() * 100