# Pandas (pt 1)

In [1]:
import numpy as np
import pandas as pd

## 1. Tổng quan
- High-performance data manipulation and analysis tool
- Created in 2008 by Wes McKinney
- Key features:
    - Fast
    - Support both label-based and location-based subsetting
    - Support tools for data aggregation(hành động colab data lại) and transformations(chuyển dữ liệu từ int sang string...)
    - High performance merging and joining of data.()
    - Support tools for time series data(Công tụ hỗ trợ cho time series)

## Pandas data structures
- 3 structures:
    1. Series (1 chiều)
        - 1D labeled homogeneous array
    2. Data Frames(2 chiều)
        - General 2D labeled table
        - Các cột có thể khác dữ liệu
    3. Panel (nhiều chiều)
        - General nD labeled array

## 2. Pandas series


### Overview

In [2]:
# Tạo một series từ Python list
s = pd.Series([1, 2, 3])

In [3]:
# View series
s

0    1
1    2
2    3
dtype: int64

In [4]:
# View type
type(s)

pandas.core.series.Series

In [5]:
# View dtype
s.dtype

dtype('int64')

- Bản chất phần data của series chính là một numpy array

In [6]:
# View values
s.values

array([1, 2, 3])

In [7]:
# View index
s.index
s.index.tolist()

[0, 1, 2]

Other ways


Series chỉ khác np array là nó được phủ lên 1 chiều index

In [8]:
# Thường thì index sẽ được tự động sinh và và start từ 0 
# Trừ khi user explicitly gán index cho mỗi element
s.index

RangeIndex(start=0, stop=3, step=1)

In [9]:
# Convert index to list
s.index.tolist()

[0, 1, 2]

In [10]:
# From list
s = pd.Series([1, 2, 3], index = ["A", "B", "C"])
s

A    1
B    2
C    3
dtype: int64

# Khởi tạo từ các iterable khác
- Từ np array

In [11]:
# From numpy array
a = np.array([1, 2, 3, 4])
pd.Series(a)

0    1
1    2
2    3
3    4
dtype: int64

- Từ dict

In [12]:
d = {
    1: "A",
    2: "B", 
    3: "C"
}
pd.Series(d)

1    A
2    B
3    C
dtype: object

- Từ 2D list

In [13]:
l = [
    [1, "A"],
    [2, "B"],
    [3, "C"]
]
pd.Series(dict(l))

1    A
2    B
3    C
dtype: object

### Basic info

In [14]:
# Size
s = pd.Series([1, 2, 3, 4, 5, 6])
s.size

6

In [15]:
# Dtype
s.dtype

dtype('int64')

In [16]:
# Shape 
s.shape

(6,)

### Indexing a series
Series được index theo 2 kiểu: 
- Location-based: giống với list(dùng `.iloc`) -> truy vẫn như kiểu list
- Label-based: giống với dict(dùng `.loc`) -> truy vấn như dict



#### iloc

In [17]:
# Create a series
s = pd.Series(range(10,15))
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [18]:
# View series
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [19]:
# 1st element
s.iloc[0]

10

In [20]:
# 3rd element
s.iloc[2]

12

In [21]:
# Last element
s.iloc[-1]

14

In [22]:
# Truy cập vào phần tử thứ 2 và đổi thành 99
s.iloc[1] = 99
s

0    10
1    99
2    12
3    13
4    14
dtype: int64

#### loc

In [23]:
# Create series
# Example GDP of countries
s = pd.Series(
    [1000,980, 720, 550, 230], 
    index=list(["USA", "JPN", "CHN", "CAN", "VIE"])
)

In [24]:
# View series
s

USA    1000
JPN     980
CHN     720
CAN     550
VIE     230
dtype: int64

In [25]:
# Extract data for Canada
s.loc["CAN"]

550

In [26]:
# Vietnam
s.loc["VIE"]

230

### Slicing

In [27]:
# Create a series
s = pd.Series(list("abcde"), index=range(1, 6)) 

In [28]:
# View
s

1    a
2    b
3    c
4    d
5    e
dtype: object

#### iloc

In [29]:
# First 3 elem (stop not included)
s.iloc[:3]

1    a
2    b
3    c
dtype: object

In [30]:
# 2nd to 3rd
s.iloc[1:3]

2    b
3    c
dtype: object

In [31]:
# First to 2nd-to-last
s.iloc[1:]

2    b
3    c
4    d
5    e
dtype: object

In [32]:
# First to last
s.iloc[:]

1    a
2    b
3    c
4    d
5    e
dtype: object

#### loc

In [33]:
# Label 1st to 3rd
s.loc["USA": "CHN"]

Series([], dtype: object)

In [34]:
# Label 2nd to end


In [35]:
# 2nd to 5th


### Basic operations

In [36]:
# Create series
s = pd.Series(range(10))

In [37]:
# View
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [38]:
# View first 5 elements
s.head()

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [39]:
# View first 3 elems
s.head(3)

0    0
1    1
2    2
dtype: int64

In [40]:
# View last 3 elems
s.tail(3)

7    7
8    8
9    9
dtype: int64

In [41]:
# View number of elements
s.size

10

In [42]:
# View data type of elements
s.dtype

dtype('int64')

In [43]:
# View values
s.values

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
# View index
s.index

RangeIndex(start=0, stop=10, step=1)

In [45]:
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [46]:
s.iloc[3: : -1]

3    3
2    2
1    1
0    0
dtype: int64

In [47]:
s.loc["JPN": "CAN"].iloc[::-1]

Series([], dtype: int64)

# Common operations

In [48]:
# Initialize
s = pd.Series([1, 2, -5, 4, 0, -7, 9, -3, -3, np.nan, np.infty, -np.infty])

In [49]:
s

0     1.0
1     2.0
2    -5.0
3     4.0
4     0.0
5    -7.0
6     9.0
7    -3.0
8    -3.0
9     NaN
10    inf
11   -inf
dtype: float64

In [50]:
# Absolute values
s.abs()

0     1.0
1     2.0
2     5.0
3     4.0
4     0.0
5     7.0
6     9.0
7     3.0
8     3.0
9     NaN
10    inf
11    inf
dtype: float64

In [51]:
# Missing values
s.isnull().sum()

1

In [70]:
s.isnull().mean()

0.08333333333333333

In [52]:
# Count number of missings
s + 10

0     11.0
1     12.0
2      5.0
3     14.0
4     10.0
5      3.0
6     19.0
7      7.0
8      7.0
9      NaN
10     inf
11    -inf
dtype: float64

In [53]:
# Extract non-null values
s[s.notnull()]

0     1.0
1     2.0
2    -5.0
3     4.0
4     0.0
5    -7.0
6     9.0
7    -3.0
8    -3.0
10    inf
11   -inf
dtype: float64

In [54]:
# Extract null values
s[s.isnull()]

9   NaN
dtype: float64

In [55]:
# Non-null and non-infinity values
s[s.notnull() & ~np.isinf(s)]

0    1.0
1    2.0
2   -5.0
3    4.0
4    0.0
5   -7.0
6    9.0
7   -3.0
8   -3.0
dtype: float64

In [56]:
# Check how many null values
# Count number of null values
s.isnull().sum()

1

In [57]:
# Proportion of null values
s[s.notnull() & ~np.isinf(s)].mean()

-0.2222222222222222

In [58]:
# Unique values
s.unique()

array([  1.,   2.,  -5.,   4.,   0.,  -7.,   9.,  -3.,  nan,  inf, -inf])

In [59]:
#Number of unique value
# Số lượng các unique value
s.nunique()

10

In [71]:
# Distribution of unique values
s.value_counts()

-3.0    2
 1.0    1
 2.0    1
-5.0    1
 4.0    1
 0.0    1
-7.0    1
 9.0    1
 inf    1
-inf    1
dtype: int64

In [61]:
# Muốn lấy values với key là 1.0
s.value_counts().loc[1.0]

1

In [62]:
# Sort index
s.value_counts().sort_index()

-inf    1
-7.0    1
-5.0    1
-3.0    2
 0.0    1
 1.0    1
 2.0    1
 4.0    1
 9.0    1
 inf    1
dtype: int64

In [63]:
# Sort values
s.value_counts().sort_values()

 1.0    1
 2.0    1
-5.0    1
 4.0    1
 0.0    1
-7.0    1
 9.0    1
 inf    1
-inf    1
-3.0    2
dtype: int64

In [74]:
s.value_counts(normalize = True)

-3.0    0.181818
 1.0    0.090909
 2.0    0.090909
-5.0    0.090909
 4.0    0.090909
 0.0    0.090909
-7.0    0.090909
 9.0    0.090909
 inf    0.090909
-inf    0.090909
dtype: float64

In [64]:
# Sort values theo chiều index ngược lại
s.value_counts().sort_index(ascending= False)

 inf    1
 9.0    1
 4.0    1
 2.0    1
 1.0    1
 0.0    1
-3.0    2
-5.0    1
-7.0    1
-inf    1
dtype: int64