# Pandas


**Reference for pandas**
1. [Pandas official Document](https://pandas.pydata.org/docs/reference/index.html)
1. [Python Data Science Handbook
](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html)


Pandas là gì
- Pandas is a newer package *built on top of NumPy*, and provides an efficient implementation of a `DataFrame`.
- `DataFrames` are essentially *multidimensional arrays* with attached *row and column labels*, and often with heterogeneous types and/or missing data.
- Offering a convenient storage interface for labeled data, Pandas implements a number of powerful *data operations* familiar to users of both `database` frameworks and `spreadsheet` programs.

**Pandas** (Panel data) là một công cụ quan trọng trong nghiên cứu và ứng dụng để xử lý `dữ liệu dạng bảng` (tabular data)

In [1]:
import pandas as pd
import numpy as np

## Pandas series

`Series` là mảng một chiều gồm các dữ liệu được index. Có thể xem nó như một *cột dữ liệu*\
Series gồm:
- Một mảng các **values** cùng kiểu
- Một mảng các nhãn dữ liệu, gọi là **index**

In [2]:
# Tạo ra Series từ List
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
# Truy cập values
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
# Truy cập index
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# Index trong Series có thể là mảng bất kỳ, không nhất thiết phải là 0,1,2...
data = pd.Series([-1, 10, 2], index = ["a", "b", "c"])
data

a    -1
b    10
c     2
dtype: int64

In [6]:
# Tên SV và điểm tương ứng của một môn học nào đó ;-)
names_list = [ 
    "PT", "BV", "HH", "ĐĐ", "HH", "AN", "CN", "DĐ", "DP", "HĐ", 
    "MN", "MT", "PT", "SH", "TN", "TN", "AN", "BN", "BV", "BN", 
    "CN", "CV", "DL", "DT", "ĐN", "ĐN", "HN", "HL", "HV", "HV", 
    "HT", "KĐ", "KV", "LP", "MB", "PH", "PN", "PN", "QV", "QL", 
    "ST", "ST", "ST", "SH", "TN", "TN", "TN", "TB", "TN", "TL", 
    "TL", "TN", "TL", "VH", "VH", "VP", "GT", "KN", "LĐ", "SN" 
]
grades_list = [
    7.0, 0.0, 0.0, 6.5, 0.5, 6.0, 0.0, 0.5, 9.0, 9.0, 
    0.5, 7.5, 0.5, 0.5, 7.5, 0.0, 8.5, 0.5, 9.5,  10, 
    0.5, 9.0, 0.0, 0.5, 5.5, 8.5, 7.0, 9.5, 8.5, 9.0, 
    9.0, 5.0, 9.5, 0.5, 9.5, 0.5, 8.5, 7.5, 9.0, 9.0, 
    9.5, 6.0, 0.0, 9.5, 7.5, 9.5, 6.0, 7.0, 9.0, 9.0, 
    9.0, 0.5, 9.0, 9.5, 9.0, 9.5, 9.0, 0.5, 9.5, 5.5
]

In [7]:
# Tạo names_series từ names_list
names_series = pd.Series(names_list)
names_series.head()

0    PT
1    BV
2    HH
3    ĐĐ
4    HH
dtype: object

In [8]:
# Tạo grades_series từ grades_list
grades_series = pd.Series(grades_list)
grades_series.head()

0    7.0
1    0.0
2    0.0
3    6.5
4    0.5
dtype: float64

Pandas series khác gì với 1D Numpy array?

In [9]:
# Pandas series có nhiều hơn các hàm/toán-tử/phương-thức 
# Ví dụ, để tính các đại lượng thống kê mô tả của grades_series:
grades_series.describe()

count    60.000000
mean      5.891667
std       3.845636
min       0.000000
25%       0.500000
50%       7.500000
75%       9.000000
max      10.000000
dtype: float64

In [10]:
# Pandas series ngoài truy xuất các phần tử thông qua 
# chỉ số vị trí giống như 1D Numpy array thì còn có thể truy xuất
# thông qua tên của phần tử (Pandas gọi tên là index)
grades_series = pd.Series(grades_list, index=names_list)
print(grades_series.head())
print()
print(grades_series.iloc[3]) # Truy xuất giống List
print(grades_series['ĐĐ']) # Truy xuất giống Dictionary

PT    7.0
BV    0.0
HH    0.0
ĐĐ    6.5
HH    0.5
dtype: float64

6.5
6.5


In [11]:
grades_series.index

Index(['PT', 'BV', 'HH', 'ĐĐ', 'HH', 'AN', 'CN', 'DĐ', 'DP', 'HĐ', 'MN', 'MT',
       'PT', 'SH', 'TN', 'TN', 'AN', 'BN', 'BV', 'BN', 'CN', 'CV', 'DL', 'DT',
       'ĐN', 'ĐN', 'HN', 'HL', 'HV', 'HV', 'HT', 'KĐ', 'KV', 'LP', 'MB', 'PH',
       'PN', 'PN', 'QV', 'QL', 'ST', 'ST', 'ST', 'SH', 'TN', 'TN', 'TN', 'TB',
       'TN', 'TL', 'TL', 'TN', 'TL', 'VH', 'VH', 'VP', 'GT', 'KN', 'LĐ', 'SN'],
      dtype='object')

In [12]:
grades_series.values

array([ 7. ,  0. ,  0. ,  6.5,  0.5,  6. ,  0. ,  0.5,  9. ,  9. ,  0.5,
        7.5,  0.5,  0.5,  7.5,  0. ,  8.5,  0.5,  9.5, 10. ,  0.5,  9. ,
        0. ,  0.5,  5.5,  8.5,  7. ,  9.5,  8.5,  9. ,  9. ,  5. ,  9.5,
        0.5,  9.5,  0.5,  8.5,  7.5,  9. ,  9. ,  9.5,  6. ,  0. ,  9.5,
        7.5,  9.5,  6. ,  7. ,  9. ,  9. ,  9. ,  0.5,  9. ,  9.5,  9. ,
        9.5,  9. ,  0.5,  9.5,  5.5])

In [13]:
# Tìm SV có điểm cao nhất
# In ra tên của SV và điểm tương ứng
# grades_series.max()
max_index = grades_series.idxmax()
print(max_index)
print()
print(grades_series.loc[max_index]) # Ra không đúng 
                                    # do có SV trùng tên

BN

BN     0.5
BN    10.0
dtype: float64


In [14]:
# Tìm SV có điểm cao nhất
# In ra tên của SV và điểm tương ứng
max_position = grades_series.argmax()
print(grades_series.index[max_position])
print(grades_series.iloc[max_position])

BN
10.0


In [15]:
# Cộng 2 series khác với cộng 2 array
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([30, 20, 10], index=['c', 'b', 'a'])
# s1.values + s2.values
s1 + s2

a    11
b    22
c    33
dtype: int64

In [16]:
# Cộng 2 series khác với cộng 2 array
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6, 7], index=['b', 'c', 'd', 'e'])
# s1.values + s2.values
s1 + s2

a    NaN
b    6.0
c    8.0
d    NaN
e    NaN
dtype: float64

In [17]:
# Series còn có thể tạo ra từ dictionary
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [18]:
# Dân số của California
population['California']

38332521

In [19]:
# Khác với dictionary, Series hỗ trợ slicing
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

## Pandas dataframe

Pandas **dataframe** dùng để lưu dữ liệu 2 chiều (dữ liệu `dạng bảng`). Đây là cấu trúc dữ liệu thường được dùng trong Khoa Học Dữ Liệu.

So với 2D Numpy array thì Pandas dataframe:
- Cho phép các cột có kiểu dữ liệu khác nhau
- Cho phép truy xuất thông qua tên dòng & cột (bên cạnh chỉ số vị trí dòng & cột như ở Numpy)
- Cung cấp nhiều hơn các toán-tử/hàm/phương-thức để xử lý dữ liệu.

### Cách tạo dataframe
- Dùng list và column name(s).
- Từ dictionary.
- Từ Series 
- Từ CSV file.

In [20]:
# Từ list và column names
pd.DataFrame([1, 2, 3],
             columns=["Numbers"])

Unnamed: 0,Numbers
0,1
1,2
2,3


In [21]:
pd.DataFrame([[1, "one"], [2, "two"]],
            columns = ["Number", "Description"])

Unnamed: 0,Number,Description
0,1,one
1,2,two


In [22]:
# Từ dictionary
pd.DataFrame({"Fruit":["Strawberry", "Orange"], 
              "Price": [5.49, 3.99]})

Unnamed: 0,Fruit,Price
0,Strawberry,5.49
1,Orange,3.99


In [23]:
pd.DataFrame([{"Fruit":"Strawberry", "Price":5.49},
             {"Fruit":"Orange", "Price":3.99}])

Unnamed: 0,Fruit,Price
0,Strawberry,5.49
1,Orange,3.99


In [24]:
# Từ Series
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [25]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [26]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


### Đọc dữ liệu từ file vào dataframe

Dữ liệu: [MovieLens 100K Dataset](https://files.grouplens.org/datasets/movielens/ml-latest-small.zip). Có tất cả 4 file csv, trong phần demo bên dưới chỉ dùng 2 file.

Theo [file mô tả dữ liệu](https://files.grouplens.org/datasets/movielens/ml-latest-small-README.html):
>This dataset (ml-latest-small) describes 5-star rating and free-text tagging activity from MovieLens, a movie recommendation service. It contains 100836 ratings and 3683 tag applications across 9742 movies. These data were created by 610 users between March 29, 1996 and September 24, 2018. This dataset was generated on September 26, 2018.
>
>Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

In [32]:
# Đọc dữ liệu từ file movies.csv vào dataframe movies_df
# Đọc dữ liệu từ file ratings.csv vào dataframe ratings_df
# Ở đây, mình đặt các file csv trong thư mục Data/ml-25m
movies_df = pd.read_csv('../Week 9/Data/movies.csv')
ratings_df = pd.read_csv('../Week 9/Data/ratings.csv')

### Xem nhanh một vài dòng của dataframe

In [33]:
# Xem vài dòng đầu
movies_df.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [34]:
# Xem vài dòng cuối
movies_df.tail(3)

Unnamed: 0,movieId,title,genres
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


In [35]:
# Xem vài dòng ngẫu nhiên
movies_df.sample(5)

Unnamed: 0,movieId,title,genres
6457,52319,Inglorious Bastards (Quel maledetto treno blin...,Action|Adventure|Drama|War
8393,109968,Why Don't You Play In Hell? (Jigoku de naze wa...,Action|Drama
8423,111320,Mom's Night Out (2014),Comedy
8687,122896,Pirates of the Caribbean: Dead Men Tell No Tal...,(no genres listed)
6460,52435,How the Grinch Stole Christmas! (1966),Animation|Comedy|Fantasy|Musical


In [36]:
ratings_df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


### Xem các thông tin của dataframe

In [37]:
# Xem số dòng
len(movies_df)

9742

In [38]:
# Xem số dòng và số cột
movies_df.shape

(9742, 3)

In [39]:
# Xem tên của các cột
movies_df.columns

Index(['movieId', 'title', 'genres'], dtype='object')

In [40]:
# Xem tên của các dòng
movies_df.index

RangeIndex(start=0, stop=9742, step=1)

In [41]:
# Xem kiểu dữ liệu của các cột
movies_df.dtypes

movieId     int64
title      object
genres     object
dtype: object

In [44]:
# Xem phần dữ liệu của dataframe, kết quả sẽ là một Numpy array
# Hiện tại thì ở bên dưới dataframe lưu trữ bằng cách gom các
# cột có cùng kiểu dữ liệu vào một Numpy array. Do đó:
# - Nếu tất cả các cột của dataframe có cùng kiểu dữ liệu
#   thì array được lấy ra chính là array bên dưới của dataframe
# - Ngược lại thì array được lấy ra là một array được tạo mới 
#   với dtype là object (con trỏ trỏ tới một đối tượng Python 
#   bất kỳ)
# movies_df.values
movies_df.to_numpy()

array([[1, 'Toy Story (1995)',
        'Adventure|Animation|Children|Comedy|Fantasy'],
       [2, 'Jumanji (1995)', 'Adventure|Children|Fantasy'],
       [3, 'Grumpier Old Men (1995)', 'Comedy|Romance'],
       ...,
       [193585, 'Flint (2017)', 'Drama'],
       [193587, 'Bungo Stray Dogs: Dead Apple (2018)',
        'Action|Animation'],
       [193609, 'Andrew Dice Clay: Dice Rules (1991)', 'Comedy']],
      dtype=object)

In [45]:
movies_df._data

  movies_df._data


BlockManager
Items: Index(['movieId', 'title', 'genres'], dtype='object')
Axis 1: RangeIndex(start=0, stop=9742, step=1)
NumpyBlock: slice(0, 1, 1), 1 x 9742, dtype: int64
NumpyBlock: slice(1, 3, 1), 2 x 9742, dtype: object

In [46]:
movies_df.values[0,1]

'Toy Story (1995)'

In [47]:
movies_df.values[0, 0]

1

In [48]:
df.to_numpy()[0, 0]

NameError: name 'df' is not defined

In [49]:
# Xem tất cả cùng một lúc!
movies_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9742 non-null   int64 
 1   title    9742 non-null   object
 2   genres   9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB


In [50]:
ratings_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 3.1 MB


### Truy xuất dữ liệu ở dataframe

#### df.iloc[...]: Integer-Based Extraction
`df.iloc[r, c]` chọn item bằng cách xác định vị trí dòng và cột (integer position)

- `r` có thể là:
    - Một chỉ số vị trí (0, 1, 2, ...)
    - List/array/series các chỉ số vị trí
    - Slicing theo chỉ số vị trí
    - List/array các giá trị True/False (hiện tại thì `iloc` không chạy được với series True/False)
- `c` tương tự như `r`
- Dùng một chỉ số vị trí (một con số) thì kết quả sẽ bị giảm chiều
    - Nếu hoặc `r` hoặc `c` là một chỉ số vị trí (một con số) thì kết quả là series
    - Nếu cả `r` và `c` đều là một chỉ số vị trí (một con số) thì kết quả là một giá trị

In [51]:
# Lấy ra phần tử ở dòng có chỉ số vị trí 2 
# và cột có chỉ số vị trí 1 ở movies_df
movies_df.iloc[2, 1]

'Grumpier Old Men (1995)'

In [52]:
# Lấy ra các phần tử ở dòng có chỉ số vị trí 2 và 4 
# và cột có chỉ số vị trí 1 và 2 ở movies_df
movies_df.iloc[[2, 4], [1, 2]]

Unnamed: 0,title,genres
2,Grumpier Old Men (1995),Comedy|Romance
4,Father of the Bride Part II (1995),Comedy


In [53]:
movies_df.values[[2, 4], [1, 2]]

array(['Grumpier Old Men (1995)', 'Comedy'], dtype=object)

In [54]:
# Lấy ra các phần tử từ dòng có chỉ số vị trí 2 đến 4 
# và từ cột có chỉ số vị trí 1 đến 2 ở movies_df
movies_df.iloc[2:5, 1:3]

Unnamed: 0,title,genres
2,Grumpier Old Men (1995),Comedy|Romance
3,Waiting to Exhale (1995),Comedy|Drama|Romance
4,Father of the Bride Part II (1995),Comedy


In [55]:
# Lấy ra dòng ở chỉ số vị trí 2 của movies_df
# movies_df.iloc[2, :] # Hoặc: movies_df.iloc[2]
# movies_df.iloc[[2], :]
movies_df.iloc[2:3, :]

Unnamed: 0,movieId,title,genres
2,3,Grumpier Old Men (1995),Comedy|Romance


In [56]:
# Lấy ra cột ở chỉ số vị trí 1 của movies_df
# movies_df.iloc[:, 1]
# movies_df.iloc[:, [1]]
movies_df.iloc[:, 1:2]

Unnamed: 0,title
0,Toy Story (1995)
1,Jumanji (1995)
2,Grumpier Old Men (1995)
3,Waiting to Exhale (1995)
4,Father of the Bride Part II (1995)
...,...
9737,Black Butler: Book of the Atlantic (2017)
9738,No Game No Life: Zero (2017)
9739,Flint (2017)
9740,Bungo Stray Dogs: Dead Apple (2018)


In [57]:
# Lấy ra các dòng của ratings_df mà có rating >= 3 và <= 4
rating = ratings_df.iloc[:, 2]
rating = rating.values
ratings_df.iloc[(rating >= 3) & (rating <= 4), :]

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
5,1,70,3.0,964982400
7,1,110,4.0,964982176
...,...,...,...,...
100827,610,163937,3.5,1493848789
100828,610,163981,3.5,1493850155
100830,610,166528,4.0,1493879365
100831,610,166534,4.0,1493848402


#### df.loc[...]: Label-Based Extraction

`df.loc[r, c]`
Cho phép truy xuất dữ liệu dựa trên `nhãn` của dòng và cột

- `r` có thể là: 
    - Một tên
    - List/array/series các tên
    - Slicing theo tên (khác với slicing theo chỉ số vị trí, slicing theo tên bao gồm cả start **và end**)
    - List/array/series các giá trị True/False (lưu ý, nếu dùng series thì index của series sẽ được dùng để căn với index của `df`) 
- `c` tương tự như `r`
- Dùng một tên thì kết quả sẽ bị giảm chiều
    - Nếu hoặc `r` hoặc `c` là một tên thì kết quả là series
    - Nếu cả `r` và `c` đều là một tên thì kết quả là một giá trị

In [58]:
# Lấy ra phần tử ở dòng có tên 2 và cột có tên 'title' ở movies_df
movies_df.loc[2, 'title'] 

'Grumpier Old Men (1995)'

In [59]:
# Lấy ra các phần tử ở dòng có tên 2 và 4 
# và cột có tên 'title' và 'genres' ở movies_df
movies_df.loc[[2, 4], ['title', 'genres']]

Unnamed: 0,title,genres
2,Grumpier Old Men (1995),Comedy|Romance
4,Father of the Bride Part II (1995),Comedy


In [60]:
movies_df

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [61]:
# Lấy ra các phần tử từ dòng có tên 2 đến tên 4 
# và từ cột có tên 'title' đến tên 'genres' ở movies_df
movies_df.loc[2:4, 'title':'genres']

Unnamed: 0,title,genres
2,Grumpier Old Men (1995),Comedy|Romance
3,Waiting to Exhale (1995),Comedy|Drama|Romance
4,Father of the Bride Part II (1995),Comedy


In [62]:
# Lấy ra dòng có tên là 2 của movies_df
# movies_df.loc[2, :]
# movies_df.loc[[2], :]
movies_df.loc[2:2, :]

Unnamed: 0,movieId,title,genres
2,3,Grumpier Old Men (1995),Comedy|Romance


In [63]:
# Lấy ra cột có tên là 'title' của movies_df
# movies_df.loc[:, 'title']
# movies_df.loc[:, ['title']]
movies_df.loc[:, 'title':'title']

Unnamed: 0,title
0,Toy Story (1995)
1,Jumanji (1995)
2,Grumpier Old Men (1995)
3,Waiting to Exhale (1995)
4,Father of the Bride Part II (1995)
...,...
9737,Black Butler: Book of the Atlantic (2017)
9738,No Game No Life: Zero (2017)
9739,Flint (2017)
9740,Bungo Stray Dogs: Dead Apple (2018)


In [64]:
# Lấy ra các dòng của ratings_df mà có rating >= 3 và <= 4
rating = ratings_df.loc[:, 'rating']
ratings_df.loc[(rating >= 3) & (rating <= 4), :]

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
5,1,70,3.0,964982400
7,1,110,4.0,964982176
...,...,...,...,...
100827,610,163937,3.5,1493848789
100828,610,163981,3.5,1493850155
100830,610,166528,4.0,1493879365
100831,610,166534,4.0,1493848402


#### df.loc[] vs df.iloc[]
- `.loc` truy xuất dựa trên nhãn
- `.iloc` truy xuất dựa trên chỉ số nguyên\
Thường sẽ dùng `.loc` do mang tính *an toàn* và *dễ hiểu hơn*
- An toàn: thứ tự các cột dễ bị thay đổi trong public database, nếu dòng `.loc` code vẫn chạy được.
- Dễ hiểu: `lections.loc[:, ["Year", "Candidate", "Result"]]` dễ hiểu hơn `elections.iloc[:, [0, 1, 4]]`

#### df[...]: Context-dependent Extraction
- Truy xuất với ý nghĩa dựa vào ngữ cảnh. Tùy vào ngữ cảnh, `[]` tương đương với `.loc` hoặc `.iloc`
- Trên thực tế, cách viết này phổ biến hơn `.loc` hoặc `.iloc` do ngắn gọn và dễ hiểu hơn.

- `df[tên hoặc list các tên]` là shortcut của `df.loc[:, tên hoặc list các tên]`
- `df[list/array/series các giá trị True/False]` là shortcut của `df.loc[list/array/series các giá trị True/False, :]`
- `df[slicing]` là shortcut của `df.iloc[slicing, :]`

In [65]:
movies_df['title']

0                                Toy Story (1995)
1                                  Jumanji (1995)
2                         Grumpier Old Men (1995)
3                        Waiting to Exhale (1995)
4              Father of the Bride Part II (1995)
                          ...                    
9737    Black Butler: Book of the Atlantic (2017)
9738                 No Game No Life: Zero (2017)
9739                                 Flint (2017)
9740          Bungo Stray Dogs: Dead Apple (2018)
9741          Andrew Dice Clay: Dice Rules (1991)
Name: title, Length: 9742, dtype: object

In [66]:
movies_df[['title','genres']]

Unnamed: 0,title,genres
0,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,Jumanji (1995),Adventure|Children|Fantasy
2,Grumpier Old Men (1995),Comedy|Romance
3,Waiting to Exhale (1995),Comedy|Drama|Romance
4,Father of the Bride Part II (1995),Comedy
...,...,...
9737,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,Flint (2017),Drama
9740,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [67]:
# Chọn ra các bộ phim có rating > 4
ratings_df[ratings_df['rating'] > 4]

Unnamed: 0,userId,movieId,rating,timestamp
3,1,47,5.0,964983815
4,1,50,5.0,964982931
6,1,101,5.0,964980868
8,1,151,5.0,964984041
9,1,157,5.0,964984100
...,...,...,...,...
100821,610,160527,4.5,1479544998
100829,610,164179,5.0,1493845631
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047


In [68]:
ratings_df[1:3]

Unnamed: 0,userId,movieId,rating,timestamp
1,1,3,4.0,964981247
2,1,6,4.0,964982224


### Thay đổi dữ liệu ở dataframe

df.iloc[...] =

df.loc[...] = 

df[...] = 

Các cách làm này sẽ không có vấn đề gì. Bây giờ ta hãy xem một ví dụ mà sẽ xảy ra vấn đề.

In [69]:
# Tạo ra một bản copy (deep copy) của ratings_df để thử nghiệm
df = ratings_df.copy()

In [70]:
# Lấy ra một dataframe gồm các dòng có rating bằng 5
# rồi sửa lại rating thành 4.9
df.loc[df['rating'] == 5]['rating'] = 4.9

# df có thay đổi không?
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[df['rating'] == 5]['rating'] = 4.9


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352


Lý do `df` không thay đổi là vì câu lệnh thay đổi rating ở trên gồm 2 bước:

1. Truy xuất `df` để lấy ra dataframe gồm các dòng có rating bằng 5. Trong Pandas thường là không biết chắc được kết quả truy xuất là view hay là copy của dataframe ban đầu. Trong ví dụ ở trên, kết quả truy xuất là copy.
2. Thay đổi rating trên kết quả truy xuất. Vì kết quả truy xuất là copy của `df` nên `df` sẽ không bị thay đổi.

Để thay đổi `df` thì ta đừng cho tách thành 2 bước với kết quả trung gian:

In [71]:
# df.loc[df['rating'] == 5, 'rating'] = 4.9
# df
df.loc[df['rating'] == 5,'rating'] = 4.9
df

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,4.9,964983815
4,1,50,4.9,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,4.9,1493850091
100833,610,168250,4.9,1494273047
100834,610,168252,4.9,1493846352


### Thay đổi tên dòng/cột ở dataframe

Đổi tên một vài dòng/cột

In [72]:
movies_df.rename(columns={'title': 'Title', 'genres': 'Genres'})

Unnamed: 0,movieId,Title,Genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


Đổi tên tất cả các dòng/cột theo một qui luật nào đó

In [73]:
df = pd.DataFrame(np.arange(20).reshape(2, 10), 
                  columns=['Col ' + str(i) for i in range(10)])
df

Unnamed: 0,Col 0,Col 1,Col 2,Col 3,Col 4,Col 5,Col 6,Col 7,Col 8,Col 9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19


In [74]:
def convert_name(old_name):
    return old_name.replace(' ', '_')
df.rename(columns=convert_name)

Unnamed: 0,Col_0,Col_1,Col_2,Col_3,Col_4,Col_5,Col_6,Col_7,Col_8,Col_9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19


### Thay đổi cột index (cột tên dòng) ở dataframe

In [75]:
# Cho cột movieId từ cột thường thành cột index
df = movies_df.set_index('movieId')
df

Unnamed: 0_level_0,title,genres
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
...,...,...
193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
193585,Flint (2017),Drama
193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [76]:
# Cho cột title từ cột thường thành cột index
# và cột movieId thì cột index thành cột thường
tdf = df.reset_index().set_index('title')
tdf

Unnamed: 0_level_0,movieId,genres
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Toy Story (1995),1,Adventure|Animation|Children|Comedy|Fantasy
Jumanji (1995),2,Adventure|Children|Fantasy
Grumpier Old Men (1995),3,Comedy|Romance
Waiting to Exhale (1995),4,Comedy|Drama|Romance
Father of the Bride Part II (1995),5,Comedy
...,...,...
Black Butler: Book of the Atlantic (2017),193581,Action|Animation|Comedy|Fantasy
No Game No Life: Zero (2017),193583,Animation|Comedy|Fantasy
Flint (2017),193585,Drama
Bungo Stray Dogs: Dead Apple (2018),193587,Action|Animation


In [77]:
tdf.loc['Toy Story (1995)':'Grumpier Old Men (1995)',:]

Unnamed: 0_level_0,movieId,genres
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Toy Story (1995),1,Adventure|Animation|Children|Comedy|Fantasy
Jumanji (1995),2,Adventure|Children|Fantasy
Grumpier Old Men (1995),3,Comedy|Romance


## Thay đổi kiểu dữ liệu của cột ở dataframe

s.astype dùng để ép kiểu dữ liệu của một series.

In [78]:
ratings_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 3.1 MB


In [79]:
# Thay đổi dữ liệu của cột 'timestamp' sang datetime 
ratings_df['timestamp'].astype('datetime64[s]')

0        2000-07-30 18:45:03
1        2000-07-30 18:20:47
2        2000-07-30 18:37:04
3        2000-07-30 19:03:35
4        2000-07-30 18:48:51
                 ...        
100831   2017-05-03 21:53:22
100832   2017-05-03 22:21:31
100833   2017-05-08 19:50:47
100834   2017-05-03 21:19:12
100835   2017-05-03 21:20:15
Name: timestamp, Length: 100836, dtype: datetime64[s]

pd.to_datetime chuyên dùng để ép kiểu dữ liệu datetime, có thể xử lý được những trường hợp phức tạp mà s.astype không làm được.

In [80]:
# Thay đổi dữ liệu của cột 'timestamp' sang datetime 

In [81]:
ratings_df['timestamp'] = \
    pd.to_datetime(ratings_df['timestamp'],unit='s')
ratings_df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,2000-07-30 18:45:03
1,1,3,4.0,2000-07-30 18:20:47
2,1,6,4.0,2000-07-30 18:37:04
3,1,47,5.0,2000-07-30 19:03:35
4,1,50,5.0,2000-07-30 18:48:51


In [82]:
# Trường hợp mà s.astype không làm được
s = pd.Series(['1*1*2021', '30*1*2021'])
# s.astype('datetime64[s]')

pd.to_datetime(s, format='%d*%m*%Y')

0   2021-01-01
1   2021-01-30
dtype: datetime64[ns]

## Thực hiện thao tác với cột có kiểu dữ liệu dạng thời gian ở dataframe

s.dt.thao-tac-x

In [83]:
ratings_df['timestamp'].dt.dayofyear

0         212
1         212
2         212
3         212
4         212
         ... 
100831    123
100832    123
100833    128
100834    123
100835    123
Name: timestamp, Length: 100836, dtype: int32

## Thực hiện thao tác với cột có kiểu dữ liệu dạng chuỗi ở dataframe

In [84]:
movies_df['title'].str.upper()

0                                TOY STORY (1995)
1                                  JUMANJI (1995)
2                         GRUMPIER OLD MEN (1995)
3                        WAITING TO EXHALE (1995)
4              FATHER OF THE BRIDE PART II (1995)
                          ...                    
9737    BLACK BUTLER: BOOK OF THE ATLANTIC (2017)
9738                 NO GAME NO LIFE: ZERO (2017)
9739                                 FLINT (2017)
9740          BUNGO STRAY DOGS: DEAD APPLE (2018)
9741          ANDREW DICE CLAY: DICE RULES (1991)
Name: title, Length: 9742, dtype: object

## Thêm/xóa dòng/cột ở dataframe

Thêm dòng/cột\
Để thêm cột, dùng `[]` để tham chiếu đến cột mới, sau đó gán cho nó một Series hay array với chiều dài phù hợp.

In [85]:
new_col = movies_df['movieId'] * 10
new_col.name = 'newCol'
pd.concat([movies_df, new_col], axis=1)

Unnamed: 0,movieId,title,genres,newCol
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,10
1,2,Jumanji (1995),Adventure|Children|Fantasy,20
2,3,Grumpier Old Men (1995),Comedy|Romance,30
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,40
4,5,Father of the Bride Part II (1995),Comedy,50
...,...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy,1935810
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy,1935830
9739,193585,Flint (2017),Drama,1935850
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation,1935870


In [86]:
new_row = movies_df.iloc[[-1], :]
pd.concat([movies_df, new_row], axis=0).tail()

Unnamed: 0,movieId,title,genres
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


In [87]:
# Shortcut để thêm cột (hoặc cập nhật một cột đã có sẵn)
movies_df['newCol'] = 1
movies_df.head()

Unnamed: 0,movieId,title,genres,newCol
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1
1,2,Jumanji (1995),Adventure|Children|Fantasy,1
2,3,Grumpier Old Men (1995),Comedy|Romance,1
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,1
4,5,Father of the Bride Part II (1995),Comedy,1


Xóa dòng/cột

In [88]:
movies_df = movies_df.drop(columns='newCol')
movies_df

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [89]:
movies_df.drop(index=[0, 1])

Unnamed: 0,movieId,title,genres
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


## Tính toán trên dữ liệu với Pandas

- Nếu thực hiện `phép toán một ngôi` trên một đối tượng pandas, kết quả sẽ là đối tượng pandas với index được giữ nguyên 

In [90]:
ser = pd.Series(np.random.randint(0, 10, 4))
ser

0    4
1    1
2    1
3    1
dtype: int32

In [91]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,3,4,8,4
1,0,2,7,2
2,8,7,8,0


In [92]:
np.exp(ser)

0    54.598150
1     2.718282
2     2.718282
3     2.718282
dtype: float64

In [93]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,0.7071068,1.224647e-16,-2.449294e-16,1.224647e-16
1,0.0,1.0,-0.7071068,1.0
2,-2.449294e-16,-0.7071068,-2.449294e-16,0.0


- Nếu thực hiện `phép toán hai ngôi` trên đối tượng Series hoặc DataFrame, Pandas sẽ căn chỉnh các chỉ mục trong quá trình thực hiện phép toán. Điều này rất thuận tiện khi làm việc với dữ liệu không đầy đủ

### Index alignment in Series

In [94]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [95]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

Mảng kết quả chứa *union* các index của hai mảng đầu vào, có thể được xác định bằng cách sử dụng:

In [96]:
area.index.union(population.index)

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

In [97]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [98]:
# Fill-in values
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### Index alignment in DataFrame

In [99]:
A = pd.DataFrame(np.random.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,9,1
1,14,11


In [100]:
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,0,2,4
1,8,0,1
2,7,7,1


In [101]:
A+B

Unnamed: 0,A,B,C
0,11.0,1.0,
1,14.0,19.0,
2,,,


In [102]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,11.0,1.0,12.75
1,14.0,19.0,9.75
2,15.75,15.75,9.75


Operations Between DataFrame and Series

In [103]:
A = np.random.randint(10, size=(3, 4))
A

array([[7, 3, 2, 3],
       [1, 3, 6, 2],
       [7, 8, 3, 3]])

In [104]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-6,  0,  4, -1],
       [ 0,  5,  1,  0]])

In [105]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-6,0,4,-1
2,0,5,1,0


In [106]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,4,0,-1,0
1,-2,0,3,-1
2,-1,0,-5,-5
