# Chapter 10

# Data manipulation with pandas

In [4]:
import pandas as pd
import numpy as np

### 10.1 Structures

#### 10.1.1 Series

##### 10.1.1.1 Creating Series from a List

In [3]:
s = pd.Series([1, 4, -1, np.nan, .5, 1]) 
print(s)

0    1.0
1    4.0
2   -1.0
3    NaN
4    0.5
5    1.0
dtype: float64


Tạo một pandas Series, là một cột dữ liệu 1 chiều, có chỉ số (index) tự động từ 0. "np.nan" đại diện cho giá trị thiếu (missing value) và in ra Series, hiển thị chỉ số (index) và giá trị.

In [4]:
print("values of s: ", s.values)

values of s:  [ 1.   4.  -1.   nan  0.5  1. ]


Truy xuất tất cả giá trị trong pandas Series s dưới dạng mảng NumPy (numpy.ndarray) và in ra các giá trị không bao gồm chỉ số (index), chỉ lấy dữ liệu bên trong Series.

In [5]:
print("type of values of s: ", type(s.values))

type of values of s:  <class 'numpy.ndarray'>


Trả về mảng NumPy chứa tất cả giá trị của Series s, type(s.values) sẽ kiểm tra kiểu dữ liệu của đối tượng này và in ra kiểu dữ liệu của giá trị bên trong Series.

In [6]:
print("index of s: ", s.index)

index of s:  RangeIndex(start=0, stop=6, step=1)


Truy xuất chỉ số (index) của Series s. Chỉ số này dùng để định vị từng giá trị trong Series, tương tự như số thứ tự của phần tử và in ra thông tin về chỉ số của Series.

In [7]:
print("type of the index of s: ", type(s.index))

type of the index of s:  <class 'pandas.core.indexes.range.RangeIndex'>


Trả về đối tượng chỉ số (Index) của Series s. type(s.index) sẽ kiểm tra kiểu dữ liệu của đối tượng này và in ra kiểu dữ liệu của chỉ số.

In [8]:
s.name = "my_serie"
s.name = "name_index"
print("name of the Serie: {} , name of the index: {}".format(s.name, s.index.name))

name of the Serie: name_index , name of the index: None


Series trong pandas có thể có tên riêng và chỉ số cũng có tên riêng, giúp mô tả dữ liệu rõ ràng hơn khi in hoặc phân tích.

In [9]:
print("Serie s: \n", s)

Serie s: 
 0    1.0
1    4.0
2   -1.0
3    NaN
4    0.5
5    1.0
Name: name_index, dtype: float64


s là pandas Series đã được tạo trước đó, chứa cả giá trị và chỉ số và in ra toàn bộ Series, bao gồm chỉ số (index), giá trị (values), tên Series (nếu có).

##### 10.1.1.2 Definition of the Index

In [11]:
s = pd.Series([1, 4, -1, np.nan],
              index = ["o", "d", "i", "l"])
print(s)

o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


Pandas Series cho phép chỉ định index tùy ý, không nhất thiết phải là số thứ tự.

In [13]:
s = pd.Series([1, 4, -1, np.nan], 
              index = [4, 40, 2, 3])
print(s)

4     1.0
40    4.0
2    -1.0
3     NaN
dtype: float64


Index của Series không cần theo thứ tự liên tiếp, có thể là bất kỳ số nguyên hoặc nhãn nào.

In [14]:
s.index = ["o", "d", "i", "l"] 
print("Série s : \n", s)

Série s : 
 o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


Pandas Series cho phép thay đổi index sau khi tạo.

##### 10.1.1.3 Creation of Special Series

In [15]:
s = pd.Series(5, index = [np.arange(4)]) 
print(s)

0    5
1    5
2    5
3    5
dtype: int64


index=[np.arange(4)] sẽ gán index cho Series, nhưng do đặt trong list, nên Python coi cả mảng là 1 giá trị duy nhất của index. pd.Series(5, index=[...]) nhằm tạo Series với giá trị 5 lặp cho tất cả index.

In [18]:
dictionary = {"King": "Arthur", 
              "Knight_Round_Table": "Percival",
              "Druid": "Merlin"} 
s = pd.Series(dictionary)
print(s)

King                    Arthur
Knight_Round_Table    Percival
Druid                   Merlin
dtype: object


Pandas Series có thể tạo trực tiếp từ dictionary, tự động gán key làm index và value làm giá trị.

In [20]:
dictionary = {"King": "Arthur", 
              "Knight_Round_Table": "Percival",
              "Druid": "Merlin"}
s = pd.Series(dictionary, index = ["King", "Druid"])
print(s)

King     Arthur
Druid    Merlin
dtype: object


Pandas Series có thể tạo trực tiếp từ dictionary. Khi chỉ định index, Series sẽ chỉ giữ các key được liệt kê trong index. Key của dictionary trở thành index của Series, value trở thành giá trị, giúp lựa chọn và truy cập dữ liệu theo nhãn.

#### 10.1.2 Dataframes

##### 10.1.2.1 Creating Dataframes from a Dictionary

In [22]:
dict = {"height" :
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight":
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
}
df = pd.DataFrame(dict)
print(df)

    height  weight
0       58     115
1       59     117
2       60     120
3       61     123
4       62     126
5       63     129
6       64     132
7       65     135
8       66     139
9       67     142
10      68     146
11      69     150
12      70     154
13      71     159
14      72     164


Pandas DataFrame cho phép tạo bảng dữ liệu 2 chiều từ dictionary, với cột là key, hàng là giá trị.

In [23]:
print(df.columns)

Index(['height', 'weight'], dtype='object')


Giúp xem nhanh tên các cột trong DataFrame df và in ra danh sách các tên cột.

In [24]:
df.head(2)

Unnamed: 0,height,weight
0,58,115
1,59,117


Lấy n hàng đầu tiên của DataFrame df. Ở đây n=2, nên chỉ hiển thị 2 hàng đầu tiên.

In [25]:
df = pd.DataFrame(dict, columns = ["weight"]) 
print(df.head(2))

   weight
0     115
1     117


Lấy 2 hàng đầu tiên của DataFrame và in ra 2 hàng đầu tiên của cột "weight".

In [26]:
df = pd.DataFrame(dict, columns = ["weight", "height"]) 
print(df.head(2))

   weight  height
0     115      58
1     117      59


Lấy 2 hàng đầu tiên của DataFrame và in ra 2 hàng đầu tiên với cột đã sắp xếp theo thứ tự mới.

In [27]:
df = pd.DataFrame(dict, columns = ["weight", "height", "age"]) 
print(df.head(2))

   weight  height  age
0     115      58  NaN
1     117      59  NaN


"weight" và "height" có dữ liệu. "age" không có trong dictionary, nên pandas gán NaN cho tất cả các hàng. Nên khi lấy 2 hàng đầu tiên của DataFrame và in ra 2 hàng đầu tiên với cột mới, bao gồm cả cột "age" chứa NaN.

##### 10.1.2.2 Creating Dataframes from Series

In [28]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"]) 
s.name = "name_variable"
df = pd.DataFrame(s, columns = ["name_variable"])
print(df)

   name_variable
o            1.0
d            4.0
i           -1.0
l            NaN


Chuyển Series thành DataFrame 2 chiều với một cột duy nhất, tên cột là "name_variable" và in ra toàn bộ DataFrame với index, cột và giá trị.

In [29]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"]) 
df = pd.DataFrame(s)
print(df)

     0
o  1.0
d  4.0
i -1.0
l  NaN


Pandas cho phép chuyển Series thành DataFrame để tiện thao tác dạng bảng. Index của Series được giữ nguyên, cột dữ liệu được đặt tên mặc định nếu Series chưa có tên.

In [30]:
print(df.columns.name)

None


DataFrame có thể đặt tên cho index của các cột (columns.name) để mô tả rõ hơn, nhưng nếu chưa gán thì giá trị mặc định là .

##### 10.1.2.3 Creating Dataframes from a Dictionary List

In [6]:
dico_1 = {
    "Name": "Pendragon", 
    "Surname": "Arthur", 
    "Role": "King of Britain"
}
dico_2 = {
    "Name": "",
    "Surname": "Perceval",
    "Role": "Knight of the Round Table"
}

df = pd.DataFrame([dico_1, dico_2]) 
print(df)

        Name   Surname                       Role
0  Pendragon    Arthur            King of Britain
1             Perceval  Knight of the Round Table


Pandas cho phép tạo DataFrame từ danh sách từ điển, mỗi từ điển là một hàng, key của từ điển là tên cột.

In [33]:
dico_3 = {
    "Surname": "Guinevere", 
    "Role": "Queen of Britain"
}

df = pd.DataFrame([dico_1, dico_2, dico_3]) 
print(df)

        Name    Surname                       Role
0  Pendragon     Arthur            King of Britain
1              Perceval  Knight of the Round Table
2        NaN  Guinevere           Queen of Britain


Khi tạo DataFrame từ danh sách từ điển có cấu trúc khác nhau, pandas sẽ tự động điền NaN cho các giá trị thiếu.

##### 10.1.2.4 Création de dataframes à partir d’un dictionnaire de séries

In [1]:
# Annual 2017 GDP
# In millions of current dollars 
dict_gdp_current = {
    "France": 2582501.31,
    "USA": 19390604.00,
    "UK": 2622433.96
}
# Annual consumer price index
dict_cpi = { 
    "France": 0.2,
    "UK": 0.6,
    "USA": 1.3,
    "Germany": 0.5
}

In [7]:
s_gdp_current = pd.Series(dict_gdp_current) 
s_cpi = pd.Series(dict_cpi)

print("s_gdp_current : \n", s_gdp_current)

s_gdp_current : 
 France     2582501.31
USA       19390604.00
UK         2622433.96
dtype: float64


Từ điển chứa GDP năm 2017 theo triệu USD cho một số quốc gia và in ra GDP của từng quốc gia dưới dạng Series.

In [36]:
print("\ns_cpi : \n", s_cpi)


s_cpi : 
 France     0.2
UK         0.6
USA        1.3
Germany    0.5
dtype: float64


s_cpi → Series Pandas được tạo từ dictionary dict_cpiin ra Series chứa chỉ số giá tiêu dùng của các quốc gia.

In [8]:
dict_from_series = { 
    "gdp": s_gdp_current, 
    "cpi": s_cpi
}
print(dict_from_series)

{'gdp': France     2582501.31
USA       19390604.00
UK         2622433.96
dtype: float64, 'cpi': France     0.2
UK         0.6
USA        1.3
Germany    0.5
dtype: float64}


Có thể tổ chức nhiều Series trong một dictionary để lưu trữ nhiều loại dữ liệu liên quan.

In [9]:
s = pd.DataFrame(dict_from_series) 
print(s)

                 gdp  cpi
France    2582501.31  0.2
Germany          NaN  0.5
UK        2622433.96  0.6
USA      19390604.00  1.3


Pandas cho phép kết hợp nhiều Series có cùng hoặc khác index thành một DataFrame.

##### 10.1.2.5 Creation of Dataframes from a Two-dimensional NumPy Array

In [11]:
listing = [ 
    [1, 2, 3],
    [11, 22, 33],
    [111, 222, 333],
    [1111, 2222, 3333]
]
array_np = np.array(listing) 
df = pd.DataFrame(array_np,
                  columns = ["a", "b", "c"])
print(df)

      a     b     c
0     1     2     3
1    11    22    33
2   111   222   333
3  1111  2222  3333


listing → danh sách các danh sách, mỗi danh sách con là một hàng dữ liệu. 

np.array(listing) → chuyển danh sách thành mảng NumPy 2

##### 10.1.2.6 Dimensions

In [12]:
print("shape : ", df.shape)

shape :  (4, 3)


df.shape → trả về kích thước của DataFrame dưới dạng tuple (số hàng, số cột) và in ra số hàng và số cột của DataFrame.

In [14]:
print("shape : ", len(df))

shape :  4


len(df) là trả về số hàng của DataFrame và in ra số hàng này.

In [18]:
print("shape : ", len(df.columns))

shape :  3


Tương tự, in ra số cột của DataFrame.

##### 10.1.2.7 Modification of the Index

In [20]:
df.index = ["o", "d", "i", "l"] 
df.columns = ["aa", "bb", "cc"] 
print(df)

     aa    bb    cc
o     1     2     3
d    11    22    33
i   111   222   333
l  1111  2222  3333


Gán tên index tùy chỉnh cho các hàng của DataFrame và gán tên mới cho các cột, in ra DataFrame với index và tên cột mới, dữ liệu vẫn giữ nguyên.

### 10.2 Selection

#### 10.2.1 For Series

##### 10.2.1.1 With brackets

In [3]:
s = pd.Series([1, 4, -1, np.nan, .5, 1]) 
s[0] # 1st element of s

np.float64(1.0)

Tạo một Series (một cấu trúc dữ liệu 1 chiều của Pandas, giống mảng nhưng có nhãn index). s[0] truy cập phần tử có index = 0 trong Series. Ở đây, phần tử đầu tiên là 1, nên s[0] trả về 1 (kiểu dữ liệu int).

In [4]:
s[1:3] # From the 2nd (included) to the 4th (not included)

1    4.0
2   -1.0
dtype: float64

Đây là slicing theo vị trí giống Python list. Bắt đầu từ index vị trí 1 (phần tử thứ 2) và kết thúc trước vị trí 3 (phần tử thứ 4).

In [5]:
s[[0,4]] #First to 5th element (not included)

0    1.0
4    0.5
dtype: float64

Chọn nhiều phần tử rời rạc từ Series bằng cách liệt kê index của chúng.

In [7]:
s[-2]

KeyError: -2

Trong Pandas, cú pháp s[-2] không hoạt động giống list Python (tức không mặc định hiểu là “phần tử thứ hai từ cuối”). Ở đây, -2 sẽ được hiểu là nhãn index (label) có giá trị -2. Nếu Series của bạn không có index = -2, Pandas sẽ báo lỗi.

In [9]:
s = pd.Series([1, 4, -1, np.nan],
              index = ["o", "d", "i", "l"])
print("Series s : \n", s)

Series s : 
 o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


Tạo một Pandas Series gồm các giá trị [1, 4, -1, NaN] và gán nhãn (index) tùy chỉnh là "o", "d", "i", "l", sau đó in ra toàn bộ Series.

In [10]:
print('s["d"] : \n', s["d"])

s["d"] : 
 4.0


Truy xuất giá trị trong Series s tại nhãn index "d".

In [12]:
print('s[1] : \n', s[1])

s[1] : 
 4.0


  print('s[1] : \n', s[1])


Dù index của s là chữ ("o", "d", "i", "l"), nhưng s[1] ở đây truy cập theo vị trí (position-based) vì index không phải số nguyên. Vị trí 1 tương ứng với giá trị 4.0 (index "d").

In [13]:
print("elements o and i : \n", s[["o", "i"]])

elements o and i : 
 o    1.0
i   -1.0
dtype: float64


["o", "i"] là một danh sách các nhãn (labels). s[["o", "i"]] sẽ truy xuất đồng thời nhiều phần tử rời rạc dựa trên label-based indexing.

In [15]:
s = pd.Series([1, 4, -1, np.nan], 
              index = [4, 40, 2, 3])
print(s[40])

4.0


Ở đây index là [4, 40, 2, 3], tức mỗi giá trị trong Series được gắn nhãn (label) là số nguyên tùy ý. Khi viết s[40], Pandas hiểu 40 là nhãn index, nên sẽ trả về giá trị tại label = 40. Trong Series này, index 40 ứng với giá trị 4.0.

##### 10.2.1.2 With Indexers

s_num = pd.Series([1, 4, -1, np.nan], 
                  index = [5, 0, 4, 1])
s_text = pd.Series([1, 4, -1, np.nan], 
                   index = ["c", "a", "b", "d"])

##### 10.2.1.2.1 Extraction of a Single Element

In [17]:
print(s_num.loc[5], s_text.loc["c"])

1.0 1.0


.loc truy cập theo nhãn (label) của index. Index của s_num là [5, 0, 4, 1], nên nhãn 5 ứng với giá trị 1.0.

In [18]:
(s_num.iloc[1], s_text.iloc[1])

(np.float64(4.0), np.float64(4.0))

Phần tử ở vị trí 1 trong s_num → giá trị 4.0 (index = 0). phần tử ở vị trí 1 trong s_text → giá trị 4.0 (index = "a").

##### 10.2.1.2.2 Extraction of Several Elements

In [19]:
print("elements with labels 5 and 4:\n", s_num.loc[[5,4]])

elements with labels 5 and 4:
 5    1.0
4   -1.0
dtype: float64


Truy cập nhiều phần tử cùng lúc dựa trên nhãn index. Index của s_num là [5, 0, 4, 1], nên: label 5 → giá trị 1.0 và label 4 → giá trị -1.0

In [20]:
print("elements with labels c and b: \n", s_text.loc[["c", "b"]])

elements with labels c and b: 
 c    1.0
b   -1.0
dtype: float64


Truy xuất nhiều phần tử rời rạc theo nhãn (label).

In [21]:
print("elements at positions 0 and 2:\n", s_num.iloc[[0,2]])

elements at positions 0 and 2:
 5    1.0
4   -1.0
dtype: float64


Truy xuất nhiều phần tử dựa trên vị trí (position) trong Series, tính từ 0.

In [25]:
print("elements at positions 0 and 2: \n", s_text.iloc[[0,2]])

elements at positions 0 and 2: 
 c    1.0
b   -1.0
dtype: float64


Truy xuất nhiều phần tử theo vị trí (position), không theo nhãn.

##### 10.2.1.2.3 Slicing

In [26]:
print("elements with label 5 to 4:\n", s_num.loc[5:4])

elements with label 5 to 4:
 5    1.0
0    4.0
4   -1.0
dtype: float64


Khi dùng .loc với label-based slicing, thứ tự phụ thuộc thứ tự xuất hiện của label trong Series, không phải giá trị số tăng/giảm.

In [27]:
print("elements with label c to b: \n", s_text.loc["c":"b"])

elements with label c to b: 
 c    1.0
a    4.0
b   -1.0
dtype: float64


Truy xuất theo nhãn (label) và bao gồm cả nhãn kết thúc. Thứ tự chọn dựa trên thứ tự xuất hiện của nhãn trong Series, không phải thứ tự chữ cái hay giá trị số.

In [28]:
print("elements at positions 0 and 2:\n", s_num.iloc[0:2])

elements at positions 0 and 2:
 5    1.0
0    4.0
dtype: float64


Lấy các phần tử từ Series s_num theo vị trí (position) bắt đầu từ vị trí 0 đến trước vị trí 2. Đây là position-based indexing trong Pandas. Vị trí tính từ 0, và điểm kết thúc không bao gồm (giống quy tắc slicing trong Python). Kết quả là lấy 2 phần tử đầu tiên của Series.

In [30]:
print("elements at positions 0 and 2: \n", s_text.iloc[0:2])

elements at positions 0 and 2: 
 c    1.0
a    4.0
dtype: float64


Lấy các phần tử theo vị trí, từ vị trí 0 đến trước vị trí 2 (position-based slicing). Trong s_text: Vị trí 0 → giá trị 1.0 (label "c"), Vị trí 1 → giá trị 4.0 (label "a"), Vị trí 2 không lấy vì điểm cuối bị loại trừ.

##### 10.2.1.2.4 Mask

In [31]:
print("\n",s_num.loc[[True, False, False, True]])


 5    1.0
1    NaN
dtype: float64


Lọc và in ra các phần tử của s_num tương ứng với giá trị True trong danh sách Boolean, dựa trên thứ tự hàng.

In [32]:
print("\n", s_text.loc[[True, False, False, True]])


 c    1.0
d    NaN
dtype: float64


Lọc và in ra các phần tử của s_text tương ứng với giá trị True trong danh sách Boolean, dựa trên thứ tự hàng.

In [33]:
print("\n", s_num.iloc[[True, False, False, True]])


 5    1.0
1    NaN
dtype: float64


Lọc và in ra các phần tử của s_num dựa trên vị trí chỉ mục (position), chọn những hàng có giá trị True trong danh sách Boolean. Ở đây là hàng thứ 0 và hàng thứ 3.

Lọc và in ra các phần tử của s_text dựa trên vị trí chỉ mục (position), chọn những hàng có giá trị True trong danh sách Boolean. Trong trường hợp này, nó sẽ lấy phần tử ở vị trí 0 và phần tử ở vị trí 3 trong s_text.

##### 10.2.1.2.5 What’s the Point?

In [34]:
print("The element whose index is 0: ", s_num[0])

The element whose index is 0:  4.0


Lấy và in ra phần tử trong s_num có nhãn (label) bằng 0. Vì s_num dùng label là [5, 0, 4, 1], nên ở đây 0 không phải vị trí mà là tên chỉ mục, giá trị trả về sẽ là phần tử có index = 0.

In [35]:
print("The element in 2nd position:", s_num.iloc[1])

The element in 2nd position: 4.0


Lấy và in ra phần tử nằm ở vị trí thứ 2 trong s_num (đếm từ 0). s_num.iloc[1] nghĩa là chọn phần tử ở chỉ số vị trí = 1 (hàng thứ hai). Khác với s_num[0], ở đây .iloc luôn hiểu là vị trí, không phải nhãn.

#### 10.2.2 For dataframes

In [5]:
dict = {"height" : [58, 59, 60, 61, 62], 
        "weight": [115, 117, 120, 123, 126], 
        "age": [28, 33, 31, 31, 29], 
        "taille": [162, 156, 172, 160, 158],
       }
df_num = pd.DataFrame(dict)
df_text = pd.DataFrame(dict, index=["a", "e", "c", "b", "d"]) 
print("df_num : \n", df_num)

df_num : 
    height  weight  age  taille
0      58     115   28     162
1      59     117   33     156
2      60     120   31     172
3      61     123   31     160
4      62     126   29     158


Tạo một DataFrame số liệu df_num từ dictionary dict và in ra kết quả sẽ hiển thị toàn bộ bảng dữ liệu df_num với 5 hàng và 4 cột.

In [40]:
print("df_text : \n", df_text)

df_text : 
    height  weight  age  taille
a      58     115   28     162
e      59     117   33     156
c      60     120   31     172
b      61     123   31     160
d      62     126   29     158


Dòng code này in ra DataFrame df_text được tạo từ cùng dữ liệu dict nhưng index đã được đặt tên là "a", "e", "c", "b", "d" thay vì số 0, 1, 2, 3, 4 như mặc định. df_text vẫn có 4 cột: "height", "weight", "age", "taille".

##### 10.2.2.1 Extraction of a Rows

In [43]:
print("Rows named 'e':\n", df_text.loc["e"])

Rows named 'e':
 height     59
weight    117
age        33
taille    156
Name: e, dtype: int64


Lệnh này truy xuất và in ra toàn bộ dữ liệu của hàng có nhãn (index) "e" trong df_text.

In [44]:
print("\nRows named 'e':\n", df_num.loc[1])


Rows named 'e':
 height     59
weight    117
age        33
taille    156
Name: 1, dtype: int64


Lệnh này truy xuất và in ra toàn bộ dữ liệu của hàng có nhãn (index) 1 trong df_num.

In [45]:
print("Rows in position 0:\n", df_text.iloc[0])

Rows in position 0:
 height     58
weight    115
age        28
taille    162
Name: a, dtype: int64


Lệnh này sẽ lấy và in toàn bộ dữ liệu của hàng ở vị trí thứ 0 (hàng đầu tiên) trong df_text, bất kể index của nó là gì.

In [46]:
print("\nRows in position 0:\n", df_num.iloc[0])


Rows in position 0:
 height     58
weight    115
age        28
taille    162
Name: 0, dtype: int64


Lệnh này lấy và in toàn bộ dữ liệu của hàng ở vị trí 0 (hàng đầu tiên) trong DataFrame df_num.

##### 10.2.2.2 Extraction of Several Rows

In [47]:
print("Rows named a and c:\n", df_text.loc[["a", "c"]])

Rows named a and c:
    height  weight  age  taille
a      58     115   28     162
c      60     120   31     172


Lệnh này lấy và in ra các hàng có nhãn (index) "a" và "c" từ DataFrame df_text. Kết quả sẽ là một DataFrame con gồm 2 hàng "a" và "c", giữ nguyên thứ tự bạn truyền vào trong danh sách.

In [49]:
print("\nRows named 0 and 2:\n", df_num.loc[[0, 2]])


Rows named 0 and 2:
    height  weight  age  taille
0      58     115   28     162
2      60     120   31     172


Lệnh này lấy và in ra các hàng có nhãn (index) 0 và 2 từ DataFrame df_num. Kết quả là một DataFrame con chứa hàng đầu tiên và hàng thứ ba (theo thứ tự bạn truyền)

In [50]:
print("Rows at positions 0 and 3:\n", df_text.iloc[[0, 3]])

Rows at positions 0 and 3:
    height  weight  age  taille
a      58     115   28     162
b      61     123   31     160


Lệnh này lấy và in ra các hàng ở vị trí 0 và 3 trong DataFrame df_text. Kết quả trả về là một DataFrame con chứa đúng 2 hàng đó, giữ nguyên thứ tự mà bạn chỉ định.

In [51]:
print("\nRows at positions 0 and 3:\n", df_num.iloc[[0, 3]])


Rows at positions 0 and 3:
    height  weight  age  taille
0      58     115   28     162
3      61     123   31     160


Lệnh này lấy và in ra các hàng ở vị trí 0 và 3 trong DataFrame df_num. Kết quả là một DataFrame mới chứa dữ liệu của 2 hàng này.

##### 10.2.2.3 Slicing of Several Rows

In [52]:
print("Rows from label à to c:\n", df_text.loc["a":"c"])

Rows from label à to c:
    height  weight  age  taille
a      58     115   28     162
e      59     117   33     156
c      60     120   31     172


Lệnh này lấy và in ra tất cả các hàng từ nhãn "a" đến nhãn "c" trong DataFrame df_text.

In [6]:
print("\nRows from label 0 to 2:\n", df_num.loc[0:2])


Rows from label 0 to 2:
    height  weight  age  taille
0      58     115   28     162
1      59     117   33     156
2      60     120   31     172


Lệnh này lấy các hàng trong DataFrame df_num có nhãn (label) từ 0 đến 2 và in ra màn hình.

In [7]:
print("Rows at position 0 to 3 (not included):\n", df_text.iloc[0:3])

Rows at position 0 to 3 (not included):
    height  weight  age  taille
a      58     115   28     162
e      59     117   33     156
c      60     120   31     172


Lệnh này lấy các hàng của DataFrame df_text từ vị trí 0 đến vị trí 3 (không bao gồm 3) và in ra màn hình.

In [8]:
print("\nRows at position 0 to 3 (not included):\n", df_num.iloc[0:3])


Rows at position 0 to 3 (not included):
    height  weight  age  taille
0      58     115   28     162
1      59     117   33     156
2      60     120   31     172


Lệnh này lấy các hàng từ vị trí 0 đến trước vị trí 3 của DataFrame df_num và in ra màn hình.

##### 10.2.2.4 Mask

In [10]:
mask = df_text["height"]> 60 
print(mask)

a    False
e    False
c    False
b     True
d     True
Name: height, dtype: bool


df_text["height"] > 60 sẽ so sánh từng giá trị trong cột height của DataFrame df_text với số 60. Kết quả trả về là một Series kiểu boolean (True/False) cho biết giá trị nào lớn hơn 60.

In [11]:
print(df_text.loc[mask])

   height  weight  age  taille
b      61     123   31     160
d      62     126   29     158


df_text.loc[mask] sẽ lọc và trả về những hàng trong df_text có giá trị mask là True.

##### 10.2.2.5 Extraction of a Single Column

In [12]:
print(df_text['weight'].head(2))

a    115
e    117
Name: weight, dtype: int64


df_text['weight'].head(2) sẽ lấy 2 phần tử đầu tiên của cột "weight" trong DataFrame df_text và in ra. .head(n) luôn lấy n hàng đầu tiên tính theo thứ tự xuất hiện trong DataFrame.

In [13]:
print(type(df_text['weight']))

<class 'pandas.core.series.Series'>


type(df_text['weight']) trả về kiểu dữ liệu của cột "weight" trong df_text. Kết quả thường là <class 'pandas.core.series.Series'> vì một cột trong DataFrame là Series 1 chiều.

In [14]:
print(df_text.weight.head(2))

a    115
e    117
Name: weight, dtype: int64


df_text.weight.head(2) sẽ lấy 2 phần tử đầu tiên của cột "weight" trong DataFrame df_text và in ra.

In [15]:
print("Column 2 (loc):\n", df_text.loc[:,"weight"])

Column 2 (loc):
 a    115
e    117
c    120
b    123
d    126
Name: weight, dtype: int64


df_text.loc[:, "weight"] sẽ lấy toàn bộ dữ liệu của cột "weight" trong DataFrame df_text.

In [16]:
print("Column 2 (iloc):\n", df_text.iloc[:,1])

Column 2 (iloc):
 a    115
e    117
c    120
b    123
d    126
Name: weight, dtype: int64


df_text.iloc[:, 1] sẽ lấy toàn bộ dữ liệu của cột thứ 2 trong DataFrame df_text.

##### 10.2.2.6 Extraction of Several Columns

In [17]:
print(df_text[["weight", "height"]])

   weight  height
a     115      58
e     117      59
c     120      60
b     123      61
d     126      62


df_text[["weight", "height"]] sẽ lấy đồng thời nhiều cột "weight" và "height" từ DataFrame df_text.

In [19]:
print("Columns from weight to height:\n", df_text.loc[:,["weight", "height"]]) 

Columns from weight to height:
    weight  height
a     115      58
e     117      59
c     120      60
b     123      61
d     126      62


df_text.loc[:, ["weight", "height"]] sẽ lấy tất cả các hàng và chỉ các cột "weight" và "height" từ DataFrame df_text. Kết quả là một DataFrame con gồm 2 cột "weight" và "height" cùng tất cả các hàng.

In [20]:
print("Columns 2 and 1 :\n", df_num.iloc[:,[1,0]])

Columns 2 and 1 :
    weight  height
0     115      58
1     117      59
2     120      60
3     123      61
4     126      62


df_num.iloc[:, [1, 0]] sẽ lấy tất cả các hàng và chỉ các cột ở vị trí 1 và 0 trong DataFrame df_num.

##### 10.2.2.7 Slicing Several Columns

In [21]:
print("Columns 2 and 2:\n", df_text.loc[:, "height":"age"])

Columns 2 and 2:
    height  weight  age
a      58     115   28
e      59     117   33
c      60     120   31
b      61     123   31
d      62     126   29


df_text.loc[:, "height":"age"] sẽ lấy tất cả các hàng và các cột từ "height" đến "age" trong DataFrame df_text.

In [22]:
print("Columns from position 0 to 2 (not included) :\n",
      df_text.iloc[:, 0:2])

Columns from position 0 to 2 (not included) :
    height  weight
a      58     115
e      59     117
c      60     120
b      61     123
d      62     126


df_text.iloc[:, 0:2] sẽ lấy tất cả các hàng và các cột từ vị trí 0 đến trước vị trí 2 trong DataFrame df_text.

##### 10.2.2.8 Extraction of Rows and Columns

In [24]:
print(df_text.iloc[0:2, 1:3])

   weight  age
a     115   28
e     117   33


df_text.iloc[0:2, 1:3] sẽ lấy một phần của DataFrame df_text. Kết quả là một DataFrame con gồm 2 hàng và 2 cột theo thứ tự vị trí.

In [25]:
df_text.loc[["a", "c"], "weight":"age"]

Unnamed: 0,weight,age
a,115,28
c,120,31


Hàng có nhãn "a" và "c" (label-based). Các cột từ "weight" đến "age" (bao gồm cả "age", label-based slicing). .loc dùng nhãn (label-based indexing) cho cả hàng và cột. Kết quả là một DataFrame con gồm 2 hàng và các cột "weight", "age" (và các cột nằm giữa nếu có).

### 10.3 Renaming Columns in a Dataframe

In [28]:
dict = {"height" : [58, 59, 60, 61, 62], 
        "weight": [115, 117, 120, 123, 126], 
        "age": [28, 33, 31, 31, 29], 
        "taille": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dict)
print(df)

   height  weight  age  taille
0      58     115   28     162
1      59     117   33     156
2      60     120   31     172
3      61     123   31     160
4      62     126   29     158


Dòng code này tạo một DataFrame df từ dictionary dict và in ra nó.

In [29]:
df.rename(index=str, columns={"taille": "height"}, inplace=True) 
print(df)

   height  weight  age  height
0      58     115   28     162
1      59     117   33     156
2      60     120   31     172
3      61     123   31     160
4      62     126   29     158


Dòng code này đổi tên cột "taille" thành "height" trong DataFrame df và in ra

In [30]:
df.rename(index=str,
          columns={"weight": "weight_pounds", "age" : "years"}, 
          inplace=True)
print(df)

   height  weight_pounds  years  height
0      58            115     28     162
1      59            117     33     156
2      60            120     31     172
3      61            123     31     160
4      62            126     29     158


Dòng code này đổi tên các cột trong DataFrame df và in ra kết quả.

### 10.4 Filtering

In [31]:
dict = {"height" : [58, 59, 60, 61, 62], 
        "weight": [115, 117, 120, 123, 126], 
        "age": [28, 33, 31, 31, 29], 
        "height_cm": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dict)
print(df)

   height  weight  age  height_cm
0      58     115   28        162
1      59     117   33        156
2      60     120   31        172
3      61     123   31        160
4      62     126   29        158


Dòng code này tạo một DataFrame df mới từ dictionary dict và in ra nó.

In [33]:
mask = df["age"] < 30 
print(mask)

0     True
1    False
2    False
3    False
4     True
Name: age, dtype: bool


Dòng code này tạo một mask boolean để xác định những hàng trong DataFrame df có giá trị cột "age" nhỏ hơn 30.

In [34]:
print(df.loc[mask])

   height  weight  age  height_cm
0      58     115   28        162
4      62     126   29        158


df.loc[mask] sẽ lọc và trả về các hàng của DataFrame df mà điều kiện trong mask là True.

In [35]:
print(df[mask])

   height  weight  age  height_cm
0      58     115   28        162
4      62     126   29        158


df[mask] cũng lọc và trả về các hàng của DataFrame df mà điều kiện trong mask là True.

In [36]:
print(df.query("age<30"))

   height  weight  age  height_cm
0      58     115   28        162
4      62     126   29        158


df.query("age<30") sẽ lọc và trả về các hàng của DataFrame df mà giá trị cột "age" nhỏ hơn 30.

In [37]:
print(df.query("weight > 120 and height < 62"))

   height  weight  age  height_cm
3      61     123   31        160


df.query("weight > 120 and height < 62") sẽ lọc và trả về các hàng của DataFrame df mà giá trị cột "weight" lớn hơn 120 và "height" nhỏ hơn 62.

In [38]:
print(df.query("weight > 120").query("height < 62"))

   height  weight  age  height_cm
3      61     123   31        160


df.query("weight > 120").query("height < 62") sẽ lọc các hàng của DataFrame df theo hai điều kiện tuần tự:

.query("weight > 120") chọn các hàng có "weight" lớn hơn 120.

.query("height < 62") tiếp tục lọc các hàng đã chọn mà "height" nhỏ hơn 62.

Kết quả cuối cùng là một DataFrame con chỉ gồm những hàng thỏa mãn cả hai điều kiện.

#### 10.4.1 Checking whether a value belongs to dataframe

In [39]:
df.height.isin(np.arange(59,61))

0    False
1     True
2     True
3    False
4    False
Name: height, dtype: bool

df.height.isin(np.arange(59, 61)) sẽ kiểm tra từng giá trị trong cột height của DataFrame df xem có nằm trong khoảng từ 59 đến 60 hay không.

### 10.5 Missing Values

In [40]:
table_none = np.array([1, 4, -1, None]) 
print(table_none)

[1 4 -1 None]


Dòng code này tạo một mảng NumPy table_none từ danh sách [1, 4, -1, None] và in ra nó.

In [41]:
print(type(table_none))

<class 'numpy.ndarray'>


In ra màn hình kiểu dữ liệu (data type) của biến table_none.

In [42]:
table_none = np.array([1, 4, -1, np.nan]) 
print(table_none)

[ 1.  4. -1. nan]


Tạo một mảng NumPy table_none chứa các giá trị 1, 4, -1 và giá trị rỗng NaN, sau đó in toàn bộ mảng này ra màn hình.

In [43]:
print(type(table_none))

<class 'numpy.ndarray'>


Lệnh print(type(table_none)) sẽ in ra kiểu dữ liệu của biến table_none.

In [44]:
s = pd.Series([1, None, -1, np.nan]) 
print(s)

0    1.0
1    NaN
2   -1.0
3    NaN
dtype: float64


Tạo một đối tượng Series của Pandas gồm các giá trị 1, None, -1 và NaN, sau đó in toàn bộ Series đó ra màn hình.

In [45]:
print(type(s))

<class 'pandas.core.series.Series'>


Lệnh print(type(s)) sẽ in ra kiểu dữ liệu của biến s. Tức là s là một đối tượng Series của Pandas.

In [5]:
dict = {"height" : [58, 59, 60, 61, np.nan], 
        "weight": [115, 117, 120, 123, 126], 
        "age": [28, 33, 31, np.nan, 29], 
        "height_cm": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dict)
print(df)

   height  weight   age  height_cm
0    58.0     115  28.0        162
1    59.0     117  33.0        156
2    60.0     120  31.0        172
3    61.0     123   NaN        160
4     NaN     126  29.0        158


Tạo một DataFrame của Pandas từ một dictionary dict chứa các cột height, weight, age, height_cm, sau đó in toàn bộ bảng dữ liệu này ra màn hình.

In [48]:
print(df.dtypes)

height       float64
weight         int64
age          float64
height_cm      int64
dtype: object


Lệnh print(df.dtypes) sẽ in ra kiểu dữ liệu của từng cột trong DataFrame df.

#### 10.5.1 Identify Missing Values

In [49]:
print(s.isnull())

0    False
1     True
2    False
3     True
dtype: bool


Lệnh print(s.isnull()) sẽ trả về một Series giá trị True/False cho biết phần tử nào trong s bị thiếu dữ liệu (NaN).

In [50]:
print(s.notnull())

0     True
1    False
2     True
3    False
dtype: bool


Lệnh print(s.notnull()) sẽ trả về một Series giá trị True/False cho biết phần tử nào trong s không bị thiếu dữ liệu.

#### 10.5.2 Remove Observations with Missing Values

In [6]:
print(df.dropna())

   height  weight   age  height_cm
0    58.0     115  28.0        162
1    59.0     117  33.0        156
2    60.0     120  31.0        172


Lệnh print(df.dropna()) sẽ trả về một DataFrame mới đã loại bỏ toàn bộ các hàng (row) có ít nhất một giá trị bị thiếu (NaN).

#### 10.5.3 Removing Missing Values by Other Values

In [7]:
print(df.fillna(-9999))

   height  weight     age  height_cm
0    58.0     115    28.0        162
1    59.0     117    33.0        156
2    60.0     120    31.0        172
3    61.0     123 -9999.0        160
4 -9999.0     126    29.0        158


Lệnh print(df.fillna(-9999)) sẽ trả về một DataFrame mới, trong đó tất cả các giá trị bị thiếu (NaN) được thay thế bằng -9999.

### 10.6 Deletions

#### 10.6.1 Deleting Elements in a Series

In [9]:
s_num = pd.Series([1, 4, -1, np.nan], 
                  index = [5, 0, 4, 1])
s_text = pd.Series([1, 4, -1, np.nan], 
                   index = ["c", "a", "b", "d"])
print("for s_num: \n", s_num.drop(5))

for s_num: 
 0    4.0
4   -1.0
1    NaN
dtype: float64


Tạo hai Series s_num và s_text với cùng dữ liệu [1, 4, -1, np.nan] nhưng khác chỉ số (index). Sau đó, với s_num, dùng .drop(5) để trả về một Series mới đã loại bỏ phần tử có chỉ số là 5, rồi in ra.

In [12]:
print("\nfor s_text: \n", s_text.drop("c"))


for s_text: 
 a    4.0
b   -1.0
d    NaN
dtype: float64


Tạo một Series mới từ s_text sau khi bỏ đi phần tử có index "c".

In [11]:
print("s_num.index[0]: ", s_num.index[0])

s_num.index[0]:  5


Lấy và in ra giá trị của phần tử đầu tiên trong chỉ số (index) của s_num.

In [13]:
print("s_text.index[0]: ", s_text.index[0])

s_text.index[0]:  c


Lấy và in ra giá trị của phần tử đầu tiên trong chỉ số (index) của s_text.

In [14]:
print("for s_num: \n", s_num.drop(s_num.index[0]))

for s_num: 
 0    4.0
4   -1.0
1    NaN
dtype: float64


Xóa phần tử đầu tiên (theo vị trí trong index) khỏi s_num.

In [16]:
print("\nfor s_text: \n", s_text.drop(s_text.index[0]))


for s_text: 
 a    4.0
b   -1.0
d    NaN
dtype: float64


Xóa phần tử đầu tiên (theo vị trí trong index) khỏi s_text.

In [17]:
print("for s_num: \n", s_num.drop([5, 4]))

for s_num: 
 0    4.0
1    NaN
dtype: float64


Xóa nhiều phần tử khỏi s_num dựa trên giá trị của index (ở đây là 5 và 4).

In [18]:
print("\nfor s_text: \n", s_text.drop(["c", "b"]))


for s_text: 
 a    4.0
d    NaN
dtype: float64


Xóa nhiều phần tử khỏi s_text dựa trên giá trị của index (ở đây là "c" và "b").

In [19]:
print("s_num.index[[0,2]]: ", s_num.index[[0,2]])

s_num.index[[0,2]]:  Index([5, 4], dtype='int64')


Lấy và in ra các giá trị index của s_num tại vị trí 0 và 2.

In [20]:
print("s_text.index[[0,2]]: ", s_text.index[[0,2]])

s_text.index[[0,2]]:  Index(['c', 'b'], dtype='object')


Lấy và in ra các giá trị index của s_text tại vị trí 0 và 2.

In [21]:
print("for s_num: \n", s_num.drop(s_num.index[[0,2]]))

for s_num: 
 0    4.0
1    NaN
dtype: float64


Xóa các phần tử của s_num tại vị trí index 0 và 2.

In [22]:
print("\nfor s_text: \n", s_text.drop(s_text.index[[0,2]]))


for s_text: 
 a    4.0
d    NaN
dtype: float64


Xóa các phần tử của s_text tại vị trí index 0 và 2.

#### 10.6.2 Deleting Elements in a Dataframe

In [25]:
s_num = pd.Series([1, 4, -1, np.nan], 
                  index = [5, 0, 4, 1])
s_text = pd.Series([1, 4, -1, np.nan], 
                   index = ["c", "a", "b", "d"])
dict = {"height" : [58, 59, 60, 61, np.nan], 
        "weight": [115, 117, 120, 123, 126], 
        "age": [28, 33, 31, np.nan, 29], 
        "height_cm": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dict)

##### 10.6.2.1 Deleting Rows

In [26]:
print("Delete the first row:  \n", df.drop(0))

Delete the first row:  
    height  weight   age  height_cm
1    59.0     117  33.0        156
2    60.0     120  31.0        172
3    61.0     123   NaN        160
4     NaN     126  29.0        158


Xóa hàng đầu tiên (theo index = 0) khỏi DataFrame df.

In [28]:
label_pos_0 = df.index[0]
print("Delete the first row: \n", df.drop(label_pos_0))

Delete the first row: 
    height  weight   age  height_cm
1    59.0     117  33.0        156
2    60.0     120  31.0        172
3    61.0     123   NaN        160
4     NaN     126  29.0        158


Lấy nhãn (label) của hàng đầu tiên rồi dùng nó để xóa hàng đó khỏi DataFrame df.

In [29]:
print("Delete the 1st and 4th rows: \n", df.drop([0,3]))

Delete the 1st and 4th rows: 
    height  weight   age  height_cm
1    59.0     117  33.0        156
2    60.0     120  31.0        172
4     NaN     126  29.0        158


Xóa đồng thời hàng thứ 1 và hàng thứ 4 (theo index 0 và 3) khỏi DataFrame df.

In [30]:
label_pos = df.index[[0, 3]]
print("Delete the 1st and 4th rows: \n", df.drop(label_pos))

Delete the 1st and 4th rows: 
    height  weight   age  height_cm
1    59.0     117  33.0        156
2    60.0     120  31.0        172
4     NaN     126  29.0        158


Lấy nhãn của hàng thứ 1 và hàng thứ 4 rồi dùng chúng để xóa các hàng này khỏi DataFrame df.

##### 10.6.2.2 Deleting Columns

In [31]:
print("Delete the first column: \n", df.drop("height", axis=1))

Delete the first column: 
    weight   age  height_cm
0     115  28.0        162
1     117  33.0        156
2     120  31.0        172
3     123   NaN        160
4     126  29.0        158


Xóa cột height khỏi DataFrame df.

In [33]:
label_pos = df.columns[0] 
print("label_pos : ", label_pos)

label_pos :  height


Lấy tên của cột đầu tiên trong DataFrame df và in ra.

In [34]:
print("Delete the first column: \n", df.drop(label_pos, axis=1))

Delete the first column: 
    weight   age  height_cm
0     115  28.0        162
1     117  33.0        156
2     120  31.0        172
3     123   NaN        160
4     126  29.0        158


Xóa cột đầu tiên (dựa trên tên đã lưu trong label_pos) khỏi DataFrame df.

In [35]:
print("Delete the 1st and 4th columns: \n", 
      df.drop(["height", "height_cm"], axis = 1))

Delete the 1st and 4th columns: 
    weight   age
0     115  28.0
1     117  33.0
2     120  31.0
3     123   NaN
4     126  29.0


Xóa đồng thời cột thứ 1 và cột thứ 4 (height và height_cm) khỏi DataFrame df.

In [36]:
label_pos = df.columns[[0, 3]]
print("Delete the 1st and 4th columns: \n", df.drop(label_pos, axis=1))

Delete the 1st and 4th columns: 
    weight   age
0     115  28.0
1     117  33.0
2     120  31.0
3     123   NaN
4     126  29.0


Lấy tên của cột thứ 1 và thứ 4 rồi dùng chúng để xóa các cột này khỏi DataFrame df.

### 10.7 Replacing Values

#### 10.7.1 For a Series

In [37]:
s_num = pd.Series([1, 4, -1, np.nan], 
                  index = [5, 0, 4, 1])
print("s_num: ", s_num)

s_num:  5    1.0
0    4.0
4   -1.0
1    NaN
dtype: float64


Tạo một Series s_num với dữ liệu và chỉ số cho trước, rồi in ra.

In [38]:
s_num.iloc[1] = -3 
print("s_num: ", s_num)

s_num:  5    1.0
0   -3.0
4   -1.0
1    NaN
dtype: float64


Thay đổi giá trị tại vị trí thứ 2 (chỉ số vị trí = 1) của s_num thành -3, rồi in ra.

In [39]:
s_num.iloc[[1,3]] = [-10, -9] 
print(s_num)

5     1.0
0   -10.0
4    -1.0
1    -9.0
dtype: float64


Thay đổi giá trị tại vị trí thứ 2 và thứ 4 của s_num thành -10 và -9, rồi in ra.

#### 10.7.2 For a Dataframe

In [40]:
dict = {"city" : ["Marseille", "Aix",
                  "Marseille", "Aix", "Paris", "Paris"],
        "year": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       }
df = pd.DataFrame(dict)
print("df: \n", df)

df: 
         city  year  x  y
0  Marseille  2019  1  3
1        Aix  2019  2  3
2  Marseille  2018  2  2
3        Aix  2018  2  1
4      Paris  2019  0  4
5      Paris  2019  0  4


Tạo một DataFrame df từ dictionary cho trước và in ra.

##### 10.7.2.1 Changes of a Particular Value

In [5]:
pos_year = df.columns.get_loc("year") 
print("pos_year: ", pos_year)

pos_year:  1


Lấy vị trí (số thứ tự cột) của cột "year" trong DataFrame df và in ra.

In [6]:
df.iloc[0,pos_year] = 2020 
print("df: \n", df)

df: 
         city  year  x  y
0  Marseille  2020  1  3
1          1     1  1  1
2  Marseille  2018  2  2
3        Aix  2018  2  1
4      Paris  2019  0  4
5      Paris  2019  0  4


Thay đổi giá trị tại hàng đầu tiên và cột "year" của df thành 2020, rồi in ra.

##### 10.7.2.2 Modifications on One or More Columns

In [7]:
df.x = 2
print("df: \n", df)

df: 
         city  year  x  y
0  Marseille  2020  2  3
1          1     1  2  1
2  Marseille  2018  2  2
3        Aix  2018  2  1
4      Paris  2019  2  4
5      Paris  2019  2  4


Gán toàn bộ giá trị của cột x trong DataFrame df thành 2, rồi in ra.

In [8]:
df.x = [2, 3, 4, 2, 1, 0] 
print("df: \n", df)

df: 
         city  year  x  y
0  Marseille  2020  2  3
1          1     1  3  1
2  Marseille  2018  4  2
3        Aix  2018  2  1
4      Paris  2019  1  4
5      Paris  2019  0  4


Gán một danh sách giá trị mới cho toàn bộ cột x của DataFrame df, rồi in ra.

In [11]:
new_val = []
for i in np.arange(len(df.index)):
    if df.y[i] == 2: 
        new_val.append("a")
    elif df.y[i] == 1: 
        new_val.append("b")
    else: 
        new_val.append(np.nan)
print("new_val: ", new_val)

new_val:  [nan, 'b', 'a', 'b', nan, nan]


Tạo một danh sách new_val bằng cách duyệt từng hàng của df, gán giá trị "a" nếu y = 2, "b" nếu y = 1, còn lại thì NaN, rồi in ra.

In [12]:
df.x = new_val 
print("df: \n", df)

df: 
         city  year    x  y
0  Marseille  2020  NaN  3
1          1     1    b  1
2  Marseille  2018    a  2
3        Aix  2018    b  1
4      Paris  2019  NaN  4
5      Paris  2019  NaN  4


Gán danh sách new_val làm giá trị mới cho cột x của DataFrame df, rồi in ra.

##### 10.7.2.3 Modifications on One or More Rows

In [13]:
import pandas as pd

In [14]:
df.iloc[1,:] = 1 
print("df: \n", df)

df: 
         city  year    x  y
0  Marseille  2020  NaN  3
1          1     1    1  1
2  Marseille  2018    a  2
3        Aix  2018    b  1
4      Paris  2019  NaN  4
5      Paris  2019  NaN  4


Gán giá trị 1 cho toàn bộ các ô ở hàng thứ 2 (vị trí index = 1) của DataFrame df, rồi in ra.

In [16]:
df.iloc[1,:] = ["Aix", 2018, 1, 2] 
print("df: \n", df)

df: 
         city  year    x  y
0  Marseille  2020  NaN  3
1        Aix  2018    1  2
2  Marseille  2018    a  2
3        Aix  2018    b  1
4      Paris  2019  NaN  4
5      Paris  2019  NaN  4


Dòng code này thay thế toàn bộ giá trị của hàng thứ 2 trong DataFrame bằng danh sách ["Aix", 2018, 1, 2] và in ra DataFrame sau khi thay đổi.

In [17]:
df.iloc[[1,3],:] = [ 
    ["Aix", 2018, 1, 2], 
    ["Aix", 2018, -1, -1]
]
print("df: \n", df)

df: 
         city  year    x  y
0  Marseille  2020  NaN  3
1        Aix  2018    1  2
2  Marseille  2018    a  2
3        Aix  2018   -1 -1
4      Paris  2019  NaN  4
5      Paris  2019  NaN  4


Thay thế giá trị của hàng thứ 2 và hàng thứ 4 trong DataFrame bằng hai danh sách tương ứng, rồi in ra DataFrame sau khi thay đổi.

### 10.8 Adding Values

#### 10.8 Adding Values

#### 10.8.1 For a Series

In [18]:
s_num = pd.Series([1, 4, -1, np.nan], 
                  index = [5, 0, 4, 1])
print("s_num: ", s_num)

s_num:  5    1.0
0    4.0
4   -1.0
1    NaN
dtype: float64


Tạo một Series có giá trị và chỉ số tùy chỉnh, bao gồm giá trị thiếu, rồi in ra.

##### 10.8.1.1 Adding a Single Value in a Series

In [19]:
s_num_2 = pd.Series([1], index = [2]) 
print("s_num_2: \n", s_num_2)

s_num_2: 
 2    1
dtype: int64


Tạo một Series chỉ có một giá trị 1 với chỉ số (index) là 2, rồi in ra Series đó.

##### 10.8.1.2 Adding Several Values in a Series

In [22]:
s_num_2 = pd.Series([1], index = [2])
s_num.append(s_num_2)

AttributeError: 'Series' object has no attribute 'append'

In [23]:
print("s_num: ", s_num)

s_num:  5    1.0
0    4.0
4   -1.0
1    NaN
dtype: float64


Dòng code này in ra nội dung của Series s_num, bao gồm các giá trị và chỉ số (index) tương ứng.

#### 10.8.2 For a dataframe

In [25]:
dict = {"city" : ["Marseille", "Aix",
                  "Marseille", "Aix", "Paris", "Paris"],
        "year": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       }
df = pd.DataFrame(dict)
print("df : \n", df)

df : 
         city  year  x  y
0  Marseille  2019  1  3
1        Aix  2019  2  3
2  Marseille  2018  2  2
3        Aix  2018  2  1
4      Paris  2019  0  4
5      Paris  2019  0  4


Tạo một DataFrame từ một từ điển chứa các danh sách dữ liệu theo cột, rồi in ra DataFrame đó.

##### 10.8.2.1 Adding a Row in a Dataframe

In [26]:
new_row = pd.DataFrame([["Marseille", "2021", 2, 4]], 
                       columns = df.columns)
print("new_row: \n", new_row)

new_row: 
         city  year  x  y
0  Marseille  2021  2  4


Tạo một DataFrame mới chỉ gồm một hàng với các giá trị được cung cấp, sử dụng cùng các cột như DataFrame df, rồi in ra DataFrame mới này.

In [28]:
new_row = pd.DataFrame([["2021", "Marseille", 2, 4]], 
                       columns = ["year", "coty", "x", "y"])
print("new_row: \n", new_row)

new_row: 
    year       coty  x  y
0  2021  Marseille  2  4


Tạo một DataFrame mới chỉ gồm một hàng với các giá trị được cung cấp, đặt tên cột theo danh sách tùy chỉnh, rồi in ra DataFrame mới.

##### 10.8.2.2 Adding Multiple Rows in a Dataframe

In [32]:
new_rows = pd.DataFrame([ 
    ["Marseille", "2022", 2, 4], 
    ["Aix", "2022", 3, 3]], 
    columns = df.columns)
print("new_rows: \n", new_rows)

new_rows: 
         city  year  x  y
0  Marseille  2022  2  4
1        Aix  2022  3  3


Tạo một DataFrame mới gồm nhiều hàng với các giá trị được cung cấp, sử dụng cùng các cột như DataFrame df, rồi in ra DataFrame mới này.

##### 10.8.2.3 Adding a Column to a Dataframe

In [35]:
from numpy import random
df["z"] = random.rand(len(df.index)) 
print("df: \n", df)

df: 
         city  year  x  y         z
0  Marseille  2019  1  3  0.582492
1        Aix  2019  2  3  0.393912
2  Marseille  2018  2  2  0.670930
3        Aix  2018  2  1  0.441372
4      Paris  2019  0  4  0.589158
5      Paris  2019  0  4  0.469910
