# Chapter 10

# Data manipulation with pandas

In [1]:
import pandas as pd

In [2]:
import numpy as np

### 10.1 Structures

#### 10.1.1 Series

##### 10.1.1.1 Creating Series from a List

In [3]:
s = pd.Series([1, 4, -1, np.nan, .5, 1]) 
print(s)

0    1.0
1    4.0
2   -1.0
3    NaN
4    0.5
5    1.0
dtype: float64


Tạo một pandas Series, là một cột dữ liệu 1 chiều, có chỉ số (index) tự động từ 0. "np.nan" đại diện cho giá trị thiếu (missing value) và in ra Series, hiển thị chỉ số (index) và giá trị.

In [4]:
print("values of s: ", s.values)

values of s:  [ 1.   4.  -1.   nan  0.5  1. ]


Truy xuất tất cả giá trị trong pandas Series s dưới dạng mảng NumPy (numpy.ndarray) và in ra các giá trị không bao gồm chỉ số (index), chỉ lấy dữ liệu bên trong Series.

In [5]:
print("type of values of s: ", type(s.values))

type of values of s:  <class 'numpy.ndarray'>


Trả về mảng NumPy chứa tất cả giá trị của Series s, type(s.values) sẽ kiểm tra kiểu dữ liệu của đối tượng này và in ra kiểu dữ liệu của giá trị bên trong Series.

In [6]:
print("index of s: ", s.index)

index of s:  RangeIndex(start=0, stop=6, step=1)


Truy xuất chỉ số (index) của Series s. Chỉ số này dùng để định vị từng giá trị trong Series, tương tự như số thứ tự của phần tử và in ra thông tin về chỉ số của Series.

In [7]:
print("type of the index of s: ", type(s.index))

type of the index of s:  <class 'pandas.core.indexes.range.RangeIndex'>


Trả về đối tượng chỉ số (Index) của Series s. type(s.index) sẽ kiểm tra kiểu dữ liệu của đối tượng này và in ra kiểu dữ liệu của chỉ số.

In [8]:
s.name = "my_serie"
s.name = "name_index"
print("name of the Serie: {} , name of the index: {}".format(s.name, s.index.name))

name of the Serie: name_index , name of the index: None


Series trong pandas có thể có tên riêng và chỉ số cũng có tên riêng, giúp mô tả dữ liệu rõ ràng hơn khi in hoặc phân tích.

In [9]:
print("Serie s: \n", s)

Serie s: 
 0    1.0
1    4.0
2   -1.0
3    NaN
4    0.5
5    1.0
Name: name_index, dtype: float64


s là pandas Series đã được tạo trước đó, chứa cả giá trị và chỉ số và in ra toàn bộ Series, bao gồm chỉ số (index), giá trị (values), tên Series (nếu có).

##### 10.1.1.2 Definition of the Index

In [11]:
s = pd.Series([1, 4, -1, np.nan],
              index = ["o", "d", "i", "l"])
print(s)

o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


Pandas Series cho phép chỉ định index tùy ý, không nhất thiết phải là số thứ tự.

In [13]:
s = pd.Series([1, 4, -1, np.nan], 
              index = [4, 40, 2, 3])
print(s)

4     1.0
40    4.0
2    -1.0
3     NaN
dtype: float64


Index của Series không cần theo thứ tự liên tiếp, có thể là bất kỳ số nguyên hoặc nhãn nào.

In [14]:
s.index = ["o", "d", "i", "l"] 
print("Série s : \n", s)

Série s : 
 o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


Pandas Series cho phép thay đổi index sau khi tạo.

##### 10.1.1.3 Creation of Special Series

In [15]:
s = pd.Series(5, index = [np.arange(4)]) 
print(s)

0    5
1    5
2    5
3    5
dtype: int64


index=[np.arange(4)] sẽ gán index cho Series, nhưng do đặt trong list, nên Python coi cả mảng là 1 giá trị duy nhất của index. pd.Series(5, index=[...]) nhằm tạo Series với giá trị 5 lặp cho tất cả index.

In [18]:
dictionary = {"King": "Arthur", 
              "Knight_Round_Table": "Percival",
              "Druid": "Merlin"} 
s = pd.Series(dictionary)
print(s)

King                    Arthur
Knight_Round_Table    Percival
Druid                   Merlin
dtype: object


Pandas Series có thể tạo trực tiếp từ dictionary, tự động gán key làm index và value làm giá trị.

In [20]:
dictionary = {"King": "Arthur", 
              "Knight_Round_Table": "Percival",
              "Druid": "Merlin"}
s = pd.Series(dictionary, index = ["King", "Druid"])
print(s)

King     Arthur
Druid    Merlin
dtype: object


Pandas Series có thể tạo trực tiếp từ dictionary. Khi chỉ định index, Series sẽ chỉ giữ các key được liệt kê trong index. Key của dictionary trở thành index của Series, value trở thành giá trị, giúp lựa chọn và truy cập dữ liệu theo nhãn.

#### 10.1.2 Dataframes

##### 10.1.2.1 Creating Dataframes from a Dictionary

In [22]:
dict = {"height" :
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight":
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
}
df = pd.DataFrame(dict)
print(df)

    height  weight
0       58     115
1       59     117
2       60     120
3       61     123
4       62     126
5       63     129
6       64     132
7       65     135
8       66     139
9       67     142
10      68     146
11      69     150
12      70     154
13      71     159
14      72     164


Pandas DataFrame cho phép tạo bảng dữ liệu 2 chiều từ dictionary, với cột là key, hàng là giá trị.

In [23]:
print(df.columns)

Index(['height', 'weight'], dtype='object')


Giúp xem nhanh tên các cột trong DataFrame df và in ra danh sách các tên cột.

In [24]:
df.head(2)

Unnamed: 0,height,weight
0,58,115
1,59,117


Lấy n hàng đầu tiên của DataFrame df. Ở đây n=2, nên chỉ hiển thị 2 hàng đầu tiên.

In [25]:
df = pd.DataFrame(dict, columns = ["weight"]) 
print(df.head(2))

   weight
0     115
1     117


Lấy 2 hàng đầu tiên của DataFrame và in ra 2 hàng đầu tiên của cột "weight".

In [26]:
df = pd.DataFrame(dict, columns = ["weight", "height"]) 
print(df.head(2))

   weight  height
0     115      58
1     117      59


Lấy 2 hàng đầu tiên của DataFrame và in ra 2 hàng đầu tiên với cột đã sắp xếp theo thứ tự mới.

In [27]:
df = pd.DataFrame(dict, columns = ["weight", "height", "age"]) 
print(df.head(2))

   weight  height  age
0     115      58  NaN
1     117      59  NaN


"weight" và "height" có dữ liệu. "age" không có trong dictionary, nên pandas gán NaN cho tất cả các hàng. Nên khi lấy 2 hàng đầu tiên của DataFrame và in ra 2 hàng đầu tiên với cột mới, bao gồm cả cột "age" chứa NaN.

##### 10.1.2.2 Creating Dataframes from Series

In [28]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"]) 
s.name = "name_variable"
df = pd.DataFrame(s, columns = ["name_variable"])
print(df)

   name_variable
o            1.0
d            4.0
i           -1.0
l            NaN


Chuyển Series thành DataFrame 2 chiều với một cột duy nhất, tên cột là "name_variable" và in ra toàn bộ DataFrame với index, cột và giá trị.

In [29]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"]) 
df = pd.DataFrame(s)
print(df)

     0
o  1.0
d  4.0
i -1.0
l  NaN


Pandas cho phép chuyển Series thành DataFrame để tiện thao tác dạng bảng. Index của Series được giữ nguyên, cột dữ liệu được đặt tên mặc định nếu Series chưa có tên.

In [30]:
print(df.columns.name)

None


DataFrame có thể đặt tên cho index của các cột (columns.name) để mô tả rõ hơn, nhưng nếu chưa gán thì giá trị mặc định là .

##### 10.1.2.3 Creating Dataframes from a Dictionary List

In [31]:
dico_1 = {
    "Name": "Pendragon", 
    "Surname": "Arthur", 
    "Role": "King of Britain"
}
dico_2 = {
    "Name": "",
    "Surname": "Perceval",
    "Role": "Knight of the Round Table"
}

df = pd.DataFrame([dico_1, dico_2]) 
print(df)

        Name   Surname                       Role
0  Pendragon    Arthur            King of Britain
1             Perceval  Knight of the Round Table


Pandas cho phép tạo DataFrame từ danh sách từ điển, mỗi từ điển là một hàng, key của từ điển là tên cột.

In [33]:
dico_3 = {
    "Surname": "Guinevere", 
    "Role": "Queen of Britain"
}

df = pd.DataFrame([dico_1, dico_2, dico_3]) 
print(df)

        Name    Surname                       Role
0  Pendragon     Arthur            King of Britain
1              Perceval  Knight of the Round Table
2        NaN  Guinevere           Queen of Britain


Khi tạo DataFrame từ danh sách từ điển có cấu trúc khác nhau, pandas sẽ tự động điền NaN cho các giá trị thiếu.

##### 10.1.2.4 Création de dataframes à partir d’un dictionnaire de séries

In [34]:
# Annual 2017 GDP
# In millions of current dollars 
dict_gdp_current = {
    "France": 2582501.31,
    "USA": 19390604.00,
    "UK": 2622433.96
}
# Annual consumer price index
dict_cpi = { 
    "France": 0.2,
    "UK": 0.6,
    "USA": 1.3,
    "Germany": 0.5
}

In [35]:
s_gdp_current = pd.Series(dict_gdp_current) 
s_cpi = pd.Series(dict_cpi)

print("s_gdp_current : \n", s_gdp_current)

s_gdp_current : 
 France     2582501.31
USA       19390604.00
UK         2622433.96
dtype: float64


Từ điển chứa GDP năm 2017 theo triệu USD cho một số quốc gia và in ra GDP của từng quốc gia dưới dạng Series.

In [36]:
print("\ns_cpi : \n", s_cpi)


s_cpi : 
 France     0.2
UK         0.6
USA        1.3
Germany    0.5
dtype: float64


s_cpi → Series Pandas được tạo từ dictionary dict_cpiin ra Series chứa chỉ số giá tiêu dùng của các quốc gia.