# Pandas

In [741]:
import pandas as pd  # Nhập thư viện pandas với tên viết tắt pd
pd.__version__  # Kiểm tra phiên bản pandas đang sử dụng

'2.3.3'

## Series

A Pandas <code>Series</code> is a one-dimensional array of indexed data. It can be created from a list or array as follows:

### Creating a series from list

In [742]:
data_pd = pd.Series([0.25, 0.5, 0.75, 1.0])  # Tạo Series từ list, index mặc định 0,1,2,3
print("1: Pandas series from list: \n",data_pd)  # In Series ra màn hình

1: Pandas series from list: 
 0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


### Creating a series from numpy array

In [743]:
import numpy as np  # Nhập thư viện numpy
numpy_arr = np.arange(5)  # Tạo mảng numpy [0,1,2,3,4]
data_pd   = pd.Series(numpy_arr)  # Chuyển numpy array thành pandas Series
print("1: Pandas series from numpy array: \n", data_pd)  # In ra, chú ý index mặc định là 0,1,2,3,4

1: Pandas series from numpy array: 
 0    0
1    1
2    2
3    3
4    4
dtype: int32


### Attributes

In [744]:
print("1: Data values: ", data_pd.values)  # .values trả về numpy array chứa giá trị
print("2: Data index:  ", data_pd.index)  # .index trả về RangeIndex (chỉ mục)

1: Data values:  [0 1 2 3 4]
2: Data index:   RangeIndex(start=0, stop=5, step=1)


### Indexing

In [745]:
print("1: Data[1]:     ", data_pd[1])  # Truy cập phần tử tại index 1 → giá trị 1
print("2: Data[-2:]: \n", data_pd[-2:])  # Slicing: lấy 2 phần tử cuối cùng

# index được định nghĩa TƯỜNG MINH (explicit) trong pandas, khác với numpy là ngầm định

# Lỗi: data_pd[-1] sẽ báo lỗi vì không có index là -1 trong explicit index
# print("Data[-1]: ", data_pd[-1])

1: Data[1]:      1
2: Data[-2:]: 
 3    3
4    4
dtype: int32


### Letter indexing

In [746]:
# Index số nguyên dễ gây nhầm lẫn! Thử dùng chữ cái thay thế
data_pd = pd.Series([0.25, 0.5, 0.75, 1.0], 
                    index=['a', 'b', 'c', 'd'])  # Tạo Series với index là chữ cái

print("1: Data[-1]:  ", data_pd[-1])  # Với index chữ, -1 fallback về VỊ TRÍ cuối → 1.0
print("2: Data['b']: ", data_pd['b'])  # Truy cập bằng NHÃN 'b' → 0.5

1: Data[-1]:   1.0
2: Data['b']:  0.5


  print("1: Data[-1]:  ", data_pd[-1])  # Với index chữ, -1 fallback về VỊ TRÍ cuối → 1.0


### Combined indexing

In [747]:
index   = ['a', 'b', 'c', 'd', 3]  # Index hỗn hợp gồm cả chữ ('a','b','c','d') và số (3)
data_pd = pd.Series(numpy_arr, index = index)  # Tạo Series với 5 giá trị [0,1,2,3,4]

print("1: Index['a']: ", data_pd['a'])  # Truy cập nhãn 'a' → giá trị 0
print("2: Index[3]:   ", data_pd[3])  # Chú ý: 3 là NHÃN, KHÔNG PHẢI vị trí! → giá trị 4

1: Index['a']:  0
2: Index[3]:    4


### Pandas and dictionary

In [748]:
# Hệ thống index của pandas giống dictionary, nên có thể tạo Series từ dict
some_population_dict = {'Sai Gon': 11111, 
                        'Vung Tau': 22222,
                        'Phan Thiet': 33333,
                        'Vinh Long': 44444}  # Dictionary chứa dữ liệu dân số

data_pd = pd.Series(some_population_dict)  # Tạo Series từ dictionary
print("1: Population['Vinh Long']: ", data_pd['Vinh Long'])  # Truy cập bằng key

# Pandas cũng hỗ trợ slicing!
print("2: Population['Sai Gon':'Vung Tau']: \n", data_pd['Sai Gon': 'Vung Tau'])  # Slicing bằng label

1: Population['Vinh Long']:  44444
2: Population['Sai Gon':'Vung Tau']: 
 Sai Gon     11111
Vung Tau    22222
dtype: int64


### Pandas and scalar

In [749]:
# Dữ liệu có thể là một giá trị vô hướng (scalar)
# Giá trị này sẽ được LẶP LẠI để điền vào toàn bộ index
data_pd = pd.Series(5, index=[2, 3, 8])  # Giá trị 5 được gán cho tất cả index
print("1: Data pd scalar: \n", data_pd)  # Kết quả: index 2,3,8 đều có giá trị 5

1: Data pd scalar: 
 2    5
3    5
8    5
dtype: int64


## Dataframe

DataFrame is an analog of a two-dimensional array with both flexible row indices and flexible column names.  DataFrame as a sequence of aligned Series objects.

### Create dataframe with two dict

In [750]:
some_population_dict = {'Sai Gon': 11111, 
                        'Vung Tau': 22222,
                        'Phan Thiet': 33333,
                        'Vinh Long': 44444}  # Dict dân số (4 thành phố)
some_area_dict = {'Sai Gon': 99999, 
                'Vung Tau': 88888,
                'Phan Thiet': 77777,
                'Vinh Long': 66666,
                 'Ben Tre': 33333}  # Dict diện tích (5 thành phố, có thêm Ben Tre)

states = pd.DataFrame({'population': some_population_dict,
                       'area': some_area_dict})  # Tạo DataFrame từ 2 dict
print(states)  # Ben Tre có NaN ở cột population vì không có trong dict dân số

            population   area
Sai Gon        11111.0  99999
Vung Tau       22222.0  88888
Phan Thiet     33333.0  77777
Vinh Long      44444.0  66666
Ben Tre            NaN  33333


### Indexing

In [751]:
print("Only Vung Tau to Sai Gon: ")  # Slicing DataFrame theo hàng
print(states['Vung Tau': 'Sai Gon'])  # Slicing ngược → kết quả rỗng (phải đúng thứ tự)

Only Vung Tau to Sai Gon: 
Empty DataFrame
Columns: [population, area]
Index: []


In [752]:
print("Only population column: ")
print(states['Vung Tau': 'Sai Gon']['population'])  # Slicing hàng trước, lấy cột sau
print(states['population']['Vung Tau': 'Sai Gon'])  # Lấy cột trước, slicing sau (kết quả tương tự)

Only population column: 
Series([], Name: population, dtype: float64)
Series([], Name: population, dtype: float64)


In [753]:
print("Only area column with everything")
print(states['area'])  # Cách 1: Truy cập trực tiếp bằng tên cột
print(states[:]['area'])  # Cách 2: Lấy tất cả hàng rồi lấy cột 'area'

Only area column with everything
Sai Gon       99999
Vung Tau      88888
Phan Thiet    77777
Vinh Long     66666
Ben Tre       33333
Name: area, dtype: int64
Sai Gon       99999
Vung Tau      88888
Phan Thiet    77777
Vinh Long     66666
Ben Tre       33333
Name: area, dtype: int64


### Attributes

In [754]:
print("Index:        ", states.index)  # Index của DataFrame (tên các hàng)
print("Index[-1]:    ", states.index[-1])  # Phần tử cuối của index → 'Ben Tre'
print("Columns:      ", states.columns)  # Tên các cột
print("Columns[0:1]: ", states.columns[0:1])  # Slicing cột (không bao gồm vị trí 1)

Index:         Index(['Sai Gon', 'Vung Tau', 'Phan Thiet', 'Vinh Long', 'Ben Tre'], dtype='object')
Index[-1]:     Ben Tre
Columns:       Index(['population', 'area'], dtype='object')
Columns[0:1]:  Index(['population'], dtype='object')


### Other ways to create

In [755]:
# Tạo DataFrame từ Series (cần chỉ định tên cột)
population_series = pd.Series(some_population_dict)
pd_from_series    = pd.DataFrame(population_series, columns=['population'])  # columns=['population'] để đặt tên cột
print("PD from series: \n", pd_from_series)

# Tạo từ list of dicts (mỗi dict là một hàng)
data              = [{'a': i, 'b': 2 * i} for i in range(3)]  # List gồm 3 dict
pd_from_list_dict = pd.DataFrame(data, index=[1, 2, 3])  # Chỉ định index
print("PD from list of dict: \n", pd_from_list_dict)

# Tạo từ numpy 2D array (cần chỉ định cả index và columns)
data_numpy    = np.random.rand(3, 2)  # Mảng 2D kích thước 3x2
index         = ['a', 'b', 'c']  # 3 hàng
columns       = ['foo', 'bar']  # 2 cột
pd_from_numpy = pd.DataFrame(data_numpy, index=index, columns=columns)
print("PD from numpy: \n", pd_from_numpy)

PD from series: 
             population
Sai Gon          11111
Vung Tau         22222
Phan Thiet       33333
Vinh Long        44444
PD from list of dict: 
    a  b
1  0  0
2  1  2
3  2  4
PD from numpy: 
         foo       bar
a  0.597534  0.587278
b  0.975465  0.625602
c  0.683325  0.899942


 ## Series indexing/slicing/fancy Indexing

In [756]:
import pandas as pd  # Import lại pandas
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index = ['a', 'b', 'c', 'd'])  # Tạo Series với index chữ cái

print("Data:\n", data)  # In Series

Data:
 a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


### Explicit vs. Implicit index

In [757]:
# EXPLICIT index: truy cập bằng NHÃN
print("Explicit index: ", data['b'])  # Nhãn 'b' → giá trị 0.5

# IMPLICIT index: truy cập bằng VỊ TRÍ (vì index là chữ nên cho phép dùng số âm)
print("Implicit index: ", data[-1])  # Vị trí cuối → giá trị 1.0

Explicit index:  0.5
Implicit index:  1.0


  print("Implicit index: ", data[-1])  # Vị trí cuối → giá trị 1.0


In [758]:
# Slicing với EXPLICIT index (BAO GỒM điểm cuối 'c')
print("Data['a':'c']: \n", data['a':'c'])  # Trả về a, b, c

# Slicing với IMPLICIT index (KHÔNG BAO GỒM điểm cuối 2)
print("Data[0:2]: \n", data[0:2])  # Trả về a, b (không có c)

Data['a':'c']: 
 a    0.25
b    0.50
c    0.75
dtype: float64
Data[0:2]: 
 a    0.25
b    0.50
dtype: float64


### Adding values

In [759]:
# Mở rộng Series bằng cách gán giá trị cho index mới
data['e'] = 99  # Thêm phần tử mới với nhãn 'e' và giá trị 99
print("Data with e: \n", data)  # Bây giờ Series có 5 phần tử

Data with e: 
 a     0.25
b     0.50
c     0.75
d     1.00
e    99.00
dtype: float64


### "in"

In [760]:
print("a in data?: ", 'a' in data)  # Kiểm tra nhãn 'a' có trong index không → True

a in data?:  True


### keys()

In [761]:
print("All keys: ", data.keys())  # Lấy tất cả keys (trả về Index object)

All keys:  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


#### items()

In [762]:
print("All items: ", list(data.items()))  # Lấy cặp (key, value), cần chuyển sang list

All items:  [('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0), ('e', 99.0)]


### values()

In [763]:
print("All values: ", data.values)  # Lấy tất cả giá trị (trả về numpy array)

All values:  [ 0.25  0.5   0.75  1.   99.  ]


### masking

In [764]:
# Masking: Lọc các phần tử thỏa điều kiện
print("Data[(data > 0.3) & (data < 0.8)]: \n", data[(data>0.3) & (data < 0.8)])  # Trả về b và c

Data[(data > 0.3) & (data < 0.8)]: 
 b    0.50
c    0.75
dtype: float64


### fancy indexing

In [765]:
# Fancy indexing: Chọn nhiều phần tử cùng lúc bằng list
print("Data[['a', 'e']]: \n", data[['a', 'e']])  # Lấy phần tử 'a' và 'e'

Data[['a', 'e']]: 
 a     0.25
e    99.00
dtype: float64


### iloc vs. loc

In [766]:
# Cảnh báo: Với explicit integer index, có thể gây nhầm lẫn!
# Dùng loc và iloc để tránh nhầm lẫn
data = pd.Series(['a', 'b', 'c'], index=(1, 3, 5))  # Index là số nguyên 1, 3, 5
print("Data[1]: ", data[1])  # Truy cập bằng EXPLICIT index (nhãn 1) → 'a'

# Slicing mặc định dùng implicit index
print("Data[1:3]: \n", data[1:3])  # Vị trí 1 đến 2 → 'b', 'c'

# .loc: luôn dùng EXPLICIT index (nhãn)
print("Data loc [1]: ", data.loc[1])  # Nhãn 1 → 'a'
print("Data loc [1:3]: \n", data.loc[1:3])  # Nhãn 1 đến 3 (BAO GỒM 3) → 'a', 'b'

# .iloc: luôn dùng IMPLICIT index (vị trí)
print("Data iloc [1]: ", data.iloc[1])  # Vị trí 1 → 'b'
print("Data iloc [1:3]: \n", data.iloc[1:3])  # Vị trí 1 đến 2 (KHÔNG BAO GỒM 3) → 'b', 'c'

# Luôn dùng iloc cho implicit index để tránh nhầm lẫn!

Data[1]:  a
Data[1:3]: 
 3    b
5    c
dtype: object
Data loc [1]:  a
Data loc [1:3]: 
 1    a
3    b
dtype: object
Data iloc [1]:  b
Data iloc [1:3]: 
 3    b
5    c
dtype: object


## DataFrame indexing/slicing/fancy Indexing

In [767]:
some_population_dict = {'Sai Gon': 11111, 
                        'Vung Tau': 22222,
                        'Phan Thiet': 33333,
                        'Vinh Long': 44444}  # Dict dân số
some_area_dict = {'Sai Gon': 99999, 
                'Vung Tau': 88888,
                'Phan Thiet': 77777,
                'Vinh Long': 66666,
                 'Ben Tre': 33333}  # Dict diện tích
data = pd.DataFrame({'pop': some_population_dict,
                       'area': some_area_dict})  # Tạo DataFrame

print("==data==")  # Ben Tre có NaN ở pop vì không có trong dict
print(data)

==data==
                pop   area
Sai Gon     11111.0  99999
Vung Tau    22222.0  88888
Phan Thiet  33333.0  77777
Vinh Long   44444.0  66666
Ben Tre         NaN  33333


### dictionary style access

In [768]:
# Truy cập cột theo kiểu dictionary (dùng tên cột)
print("==Area==")
print(data['area'])  # Lấy toàn bộ cột 'area' → trả về Series

==Area==
Sai Gon       99999
Vung Tau      88888
Phan Thiet    77777
Vinh Long     66666
Ben Tre       33333
Name: area, dtype: int64


### attribute style access

In [769]:
# Truy cập cột theo kiểu attribute (dùng dấu chấm)
print("==Area using attributes==")
print(data.area)  # Tương đương data['area']
print("Data area is same: ", data.area is data['area'])  # True - cùng tham chiếu

==Area using attributes==
Sai Gon       99999
Vung Tau      88888
Phan Thiet    77777
Vinh Long     66666
Ben Tre       33333
Name: area, dtype: int64
Data area is same:  True


### attribute style does not always work

In [770]:
# CẢNH BÁO: Attribute style không phải lúc nào cũng hoạt động!
# Ví dụ: 'pop' là tên một method của DataFrame
print("==Do not use .pop!==")
print("Some pop method: \n", data.pop)  # Trả về method, KHÔNG phải cột 'pop'!
print("Data pop not the same: ", data.pop is data['pop'])  # False - khác nhau!

==Do not use .pop!==
Some pop method: 
 <bound method DataFrame.pop of                 pop   area
Sai Gon     11111.0  99999
Vung Tau    22222.0  88888
Phan Thiet  33333.0  77777
Vinh Long   44444.0  66666
Ben Tre         NaN  33333>
Data pop not the same:  False


### Feature engineering

In [771]:
# Feature Engineering: Tạo cột mới từ các cột có sẵn
print("==Feature engineering with density==")
data['density'] = data['pop'] / data['area']  # Tính mật độ dân số = pop/area
print(data)  # Ben Tre có NaN ở density vì pop là NaN

==Feature engineering with density==
                pop   area   density
Sai Gon     11111.0  99999  0.111111
Vung Tau    22222.0  88888  0.250000
Phan Thiet  33333.0  77777  0.428571
Vinh Long   44444.0  66666  0.666667
Ben Tre         NaN  33333       NaN


### iloc and loc

In [772]:
# Không thể dùng data[0] vì không có explicit index = 0
# Phải dùng iloc để truy cập theo vị trí
print("==First row using iloc==")
print(data.iloc[0])  # Lấy hàng đầu tiên (vị trí 0) → trả về Series

==First row using iloc==
pop        11111.000000
area       99999.000000
density        0.111111
Name: Sai Gon, dtype: float64


In [773]:
print("==First three rows, first two columns using iloc==")
print(data.iloc[:3, :2])  # 3 hàng đầu, 2 cột đầu

==First three rows, first two columns using iloc==
                pop   area
Sai Gon     11111.0  99999
Vung Tau    22222.0  88888
Phan Thiet  33333.0  77777


In [774]:
# Dùng loc để truy cập bằng explicit index (nhãn)
print("==Use loc for explicit index==")
print(data.loc[:'Sai Gon', :'pop'])  # Đến hàng 'Sai Gon', đến cột 'pop'

==Use loc for explicit index==
             pop
Sai Gon  11111.0


In [775]:
# Có thể kết hợp (chain) loc và iloc
print("==chain iloc and loc==")
print(data.loc[:'Sai Gon'].iloc[:, :2])  # loc lấy hàng, iloc lấy cột

==chain iloc and loc==
             pop   area
Sai Gon  11111.0  99999


#### masking + fancy

In [776]:
# Kết hợp masking và fancy indexing
print("==masking + fancy==")
print(data.loc[data.density > 20, ['pop', 'density']])  # Lọc density > 20, lấy 2 cột

==masking + fancy==
Empty DataFrame
Columns: [pop, density]
Index: []


### Indexing vs. slicing

In [777]:
### QUY TẮC QUAN TRỌNG CẦN NHỚ ###
# 1. INDEXING (dùng []) → truy cập CỘT
print("==Indexing refer to columns==")
print(data['pop'])  # Lấy CỘT 'pop'

# 2. SLICING (dùng :) → truy cập HÀNG
print("==Slicing refer to rows==")
print(data['Vung Tau': 'Phan Thiet'])  # Lấy HÀNG từ Vung Tau đến Phan Thiet

# 3. Slicing cũng có thể dùng số nguyên implicit
print("==Slicing can also use implicit integers==")
print(data[1:3])  # Lấy hàng vị trí 1 và 2 (không bao gồm 3)

# 4. Masking được thực hiện theo HÀNG
print("==masking are done row-wise==")
print(data[data.density > 20])  # Lọc các hàng có density > 20

==Indexing refer to columns==
Sai Gon       11111.0
Vung Tau      22222.0
Phan Thiet    33333.0
Vinh Long     44444.0
Ben Tre           NaN
Name: pop, dtype: float64
==Slicing refer to rows==
                pop   area   density
Vung Tau    22222.0  88888  0.250000
Phan Thiet  33333.0  77777  0.428571
==Slicing can also use implicit integers==
                pop   area   density
Vung Tau    22222.0  88888  0.250000
Phan Thiet  33333.0  77777  0.428571
==masking are done row-wise==
Empty DataFrame
Columns: [pop, area, density]
Index: []


## Broadcasting

In [778]:
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)  # Đặt seed để kết quả có thể tái lập
df  = pd.DataFrame(rng.randint(0, 10, (3, 4)),  # Ma trận 3x4 số nguyên ngẫu nhiên 0-9
                 columns = ['A', 'B', 'C', 'D'])  # Đặt tên 4 cột
df  # Hiển thị DataFrame

Unnamed: 0,A,B,C,D
0,6,3,7,4
1,6,9,2,6
2,7,4,3,7


### Basic broadcasting

In [779]:
# Broadcasting: áp dụng phép tính cho toàn bộ DataFrame
df_new = np.sin(df * np.pi / 4)  # Tính sin của (giá trị * pi / 4)
df_new  # Kết quả: DataFrame mới với các giá trị sin

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,-0.707107,1.224647e-16
1,-1.0,0.7071068,1.0,-1.0
2,-0.707107,1.224647e-16,0.707107,-0.7071068


### Index alignment

In [780]:
# Index Alignment: Pandas tự động căn chỉnh index khi thực hiện phép tính
area = pd.Series({'Alaska': 111, 'Texas': 222,
                 'California': 333}, name = 'area')  # Series diện tích (3 bang)
population = pd.Series({'California' : 999, 'Texas': 888,
                       'New York': 777}, name = 'population')  # Series dân số (3 bang khác)

# Khi chia, index không khớp sẽ trả về NaN
print("==population / area==")
print(population / area)  # Alaska và New York là NaN vì không có ở cả 2 Series

==population / area==
Alaska        NaN
California    3.0
New York      NaN
Texas         4.0
dtype: float64


In [781]:
# Tương tự với phép cộng
A = pd.Series([2, 4, 6], index=[0, 1, 2])  # Index: 0, 1, 2
B = pd.Series([1, 3, 5], index=[1, 2, 3])  # Index: 1, 2, 3
print("==A + B==")
print(A + B)  # Index 0 và 3 là NaN vì chỉ có ở 1 Series

==A + B==
0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64


In [782]:
# Dùng fill_value để thay thế NaN bằng giá trị mặc định
print("==A.add(B, fill_value=0)==")  # NaN được thay bằng 0 trước khi cộng
print(A.add(B, fill_value = 0))  # Không còn NaN!

==A.add(B, fill_value=0)==
0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64


### Dataframe and series

In [783]:
# Phép tính giữa DataFrame và Series
# Thường dùng để tìm sự khác biệt với một hàng/cột
A  = rng.randint(10, size = (3, 4))  # Ma trận 3x4 ngẫu nhiên
df = pd.DataFrame(A, columns=list('QRST'))  # Tạo DataFrame với cột Q,R,S,T
print("==df==")
print(df)

==df==
   Q  R  S  T
0  7  2  5  4
1  1  7  5  1
2  4  0  9  5


In [784]:
# Broadcasting theo HÀNG (mặc định)
print("==df-df.iloc[0]==")
print(df - df.iloc[0])  # Trừ hàng đầu tiên khỏi tất cả các hàng

==df-df.iloc[0]==
   Q  R  S  T
0  0  0  0  0
1 -6  5  0 -3
2 -3 -2  4  1


In [785]:
# Broadcasting theo CỘT (cần chỉ định axis=0)
print("==column-wise==")  # Không thể dùng - vì mặc định là theo hàng
print(df.subtract(df['R'], axis=0))  # Trừ cột R khỏi tất cả các cột

==column-wise==
   Q  R  S  T
0  5  0  3  2
1 -6  0 -2 -6
2  4  0  9  5


## Bài tập 1:
Tải file CSV howlongwelive.csv trong thư mục data vào một DataFrame. Có thể lấy từ kaggle

1. In ra 2 dòng đầu tiên và 2 dòng cuối cùng của DataFrame.

2. In ra kích thước (shape) của DataFrame.

3. In ra tên các đặc trưng (các cột) của DataFrame.

4. In ra bảng thống kê mô tả bằng hàm .describe().

5. Vì cột Hepatitis B có rất nhiều giá trị thiếu (NaN) và có mức tương quan cao với Diphtheria, hãy xóa cột Hepatitis B.
Đồng thời xóa cột Population do có quá nhiều giá trị NaN.

6. Chuyển đổi cột Status sang dạng số:

    0 cho Developing

    1 cho Developed

7. Đổi tên cột thinness 1-19 years thành thinness 10-19 years.

8. Lấy tất cả các cột ngoại trừ Life Expectancy, chuyển sang mảng NumPy và lưu vào biến X.

9. Lấy cột Life Expectancy, chuyển sang mảng NumPy và lưu vào biến y.

In [786]:
# 0. Import thu vien va load file CSV
import pandas as pd
import numpy as np
df = pd.read_csv('howlongwelive.csv')
df

Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
0,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,6.0,8.16,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1
1,Afghanistan,2014,Developing,59.9,271.0,64,0.01,73.523582,62.0,492,...,58.0,8.18,62.0,0.1,612.696514,327582.0,17.5,17.5,0.476,10.0
2,Afghanistan,2013,Developing,59.9,268.0,66,0.01,73.219243,64.0,430,...,62.0,8.13,64.0,0.1,631.744976,31731688.0,17.7,17.7,0.470,9.9
3,Afghanistan,2012,Developing,59.5,272.0,69,0.01,78.184215,67.0,2787,...,67.0,8.52,67.0,0.1,669.959000,3696958.0,17.9,18.0,0.463,9.8
4,Afghanistan,2011,Developing,59.2,275.0,71,0.01,7.097109,68.0,3013,...,68.0,7.87,68.0,0.1,63.537231,2978599.0,18.2,18.2,0.454,9.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2933,Zimbabwe,2004,Developing,44.3,723.0,27,4.36,0.000000,68.0,31,...,67.0,7.13,65.0,33.6,454.366654,12777511.0,9.4,9.4,0.407,9.2
2934,Zimbabwe,2003,Developing,44.5,715.0,26,4.06,0.000000,7.0,998,...,7.0,6.52,68.0,36.7,453.351155,12633897.0,9.8,9.9,0.418,9.5
2935,Zimbabwe,2002,Developing,44.8,73.0,25,4.43,0.000000,73.0,304,...,73.0,6.53,71.0,39.8,57.348340,125525.0,1.2,1.3,0.427,10.0
2936,Zimbabwe,2001,Developing,45.3,686.0,25,1.72,0.000000,76.0,529,...,76.0,6.16,75.0,42.1,548.587312,12366165.0,1.6,1.7,0.427,9.8


In [787]:
# 1. In 2 dong dau va 2 dong cuoi
print("2 dong dau:")
print(df.head(2))
print("\n2 dong cuoi:")
print(df.tail(2))

2 dong dau:
       Country  Year      Status  Life expectancy   Adult Mortality  \
0  Afghanistan  2015  Developing              65.0            263.0   
1  Afghanistan  2014  Developing              59.9            271.0   

   infant deaths  Alcohol  percentage expenditure  Hepatitis B  Measles   ...  \
0             62     0.01               71.279624         65.0      1154  ...   
1             64     0.01               73.523582         62.0       492  ...   

   Polio  Total expenditure  Diphtheria    HIV/AIDS         GDP  Population  \
0    6.0               8.16         65.0        0.1  584.259210  33736494.0   
1   58.0               8.18         62.0        0.1  612.696514    327582.0   

    thinness  1-19 years   thinness 5-9 years  \
0                   17.2                 17.3   
1                   17.5                 17.5   

   Income composition of resources  Schooling  
0                            0.479       10.1  
1                            0.476       10.0  


## Handling missing data

In [788]:
# 2. In kich thuoc (shape) cua DataFrame
df.shape

(2938, 22)

In [789]:
# 3. In ten cac cot
print(df.columns.tolist())

['Country', 'Year', 'Status', 'Life expectancy ', 'Adult Mortality', 'infant deaths', 'Alcohol', 'percentage expenditure', 'Hepatitis B', 'Measles ', ' BMI ', 'under-five deaths ', 'Polio', 'Total expenditure', 'Diphtheria ', ' HIV/AIDS', 'GDP', 'Population', ' thinness  1-19 years', ' thinness 5-9 years', 'Income composition of resources', 'Schooling']


In [790]:
# 4. In bang thong ke mo ta
df.describe()

Unnamed: 0,Year,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,BMI,under-five deaths,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
count,2938.0,2928.0,2928.0,2938.0,2744.0,2938.0,2385.0,2938.0,2904.0,2938.0,2919.0,2712.0,2919.0,2938.0,2490.0,2286.0,2904.0,2904.0,2771.0,2775.0
mean,2007.51872,69.224932,164.796448,30.303948,4.602861,738.251295,80.940461,2419.59224,38.321247,42.035739,82.550188,5.93819,82.324084,1.742103,7483.158469,12753380.0,4.839704,4.870317,0.627551,11.992793
std,4.613841,9.523867,124.292079,117.926501,4.052413,1987.914858,25.070016,11467.272489,20.044034,160.445548,23.428046,2.49832,23.716912,5.077785,14270.169342,61012100.0,4.420195,4.508882,0.210904,3.35892
min,2000.0,36.3,1.0,0.0,0.01,0.0,1.0,0.0,1.0,0.0,3.0,0.37,2.0,0.1,1.68135,34.0,0.1,0.1,0.0,0.0
25%,2004.0,63.1,74.0,0.0,0.8775,4.685343,77.0,0.0,19.3,0.0,78.0,4.26,78.0,0.1,463.935626,195793.2,1.6,1.5,0.493,10.1
50%,2008.0,72.1,144.0,3.0,3.755,64.912906,92.0,17.0,43.5,4.0,93.0,5.755,93.0,0.1,1766.947595,1386542.0,3.3,3.3,0.677,12.3
75%,2012.0,75.7,228.0,22.0,7.7025,441.534144,97.0,360.25,56.2,28.0,97.0,7.4925,97.0,0.8,5910.806335,7420359.0,7.2,7.2,0.779,14.3
max,2015.0,89.0,723.0,1800.0,17.87,19479.91161,99.0,212183.0,87.3,2500.0,99.0,17.6,99.0,50.6,119172.7418,1293859000.0,27.7,28.6,0.948,20.7


In [791]:
# 5. Xoa cot Hepatitis B va Population (nhieu NaN)
df = df.drop(columns=['Hepatitis B', 'Population'])
print("So cot con lai:", len(df.columns))
df.columns.tolist()

So cot con lai: 20


['Country',
 'Year',
 'Status',
 'Life expectancy ',
 'Adult Mortality',
 'infant deaths',
 'Alcohol',
 'percentage expenditure',
 'Measles ',
 ' BMI ',
 'under-five deaths ',
 'Polio',
 'Total expenditure',
 'Diphtheria ',
 ' HIV/AIDS',
 'GDP',
 ' thinness  1-19 years',
 ' thinness 5-9 years',
 'Income composition of resources',
 'Schooling']

In [792]:
# 6. Chuyen cot Status sang dang so (Developing=0, Developed=1)
df['Status'] = df['Status'].map({'Developing': 0, 'Developed': 1})
df['Status'].value_counts()

Status
0    2426
1     512
Name: count, dtype: int64

In [793]:
# 7. Doi ten cot 'thinness 1-19 years' thanh 'thinness 10-19 years'
df = df.rename(columns={' thinness  1-19 years': 'thinness 10-19 years'})
df.columns.tolist()

['Country',
 'Year',
 'Status',
 'Life expectancy ',
 'Adult Mortality',
 'infant deaths',
 'Alcohol',
 'percentage expenditure',
 'Measles ',
 ' BMI ',
 'under-five deaths ',
 'Polio',
 'Total expenditure',
 'Diphtheria ',
 ' HIV/AIDS',
 'GDP',
 'thinness 10-19 years',
 ' thinness 5-9 years',
 'Income composition of resources',
 'Schooling']

In [794]:
# 8. Lay tat ca cot tru Life Expectancy, chuyen sang numpy array, luu vao X
X = df.drop(columns=['Life expectancy ']).values
print("X shape:", X.shape)
X

X shape: (2938, 19)


array([['Afghanistan', 2015, 0, ..., 17.3, 0.479, 10.1],
       ['Afghanistan', 2014, 0, ..., 17.5, 0.476, 10.0],
       ['Afghanistan', 2013, 0, ..., 17.7, 0.47, 9.9],
       ...,
       ['Zimbabwe', 2002, 0, ..., 1.3, 0.427, 10.0],
       ['Zimbabwe', 2001, 0, ..., 1.7, 0.427, 9.8],
       ['Zimbabwe', 2000, 0, ..., 11.2, 0.434, 9.8]], dtype=object)

In [795]:
# 9. Lay cot Life Expectancy, chuyen sang numpy array, luu vao y
y = df['Life expectancy '].values
print("y shape:", y.shape)
y

y shape: (2938,)


array([65. , 59.9, 59.9, ..., 44.8, 45.3, 46. ])

### np.nan

In [796]:
# NaN (Not a Number) là giá trị đặc biệt biểu thị dữ liệu thiếu
print("Type of np.nan: ", type(np.nan))  # Kiểu float
print("Np nan - 1:     ", np.nan - 1)  # Mọi phép tính với NaN đều cho NaN

Type of np.nan:  <class 'float'>
Np nan - 1:      nan


In [797]:
vals2 = np.array([1, np.nan, 3, 4])  # Mảng chứa NaN
print("Sum:    ", vals2.sum())  # NaN lan truyền → kết quả là nan
print("Nansum: ", np.nansum(vals2))  # Bỏ qua NaN → 1+3+4 = 8
print("Nanmin: ", np.nanmin(vals2))  # Giá trị nhỏ nhất (bỏ qua NaN)
print("Nanmax: ", np.nanmax(vals2))  # Giá trị lớn nhất (bỏ qua NaN)

Sum:     nan
Nansum:  8.0
Nanmin:  1.0
Nanmax:  4.0


### Create a pd series with np.nan and None

In [798]:
# Tạo Series với None và np.nan
dfs = pd.Series([1, None, np.nan])  # Chứa số, None, và NaN
print("Pandas automatically convert None to nans")  # Pandas tự chuyển None thành NaN
print(dfs)  # Cả None và np.nan đều hiển thị là NaN

Pandas automatically convert None to nans
0    1.0
1    NaN
2    NaN
dtype: float64


In [799]:
# Với kiểu object (như string), None và NaN được giữ nguyên
dfs = pd.Series(["Hello", None, np.nan])  # Series chứa string
print("Pandas do not, since String is object")  # Kiểu object
print(dfs)  # None và NaN khác nhau

Pandas do not, since String is object
0    Hello
1     None
2      NaN
dtype: object


In [800]:
# Boolean cũng được chuyển thành object khi có NaN
dfs = pd.Series([True, None, np.nan])  # Series chứa Boolean
print("Pandas do not, cast Boolean to object")  # Chuyển thành kiểu object
print(dfs)

Pandas do not, cast Boolean to object
0    True
1    None
2     NaN
dtype: object


### isnull()

In [801]:
# isnull(): Kiểm tra giá trị nào là NaN
dfs = pd.Series([1, np.nan, "hello", None])  # Series hỗn hợp
print("Is null: ", dfs.isnull())  # True cho vị trí 1 và 3 (NaN và None)

Is null:  0    False
1     True
2    False
3     True
dtype: bool


### not null

In [802]:
# notnull(): Lọc các giá trị KHÔNG phải NaN
print("==Only data not null==")
print(dfs[dfs.notnull()])  # Chỉ giữ lại giá trị không phải NaN

==Only data not null==
0        1
2    hello
dtype: object


### dropna()

In [803]:
# dropna(): Xóa các giá trị NaN
print("==Drop all na==")
print(dfs.dropna())  # Xóa NaN, trả về bản sao mới (KHÔNG in-place!)
print(dfs)  # Series gốc vẫn giữ nguyên

==Drop all na==
0        1
2    hello
dtype: object
0        1
1      NaN
2    hello
3     None
dtype: object


In [804]:
# dropna với axis=1: Xóa CỘT có NaN
df = pd.DataFrame([[1, np.nan, 2],
                  [2, 3, 5],
                  [np.nan, 4, np.nan],
                  [4, np.nan, np.nan]])  # DataFrame 4x3 với nhiều NaN

print(df.dropna(axis=1))  # Xóa CỘT có NaN (axis=0 là mặc định, xóa hàng)

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]


In [805]:
# dropna how='all': Chỉ xóa nếu TẤT CẢ giá trị trong hàng/cột là NaN
df[3] = np.nan  # Thêm cột mới toàn NaN
print(df.dropna(axis=1, how="all"))  # Chỉ xóa cột 3 (toàn NaN)

     0    1    2
0  1.0  NaN  2.0
1  2.0  3.0  5.0
2  NaN  4.0  NaN
3  4.0  NaN  NaN


### fillna()

In [806]:
# fillna(): Thay thế NaN bằng giá trị khác
# Lưu ý: Khi thay bằng mean/median, phương sai sẽ giảm!

print("==Fill na with 0==")
print(df.fillna(0))  # Thay NaN bằng 0 (KHÔNG in-place!)

print("==Fill all na with mean==")
print(df.fillna(df.mean()))  # Thay NaN bằng giá trị trung bình của mỗi cột

print("replace df.mean() for col 1 with in place")
df[1].fillna(df[1].mean(), inplace=True)  # Thay IN-PLACE cho cột 1
print(df)

print("==Interpolate==")
print(df.interpolate(method='values'))  # Nội suy giá trị NaN dựa trên các giá trị xung quanh

==Fill na with 0==
     0    1    2    3
0  1.0  0.0  2.0  0.0
1  2.0  3.0  5.0  0.0
2  0.0  4.0  0.0  0.0
3  4.0  0.0  0.0  0.0
==Fill all na with mean==
          0    1    2   3
0  1.000000  3.5  2.0 NaN
1  2.000000  3.0  5.0 NaN
2  2.333333  4.0  3.5 NaN
3  4.000000  3.5  3.5 NaN
replace df.mean() for col 1 with in place
     0    1    2   3
0  1.0  3.5  2.0 NaN
1  2.0  3.0  5.0 NaN
2  NaN  4.0  NaN NaN
3  4.0  3.5  NaN NaN
==Interpolate==
     0    1    2   3
0  1.0  3.5  2.0 NaN
1  2.0  3.0  5.0 NaN
2  3.0  4.0  5.0 NaN
3  4.0  3.5  5.0 NaN


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[1].fillna(df[1].mean(), inplace=True)  # Thay IN-PLACE cho cột 1


### Dataframe concatenation

In [807]:
# Nối (Concatenate) nhiều DataFrame
data_numpy    = np.random.rand(3, 2)  # Ma trận 3x2 ngẫu nhiên
index         = ['Bangkok', 'Chiangmai', 'Samut Prakan']  # 3 thành phố
columns       = ['Population', 'Area']  # 2 cột
pd_from_numpy = pd.DataFrame(data_numpy, index=index, columns=columns)
print("==First dataframe==")
print(pd_from_numpy)

data_numpy2    = np.random.rand(4, 3)  # Ma trận 4x3
index2         = ['Bangkok', 'Chiangmai', 'Samut Prakan', 'Pathum Thani']  # 4 thành phố
columns2       = ['HDI', 'Temperature', 'GDP']  # 3 cột khác
pd_from_numpy2 = pd.DataFrame(data_numpy2, index=index2, columns=columns2)
print("==Second dataframe==")
print(pd_from_numpy2)

# concat với axis=1: nối theo CỘT (outer join mặc định)
# Pathum Thani có NaN ở Population, Area vì không có trong df1
print("==Normal concat along axis 1==")
print(pd.concat([pd_from_numpy, pd_from_numpy2], axis=1))  # Full outer join

==First dataframe==
              Population      Area
Bangkok         0.993582  0.733131
Chiangmai       0.146927  0.008550
Samut Prakan    0.994864  0.819911
==Second dataframe==
                   HDI  Temperature       GDP
Bangkok       0.850255     0.060957  0.583653
Chiangmai     0.580927     0.509399  0.487240
Samut Prakan  0.060023     0.539573  0.795352
Pathum Thani  0.120068     0.821850  0.958764
==Normal concat along axis 1==
              Population      Area       HDI  Temperature       GDP
Bangkok         0.993582  0.733131  0.850255     0.060957  0.583653
Chiangmai       0.146927  0.008550  0.580927     0.509399  0.487240
Samut Prakan    0.994864  0.819911  0.060023     0.539573  0.795352
Pathum Thani         NaN       NaN  0.120068     0.821850  0.958764


### Join inner

In [808]:
# join='inner': Chỉ giữ lại các index có ở CẢ HAI DataFrame
print("==Concat with join inner==")
print(pd.concat([pd_from_numpy, pd_from_numpy2], axis=1, join='inner'))  # Không có Pathum Thani

==Concat with join inner==
              Population      Area       HDI  Temperature       GDP
Bangkok         0.993582  0.733131  0.850255     0.060957  0.583653
Chiangmai       0.146927  0.008550  0.580927     0.509399  0.487240
Samut Prakan    0.994864  0.819911  0.060023     0.539573  0.795352


## Merging Datasets with ID

In [809]:
# Merge: Gộp 2 DataFrame dựa trên cột chung (như SQL JOIN)
left = pd.DataFrame({'ID': ['001', '002', '003', '005'],  # ID sinh viên
                      'DS': ['B', 'B', 'B', 'C+'],  # Điểm môn DS
                      'SAD': ['A', 'B', 'C+', 'F']})  # Điểm môn SAD
left  # Bảng điểm bên trái (4 sinh viên)

Unnamed: 0,ID,DS,SAD
0,1,B,A
1,2,B,B
2,3,B,C+
3,5,C+,F


In [810]:
right = pd.DataFrame({'ID': ['001', '002', '003', '004'],  # ID sinh viên (có 004, không có 005)
                      'HCI': ['B+', 'A', 'A', 'B+'],  # Điểm môn HCI
                      'SDQI': ['A', 'A', 'B+', 'B']})  # Điểm môn SDQI
right  # Bảng điểm bên phải (4 sinh viên)

Unnamed: 0,ID,HCI,SDQI
0,1,B+,A
1,2,A,A
2,3,A,B+
3,4,B+,B


In [811]:
# merge mặc định là INNER JOIN: chỉ giữ ID có ở CẢ HAI bảng
result = pd.merge(left, right, on='ID')  # how='inner' là mặc định
result  # Chỉ có 001, 002, 003 (005 và 004 bị loại)

Unnamed: 0,ID,DS,SAD,HCI,SDQI
0,1,B,A,B+,A
1,2,B,B,A,A
2,3,B,C+,A,B+


In [812]:
# OUTER JOIN: Giữ TẤT CẢ ID từ cả 2 bảng
result = pd.merge(left, right, on='ID', how="outer")  # Full outer join
result  # 005 có NaN ở HCI, SDQI; 004 có NaN ở DS, SAD

Unnamed: 0,ID,DS,SAD,HCI,SDQI
0,1,B,A,B+,A
1,2,B,B,A,A
2,3,B,C+,A,B+
3,4,,,B+,B
4,5,C+,F,,


In [813]:
# LEFT JOIN: Giữ tất cả ID từ bảng BÊN TRÁI
result = pd.merge(left, right, on='ID', how="left")  # Left join
result  # 005 được giữ (NaN ở HCI, SDQI), 004 bị loại

Unnamed: 0,ID,DS,SAD,HCI,SDQI
0,1,B,A,B+,A
1,2,B,B,A,A
2,3,B,C+,A,B+
3,5,C+,F,,


## Aggregation

In [814]:
# Aggregation: Tổng hợp dữ liệu
df = pd.DataFrame([('bird', 'Falconiformes', 389.0),  # Chim ưng
                    ('bird', 'Psittaciformes', 24.0),  # Vẹt
                    ('mammal', 'Carnivora', 80.2),  # Sư tử
                    ('mammal', 'Primates', np.nan),  # Khỉ (không có dữ liệu tốc độ)
                    ('mammal', 'Carnivora', 58)],  # Báo
                   index=['falcon', 'parrot', 'lion', 'monkey', 'leopard'],
                   columns=('class', 'order', 'max_speed'))  # 3 cột
df  # DataFrame về động vật

Unnamed: 0,class,order,max_speed
falcon,bird,Falconiformes,389.0
parrot,bird,Psittaciformes,24.0
lion,mammal,Carnivora,80.2
monkey,mammal,Primates,
leopard,mammal,Carnivora,58.0


In [815]:
# groupby: Nhóm dữ liệu theo một cột
grouped = df.groupby('class')  # Nhóm theo 'class' (bird/mammal)
grouped.sum()  # Tính tổng max_speed cho mỗi nhóm

Unnamed: 0_level_0,order,max_speed
class,Unnamed: 1_level_1,Unnamed: 2_level_1
bird,FalconiformesPsittaciformes,413.0
mammal,CarnivoraPrimatesCarnivora,138.2


In [816]:
# Nhóm theo cột 'order'
grouped = df.groupby('order')  # 4 nhóm: Carnivora, Falconiformes, Primates, Psittaciformes
grouped.sum()  # Primates = 0 vì max_speed là NaN

Unnamed: 0_level_0,class,max_speed
order,Unnamed: 1_level_1,Unnamed: 2_level_1
Carnivora,mammalmammal,138.2
Falconiformes,bird,389.0
Primates,mammal,0.0
Psittaciformes,bird,24.0


In [817]:
# Nhóm theo NHIỀU cột
grouped = df.groupby(['class', 'order'])  # Multi-index grouping
grouped.sum()  # Tạo hierarchical index

Unnamed: 0_level_0,Unnamed: 1_level_0,max_speed
class,order,Unnamed: 2_level_1
bird,Falconiformes,389.0
bird,Psittaciformes,24.0
mammal,Carnivora,138.2
mammal,Primates,0.0


In [818]:
# Tính median cho một cột cụ thể sau khi groupby
df.groupby(['class'])['max_speed'].median()  # Median tốc độ theo class

class
bird      206.5
mammal     69.1
Name: max_speed, dtype: float64

In [819]:
# Làm việc với dataset thực tế
import seaborn as sns  # Thư viện visualization có sẵn datasets
planets = sns.load_dataset('planets')  # Dataset về các hành tinh ngoài hệ mặt trời
print("Shape: ", planets.shape)  # 1035 hàng, 6 cột
print("First five rows: ")
print(planets.head())  # 5 hàng đầu tiên

print("==Built in Pandas simple aggregations==")
print(planets.mean())  # Giá trị trung bình của mỗi cột số

print("==Mean (axis=1)==")
print(planets.mean(axis=1))  # Trung bình theo hàng

print("==Describe==")
print(planets.describe())  # Thống kê mô tả: count, mean, std, min, 25%, 50%, 75%, max

Shape:  (1035, 6)
First five rows: 
            method  number  orbital_period   mass  distance  year
0  Radial Velocity       1         269.300   7.10     77.40  2006
1  Radial Velocity       1         874.774   2.21     56.95  2008
2  Radial Velocity       1         763.000   2.60     19.84  2011
3  Radial Velocity       1         326.030  19.40    110.62  2007
4  Radial Velocity       1         516.220  10.50    119.47  2009
==Built in Pandas simple aggregations==


TypeError: Could not convert ['Radial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingImagingImagingEclipse Timing VariationsImagingImagingImagingImagingEclipse Timing VariationsEclipse Timing VariationsEclipse Timing VariationsEclipse Timing VariationsEclipse Timing VariationsEclipse Timing VariationsEclipse Timing VariationsEclipse Timing VariationsRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingImagingImagingImagingImagingImagingImagingImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingImagingTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitAstrometryRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityTransitRadial VelocityRadial VelocityRadial VelocityImagingTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityAstrometryRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityImagingRadial VelocityRadial VelocityRadial VelocityImagingImagingImagingImagingTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransit Timing VariationsTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransit Timing VariationsTransitTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitTransit Timing VariationsTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitTransitOrbital Brightness ModulationOrbital Brightness ModulationTransitTransitTransitOrbital Brightness ModulationTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransit Timing VariationsTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitRadial VelocityTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitRadial VelocityTransitTransitTransitTransitTransitTransitImagingTransitMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingRadial VelocityRadial VelocityRadial VelocityRadial VelocityMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingMicrolensingTransitTransitTransitTransitTransitTransitTransitTransitImagingTransitRadial VelocityRadial VelocityPulsar TimingPulsar TimingPulsar TimingPulsar TimingPulsar TimingTransitTransitImagingImagingImagingTransitTransitTransitTransitTransitTransitImagingPulsation Timing VariationsTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitTransitImagingTransitImagingTransitTransitTransitTransitTransit'] to numeric

In [None]:
# groupby rồi sum
planets.groupby('method').sum()  # Tổng theo phương pháp phát hiện hành tinh

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,2,1262.36,0.0,35.75,4023
Eclipse Timing Variations,15,42764.8,10.25,1261.44,18090
Imaging,50,1418973.0,0.0,2166.91,76347
Microlensing,27,22075.0,0.0,41440.0,46225
Orbital Brightness Modulation,5,2.12792,0.0,2360.0,6035
Pulsar Timing,11,36715.11,0.0,1200.0,9992
Pulsation Timing Variations,1,1170.0,0.0,0.0,2007
Radial Velocity,952,455315.1,1341.65638,27348.11,1110158
Transit,776,8377.523,1.47,134242.77,798461
Transit Timing Variations,9,239.3505,0.0,3313.0,8050


In [None]:
# Lấy median của cột cụ thể
planets.groupby('method')['orbital_period'].median()  # Median chu kỳ quỹ đạo theo method

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [None]:
# Lặp qua các nhóm
# GroupBy object hỗ trợ iteration
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))  # In tên method và kích thước

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


In [None]:
# describe() cho toàn bộ DataFrame
planets.describe()  # Thống kê mô tả cơ bản

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


GroupBy objects have aggregate(), filter(), transform(), and apply() methods that efficiently implement a variety of useful operations before combining the grouped data.  For the purpose of the following subsections, we'll use this DataFrame:

In [None]:
# aggregate(): Áp dụng NHIỀU hàm tổng hợp cùng lúc
planets.groupby('method')['orbital_period'].aggregate(
    ['min', np.median, max, np.mean, np.std, 'count'])  # 6 phép tính cho mỗi method

Unnamed: 0_level_0,min,median,max,mean,std,count
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Astrometry,246.36,631.18,1016.0,631.18,544.217663,2
Eclipse Timing Variations,1916.25,4343.5,10220.0,4751.644444,2499.130945,9
Imaging,4639.15,27500.0,730000.0,118247.7375,213978.177277,12
Microlensing,1825.0,3300.0,5100.0,3153.571429,1113.166333,7
Orbital Brightness Modulation,0.240104,0.342887,1.544929,0.709307,0.725493,3
Pulsar Timing,0.090706,66.5419,36525.0,7343.021201,16313.265573,5
Pulsation Timing Variations,1170.0,1170.0,1170.0,1170.0,,1
Radial Velocity,0.73654,360.2,17337.5,823.35468,1454.92621,553
Transit,0.355,5.714932,331.60059,21.102073,46.185893,397
Transit Timing Variations,22.3395,57.011,160.0,79.7835,71.599884,3


In [None]:
# filter(): Lọc các nhóm thỏa điều kiện
# Chỉ giữ các nhóm có std của orbital_period < 3
new_planets = planets.groupby('method').filter(lambda x: x['orbital_period'].std() < 3)
new_planets.head()  # DataFrame mới chỉ chứa các hành tinh từ nhóm thỏa điều kiện

Unnamed: 0,method,number,orbital_period,mass,distance,year
787,Orbital Brightness Modulation,2,0.240104,,1180.0,2011
788,Orbital Brightness Modulation,2,0.342887,,1180.0,2011
792,Orbital Brightness Modulation,1,1.544929,,,2013


In [None]:
# Xem một bản ghi cụ thể
new_planets.loc[787]  # Bản ghi tại index 787

method            Orbital Brightness Modulation
number                                        2
orbital_period                         0.240104
mass                                        NaN
distance                                 1180.0
year                                       2011
Name: 787, dtype: object

In [None]:
# apply(): Áp dụng hàm tùy chỉnh cho mỗi nhóm
planets.groupby('method').apply(lambda x: x.describe())  # describe() cho từng method

Unnamed: 0_level_0,Unnamed: 1_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Astrometry,count,2.00,2.000000,0.0,2.000000,2.00000
Astrometry,mean,1.00,631.180000,,17.875000,2011.50000
Astrometry,std,0.00,544.217663,,4.094148,2.12132
Astrometry,min,1.00,246.360000,,14.980000,2010.00000
Astrometry,25%,1.00,438.770000,,16.427500,2010.75000
...,...,...,...,...,...,...
Transit Timing Variations,min,2.00,22.339500,,339.000000,2011.00000
Transit Timing Variations,25%,2.00,39.675250,,597.000000,2011.75000
Transit Timing Variations,50%,2.00,57.011000,,855.000000,2012.50000
Transit Timing Variations,75%,2.25,108.505500,,1487.000000,2013.25000


In [None]:
# Ví dụ nâng cao: Tạo DataFrame mới từ mỗi nhóm
grouped = planets.groupby('method')['orbital_period']

def some_func(group):
    # Trả về DataFrame với giá trị gốc và giá trị đã trừ đi mean của nhóm
    return pd.DataFrame({'original': group,
                        'demeaned': group - group.mean()})  # Demeaned = gốc - trung bình

grouped.apply(some_func)  # Áp dụng cho từng nhóm

To preserve the previous behavior, use

	>>> .groupby(..., group_keys=False)


	>>> .groupby(..., group_keys=True)
  grouped.apply(some_func)


Unnamed: 0,original,demeaned
0,269.300000,-554.054680
1,874.774000,51.419320
2,763.000000,-60.354680
3,326.030000,-497.324680
4,516.220000,-307.134680
...,...,...
1030,3.941507,-17.160566
1031,2.615864,-18.486209
1032,3.191524,-17.910549
1033,4.125083,-16.976990


## Bài Tập 2

1. Kiểm tra xem mỗi cột có bao nhiêu giá trị bị thiếu (missing data / NaN).

2. Xử lý tất cả dữ liệu bị thiếu bằng cách thay thế bằng giá trị trung bình (mean) của từng cột tương ứng.

3. Thực hiện groupby theo quốc gia (Country).

    - Quốc gia nào có tuổi thọ trung bình thấp nhất?

    - Quốc gia nào có tuổi thọ trung bình cao nhất?

4. Thực hiện groupby theo Status (Developed / Developing).

    - Có sự khác biệt rõ rệt nào về tuổi thọ trung bình giữa các quốc gia phát triển và đang phát triển hay không?

5. Tạo một DataFrame mới bằng tay gồm 2 cột:

    - Cột thứ nhất là ID, có giá trị giống với cột Country

    - Cột thứ hai là Noise_level, điền giá trị ngẫu nhiên (tùy ý)

6. Gộp (merge) hai DataFrame lại với nhau dựa trên cột ID.

In [820]:
# 0. Load du lieu (chay neu chua chay Bai tap 1)
import pandas as pd
import numpy as np
df = pd.read_csv('howlongwelive.csv')

In [821]:
# 1. Kiem tra moi cot co bao nhieu gia tri thieu (NaN)
df.isnull().sum()

Country                              0
Year                                 0
Status                               0
Life expectancy                     10
Adult Mortality                     10
infant deaths                        0
Alcohol                            194
percentage expenditure               0
Hepatitis B                        553
Measles                              0
 BMI                                34
under-five deaths                    0
Polio                               19
Total expenditure                  226
Diphtheria                          19
 HIV/AIDS                            0
GDP                                448
Population                         652
 thinness  1-19 years               34
 thinness 5-9 years                 34
Income composition of resources    167
Schooling                          163
dtype: int64

In [822]:
# 2. Thay the gia tri thieu bang mean cua tung cot
df = df.fillna(df.mean(numeric_only=True))
print("So gia tri thieu con lai:")
df.isnull().sum().sum()

So gia tri thieu con lai:


0

In [827]:
# 3. GroupBy theo Country
life_by_country = df.groupby('Country')['Life expectancy '].mean()

# Quoc gia co tuoi tho trung binh thap nhat
print("Quoc gia tuoi tho thap nhat:")
print(life_by_country.idxmin(), "-", life_by_country.min())
# Quoc gia co tuoi tho trung binh cao nhat
print("Quoc gia tuoi tho cao nhat:")
print(life_by_country.idxmax(), "-", life_by_country.max())

Quoc gia tuoi tho thap nhat:
Sierra Leone - 46.1125
Quoc gia tuoi tho cao nhat:
Japan - 82.5375


In [829]:
# 4. GroupBy theo Status (Developed / Developing)
life_by_status = df.groupby('Status')['Life expectancy '].mean()
print("Tuoi tho trung binh theo Status:")
print(life_by_status)
print("\nChenh lech:", life_by_status['Developed'] - life_by_status['Developing'])

Tuoi tho trung binh theo Status:
Status
Developed     79.197852
Developing    67.120177
Name: Life expectancy , dtype: float64

Chenh lech: 12.07767459756188


In [830]:
# 5. Tao DataFrame moi voi 2 cot: ID va Noise_level
df_new = pd.DataFrame({
    'ID': df['Country'],
    'Noise_level': np.random.randint(1, 100, len(df))
})
df_new

Unnamed: 0,ID,Noise_level
0,Afghanistan,75
1,Afghanistan,9
2,Afghanistan,51
3,Afghanistan,76
4,Afghanistan,56
...,...,...
2933,Zimbabwe,81
2934,Zimbabwe,40
2935,Zimbabwe,30
2936,Zimbabwe,9


In [831]:
# 6. Gop (merge) 2 DataFrame lai voi nhau dua tren ID va Country
df_merged = pd.merge(df, df_new, left_on='Country', right_on='ID')
df_merged

Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling,ID,Noise_level
0,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1,Afghanistan,75
1,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1,Afghanistan,9
2,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1,Afghanistan,51
3,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1,Afghanistan,76
4,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1,Afghanistan,56
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
46853,Zimbabwe,2000,Developing,46.0,665.0,24,1.68,0.000000,79.0,1483,...,78.0,43.5,547.358878,12222251.0,11.0,11.2,0.434,9.8,Zimbabwe,81
46854,Zimbabwe,2000,Developing,46.0,665.0,24,1.68,0.000000,79.0,1483,...,78.0,43.5,547.358878,12222251.0,11.0,11.2,0.434,9.8,Zimbabwe,40
46855,Zimbabwe,2000,Developing,46.0,665.0,24,1.68,0.000000,79.0,1483,...,78.0,43.5,547.358878,12222251.0,11.0,11.2,0.434,9.8,Zimbabwe,30
46856,Zimbabwe,2000,Developing,46.0,665.0,24,1.68,0.000000,79.0,1483,...,78.0,43.5,547.358878,12222251.0,11.0,11.2,0.434,9.8,Zimbabwe,9
