In [1]:
import pandas as pd

## Đọc dữ liệu Forbes's 2024 Billionaires
**Billionaires.csv** là bộ dữ liệu về top các tỷ phú thế giới năm 2024 thống kê bởi Forbes.

Trước tiên ta đọc và quan sát dữ liệu.

In [31]:
df = pd.read_csv("Billionaires.csv")
df.head()

Unnamed: 0,Rank,Name,Net Worth,Age,Country | Territory,Source,Industry
0,1,Bernard Arnault & family,$211 B,74.0,France,LVMH,Fashion & Retail
1,2,Elon Musk,$180 B,51.0,United States,"Tesla, SpaceX",Automotive
2,3,Jeff Bezos,$114 B,59.0,United States,Amazon,Technology
3,4,Larry Ellison,$107 B,78.0,United States,Oracle,Technology
4,5,Warren Buffett,$106 B,92.0,United States,Berkshire Hathaway,Finance & Investments


In [32]:
df.dtypes

Rank                     int64
Name                    object
Net Worth               object
Age                    float64
Country | Territory     object
Source                  object
Industry                object
dtype: object

Ta quan sát được cột `Net Worth` chứa tổng tài sản nhưng kiểu dữ liệu đang là `string`.

## Biến đổi dữ liệu
Sử dụng `Series.apply(<hàm>)` để biến cột `Net Worth` từ kiểu `string` sang `float`.\
Phương thức `apply` có thể nhận tham số là hàm ẩn danh (lambda function) hoặc tên hàm định nghĩa bằng từ khoá `def`.

In [33]:
def clean_networth(networth):
    return networth[1:-1]

# df["Net Worth"] = df["Net Worth"].apply(lambda x: x[1:-1])
df["Net Worth"] = df["Net Worth"].apply(clean_networth)
df["Net Worth"] = pd.to_numeric(df["Net Worth"])
df.head()

Unnamed: 0,Rank,Name,Net Worth,Age,Country | Territory,Source,Industry
0,1,Bernard Arnault & family,211.0,74.0,France,LVMH,Fashion & Retail
1,2,Elon Musk,180.0,51.0,United States,"Tesla, SpaceX",Automotive
2,3,Jeff Bezos,114.0,59.0,United States,Amazon,Technology
3,4,Larry Ellison,107.0,78.0,United States,Oracle,Technology
4,5,Warren Buffett,106.0,92.0,United States,Berkshire Hathaway,Finance & Investments


### Thực hành: Biến đổi dữ liệu
Hãy thực hiện biến đổi thích hợp với cột `Rank`.

In [34]:
### your code here
df["Rank"] = pd.to_numeric(df["Rank"])

## Nhóm và sắp xếp dữ liệu
Phân tích câu hỏi thống kê sau:
**<center>Tổng tài sản lớn nhất của các tỷ phú nằm ở những lĩnh vực nào?</center>**\
Để trả lời được câu hỏi trên, ta cần phải tỉnh tổng lượng tài sản theo từng lĩnh vực.

Pandas, cũng như các công cụ phân tích khác, hỗ trợ nhóm dữ liệu thông qua phương thức `DataFrame.groupby()`.

Ví dụ dưới đây:
* Nhóm DataFrame lại theo cột `Industry`
* Sắp xếp giảm dần theo cột `Net Worth` bằng `sort_values(by='Net Worth')`

Như vậy tổng lượng tài sản lớn nhất nằm ở 03 lĩnh vực: công nghệ, thời trang - bán lẻ, kinh tế - đầu tư.

In [35]:
df[["Industry", "Net Worth"]].groupby("Industry")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x12559d6a0>

In [36]:
df[["Industry", "Net Worth"]].groupby("Industry").sum()

Unnamed: 0_level_0,Net Worth
Industry,Unnamed: 1_level_1
Automotive,525.3
Construction & Engineering,118.5
Diversified,905.2
Energy,453.5
Fashion & Retail,1698.8
Finance & Investments,1605.1
Food & Beverage,957.2
Gambling & Casinos,120.5
Healthcare,643.2
Logistics,239.5


In [37]:
df_industry= df[["Industry", "Net Worth"]].groupby("Industry").sum()
df_industry = df_industry.sort_values(by='Net Worth', ascending=False)
df_industry

Unnamed: 0_level_0,Net Worth
Industry,Unnamed: 1_level_1
Technology,1871.0
Fashion & Retail,1698.8
Finance & Investments,1605.1
Manufacturing,1025.9
Food & Beverage,957.2
Diversified,905.2
Real Estate,657.4
Healthcare,643.2
Automotive,525.3
Energy,453.5


### Thực hành: Nhóm dữ liệu
Hãy biến đổi và nhóm dữ liệu để trả lời cho câu hỏi thống kê sau:
**<center>Tính trung bình tài sản của các tỷ phú theo châu lục.</center>**

Gợi ý: Sử dụng thư viện `pycountry_convert` với hàm chuyển đổi `get_continent()` như sau:

In [38]:
# !pip install pycountry-convert
import pycountry_convert as pc

def get_continent(country_name):
    try:
        country_code = pc.country_name_to_country_alpha2(country_name)
        continent_code = pc.country_alpha2_to_continent_code(country_code)
        continent_name = pc.convert_continent_code_to_continent_name(continent_code)
        return continent_name
    
    except:
        print(country_name)
        return "Unknown"

In [39]:
### your code here
df["Continent"] = df["Country | Territory"].apply(get_continent)
df.head()

Eswatini (Swaziland)


Unnamed: 0,Rank,Name,Net Worth,Age,Country | Territory,Source,Industry,Continent
0,1,Bernard Arnault & family,211.0,74.0,France,LVMH,Fashion & Retail,Europe
1,2,Elon Musk,180.0,51.0,United States,"Tesla, SpaceX",Automotive,North America
2,3,Jeff Bezos,114.0,59.0,United States,Amazon,Technology,North America
3,4,Larry Ellison,107.0,78.0,United States,Oracle,Technology,North America
4,5,Warren Buffett,106.0,92.0,United States,Berkshire Hathaway,Finance & Investments,North America


In [40]:
df[["Net Worth", "Continent"]].groupby("Continent").mean()

Unnamed: 0_level_0,Net Worth
Continent,Unnamed: 1_level_1
Africa,4.421053
Asia,3.547064
Europe,4.853279
North America,6.025276
Oceania,3.924
South America,3.375
Unknown,6.5


Có một giá trị Quốc Gia và Vùng Lãnh Thổ bị chuyển đổi thành `Unknown`.\
Hãy:
* Kiểm tra giá trị đó là gì?
* Sử dụng phương thức `df["Country | Territory"].replace({<old-value>:<new-value>})` để chỉnh sửa về đúng quốc gia.

In [43]:
df[df["Continent"] == "Unknown"]

Unnamed: 0,Rank,Name,Net Worth,Age,Country | Territory,Source,Industry,Continent
391,390,Nathan Kirsh,6.5,91.0,Eswatini (Swaziland),"Retail, real estate",Fashion & Retail,Unknown


In [44]:
### your code here
df["Country | Territory"] = df["Country | Territory"].replace({"Eswatini (Swaziland)":"Swaziland"})
df["Continent"] = df["Country | Territory"].apply(get_continent)
df[["Net Worth", "Continent"]].groupby("Continent").mean()

Unnamed: 0_level_0,Net Worth
Continent,Unnamed: 1_level_1
Africa,4.525
Asia,3.547064
Europe,4.853279
North America,6.025276
Oceania,3.924
South America,3.375


Tương tự với ví dụ đã thực hành, hãy nhóm tổng tài sản theo châu lục bằng phương thức `groupby` và tính trung bình bằng `mean`. Sau đó sắp xếp theo thứ tự tổng tài sản giảm dần.

In [20]:
### your code here
df_continent = df[["Net Worth", "Continent"]].groupby("Continent").mean()
df_continent.sort_values(by="Net Worth", ascending=False)

Unnamed: 0_level_0,Net Worth
Continent,Unnamed: 1_level_1
North America,6.025276
Europe,4.853279
Africa,4.525
Oceania,3.924
Asia,3.547064
South America,3.375
