## Ví dụ về Series trong pandas

In [1]:
import pandas as pd

In [2]:
fruits = pd.Series(['apple', 'orange', 'banana','pear','strawberry'])
fruits

0         apple
1        orange
2        banana
3          pear
4    strawberry
dtype: object

In [5]:
for i in fruits:
    print(i)

apple
orange
banana
pear
strawberry


In [7]:
fruits = fruits = pd.Series(['apple', 'orange', 'banana','pear','strawberry'], index=['A','B','C','D','E'])
fruits


A         apple
B        orange
C        banana
D          pear
E    strawberry
dtype: object

khởi tạo series trong pandas dùng dict thay cho list

In [8]:
fruits_dict = {
    'A':'apple',
    'B':'orange',
    'C':'banana',
    'D':'pear',
    'E':'strawberry'
}
fruits = pd.Series(fruits_dict)
fruits

A         apple
B        orange
C        banana
D          pear
E    strawberry
dtype: object

### Thực hành về Series

In [11]:
weights = pd.Series([38, 48, 42, 39, 41, 38, 40, 40, 100, 41],
                    index=["Hoa", "Nam", "Hải", "Linh", "Nhân", "Phương", "Thu", "Vũ", "Bảo","Long"])
weights

Hoa        38
Nam        48
Hải        42
Linh       39
Nhân       41
Phương     38
Thu        40
Vũ         40
Bảo       100
Long       41
dtype: int64

In [12]:
print(weights.mean())
print(weights.median())
print(weights.mode())

46.7
40.5
0    38
1    40
2    41
dtype: int64


### Thực hành với DataFrame

In [13]:
animals_dict = {
    "dong_vat": ["Sao la", "Khỉ đuôi ngắn", "Voi châu Á"],
    "tuoi_tho": [25, 25, 70],
    "loai": ["có vú", "linh trưởng", "có vú"]
}
animals = pd.DataFrame(animals_dict)

animals

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng
2,Voi châu Á,70,có vú


In [14]:
animals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   dong_vat  3 non-null      object
 1   tuoi_tho  3 non-null      int64 
 2   loai      3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [15]:
animals.head(2)

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng


In [16]:
animals.tail(2)

Unnamed: 0,dong_vat,tuoi_tho,loai
1,Khỉ đuôi ngắn,25,linh trưởng
2,Voi châu Á,70,có vú


In [17]:
animals.describe()

Unnamed: 0,tuoi_tho
count,3.0
mean,40.0
std,25.980762
min,25.0
25%,25.0
50%,25.0
75%,47.5
max,70.0


In [21]:
animals.dtypes

dong_vat    object
tuoi_tho     int64
loai        object
dtype: object

### Đọc và ghi dữ liệu

In [25]:
zoo_df = pd.read_csv("zoo.csv", index_col=0)
zoo_df

Unnamed: 0_level_0,animal,sound
row_number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,dog,woof
2,cat,meow
3,bird,tweet
4,mouse,squeek
5,cow,moo
6,cow,moo
7,frog,croak
8,bird,tweet
9,elephant,toot
10,duck,quack


In [26]:
zoo_df.head(5)

Unnamed: 0_level_0,animal,sound
row_number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,dog,woof
2,cat,meow
3,bird,tweet
4,mouse,squeek
5,cow,moo


In [27]:
zoo_df = zoo_df.rename_axis(index=None)
zoo_df

Unnamed: 0,animal,sound
1,dog,woof
2,cat,meow
3,bird,tweet
4,mouse,squeek
5,cow,moo
6,cow,moo
7,frog,croak
8,bird,tweet
9,elephant,toot
10,duck,quack


In [28]:
zoo_df.shape

(14, 2)

In [29]:
zoo_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14 entries, 1 to 14
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   animal  14 non-null     object
 1   sound   13 non-null     object
dtypes: object(2)
memory usage: 336.0+ bytes


In [30]:
zoo_df.to_csv("zoo_new.csv")

In [31]:
zoo_df.to_excel("zoo_new.xlsx")

### Truy cập dữ liệu

In [32]:
animals

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng
2,Voi châu Á,70,có vú


In [33]:
animals["dong_vat"]

0           Sao la
1    Khỉ đuôi ngắn
2       Voi châu Á
Name: dong_vat, dtype: object

In [36]:
animals[["dong_vat", "tuoi_tho"]]

Unnamed: 0,dong_vat,tuoi_tho
0,Sao la,25
1,Khỉ đuôi ngắn,25
2,Voi châu Á,70


In [37]:
animals.tuoi_tho

0    25
1    25
2    70
Name: tuoi_tho, dtype: int64

Ta có thể biến cột động vật thành chỉ số để truy cập vào các phần tử bằng lệnh `DataFrame.set_index()`.\
Tham số `inplace=True` có tác dụng cập nhật vào thẳng DataFrame.

In [38]:
animals.set_index("dong_vat", inplace=True)
# or
# animals = animals.set_index("dong_vat")
animals

Unnamed: 0_level_0,tuoi_tho,loai
dong_vat,Unnamed: 1_level_1,Unnamed: 2_level_1
Sao la,25,có vú
Khỉ đuôi ngắn,25,linh trưởng
Voi châu Á,70,có vú


Lệnh `DataFrame.reset_index()` undo thao tác set_index phía trên

In [39]:
animals.reset_index(inplace=True)
animals

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng
2,Voi châu Á,70,có vú


### Truy cập dữ liệu theo hàng

In [43]:
animals[:2]

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng


## Lọc dữ liệu

Lấy dữ liệu 2 hàng đầu tiên và cột 2 và côt 3 trong dataframe animals

In [44]:
animals.iloc[:2, 1:3]

Unnamed: 0,tuoi_tho,loai
0,25,có vú
1,25,linh trưởng


In [46]:
animals.loc[animals.tuoi_tho>50, "tuoi_tho": "loai"]

Unnamed: 0,tuoi_tho,loai
2,70,có vú


In [47]:
animals

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng
2,Voi châu Á,70,có vú


### Lọc boolean

In [48]:
animals[animals["tuoi_tho"]<30]

Unnamed: 0,dong_vat,tuoi_tho,loai
0,Sao la,25,có vú
1,Khỉ đuôi ngắn,25,linh trưởng


In [49]:
animals.set_index("dong_vat", inplace=True)
animals.loc[["Sao la", "Khỉ đuôi ngắn"], "tuoi_tho":"loai"]

Unnamed: 0_level_0,tuoi_tho,loai
dong_vat,Unnamed: 1_level_1,Unnamed: 2_level_1
Sao la,25,có vú
Khỉ đuôi ngắn,25,linh trưởng


In [50]:
df = pd.read_csv("Billionaires.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2640 entries, 0 to 2639
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Rank                 2640 non-null   int64  
 1   Name                 2640 non-null   object 
 2   Net Worth            2640 non-null   object 
 3   Age                  2576 non-null   float64
 4   Country | Territory  2640 non-null   object 
 5   Source               2640 non-null   object 
 6   Industry             2640 non-null   object 
dtypes: float64(1), int64(1), object(5)
memory usage: 144.5+ KB


In [51]:
df.head(10)

Unnamed: 0,Rank,Name,Net Worth,Age,Country | Territory,Source,Industry
0,1,Bernard Arnault & family,$211 B,74.0,France,LVMH,Fashion & Retail
1,2,Elon Musk,$180 B,51.0,United States,"Tesla, SpaceX",Automotive
2,3,Jeff Bezos,$114 B,59.0,United States,Amazon,Technology
3,4,Larry Ellison,$107 B,78.0,United States,Oracle,Technology
4,5,Warren Buffett,$106 B,92.0,United States,Berkshire Hathaway,Finance & Investments
5,6,Bill Gates,$104 B,67.0,United States,Microsoft,Technology
6,7,Michael Bloomberg,$94.5 B,81.0,United States,Bloomberg LP,Media & Entertainment
7,8,Carlos Slim Helu & family,$93 B,83.0,Mexico,Telecom,Telecom
8,9,Mukesh Ambani,$83.4 B,65.0,India,Diversified,Diversified
9,10,Steve Ballmer,$80.7 B,67.0,United States,Microsoft,Technology


In [52]:
df.dtypes

Rank                     int64
Name                    object
Net Worth               object
Age                    float64
Country | Territory     object
Source                  object
Industry                object
dtype: object

In [55]:
def clean_networth(networth):
    return networth[1:-1]
df["Net Worth"] = df["Net Worth"].apply(clean_networth)
df["Net Worth"] = pd.to_numeric(df["Net Worth"])

In [56]:
df.dtypes

Rank                     int64
Name                    object
Net Worth              float64
Age                    float64
Country | Territory     object
Source                  object
Industry                object
dtype: object