![alt tag](https://codelearn.io/Upload/Blog/xu-ly-du-lieu-voi-pandas-trong-python-63725977973.8696.jpg)

# **What is Pandas**
Thư viện **Pandas** cung cấp các cấu trúc dữ liệu hiệu suất cao, dễ sử dụng và các công cụ phân tích dữ liệu. Cấu trúc dữ liệu chính là DataFrame, có thể coi đây là một bảng 2D trong bộ nhớ (giống như một bảng tính, với tên cột và nhãn). Nhiều tính năng có sẵn trong Excel có sẵn theo chương trình, chẳng hạn như tạo bảng tổng hợp, tính toán cột dựa trên các cột khác, vẽ biểu đồ, v.v. Có thể nhóm các hàng theo giá trị cột hoặc nối các bảng giống như trong SQL. **Pandas** cũng rất giỏi trong việc xử lý chuỗi thời gian. 🐼

# **Reference**
https://nbviewer.org/github/ageron/handson-ml2/blob/master/tools_pandas.ipynb

# **Pandas: Import**

Import thư viện **pandas**. Hầu hết mọi người sử dụng nó dưới dạng **pd**

In [1]:
import pandas as pd

# **DataFrame Objects**
**DataFrame Objects** đại diện cho một bảng tính (như excel, sheet), với các giá trị ô, chỉ mục cột, chỉ mục dòng

**DataFrame** cho phép xác định các biểu thức tính toán các cột dựa trên các cột khác, tạo bảng tổng hợp, nhóm các hàng, vẽ đỗ thì, ...

Có thể xen **DataFrames** là cuốn từ điển của **Series**

### **Creating a DataFrame (Tạo 1 DataFrame)**

**CÁCH 1**

In [2]:
# Tạo DataFrame bằng cách tổng hợp các Series
football = {
            "Score": pd.Series([124, 117, 107, 103, 99], index=["Bayern Munich", "Manchester City", "Barcelona", "PSG", "Juventus"]),
            "Country": pd.Series(["Germany", "England", "Spain", "Italy"], index=["Bayern Munich", "Manchester City", "Barcelona", "Juventus"]),
            "Founding": pd.Series([1900, 1880, 1899, 1970, 1897], index=["Bayern Munich", "Manchester City", "Barcelona", "PSG", "Juventus"], name="year"),
            "UEFA_Champion_League": pd.Series([6, 5, 2, 0, 0], index=["Bayern Munich", "Barcelona", "Juventus", "Manchester City", "PSG"], dtype=int)
}
football_club = pd.DataFrame(football)
football_club

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League
Barcelona,107,Spain,1899,5
Bayern Munich,124,Germany,1900,6
Juventus,99,Italy,1897,2
Manchester City,117,England,1880,0
PSG,103,,1970,0


**Rút ra nhận xét:**
* Các giá trị được căn chỉnh tự động
* Các ô giá trị bị thiếu được thay thế bằng **NaN**

Và tất nhiên chúng ta có quyền truy xuất các giá trị, các dòng, các cột

In [3]:
football_club["Founding"]

Barcelona          1899
Bayern Munich      1900
Juventus           1897
Manchester City    1880
PSG                1970
Name: Founding, dtype: int64

In [4]:
football_club[["Founding", "Score"]]

Unnamed: 0,Founding,Score
Barcelona,1899,107
Bayern Munich,1900,124
Juventus,1897,99
Manchester City,1880,117
PSG,1970,103


**Khi chuyển sang DataFrame khác**, các **columns** và **index** phải đảm bảo đã có, nếu không sẽ xuất ra **NaN**
> Ví dụ, Cột **ranking** và index **Manchester United** không xuất hiện trong **football_club**

In [5]:
football_club2 = pd.DataFrame(football_club,
                              columns = ["Score", "Country", "Ranking"],
                              index = ["PSG", "Bayern Munich", "Manchester United"])
football_club2

Unnamed: 0,Score,Country,Ranking
PSG,103.0,,
Bayern Munich,124.0,Germany,
Manchester United,,,


**CÁCH 2**

In [6]:
# Tạo trước một ndarrays
arr = [
       ["15/09/2002", "Male", 52, "1m65"],
       ["24/5/2004", "Male", 47, "1m60"],
       ["09/02/2001", "Female", 56, "1m72"],
       ["09/12/2002", "Male", 67, "1m80"],
       ["14/01/2000", "Female", 48, "1m62"],
]
# Tạo DataFrame dựa trên ndarrays, bổ sung thêm columns và index
people = pd.DataFrame(arr,
                      columns=["Birthday", "Sex", "Weight", "Height"],
                      index=["Kiet", "Thang", "Phuc", "Toan", "Luu"])
people

Unnamed: 0,Birthday,Sex,Weight,Height
Kiet,15/09/2002,Male,52,1m65
Thang,24/5/2004,Male,47,1m60
Phuc,09/02/2001,Female,56,1m72
Toan,09/12/2002,Male,67,1m80
Luu,14/01/2000,Female,48,1m62


Có thể tạo DataFrame từ một phần DataFrame đã có

In [7]:
people2 = pd.DataFrame(people,
                       columns=["Sex", "Weight"],
                       index=["Kiet", "Phuc", "Luu"])
people2

Unnamed: 0,Sex,Weight
Kiet,Male,52
Phuc,Female,56
Luu,Female,48


**CÁCH 3**

In [8]:
# Liệt kê danh sách trong từng columns
people3 = pd.DataFrame(
    {
        "Birthday": {"Kiet":2002, "Thang": 2003, "Luu": 1997},
        "Sex": {"Kiet": "Male", "Thang": "Female", "Luu": "Female"},
        "Weight": {"Kiet":52, "Luu": 70, "Thang": 56},
        "Height": {"Kiet": "1m65", "Luu": "1m70", "Thang": "1m56"}
})
people3

Unnamed: 0,Birthday,Sex,Weight,Height
Kiet,2002,Male,52,1m65
Thang,2003,Female,56,1m56
Luu,1997,Female,70,1m70


### **Multi-indexing**
> Nếu tất cả các cột hoặc các dòng là các dữ liệu có cùng kích thước thì chúng được hiểu là một chỉ mục đa

In [9]:
people4 = pd.DataFrame(
    {
        ("Public", "Birthday"): {("Khu vuc mien Trung", "Kiet"):2002, ("Khu vuc mien Trung", "Luu"): 1997, ("Khu vuc mien Nam", "Thang"): 2003},
        ("Public", "Sex"): {("Khu vuc mien Trung", "Kiet"): "Male", ("Khu vuc mien Trung", "Luu"): "Female", ("Khu vuc mien Nam", "Thang"): "Female"},
        ("Private", "Weight"): {("Khu vuc mien Trung", "Kiet"):52, ("Khu vuc mien Trung", "Luu"): 70, ("Khu vuc mien Nam", "Thang"): 56},
        ("Private", "Height"): {("Khu vuc mien Trung", "Kiet"): "1m65", ("Khu vuc mien Trung", "Luu"): "1m70", ("Khu vuc mien Nam", "Thang"): "1m56"}
})
people5 = pd.DataFrame.copy(people4)
people4

Unnamed: 0_level_0,Unnamed: 1_level_0,Public,Public,Private,Private
Unnamed: 0_level_1,Unnamed: 1_level_1,Birthday,Sex,Weight,Height
Khu vuc mien Trung,Kiet,2002,Male,52,1m65
Khu vuc mien Trung,Luu,1997,Female,70,1m70
Khu vuc mien Nam,Thang,2003,Female,56,1m56


Truy xuất các giá trị, dòng, cột tương tự như 1 **DataFrame** bình thường

In [10]:
people4["Public"]

Unnamed: 0,Unnamed: 1,Birthday,Sex
Khu vuc mien Trung,Kiet,2002,Male
Khu vuc mien Trung,Luu,1997,Female
Khu vuc mien Nam,Thang,2003,Female


In [11]:
people4["Private", "Height"]

Khu vuc mien Trung  Kiet     1m65
                    Luu      1m70
Khu vuc mien Nam    Thang    1m56
Name: (Private, Height), dtype: object

### **Dropping a level**
> Giảm cấp độ cho cột hoặc dòng

In [12]:
people4

Unnamed: 0_level_0,Unnamed: 1_level_0,Public,Public,Private,Private
Unnamed: 0_level_1,Unnamed: 1_level_1,Birthday,Sex,Weight,Height
Khu vuc mien Trung,Kiet,2002,Male,52,1m65
Khu vuc mien Trung,Luu,1997,Female,70,1m70
Khu vuc mien Nam,Thang,2003,Female,56,1m56


**DataFrame people4** có 2 cấp độ cho mỗi dòng và cột tương ứng, được biểu diễn bằng **level = 0** và **level = 1**

In [13]:
people4.columns = people4.columns.droplevel(level = 0)
people4

Unnamed: 0,Unnamed: 1,Birthday,Sex,Weight,Height
Khu vuc mien Trung,Kiet,2002,Male,52,1m65
Khu vuc mien Trung,Luu,1997,Female,70,1m70
Khu vuc mien Nam,Thang,2003,Female,56,1m56


In [14]:
people4.index = people4.index.droplevel(level = 0)
people4

Unnamed: 0,Birthday,Sex,Weight,Height
Kiet,2002,Male,52,1m65
Luu,1997,Female,70,1m70
Thang,2003,Female,56,1m56


### **Transposing (Hoán đổi)**
> Hoán đổi các **columns** và **index** với nhau (điều này có thể phục vụ cho vấn đề thẩm mỹ)

In [15]:
people_trans = people5.T
people_trans

Unnamed: 0_level_0,Unnamed: 1_level_0,Khu vuc mien Trung,Khu vuc mien Trung,Khu vuc mien Nam
Unnamed: 0_level_1,Unnamed: 1_level_1,Kiet,Luu,Thang
Public,Birthday,2002,1997,2003
Public,Sex,Male,Female,Female
Private,Weight,52,70,56
Private,Height,1m65,1m70,1m56


### **Accessing rows (Truy cập đến các dòng)**

In [16]:
football_club

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League
Barcelona,107,Spain,1899,5
Bayern Munich,124,Germany,1900,6
Juventus,99,Italy,1897,2
Manchester City,117,England,1880,0
PSG,103,,1970,0


Thuộc tính **$loc$** cho phép truy cập hàng bằng **index** của hàng đó

In [17]:
football_club.loc["PSG"]

Score                    103
Country                  NaN
Founding                1970
UEFA_Champion_League       0
Name: PSG, dtype: object

Thuộc tính **$iloc$** cho phép truy cập hàng bằng **chỉ số** của hàng đó

In [18]:
football_club.iloc[1] # people.loc["Bayern Munich"]

Score                       124
Country                 Germany
Founding                   1900
UEFA_Champion_League          6
Name: Bayern Munich, dtype: object

Thuộc tính **$iloc$** cho phép truy cập các hàng trong một đoạn cụ thể

In [19]:
football_club.iloc[0:3]

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League
Barcelona,107,Spain,1899,5
Bayern Munich,124,Germany,1900,6
Juventus,99,Italy,1897,2


Truy cập bằng **boolean** thông qua **np.array**

In [20]:
import numpy as np

In [21]:
football_club[np.array([True, False, True, True, False])]

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League
Barcelona,107,Spain,1899,5
Juventus,99,Italy,1897,2
Manchester City,117,England,1880,0


Truy cập bằng điều kiện

In [22]:
football_club[football_club["UEFA_Champion_League"] > 1]

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League
Barcelona,107,Spain,1899,5
Bayern Munich,124,Germany,1900,6
Juventus,99,Italy,1897,2


### **Adding and removing columns (Thao tác thêm/xóa cột)**

In [23]:
football_club

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League
Barcelona,107,Spain,1899,5
Bayern Munich,124,Germany,1900,6
Juventus,99,Italy,1897,2
Manchester City,117,England,1880,0
PSG,103,,1970,0


Thêm cột đơn giản bằng việc thêm **Series**

In [24]:
football_club["Value(M)"] = pd.Series(["512", "411", "391", "300", "268"], index=["PSG", "Manchester City", "Manchester United", "Bayern Munich", "Barcelona"])

In [25]:
football_club

Unnamed: 0,Score,Country,Founding,UEFA_Champion_League,Value(M)
Barcelona,107,Spain,1899,5,268.0
Bayern Munich,124,Germany,1900,6,300.0
Juventus,99,Italy,1897,2,
Manchester City,117,England,1880,0,411.0
PSG,103,,1970,0,512.0


Thêm cột bằng phương thức **insert()**

In [26]:
football_club.insert(2, "Championship", [26, 31, 36, 7, 9]) # (Thứ tự cột, tên cột, dữ liệu)

In [27]:
football_club

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M)
Barcelona,107,Spain,26,1899,5,268.0
Bayern Munich,124,Germany,31,1900,6,300.0
Juventus,99,Italy,36,1897,2,
Manchester City,117,England,7,1880,0,411.0
PSG,103,,9,1970,0,512.0


Thêm cột bằng quan hệ với các cột khác

In [28]:
football_club["Age"] = 2021 - football_club["Founding"]
football_club["Top_5_in_Europe"] = football_club["Score"] > 110

In [29]:
football_club

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M),Age,Top_5_in_Europe
Barcelona,107,Spain,26,1899,5,268.0,122,False
Bayern Munich,124,Germany,31,1900,6,300.0,121,True
Juventus,99,Italy,36,1897,2,,124,False
Manchester City,117,England,7,1880,0,411.0,141,True
PSG,103,,9,1970,0,512.0,51,False


Xóa cột bằng **del**

In [30]:
del football_club["Age"]

Xóa cột bằng phương thức **pop()**

In [31]:
rm = football_club.pop("Top_5_in_Europe") # Dữ liệu cột được lưu vào biến 'rm'

In [32]:
football_club

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M)
Barcelona,107,Spain,26,1899,5,268.0
Bayern Munich,124,Germany,31,1900,6,300.0
Juventus,99,Italy,36,1897,2,
Manchester City,117,England,7,1880,0,411.0
PSG,103,,9,1970,0,512.0


### **Evaluating an expression**
> Đánh giá một biểu thức bằng việc thêm cột vào cuối để dễ dàng đánh giá
> 
> **inplace** mặc định là False, tức là tạo bảng sao của DataFrame ban đầu và thao tác trên đó sẽ không ảnh hưởng đến DataFrame gốc, ngược lại **inplace** = True sẽ thao tác trực tiếp trực tiếp trên DataFrame gốc

In [33]:
football_club.eval("Average_Championship_Time = (2021 - Founding)/Championship")    

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M),Average_Championship_Time
Barcelona,107,Spain,26,1899,5,268.0,4.692308
Bayern Munich,124,Germany,31,1900,6,300.0,3.903226
Juventus,99,Italy,36,1897,2,,3.444444
Manchester City,117,England,7,1880,0,411.0,20.142857
PSG,103,,9,1970,0,512.0,5.666667


Sử dụng **@** để truy cập biến toàn cục do mình tạo ra

In [34]:
avg_time_threshold = 5
football_club.eval("Average_Championship_Time_Check = (2021 - Founding)/Championship > @avg_time_threshold", inplace=True)
football_club

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M),Average_Championship_Time_Check
Barcelona,107,Spain,26,1899,5,268.0,False
Bayern Munich,124,Germany,31,1900,6,300.0,False
Juventus,99,Italy,36,1897,2,,False
Manchester City,117,England,7,1880,0,411.0,True
PSG,103,,9,1970,0,512.0,True


### **Querying a DataFrame (Truy vấn DataFrame)**
> Truy vấn một DataFrame theo các điều kiện đặt ra, kết quả trả về là các dòng thỏa điều kiện đó

In [35]:
spain = "Spain"
football_club.query("Country == @spain")

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M),Average_Championship_Time_Check
Barcelona,107,Spain,26,1899,5,268,False


In [36]:
football_club.query("Score >= 105 and UEFA_Champion_League >= 1")

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M),Average_Championship_Time_Check
Barcelona,107,Spain,26,1899,5,268,False
Bayern Munich,124,Germany,31,1900,6,300,False


### **Sorting a DataFrame (Sắp xếp DataFrame)** 

**sort_index** sắp xếp các chỉ mục dòng

In [37]:
football_club.sort_index(ascending=False) #ascending=False là đảo ngược thứ tự của chỉ mục dòng

Unnamed: 0,Score,Country,Championship,Founding,UEFA_Champion_League,Value(M),Average_Championship_Time_Check
PSG,103,,9,1970,0,512.0,True
Manchester City,117,England,7,1880,0,411.0,True
Juventus,99,Italy,36,1897,2,,False
Bayern Munich,124,Germany,31,1900,6,300.0,False
Barcelona,107,Spain,26,1899,5,268.0,False


Sắp xếp các chỉ mục cột cũng gọi **sort_index** và thêm **axis=1**

In [38]:
football_club.sort_index(axis=1, inplace=True)
football_club

Unnamed: 0,Average_Championship_Time_Check,Championship,Country,Founding,Score,UEFA_Champion_League,Value(M)
Barcelona,False,26,Spain,1899,107,5,268.0
Bayern Munich,False,31,Germany,1900,124,6,300.0
Juventus,False,36,Italy,1897,99,2,
Manchester City,True,7,England,1880,117,0,411.0
PSG,True,9,,1970,103,0,512.0


**sort_values** được sử dụng để sắp xếp các giá trị theo cột chỉ định

In [39]:
football_club.sort_values(by="Score", ascending=False)  #ascending=False để sắp xếp giảm dần

Unnamed: 0,Average_Championship_Time_Check,Championship,Country,Founding,Score,UEFA_Champion_League,Value(M)
Bayern Munich,False,31,Germany,1900,124,6,300.0
Manchester City,True,7,England,1880,117,0,411.0
Barcelona,False,26,Spain,1899,107,5,268.0
PSG,True,9,,1970,103,0,512.0
Juventus,False,36,Italy,1897,99,2,


### **Operations on DataFrames**
> **DataFrame** có một vài điểm tương đồng với **Numpy arrays**

In [40]:
college_scores = np.array([[10, 7, 8], [4, 6, 3], [1, 3, 2], [7, 8, 6]])
scores = pd.DataFrame(college_scores, columns=["Math", "Literature", "English"], index=["Kiet", "Luu", "Thang", "Phuc"])
scores

Unnamed: 0,Math,Literature,English
Kiet,10,7,8
Luu,4,6,3
Thang,1,3,2
Phuc,7,8,6


Áp dụng các hàm toán học **NumPy** trên **DataFrame**, hàm được áp dụng cho tất cả các giá trị

In [41]:
np.sqrt(scores)

Unnamed: 0,Math,Literature,English
Kiet,3.162278,2.645751,2.828427
Luu,2.0,2.44949,1.732051
Thang,1.0,1.732051,1.414214
Phuc,2.645751,2.828427,2.44949


In [42]:
np.log(scores)

Unnamed: 0,Math,Literature,English
Kiet,2.302585,1.94591,2.079442
Luu,1.386294,1.791759,1.098612
Thang,0.0,1.098612,0.693147
Phuc,1.94591,2.079442,1.791759


Các phép toán số học sử dụng quy tắc **Broadcasting** trên **DataFrame**

In [43]:
scores + 7

Unnamed: 0,Math,Literature,English
Kiet,17,14,15
Luu,11,13,10
Thang,8,10,9
Phuc,14,15,13


Các phép toán điều kiện trên **DataFrame**

In [44]:
scores >= 8

Unnamed: 0,Math,Literature,English
Kiet,True,False,True
Luu,False,False,False
Thang,False,False,False
Phuc,False,True,False


Các phép toán tổng hợp, chẳng hạn như tính toán giá trị lớn nhất, tổng hoặc giá trị trung bình của **DataFrame**, ..., áp dụng cho từng cột

In [45]:
scores.sum()

Math          22
Literature    24
English       19
dtype: int64

In [46]:
scores.mean()

Math          5.50
Literature    6.00
English       4.75
dtype: float64

Phương thức **all()** cũng là một phép toán tổng hợp: nó kiểm tra xem tất cả các giá trị trên một cột (dòng) có đúng hay không

In [47]:
(scores > 5).all() # Kiểm tra xem tất cả giá trị trong cột có lớn hơn 5 hay không

Math          False
Literature    False
English       False
dtype: bool

In [48]:
(scores > 5).all(axis=1) # Kiểm tra điều kiện từng dòng

Kiet      True
Luu      False
Thang    False
Phuc      True
dtype: bool

Phương thức **any()** cũng là một phép toán tổng hợp: nó kiểm tra xem có tồn tại giá trị trên một cột (dòng) hay không

In [49]:
(scores >= 6).any(axis=1) # Kiểm tra điều kiện từng dòng

Kiet      True
Luu       True
Thang    False
Phuc      True
dtype: bool

### **Automatic alignment (Căn chỉnh tự động)**
> Hoạt động như của **Series**

In [50]:
bonus_college_scores = np.array([[0, np.nan, 5], [10, 8, 8], [6, 7, 2], [4, 4, 10], [10, 10, np.nan]])
bonus_scores = pd.DataFrame(bonus_college_scores, columns=["Math", "English", "Physics"], index=["Luu", "Toan", "Thang", "Phuc", "Kiet"])
bonus_scores

Unnamed: 0,Math,English,Physics
Luu,0.0,,5.0
Toan,10.0,8.0,8.0
Thang,6.0,7.0,2.0
Phuc,4.0,4.0,10.0
Kiet,10.0,10.0,


Khi căn chỉnh **DataFrames**, một số cột và hàng chỉ hiển thị ở một bên và do đó chúng bị coi là bị thiếu ở phía bên kia (NaN). Sau đó, thêm NaN vào một số sẽ tạo ra NaN.

In [51]:
scores + bonus_scores

Unnamed: 0,English,Literature,Math,Physics
Kiet,18.0,,20.0,
Luu,,,4.0,
Phuc,10.0,,11.0,
Thang,9.0,,7.0,
Toan,,,,


### **Pivot tables**
> **Pandas** hỗ trợ bảng tổng hợp giống như bảng tính cho phép tóm tắt dữ liệu nhanh chóng

In [52]:
pivot_scores = scores.stack().reset_index()
pivot_scores.columns = ["Name", "Subject", "Score"]
pivot_scores

Unnamed: 0,Name,Subject,Score
0,Kiet,Math,10
1,Kiet,Literature,7
2,Kiet,English,8
3,Luu,Math,4
4,Luu,Literature,6
5,Luu,English,3
6,Thang,Math,1
7,Thang,Literature,3
8,Thang,English,2
9,Phuc,Math,7


Theo mặc định hàm **pivot_table()** tính giá trị trung bình của mỗi cột (cột phải có kiểu dữ liệu số)

In [53]:
pd.pivot_table(pivot_scores, index="Name")

Unnamed: 0_level_0,Score
Name,Unnamed: 1_level_1
Kiet,8.333333
Luu,4.333333
Phuc,7.0
Thang,2.0


Đặt thuộc tính **aggfunc** để thay đổi hàm tổng hợp

In [54]:
pd.pivot_table(pivot_scores, index="Name", values="Score", aggfunc=np.min)

Unnamed: 0_level_0,Score
Name,Unnamed: 1_level_1
Kiet,7
Luu,3
Phuc,6
Thang,1


**margins=True** để tính tổng số của dòng (cột)

In [55]:
pd.pivot_table(pivot_scores, index= ["Name", "Subject"], values="Score", margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,Score
Name,Subject,Unnamed: 2_level_1
Kiet,English,8.0
Kiet,Literature,7.0
Kiet,Math,10.0
Luu,English,3.0
Luu,Literature,6.0
Luu,Math,4.0
Phuc,English,6.0
Phuc,Literature,8.0
Phuc,Math,7.0
Thang,English,2.0


### **Overview functions**

Load bộ dữ liệu

In [56]:
load_data = pd.read_csv('/content/drive/MyDrive/BostonTrain.csv')
load_data

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,8.71675,0.0,18.10,0,0.693,6.471,98.8,1.7257,24,666,20.2,391.98,17.12,13.1
396,5.87205,0.0,18.10,0,0.693,6.405,96.0,1.6768,24,666,20.2,396.90,19.37,12.5
397,7.67202,0.0,18.10,0,0.693,5.747,98.9,1.6334,24,666,20.2,393.10,19.92,8.5
398,38.35180,0.0,18.10,0,0.693,5.453,100.0,1.4896,24,666,20.2,396.90,30.59,5.0


Phương thức **head()** trả về 5 hàng trên cùng. Bạn có thể chỉ ra số hàng muốn xem

In [57]:
load_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


Phương thức **tail()** để xem 5 hàng dưới cùng. Bạn có thể chỉ ra số hàng muốn xem

In [58]:
load_data.tail(10)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
390,6.96215,0.0,18.1,0,0.7,5.713,97.0,1.9265,24,666,20.2,394.43,17.11,15.1
391,5.29305,0.0,18.1,0,0.7,6.051,82.5,2.1678,24,666,20.2,378.38,18.76,23.2
392,11.5779,0.0,18.1,0,0.7,5.036,97.0,1.77,24,666,20.2,396.9,25.68,9.7
393,8.64476,0.0,18.1,0,0.693,6.193,92.6,1.7912,24,666,20.2,396.9,15.17,13.8
394,13.3598,0.0,18.1,0,0.693,5.887,94.7,1.7821,24,666,20.2,396.9,16.35,12.7
395,8.71675,0.0,18.1,0,0.693,6.471,98.8,1.7257,24,666,20.2,391.98,17.12,13.1
396,5.87205,0.0,18.1,0,0.693,6.405,96.0,1.6768,24,666,20.2,396.9,19.37,12.5
397,7.67202,0.0,18.1,0,0.693,5.747,98.9,1.6334,24,666,20.2,393.1,19.92,8.5
398,38.3518,0.0,18.1,0,0.693,5.453,100.0,1.4896,24,666,20.2,396.9,30.59,5.0
399,9.91655,0.0,18.1,0,0.693,5.852,77.8,1.5004,24,666,20.2,338.16,29.97,6.3


Phương thức **info()** in ra bản tóm tắt nội dung từng cột

In [59]:
load_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     400 non-null    float64
 1   ZN       400 non-null    float64
 2   INDUS    400 non-null    float64
 3   CHAS     400 non-null    int64  
 4   NOX      400 non-null    float64
 5   RM       400 non-null    float64
 6   AGE      400 non-null    float64
 7   DIS      400 non-null    float64
 8   RAD      400 non-null    int64  
 9   TAX      400 non-null    int64  
 10  PTRATIO  400 non-null    float64
 11  B        400 non-null    float64
 12  LSTAT    400 non-null    float64
 13  MEDV     400 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 43.9 KB


Phương thức **describe()** cung cấp một cái nhìn tổng quan về các giá trị tổng hợp trên mỗi cột

In [60]:
load_data.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
count,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0,400.0
mean,1.750859,14.375,9.41635,0.0875,0.530119,6.336233,64.08175,4.199694,6.6175,349.78,18.0045,379.85445,11.250575,24.3345
std,5.987782,25.397726,6.511713,0.28292,0.11392,0.733711,28.990673,2.177279,6.303215,128.403447,2.220565,40.692472,6.770453,9.166082
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,70.8,1.73,5.0
25%,0.066098,0.0,4.125,0.0,0.442,5.8905,37.675,2.34135,4.0,276.0,16.6,381.1875,6.285,18.9
50%,0.160735,0.0,7.015,0.0,0.5055,6.2275,68.75,3.87605,5.0,307.0,18.4,392.525,9.605,22.5
75%,0.731915,21.0,13.92,0.0,0.581,6.68625,91.9,5.65865,6.0,403.0,20.2,396.54,14.4775,28.25
max,88.9762,100.0,25.65,1.0,0.871,8.78,100.0,12.1265,24.0,666.0,22.0,396.9,37.97,50.0
