## 3. DataFrame    
**1. Giới thiệu về DataFrame**  
Trong Python, DataFrame là một cấu trúc dữ liệu hai chiều giống như bảng tính Excel hoặc bảng SQL. Nó là một phần của thư viện pandas, được sử dụng để thao tác và phân tích dữ liệu một cách hiệu quả.

DataFrame có thể chứa nhiều loại dữ liệu khác nhau như số nguyên, số thực, chuỗi, giá trị NaN (giá trị trống), và có thể được tạo từ nhiều nguồn dữ liệu như danh sách, từ điển, tệp CSV, cơ sở dữ liệu SQL, v.v.

In [1]:
!pip install openpyxl



**2. Cách tạo DataFrame**  

In [1]:
import pandas as pd
import numpy as np
import os
import warnings
warnings.filterwarnings('ignore')

**2.1. Tạo từ danh sách (list) lồng nhau**

In [2]:
data = [[1, 'Alice', 25], [2, 'Bob', 30], [3, 'Charlie', 35]]
print(data)
# df = pd.DataFrame(data)
df = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
print(df)


[[1, 'Alice', 25], [2, 'Bob', 30], [3, 'Charlie', 35]]
   ID     Name  Age
0   1    Alice   25
1   2      Bob   30
2   3  Charlie   35


**2.2. Tạo từ từ điển dictionary**

In [4]:
data = {'ID': [1, 2, 3],
        'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)

   ID     Name  Age
0   1    Alice   25
1   2      Bob   30
2   3  Charlie   35


In [3]:
# Thư mục làm việc hiện hành 
os.getcwd()

'G:\\My Drive\\LearnSoftWare\\Hoc_Data_Science\\Python_for_data_analytics\\Giao_trinh\\Demo_082024\\Bai_6'

In [6]:
# Xem các thư mục con trong đó 
os.listdir()

['Series_Demo.py',
 'DataFrame_Demo.py',
 'Series_Demo.ipynb',
 'data',
 '.ipynb_checkpoints',
 'DataFrame_Demo.ipynb',
 'Bai_6_Series.ipynb',
 'Bai_6_DataFrame.ipynb',
 'Untitled.ipynb',
 'data.rar',
 'desktop.ini']

In [7]:
# Nội dung thu mục data
os.listdir('data/')

['customers.csv',
 'stock20230223.txt',
 'bank.csv',
 'customer.xlsx',
 'Canada.xlsx',
 'example.csv',
 'example.txt',
 'example_no_header.csv',
 'example_semi.csv',
 'desktop.ini']

**Hàm read_csv() trong pandas**  
Hàm read_csv() trong thư viện pandas được sử dụng để đọc dữ liệu từ tệp CSV (Comma-Separated Values) và chuyển đổi nó thành một DataFrame để xử lý dễ dàng trong Python.  

**Cú pháp của read_csv()**  
    
import pandas as pd  

df = pd.read_csv(filepath, sep=',', delimiter=None, header='infer', names=None, index_col=None,  
                 usecols=None, dtype=None, skiprows=0, nrows=None, na_values=None, encoding=None, ...)  
        
| Tham số          | Mô tả |
|------------------|-------|
| **`filepath`**  | Đường dẫn đến tệp CSV cần đọc. Có thể là URL. |
| **`sep`**       | Ký tự phân tách giữa các cột (mặc định là dấu phẩy `,`). |
| **`delimiter`** | Tương tự `sep`, có thể dùng thay thế. |
| **`header`**    | Dòng được dùng làm tiêu đề cột (`None` nếu không có tiêu đề). |
| **`names`**     | Danh sách tên cột, sử dụng khi `header=None`. |
| **`index_col`** | Cột dùng làm chỉ mục (`None` nếu không có cột chỉ mục). |
| **`usecols`**   | Chỉ đọc một số cột nhất định. |
| **`dtype`**     | Xác định kiểu dữ liệu cho từng cột. |
| **`skiprows`**  | Bỏ qua một số dòng đầu tiên. |
| **`nrows`**     | Chỉ đọc một số dòng đầu tiên. |
| **`na_values`** | Xác định các giá trị được coi là NaN. |
| **`encoding`**  | Định dạng mã hóa (`utf-8`, `latin1`, `ISO-8859-1`, v.v.). |
    

In [8]:
# Giả sử có tệp example.csv:
# Được tạo từ :
# data = {'ID':[1,2,3],
#        'Name':['Alice','Bob','Charlie'],
#         'Age':[25,30,35], 
#         'Salary':[5000,7000,9000]
#        }
# df = pd.DataFrame(data)
# df

In [9]:
 # 1. Đọc một tệp CSV cơ bản
df = pd.read_csv('data/example.csv')
print(df)


   Unnamed: 0  ID     Name  Age  Salary
0           0   1    Alice   25    5000
1           1   2      Bob   30    7000
2           2   3  Charlie   35    9000


In [10]:
# 2. Định nghĩa cột làm chỉ mục
df = pd.read_csv('data/example.csv', index_col='ID')
print(df)


    Unnamed: 0     Name  Age  Salary
ID                                  
1            0    Alice   25    5000
2            1      Bob   30    7000
3            2  Charlie   35    9000


In [11]:
# Tập tin example_no_header.csv không có tiêu đề 
df = pd.read_csv('data/example_no_header.csv')
print(df)

   1    Alice  25  5000
0  2      Bob  30  7000
1  3  Charlie  35  9000


In [12]:
# 3. Đọc CSV không có tiêu đề , Vì tệp không có dòng tiêu đề, cần đặt header=None và chỉ định tên cột: 
df = pd.read_csv('data/example_no_header.csv', header=None, names=['ID', 'Name', 'Age', 'Salary'])
print(df)


   ID     Name  Age  Salary
0   1    Alice   25    5000
1   2      Bob   30    7000
2   3  Charlie   35    9000


In [13]:
# 4. Đọc CSV với ký tự phân tách khác 
df = pd.read_csv('data/example_semi.csv',sep=';')
print(df)


   ID     Name  Age  Salary
0   1    Alice   25    5000
1   2      Bob   30    7000
2   3  Charlie   35    9000


In [14]:
# 5. Đọc một số cột cụ thể 
df = pd.read_csv('data/example.csv', usecols=['Name', 'Salary'])
print(df)


      Name  Salary
0    Alice    5000
1      Bob    7000
2  Charlie    9000


In [15]:
# 6. Chỉ Đọc một số dòng đầu tiên 
df = pd.read_csv('data/example.csv', nrows=2)
print(df)


   Unnamed: 0  ID   Name  Age  Salary
0           0   1  Alice   25    5000
1           1   2    Bob   30    7000


In [16]:
# 7. Bỏ qua một số dòng đầu tiên
df = pd.read_csv('data/example.csv', skiprows=3)
print(df)


Empty DataFrame
Columns: [2, 3, Charlie, 35, 9000]
Index: []


In [17]:
 # 8. Đọc CSV với mã hóa khác (encoding) , Nếu tệp CSV có tiếng Việt hoặc ký tự đặc biệt, có thể cần mã hóa UTF-8 hoặc ISO-8859-1:
df = pd.read_csv('data/example.csv', encoding='utf-8')
print(df)


   Unnamed: 0  ID     Name  Age  Salary
0           0   1    Alice   25    5000
1           1   2      Bob   30    7000
2           2   3  Charlie   35    9000


**2.3. Tạo dataframe từ tệp CSV**

In [18]:
# Đọc từ tập tin .csv
customer = pd.read_csv("data/customers.csv")

In [19]:
customer

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
...,...,...,...,...,...,...,...,...,...,...,...
95,95,D,2024-11-04,10450,139,5120,5330,0.15,9,4709,3
96,96,D,2024-11-05,6663,244,2016,4647,0.07,5,2081,0
97,97,E,2024-11-06,14721,196,3243,11478,0.05,7,2683,16
98,98,A,2024-11-07,15230,197,4205,11025,0.13,8,3523,7


In [20]:
# display(customer.head())
customer.head()

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12


In [21]:
customer.iloc[0,6]

3328

Mô tả bộ dữ liệu:
* Branch_ID: Mã định danh của chi nhánh cửa hàng, giúp phân biệt dữ liệu giữa các chi nhánh khác nhau.  
* Date: Ngày tháng ghi nhận dữ liệu, cho phép theo dõi hiệu suất theo thời gian.  
* Revenue: Doanh thu hàng ngày, biểu thị số tiền thu được từ bán hàng.  
* Customers: Số lượng khách hàng ghé thăm cửa hàng trong ngày, có thể sử dụng để tính các chỉ số liên quan đến lượng khách hàng.  
* Operating_Costs: Chi phí vận hành hàng ngày, bao gồm tiền thuê mặt bằng, lương nhân viên, điện nước,...  
* Profit: Lợi nhuận hàng ngày, tính bằng cách lấy doanh thu trừ chi phí vận hành.  
* Conversion_Rate: Tỷ lệ chuyển đổi khách hàng, biểu thị phần trăm khách hàng tiềm năng trở thành khách hàng thực sự.  
* Customer_Satisfaction: Mức độ hài lòng của khách hàng, thu thập qua khảo sát hoặc đánh giá (thang điểm 1-10).  
* Ad_Spend: Chi phí dành cho quảng cáo hàng ngày, liên quan đến chiến dịch marketing.  
* Product_Returns: Số lượng sản phẩm bị trả lại trong ngày, ảnh hưởng đến chất lượng dịch vụ và sản phẩm.  

**2.4. Tạo từ tệp excel .XLSX**  
Hàm read_excel() trong Pandas được sử dụng để đọc tệp Excel (cả .xls và .xlsx) và chuyển đổi thành DataFrame.  
**Cú pháp**  
pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, dtype=None, skiprows=None, nrows=None, na_values=None, engine=None)  

* io: Đường dẫn đến file Excel hoặc URL.  
* sheet_name: Tên hoặc số của sheet cần đọc.  
* Mặc định là 0 (đọc sheet đầu tiên).  
* Có thể là danh sách ['Sheet1', 'Sheet2'] để đọc nhiều sheet.  
* Dùng None để đọc toàn bộ sheets thành dictionary.  
* header: Chỉ định dòng nào là tiêu đề (0 là dòng đầu tiên).  
* names: Danh sách tên cột (dùng khi header=None).  
* index_col: Cột nào làm chỉ mục (index).  
* usecols: Chỉ đọc một số cột nhất định (dạng list [0,1,3] hoặc ['A', 'B', 'D']).  
* dtype: Định dạng kiểu dữ liệu cho từng cột ({'col1': str, 'col2': int}).  
* skiprows: Số dòng bỏ qua từ đầu file.  
* nrows: Số dòng cần đọc.  
* na_values: Giá trị nào được coi là NaN.  
* engine: Chọn bộ đọc file Excel:  
    - "openpyxl" (mặc định cho .xlsx)  
    - "xlrd" (cho .xls, nhưng không hỗ trợ .xlsx)  

In [22]:
# !python.exe -m pip install --upgrade pip
# !pip install openpyxl

In [23]:
customer_xlsx = pd.read_excel('data/customer.xlsx', 'overview') # sheet overview
customer_xlsx.head()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12


In [24]:
customer_xlsx = pd.read_excel('data/customer.xlsx', 'overview',usecols=["Branch_ID","Date"]) # sheet overview
customer_xlsx.head()

Unnamed: 0,Branch_ID,Date
0,D,2024-08-01
1,E,2024-08-02
2,C,2024-08-03
3,E,2024-08-04
4,E,2024-08-05


In [25]:
# skiprows=2: Bỏ qua 2 dòng đầu tiên.
# nrows=10: Chỉ đọc 10 dòng tiếp theo.
df = pd.read_excel("data/customer.xlsx", skiprows=2, nrows=10)
df

Unnamed: 0,1,1.1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
0,2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
1,3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
2,4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
3,5,5,B,2024-08-06,10463,76,7759,2704,0.11,9,4635,16
4,6,6,C,2024-08-07,18440,239,4385,14055,0.11,8,1850,0
5,7,7,C,2024-08-08,7027,170,4919,2108,0.15,6,4577,5
6,8,8,C,2024-08-09,7695,165,6736,959,0.06,8,2390,5
7,9,9,E,2024-08-10,14687,254,3802,10885,0.08,6,1143,11
8,10,10,D,2024-08-11,10258,282,7534,2724,0.07,6,1884,12
9,11,11,C,2024-08-12,10618,52,6061,4557,0.08,7,4140,12


In [26]:
# Đọc từ tập tin .xlsx có 2 sheet overview và customer
# sheets = pd.read_excel("data.xlsx", sheet_name=["Sheet1", "Sheet3"]) Lưu ý: Kết quả trả về là một dictionary, với key là tên sheet

customer_xlsx = pd.read_excel('data/customer.xlsx', 'overview') # sheet overview
customer_xlsx.head()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12


### Xem thông tin DataFrame


In [27]:
customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             100 non-null    int64  
 1   Branch_ID              100 non-null    object 
 2   Date                   100 non-null    object 
 3   Revenue                100 non-null    int64  
 4   Customers              100 non-null    int64  
 5   Operating_Costs        100 non-null    int64  
 6   Profit                 100 non-null    int64  
 7   Conversion_Rate        100 non-null    float64
 8   Customer_Satisfaction  100 non-null    int64  
 9   Ad_Spend               100 non-null    int64  
 10  Product_Returns        100 non-null    int64  
dtypes: float64(1), int64(8), object(2)
memory usage: 8.7+ KB


In [28]:
customer.head()

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12


In [29]:
customer.tail()

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
95,95,D,2024-11-04,10450,139,5120,5330,0.15,9,4709,3
96,96,D,2024-11-05,6663,244,2016,4647,0.07,5,2081,0
97,97,E,2024-11-06,14721,196,3243,11478,0.05,7,2683,16
98,98,A,2024-11-07,15230,197,4205,11025,0.13,8,3523,7
99,99,E,2024-11-08,10592,145,4524,6068,0.13,5,1455,1


### Các thuộc tính của DataFrame 


In [30]:
customer.shape # Có 100 dòng và 11 cột

(100, 11)

In [31]:
# In ra danh sách cột
customer.columns

Index(['Unnamed: 0', 'Branch_ID', 'Date', 'Revenue', 'Customers',
       'Operating_Costs', 'Profit', 'Conversion_Rate', 'Customer_Satisfaction',
       'Ad_Spend', 'Product_Returns'],
      dtype='object')

In [32]:
customer.columns[1]

'Branch_ID'

In [33]:
# Danh sách cột và kiểu dữ liệu
customer.dtypes

Unnamed: 0                 int64
Branch_ID                 object
Date                      object
Revenue                    int64
Customers                  int64
Operating_Costs            int64
Profit                     int64
Conversion_Rate          float64
Customer_Satisfaction      int64
Ad_Spend                   int64
Product_Returns            int64
dtype: object

#### Thống kê chung

In [34]:
# Các cột kiểu số 
customer.describe() 

Unnamed: 0.1,Unnamed: 0,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
count,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
mean,49.5,12615.78,190.74,5215.37,7400.41,0.0941,6.94,3037.05,8.98
std,29.011492,4331.692721,63.754203,1718.859357,4988.15723,0.029579,1.462114,1113.127529,5.918606
min,0.0,5064.0,51.0,2016.0,-2339.0,0.05,5.0,1038.0,0.0
25%,24.75,8786.75,146.75,3724.5,3685.5,0.07,6.0,2164.25,4.0
50%,49.5,12300.0,195.0,5212.5,6816.0,0.09,7.0,2868.5,9.0
75%,74.25,16036.75,244.75,6652.0,11271.0,0.12,8.0,4107.0,14.0
max,99.0,19948.0,296.0,7980.0,17667.0,0.15,9.0,4914.0,19.0


In [35]:
# Các cột kiểu phân loại
customer.describe(include="O") 

Unnamed: 0,Branch_ID,Date
count,100,100
unique,6,100
top,D,2024-08-01
freq,25,1


In [36]:
customer

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
...,...,...,...,...,...,...,...,...,...,...,...
95,95,D,2024-11-04,10450,139,5120,5330,0.15,9,4709,3
96,96,D,2024-11-05,6663,244,2016,4647,0.07,5,2081,0
97,97,E,2024-11-06,14721,196,3243,11478,0.05,7,2683,16
98,98,A,2024-11-07,15230,197,4205,11025,0.13,8,3523,7


### Truy xuất DataFrame


In [37]:
# Sử dụng loc
customer.loc[0,'Customers'] # dòng 0, cột Customers

280

In [38]:
# Sử dụng iloc
customer.iloc[0,6] # dòng 0, cột 6 (Profit)

3328

In [39]:
customer['Ad_Spend'].head() # cột Ad_Spend và 5 dòng đầu

0    3502
1    2819
2    1717
3    3782
4    4455
Name: Ad_Spend, dtype: int64

In [40]:
# Truy xuất Dataframe
# Chọn một cột

customer[['Ad_Spend','Product_Returns']].head() # cột Ad_Spend và 5 dòng đầu

Unnamed: 0,Ad_Spend,Product_Returns
0,3502,8
1,2819,6
2,1717,0
3,3782,2
4,4455,12


In [41]:
customer.Revenue.tail() # cột Revenue và 5 dòng cuối

95    10450
96     6663
97    14721
98    15230
99    10592
Name: Revenue, dtype: int64

In [42]:
# Truy xuất Dataframe
# Chọn nhiều cột

customer[["Revenue", "Operating_Costs", "Profit", "Ad_Spend"]].head()

Unnamed: 0,Revenue,Operating_Costs,Profit,Ad_Spend
0,7062,3734,3328,3502
1,17076,3843,13233,2819
2,5064,2488,2576,1717
3,13006,4976,8030,3782
4,7568,3959,3609,4455


In [43]:
# Truy xuất Dataframe
# Chọn dòng theo chỉ số index

customer.iloc[2] # Truy xuất dòng 2

Unnamed: 0                        2
Branch_ID                         C
Date                     2024-08-03
Revenue                        5064
Customers                       274
Operating_Costs                2488
Profit                         2576
Conversion_Rate                0.12
Customer_Satisfaction             9
Ad_Spend                       1717
Product_Returns                   0
Name: 2, dtype: object

In [44]:
customer.head(10)

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,E,2024-08-02,17076,239,3843,13233,0.14,5,2819,6
2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
5,5,B,2024-08-06,10463,76,7759,2704,0.11,9,4635,16
6,6,C,2024-08-07,18440,239,4385,14055,0.11,8,1850,0
7,7,C,2024-08-08,7027,170,4919,2108,0.15,6,4577,5
8,8,C,2024-08-09,7695,165,6736,959,0.06,8,2390,5
9,9,E,2024-08-10,14687,254,3802,10885,0.08,6,1143,11


In [45]:
(customer["Revenue"] > 15000) & (customer["Customer_Satisfaction"] > 8)

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [46]:
# Truy xuất Dataframe
# Truy vấn theo điều kiện: doanh thu trên 15.000 USD và mức độ hài lòng của khách hàng trên 8 điểm

customer[(customer["Revenue"] > 15000) & (customer["Customer_Satisfaction"] > 8)]

Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
14,14,B,2024-08-15,18986,249,2262,16724,0.09,9,4096,10
15,15,D,2024-08-16,17706,204,7883,9823,0.13,9,3995,4
31,31,B,2024-09-01,16837,229,3154,13683,0.11,9,1633,9
43,43,C,2024-09-13,18773,162,2253,16520,0.12,9,1953,16
66,66,B,2024-10-06,17383,296,3527,13856,0.05,9,2856,16
78,78,D,2024-10-18,18471,247,3045,15426,0.07,9,4486,4
89,89,E,2024-10-29,18083,142,6548,11535,0.07,9,4197,8


In [47]:
(customer["Branch_ID"] == "E") & (customer["Date"] == "2024-08-02")

0     False
1      True
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [48]:
customer.loc[(customer["Branch_ID"] == "E") & (customer["Date"] == "2024-08-02"),"Revenue"]

1    17076
Name: Revenue, dtype: int64

In [49]:
# Cập nhật giá trị trong Dataframe
# Cập nhật giá trị doanh thu của chi nhánh E trong ngày khai trương (2024-08-02).

customer.loc[(customer["Branch_ID"] == "E") 
    & (customer["Date"] == "2024-08-02"), "Revenue"] = 18500

customer["Profit"] = customer["Revenue"] - customer["Operating_Costs"]

display(customer.head())



Unnamed: 0.1,Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,1,E,2024-08-02,18500,239,3843,14657,0.14,5,2819,6
2,2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12


In [50]:
# customer.drop(["Unnamed: 0"], axis = 1,inplace = True)

In [1]:
# Xóa cột
customer = customer.drop(["Unnamed: 0"], axis = 1)

NameError: name 'customer' is not defined

In [52]:
customer.head()

Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,E,2024-08-02,18500,239,3843,14657,0.14,5,2819,6
2,C,2024-08-03,5064,274,2488,2576,0.12,9,1717,0
3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12


In [53]:
# Xoá 1 dòng 
customer = customer.drop(2) # axis = 0
customer.head()

Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,E,2024-08-02,18500,239,3843,14657,0.14,5,2819,6
3,E,2024-08-04,13006,178,4976,8030,0.15,6,3782,2
4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
5,B,2024-08-06,10463,76,7759,2704,0.11,9,4635,16


In [54]:
# Xoá nhiều dòng 
customer = customer.drop([3,5])
customer.head()

Unnamed: 0,Branch_ID,Date,Revenue,Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
1,E,2024-08-02,18500,239,3843,14657,0.14,5,2819,6
4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
6,C,2024-08-07,18440,239,4385,14055,0.11,8,1850,0
7,C,2024-08-08,7027,170,4919,2108,0.15,6,4577,5


In [55]:
customer.shape

(97, 10)

In [94]:
# Xoá theo điều kiện  
customer = customer[customer['Revenue'] < 18440 ]
customer

Unnamed: 0,Branch_ID,Date,Revenue,Num_of_Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
7,C,2024-08-08,7027,170,4919,2108,0.15,6,4577,5
8,C,2024-08-09,7695,165,6736,959,0.06,8,2390,5
9,E,2024-08-10,14687,254,3802,10885,0.08,6,1143,11
...,...,...,...,...,...,...,...,...,...,...
95,D,2024-11-04,10450,139,5120,5330,0.15,9,4709,3
96,D,2024-11-05,6663,244,2016,4647,0.07,5,2081,0
97,E,2024-11-06,14721,196,3243,11478,0.05,7,2683,16
98,A,2024-11-07,15230,197,4205,11025,0.13,8,3523,7


In [1]:
customer.shape

NameError: name 'customer' is not defined

In [95]:
# Đổi tên cột 'Customer' thành 'Num_of_Customers'
# customer = customer.rename(columns={'Customers':'Num_of_Customers','Conversion_Rate':'Rate'})
customer = customer.rename(columns={'Customers':'Num_of_Customers'})

In [96]:
customer.head()

Unnamed: 0,Branch_ID,Date,Revenue,Num_of_Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
0,D,2024-08-01,7062,280,3734,3328,0.08,8,3502,8
4,E,2024-08-05,7568,170,3959,3609,0.08,6,4455,12
7,C,2024-08-08,7027,170,4919,2108,0.15,6,4577,5
8,C,2024-08-09,7695,165,6736,959,0.06,8,2390,5
9,E,2024-08-10,14687,254,3802,10885,0.08,6,1143,11


In [97]:
# Tạo DataFrame 1 với thông tin tài chính
df1 = pd.DataFrame({
    'Branch ID': ['A', 'B', 'C', 'D', 'E'],
    'Revenue Year': [16000, 19000, 14000, 17000, 15500],
    'Customers': [200, 250, 180, 210, 195],
    'Operating Costs': [7000, 9000, 8000, 7500, 7200],
    'Profit Year': [9000, 10000, 6000, 9500, 8300]
})

print("DataFrame 1 - Thông tin tài chính:")
display(df1)

DataFrame 1 - Thông tin tài chính:


Unnamed: 0,Branch ID,Revenue Year,Customers,Operating Costs,Profit Year
0,A,16000,200,7000,9000
1,B,19000,250,9000,10000
2,C,14000,180,8000,6000
3,D,17000,210,7500,9500
4,E,15500,195,7200,8300


In [98]:
df1.columns

Index(['Branch ID', 'Revenue Year', 'Customers', 'Operating Costs',
       'Profit Year'],
      dtype='object')

In [99]:
df1['Revenue Year']

0    16000
1    19000
2    14000
3    17000
4    15500
Name: Revenue Year, dtype: int64

In [102]:
df1.Customers

0    200
1    250
2    180
3    210
4    195
Name: Customers, dtype: int64

In [103]:
# Thay thế khoảng trắng bằng dấu gạch dưới trong tên tất cả các cột
df1.columns = df1.columns.str.replace(' ', '_')
display(df1)

Unnamed: 0,Branch_ID,Revenue_Year,Customers,Operating_Costs,Profit_Year
0,A,16000,200,7000,9000
1,B,19000,250,9000,10000
2,C,14000,180,8000,6000
3,D,17000,210,7500,9500
4,E,15500,195,7200,8300


In [104]:
df1.Revenue_Year	

0    16000
1    19000
2    14000
3    17000
4    15500
Name: Revenue_Year, dtype: int64

In [63]:
df1.Branch_ID

0    A
1    B
2    C
3    D
4    E
Name: Branch_ID, dtype: object

### Thống kê

In [105]:
# Giá trị trung bình các các cột số
customer.mean(numeric_only=True)

Revenue                  11641.891566
Num_of_Customers           190.108434
Operating_Costs           5412.638554
Profit                    6229.253012
Conversion_Rate              0.092410
Customer_Satisfaction        6.855422
Ad_Spend                  3064.963855
Product_Returns              9.289157
dtype: float64

In [2]:
# customer.mean() # Sẽ báo lỗi vì có những cột không thể tính mean cho cột object như Branch_ID, Date ...

In [3]:
# Sắp xếp tăng dần theo cột Profit
customer.sort_values("Profit", ascending= True)

NameError: name 'customer' is not defined

In [67]:
# Sắp xếp giảm dần theo cột Ad_Spend
customer.sort_values("Ad_Spend", ascending= False)

Unnamed: 0,Branch_ID,Date,Revenue,Num_of_Customers,Operating_Costs,Profit,Conversion_Rate,Customer_Satisfaction,Ad_Spend,Product_Returns
37,C,2024-09-07,15965,61,6682,9283,0.09,7,4914,3
63,F,2024-10-03,12408,209,3300,9108,0.06,8,4719,0
95,D,2024-11-04,10450,139,5120,5330,0.15,9,4709,3
19,D,2024-08-20,8561,274,6976,1585,0.12,8,4636,19
87,F,2024-10-27,16252,119,2959,13293,0.05,8,4602,16
...,...,...,...,...,...,...,...,...,...,...
13,E,2024-08-14,5391,247,7730,-2339,0.09,5,1395,15
72,B,2024-10-12,11892,194,5104,6788,0.06,7,1216,8
9,E,2024-08-10,14687,254,3802,10885,0.08,6,1143,11
84,F,2024-10-24,15921,250,5354,10567,0.12,5,1090,9


### Kết hợp dữ liệu

### Merge  
📌 Hàm merge() trong Pandas  
Hàm merge() trong Pandas được sử dụng để kết hợp (join) hai DataFrame dựa trên một hoặc nhiều cột chung (giống như JOIN trong SQL). Nó rất hữu ích khi làm việc với dữ liệu từ nhiều nguồn khác nhau.  
1️⃣ Cú pháp của merge()  
pd.merge(left, right, how="inner", on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=("_x", "_y"), copy=True, indicator=False, validate=None)  

Các tham số quan trọng:  

* left: DataFrame đầu tiên.  
* right: DataFrame thứ hai.  
* how: Cách thực hiện merge:  
    - "inner" (mặc định) → Chỉ giữ các hàng có khóa chung.  
    - "left" → Giữ tất cả các hàng của DataFrame bên trái, bổ sung dữ liệu bên phải nếu có.  
    - "right" → Giữ tất cả các hàng của DataFrame bên phải, bổ sung dữ liệu bên trái nếu có.  
    - "outer" → Giữ tất cả các hàng từ cả hai DataFrame, điền giá trị NaN nếu thiếu.  
* on: Cột chung để merge (phải tồn tại ở cả hai DataFrame).  
* left_on, right_on: Nếu tên cột khác nhau, chỉ định riêng cột nào sẽ merge.  
* left_index, right_index: Nếu True, sử dụng index để merge thay vì cột.  
* suffixes: Định dạng hậu tố cho các cột bị trùng (mặc định _x, _y).  
* indicator: Nếu True, thêm một cột _merge để hiển thị nguồn gốc dữ liệu.  

2️⃣ Khi nào nên dùng merge()?  

    ✅ Khi cần kết hợp dữ liệu từ hai bảng dựa trên một khóa chung.  
    ✅ Khi muốn giữ lại tất cả hoặc một phần dữ liệu từ hai bảng.  
    ✅ Khi cần làm việc với dữ liệu giống như SQL JOIN.  



In [1]:
# Tạo DataFrame 1 với thông tin tài chính
df1 = pd.DataFrame({
    'Branch_ID': ['A', 'B', 'C', 'D', 'E'],
    'Revenue': [16000, 19000, 14000, 17000, 15500],
    'Customers': [200, 250, 180, 210, 195],
    'Operating_Costs': [7000, 9000, 8000, 7500, 7200],
    'Profit': [9000, 10000, 6000, 9500, 8300]
})

print("DataFrame 1 - Thông tin tài chính:")
display(df1)


NameError: name 'pd' is not defined

In [107]:
# Tạo DataFrame 2 với thông tin khác
df2 = pd.DataFrame({
    'Branch_ID': ['A', 'B', 'C', 'D', 'E'],
    'Customer_Satisfaction': [9, 8, 7, 9, 9],
    'Conversion_Rate': [0.12, 0.15, 0.10, 0.13, 0.11],
    'Ad_Spend': [2000, 3000, 1500, 2500, 2200],
    'Product_Returns': [3, 5, 2, 4, 3]
})

print("DataFrame 2 - Thông tin khác:")
display(df2)


DataFrame 2 - Thông tin khác:


Unnamed: 0,Branch_ID,Customer_Satisfaction,Conversion_Rate,Ad_Spend,Product_Returns
0,A,9,0.12,2000,3
1,B,8,0.15,3000,5
2,C,7,0.1,1500,2
3,D,9,0.13,2500,4
4,E,9,0.11,2200,3


In [70]:
# Kết hợp df1 và df2 bằng merge dựa trên Branch_ID - Mặc định how = 'inner'
df_merged = pd.merge(df1, df2, on='Branch_ID')

print("DataFrame sau khi merge:")
display(df_merged)


DataFrame sau khi merge:


Unnamed: 0,Branch_ID,Revenue,Customers,Operating_Costs,Profit,Customer_Satisfaction,Conversion_Rate,Ad_Spend,Product_Returns
0,A,16000,200,7000,9000,9,0.12,2000,3
1,B,19000,250,9000,10000,8,0.15,3000,5
2,C,14000,180,8000,6000,7,0.1,1500,2
3,D,17000,210,7500,9500,9,0.13,2500,4
4,E,15500,195,7200,8300,9,0.11,2200,3


In [71]:
# Ví dụ 1: Merge cơ bản (inner join) 

df1 = pd.DataFrame({
    "ID": [1, 2, 3],
    "Name": ["Alice", "Bob", "Charlie"]
})
display(df1)

df2 = pd.DataFrame({
    "ID": [2, 3, 4],
    "Score": [85, 90, 78]
})
display(df2)


Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob
2,3,Charlie


Unnamed: 0,ID,Score
0,2,85
1,3,90
2,4,78


In [72]:
# how="inner" mặc định chỉ giữ lại các hàng có khoá chung
merged_df = pd.merge(df1, df2, on="ID", how="inner")
display(merged_df)

Unnamed: 0,ID,Name,Score
0,2,Bob,85
1,3,Charlie,90


In [73]:
# Ví dụ 2: Merge kiểu left join lấy theo bảng bên trái
merged_df = pd.merge(df1, df2, on="ID", how="left")
display(merged_df)


Unnamed: 0,ID,Name,Score
0,1,Alice,
1,2,Bob,85.0
2,3,Charlie,90.0


In [74]:
# Ví dụ 3: Merge với right join lấy theo bảng bên phải
merged_df = pd.merge(df1, df2, on="ID", how="right")
display(merged_df)


Unnamed: 0,ID,Name,Score
0,2,Bob,85
1,3,Charlie,90
2,4,,78


In [75]:
# Ví dụ 4: Merge kiểu outer join lấy cả hai
merged_df = pd.merge(df1, df2, on="ID", how="outer")
display(merged_df)


Unnamed: 0,ID,Name,Score
0,1,Alice,
1,2,Bob,85.0
2,3,Charlie,90.0
3,4,,78.0


In [76]:
# Ví dụ 5: Merge khi cột khoá không trùng tên 
df1 = pd.DataFrame({
    "EmpID": [1, 2, 3], ## Không trùng tên 
    "Name": ["Alice", "Bob", "Charlie"]
})
display(df1)

df2 = pd.DataFrame({
    "EmployeeID": [2, 3, 4], ## Không trùng tên
    "Salary": [5000, 6000, 7000]
})
display(df2)


Unnamed: 0,EmpID,Name
0,1,Alice
1,2,Bob
2,3,Charlie


Unnamed: 0,EmployeeID,Salary
0,2,5000
1,3,6000
2,4,7000


In [77]:
merged_df = pd.merge(df1, df2, left_on="EmpID", right_on="EmployeeID", how="inner")
display(merged_df)

Unnamed: 0,EmpID,Name,EmployeeID,Salary
0,2,Bob,2,5000
1,3,Charlie,3,6000


In [78]:
# Ví dụ 6: Merge dựa trên index 
merged_df = pd.merge(df1, df2, left_index=True, right_index=True, how="outer")
display(merged_df)

Unnamed: 0,EmpID,Name,EmployeeID,Salary
0,1,Alice,2,5000
1,2,Bob,3,6000
2,3,Charlie,4,7000


In [79]:
# Ví dụ 7: Sử dụng indicator=True để biết nguồn gốc dữ liệu 
merged_df = pd.merge(df1, df2, left_on="EmpID", right_on="EmployeeID", how="outer", indicator=True)
display(merged_df)


Unnamed: 0,EmpID,Name,EmployeeID,Salary,_merge
0,1.0,Alice,,,left_only
1,2.0,Bob,2.0,5000.0,both
2,3.0,Charlie,3.0,6000.0,both
3,,,4.0,7000.0,right_only


### Concat  
Hàm concat() trong Pandas được sử dụng để nối (ghép) hai hoặc nhiều DataFrame hoặc Series theo chiều dọc (row-wise) hoặc chiều ngang (column-wise)  

1️⃣ Cú pháp của concat()  
pd.concat(objs, axis=0, join="outer", ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)  

**Các tham số quan trọng:**  

* objs: Danh sách các DataFrame hoặc Series cần nối.  
* axis:  
    - 0 (mặc định): Nối theo hàng (thêm dòng mới).  
    - 1: Nối theo cột (thêm cột mới).  
* join:  
    - "outer" (mặc định): Giữ tất cả các cột, nếu cột không có dữ liệu thì điền NaN.  
    - "inner": Chỉ giữ cột chung giữa các DataFrame.  
* ignore_index (False mặc định):  
    - True: Bỏ qua index cũ và đánh lại index mới.  
* keys: Thêm multi-index để xác định nguồn gốc dữ liệu.  
* sort: Nếu True, sắp xếp cột theo thứ tự bảng chữ cái.  


In [108]:
df_merged

Unnamed: 0,Branch_ID,Revenue,Customers,Operating_Costs,Profit,Customer_Satisfaction,Conversion_Rate,Ad_Spend,Product_Returns
0,A,16000,200,7000,9000,9,0.12,2000,3
1,B,19000,250,9000,10000,8,0.15,3000,5
2,C,14000,180,8000,6000,7,0.1,1500,2
3,D,17000,210,7500,9500,9,0.13,2500,4
4,E,15500,195,7200,8300,9,0.11,2200,3


In [109]:
# Tạo DataFrame bổ sung với các chi nhánh mới
df_new_branches = pd.DataFrame({
    'Branch_ID': ['F', 'G'],
    'Revenue': [18000, 21000],
    'Customers': [220, 270],
    'Operating_Costs': [8500, 9000],
    'Profit': [9500, 12000],
    'Customer_Satisfaction': [8, 9],
    'Conversion_Rate': [0.14, 0.16],
    'Ad_Spend': [2500, 3000],
    'Product_Returns': [4, 2]
})

print("DataFrame với chi nhánh mới:")
display(df_new_branches)


DataFrame với chi nhánh mới:


Unnamed: 0,Branch_ID,Revenue,Customers,Operating_Costs,Profit,Customer_Satisfaction,Conversion_Rate,Ad_Spend,Product_Returns
0,F,18000,220,8500,9500,8,0.14,2500,4
1,G,21000,270,9000,12000,9,0.16,3000,2


In [82]:
# Nối thêm các chi nhánh mới vào DataFrame đã merge - ignore_index=True đánh lại index mới 
df_final = pd.concat([df_merged, df_new_branches], ignore_index=True)

print("DataFrame sau khi concat thêm các chi nhánh mới:")
display(df_final)


DataFrame sau khi concat thêm các chi nhánh mới:


Unnamed: 0,Branch_ID,Revenue,Customers,Operating_Costs,Profit,Customer_Satisfaction,Conversion_Rate,Ad_Spend,Product_Returns
0,A,16000,200,7000,9000,9,0.12,2000,3
1,B,19000,250,9000,10000,8,0.15,3000,5
2,C,14000,180,8000,6000,7,0.1,1500,2
3,D,17000,210,7500,9500,9,0.13,2500,4
4,E,15500,195,7200,8300,9,0.11,2200,3
5,F,18000,220,8500,9500,8,0.14,2500,4
6,G,21000,270,9000,12000,9,0.16,3000,2


2️⃣  Ví dụ chi tiết về concat()  

In [83]:
# Ví dụ 1: Nối hai DataFrame theo hàng (axis=0) 

df1 = pd.DataFrame({
    "ID": [1, 2],
    "Name": ["Alice", "Bob"]
})
display(df1)

df2 = pd.DataFrame({
    "ID": [3, 4],
    "Name": ["Charlie", "David"]
})
display(df2)


Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob


Unnamed: 0,ID,Name
0,3,Charlie
1,4,David


In [84]:
result = pd.concat([df1, df2]) # (axis=0)  mặc định , → Index không được đặt lại, có thể đặt ignore_index=True để đánh lại.
display(result)

Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob
0,3,Charlie
1,4,David


In [85]:
# Ví dụ 2: Nối hai DataFrame và bỏ index cũ (ignore_index=True)
result = pd.concat([df1, df2], ignore_index=True)
display(result)


Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob
2,3,Charlie
3,4,David


In [86]:
# Ví dụ 3: Nối theo cột (axis=1) 
df3 = pd.DataFrame({
    "Age": [25, 30]
})
display(df3)


Unnamed: 0,Age
0,25
1,30


In [87]:
result = pd.concat([df1, df3], axis=1) # → axis=1 giúp ghép theo cột (thêm cột mới).
display(result)

Unnamed: 0,ID,Name,Age
0,1,Alice,25
1,2,Bob,30


In [88]:
# Ví dụ 4: Nối hai DataFrame có cột khác nhau (join="outer") 
df4 = pd.DataFrame({
    "ID": [3, 4],
    "Score": [85, 90]
})
display(df4)


Unnamed: 0,ID,Score
0,3,85
1,4,90


In [89]:
result = pd.concat([df1, df4], ignore_index=True, join="outer")
display(result)

Unnamed: 0,ID,Name,Score
0,1,Alice,
1,2,Bob,
2,3,,85.0
3,4,,90.0


In [90]:
# Ví dụ 5: Chỉ giữ cột chung (join="inner") 
result = pd.concat([df1, df4], join="inner", ignore_index=True)
display(result)


Unnamed: 0,ID
0,1
1,2
2,3
3,4


In [91]:
df1

Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob


In [92]:
df2

Unnamed: 0,ID,Name
0,3,Charlie
1,4,David


In [93]:
#  Ví dụ 6: Sử dụng keys để tạo MultiIndex 
result = pd.concat([df1, df2], keys=["Group1", "Group2"]) # → MultiIndex giúp xác định nguồn dữ liệu.
display(result)


Unnamed: 0,Unnamed: 1,ID,Name
Group1,0,1,Alice
Group1,1,2,Bob
Group2,0,3,Charlie
Group2,1,4,David


3️⃣️ Khi nào nên dùng concat()?  

    ✅ Khi cần ghép nhiều DataFrame hoặc Series.  
    ✅ Khi muốn giữ hoặc loại bỏ index cũ (ignore_index=True).  
    ✅ Khi cần ghép dữ liệu có cấu trúc khác nhau (join="inner", join="outer").  
    ✅ Khi cần làm việc với dữ liệu dạng MultiIndex (keys).  