## Cau 1

In [6]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_behavior_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_info_df = pd.read_csv('03_Item_Information_Data.csv')

# Giả sử cột 'Looking Time' và 'Holding Time' tồn tại trong dữ liệu hành vi khách hàng
# Tính tổng thời gian nhìn và cầm xem cho mỗi mặt hàng
customer_behavior_df['Total Time'] = customer_behavior_df['Looking at item (s)'] + customer_behavior_df['Holding the item (s)']

# Tổng hợp tổng thời gian nhìn và cầm xem cho mỗi mặt hàng
total_time_per_item = customer_behavior_df.groupby(['Item ID', 'Shelf ID'])['Total Time'].sum().reset_index()

# Kết hợp với thông tin sản phẩm để lấy tên sản phẩm
item_total_time_info = pd.merge(total_time_per_item, item_info_df, on=['Item ID', 'Shelf ID'])

# Sắp xếp và lọc ra top 5 mặt hàng có tổng thời gian nhìn và cầm xem lâu nhất
top_5_time_items = item_total_time_info.sort_values(by='Total Time', ascending=False).head(5)

# Hiển thị kết quả
print(top_5_time_items[['Item ID', 'Shelf ID', 'Name', 'Total Time']])


    Item ID  Shelf ID                  Name  Total Time
63        7         7   Sữa chua uống Probi       22896
55        6         7  Sữa chua uống Yakult       22896
66        8         2           Sữa ông thọ       13939
48        6         0         Bim bim Oishi       13866
56        7         0  Snack khoai tây Lays       13362


## Cau 2

In [23]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_behavior_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_info_df = pd.read_csv('03_Item_Information_Data.csv')

# Chuyển đổi các cột 'Picking up item' và 'Returning item' về kiểu số
customer_behavior_df['Picking up item'] = pd.to_numeric(customer_behavior_df['Picking up item'], errors='coerce')
customer_behavior_df['Returning item'] = pd.to_numeric(customer_behavior_df['Returning item'], errors='coerce')

# Tổng hợp số lần sản phẩm được cầm lên và trả lại
pick_return_summary = customer_behavior_df.groupby(['Item ID', 'Shelf ID']).agg({
    'Picking up item': 'sum',
    'Returning item': 'sum'
}).reset_index()

# Tính tỷ lệ trả lại
pick_return_summary['Return Rate'] = pick_return_summary['Returning item'] / pick_return_summary['Picking up item']

# Kết hợp với thông tin sản phẩm để lấy tên sản phẩm
pick_return_summary_info = pd.merge(pick_return_summary, item_info_df, on=['Item ID', 'Shelf ID'], how='left')

# Sắp xếp và lọc ra top 5 mặt hàng có tỷ lệ trả lại cao nhất
top_5_returned_items = pick_return_summary_info.sort_values(by='Return Rate', ascending=False).head(5)

# Hiển thị kết quả
print(top_5_returned_items[['Item ID', 'Shelf ID', 'Name', 'Picking up item', 'Returning item', 'Return Rate']])


     Item ID  Shelf ID                                   Name  \
51         6         3                        Mỳ trứng Safoco   
43         5         3                              Mỳ Omachi   
57         7         1                     Dao cạo râu Gillet   
104       13         6               Sách Thép Ðã Tôi Thế Ðây   
22         2         6  Sách cho trẻ sơ sinh đến 6 tháng tuổi   

     Picking up item  Returning item  Return Rate  
51                61              38     0.622951  
43                53              33     0.622642  
57               143              87     0.608392  
104               58              34     0.586207  
22                53              31     0.584906  


In [26]:
import pandas as pd

# Đọc dữ liệu từ file CSV
df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')

# Kiểm tra tên các cột
print(df.columns)

# Đổi tên các cột cho phù hợp (nếu cần)
# df.rename(columns={'Person ID': 'CustomerID', 'Shelf ID': 'Current_Shelf'}, inplace=True)

# Tạo cột "Next_Shelf" để lưu trữ quầy hàng tiếp theo
df['Next_Shelf'] = df.groupby('Person ID')['Shelf ID'].shift(-1)

# Lọc bỏ các hàng có giá trị null trong cột "Next_Shelf"
df = df.dropna(subset=['Next_Shelf'])

# Tạo bảng tần suất di chuyển giữa các quầy hàng
transition_counts = df.groupby(['Shelf ID', 'Next_Shelf']).size().reset_index(name='Counts')

# Sắp xếp bảng tần suất theo số lần di chuyển giảm dần
transition_counts = transition_counts.sort_values(by='Counts', ascending=False)

# Hiển thị kết quả
print(transition_counts.head(10))

Index(['Shelf ID', 'Person ID', 'Timestamp', 'Age', 'Gender', 'Height',
       'Weight', 'Married status', 'Moving speed (m/s)', 'Item ID',
       'Looking at item (s)', 'Holding the item (s)', 'Holding the bag',
       'Picking up item', 'Returning item', 'Putting item into bag',
       'Taking item out of bag', 'Putting item into bag in the 2nd time'],
      dtype='object')
    Shelf ID  Next_Shelf  Counts
63         7         7.0    2486
0          0         0.0    2080
9          1         1.0    1754
18         2         2.0    1383
36         4         4.0    1374
27         3         3.0     953
54         6         6.0     804
45         5         5.0     550
56         7         0.0     123
7          0         7.0     109


In [27]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Kiểm tra các cột trong DataFrame customer_df
print("Columns in customer_df:")
print(customer_df.columns)

# Kiểm tra các cột trong DataFrame item_df
print("Columns in item_df:")
print(item_df.columns)


Columns in customer_df:
Index(['Shelf ID', 'Person ID', 'Timestamp', 'Age', 'Gender', 'Height',
       'Weight', 'Married status', 'Moving speed (m/s)', 'Item ID',
       'Looking at item (s)', 'Holding the item (s)', 'Holding the bag',
       'Picking up item', 'Returning item', 'Putting item into bag',
       'Taking item out of bag', 'Putting item into bag in the 2nd time'],
      dtype='object')
Columns in item_df:
Index(['Shelf ID', 'Item ID', 'Name', 'Origin', 'Location', 'Weight (g)',
       'Price', 'NSX', 'HSD', 'Marketing strategy', 'Discount ', 'Rate'],
      dtype='object')


In [28]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Weight (g)': 'Weight_g',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount'  # Loại bỏ khoảng trắng ở cuối
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Kiểm tra các sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi
print("Sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi:")
promoted_items = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]
print(promoted_items)

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) & 
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == False) |
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == True)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, promoted_items, on='Item_ID', how='left', suffixes=('', '_item'))

# Kiểm tra dữ liệu kết hợp
print("Dữ liệu kết hợp:")
print(merged_df.head())

# Thêm cột 'Promotion' vào dữ liệu khách hàng
merged_df['Promotion'] = merged_df['Marketing_strategy'] == 'TRUE'

# Kiểm tra dữ liệu đã mua có khuyến mãi
print("Dữ liệu đã mua có khuyến mãi:")
print(merged_df[(merged_df['Promotion'] == True) & (merged_df['Purchased'] == True)])

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[merged_df['Promotion'] == True]['Purchased'].sum()
purchased_without_promotion = merged_df[merged_df['Promotion'] == False]['Purchased'].sum()

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


Sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi:
     Shelf_ID  Item_ID                                            Name  \
0           0        0                                       Bánh Oreo   
4           0        4                              Bánh trứng Custard   
5           0        5                        Hạt hướng dương Chacheer   
6           0        6                                   Bim bim Oishi   
7           0        7                            Snack khoai tây Lays   
9           0        9                             Socola trứng Kinder   
10          0       10                               Kẹo dẻo Alphelibe   
13          1        0                                    Dầu gội XMen   
14          1        1                                  Dầu gội Romano   
15          1        2                                    Dầu gội Dove   
16          1        3                                 Dầu gội Sunsilk   
17          1        4                                 Sửa rửa

In [29]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Weight (g)': 'Weight_g',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount'  # Loại bỏ khoảng trắng ở cuối
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Xóa khoảng trắng trong cột 'Marketing_strategy' nếu có
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].str.strip()

# Lọc các sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi
promoted_items = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) &
    (customer_df['Returning_item'] == False)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, promoted_items, on='Item_ID', how='left', suffixes=('', '_item'))

# Thêm cột 'Promotion' vào dữ liệu khách hàng, kiểm tra Discount hoặc Marketing_strategy
merged_df['Promotion'] = (merged_df['Marketing_strategy'] == 'TRUE') | (merged_df['Discount'] > 0)

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[merged_df['Promotion'] == True]['Purchased'].sum()
purchased_without_promotion = merged_df[merged_df['Promotion'] == False]['Purchased'].sum()

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


AttributeError: Can only use .str accessor with string values!

In [30]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Weight (g)': 'Weight_g',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount'  # Loại bỏ khoảng trắng ở cuối
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Xóa khoảng trắng trong cột 'Marketing_strategy' nếu có
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].str.strip()

# Kiểm tra các sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi
print("Sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi:")
promoted_items = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]
print(promoted_items)

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) &
    (customer_df['Returning_item'] == False)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, promoted_items, on='Item_ID', how='left', suffixes=('', '_item'))

# Kiểm tra dữ liệu kết hợp
print("Dữ liệu kết hợp:")
print(merged_df.head())

# Thêm cột 'Promotion' vào dữ liệu khách hàng, kiểm tra Discount hoặc Marketing_strategy
merged_df['Promotion'] = (merged_df['Marketing_strategy'] == 'TRUE') | (merged_df['Discount'] > 0)

# Kiểm tra dữ liệu đã mua có khuyến mãi
print("Dữ liệu đã mua có khuyến mãi:")
print(merged_df[(merged_df['Promotion'] == True) & (merged_df['Purchased'] == True)])

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[merged_df['Promotion'] == True]['Purchased'].sum()
purchased_without_promotion = merged_df[merged_df['Promotion'] == False]['Purchased'].sum()

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


AttributeError: Can only use .str accessor with string values!

In [31]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Weight (g)': 'Weight_g',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount'  # Loại bỏ khoảng trắng ở cuối
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Chuyển đổi cột 'Marketing_strategy' và 'Discount' sang kiểu chuỗi để xử lý khoảng trắng
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].astype(str).str.strip()
item_df['Discount'] = item_df['Discount'].astype(str).str.strip()

# Kiểm tra xem 'Discount' có phải là giá trị số không, nếu có thì chuyển về kiểu số
item_df['Discount'] = pd.to_numeric(item_df['Discount'], errors='coerce')

# Lọc các sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi
promoted_items = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) &
    (customer_df['Returning_item'] == False)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, promoted_items, on='Item_ID', how='left', suffixes=('', '_item'))

# Thêm cột 'Promotion' vào dữ liệu khách hàng, kiểm tra Discount hoặc Marketing_strategy
merged_df['Promotion'] = (merged_df['Marketing_strategy'] == 'TRUE') | (merged_df['Discount'] > 0)

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[merged_df['Promotion'] == True]['Purchased'].sum()
purchased_without_promotion = merged_df[merged_df['Promotion'] == False]['Purchased'].sum()

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi: 11004
Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi: 0

Chiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.


In [32]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Weight (g)': 'Weight_g',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount'  # Loại bỏ khoảng trắng ở cuối
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Xóa khoảng trắng trong cột 'Marketing_strategy' nếu có
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].str.strip()

# Kiểm tra các sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi
promoted_items = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) & 
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == False) |
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == True)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, promoted_items, on='Item_ID', how='left', suffixes=('', '_item'))

# Thêm cột 'Promotion' vào dữ liệu khách hàng, kiểm tra Discount hoặc Marketing_strategy
merged_df['Promotion'] = (merged_df['Marketing_strategy'] == 'TRUE') | (merged_df['Discount'] > 0)

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[(merged_df['Promotion'] == True) & (merged_df['Purchased'] == True)].shape[0]
purchased_without_promotion = merged_df[(merged_df['Promotion'] == False) & (merged_df['Purchased'] == True)].shape[0]

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


AttributeError: Can only use .str accessor with string values!

In [33]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Weight (g)': 'Weight_g',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount'  # Loại bỏ khoảng trắng ở cuối
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Chuyển đổi cột 'Marketing_strategy' thành chuỗi và xóa khoảng trắng nếu có
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].astype(str).str.strip()

# Kiểm tra các sản phẩm có chiến dịch quảng cáo hoặc khuyến mãi
promoted_items = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) & 
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == False) |
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == True)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, promoted_items, on='Item_ID', how='left', suffixes=('', '_item'))

# Thêm cột 'Promotion' vào dữ liệu khách hàng, kiểm tra Discount hoặc Marketing_strategy
merged_df['Promotion'] = (merged_df['Marketing_strategy'] == 'TRUE') | (merged_df['Discount'] > 0)

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[(merged_df['Promotion'] == True) & (merged_df['Purchased'] == True)].shape[0]
purchased_without_promotion = merged_df[(merged_df['Promotion'] == False) & (merged_df['Purchased'] == True)].shape[0]

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi: 32129
Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi: 0

Chiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.


In [34]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Name': 'Name',
    'Origin': 'Origin',
    'Location': 'Location',
    'Weight (g)': 'Weight_g',
    'Price': 'Price',
    'NSX': 'NSX',
    'HSD': 'HSD',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount',  # Loại bỏ khoảng trắng ở cuối
    'Rate': 'Rate'
})

# Chuyển đổi cột 'Marketing_strategy' thành chuỗi và xóa khoảng trắng nếu có
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].astype(str).str.strip()

# Lọc các sản phẩm có chiến dịch quảng cáo hoặc giảm giá
promoted_items_df = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]

# Hiển thị DataFrame kết quả
print(promoted_items_df)


     Shelf_ID  Item_ID                                            Name  \
0           0        0                                       Bánh Oreo   
4           0        4                              Bánh trứng Custard   
5           0        5                        Hạt hướng dương Chacheer   
6           0        6                                   Bim bim Oishi   
7           0        7                            Snack khoai tây Lays   
9           0        9                             Socola trứng Kinder   
10          0       10                               Kẹo dẻo Alphelibe   
13          1        0                                    Dầu gội XMen   
14          1        1                                  Dầu gội Romano   
15          1        2                                    Dầu gội Dove   
16          1        3                                 Dầu gội Sunsilk   
17          1        4                                 Sửa rửa mặt Oxy   
21          1        8                

In [35]:
import pandas as pd

# Đọc dữ liệu từ file CSV
customer_df = pd.read_csv('03_Customer_Behavior_Data_Filled.csv')
item_df = pd.read_csv('03_Item_Information_Data.csv')

# Đổi tên các cột để dễ xử lý
customer_df = customer_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Person ID': 'Person_ID',
    'Timestamp': 'Timestamp',
    'Age': 'Age',
    'Gender': 'Gender',
    'Height': 'Height',
    'Weight': 'Weight',
    'Married status': 'Married_status',
    'Moving speed (m/s)': 'Moving_speed_m_s',
    'Item ID': 'Item_ID',
    'Looking at item (s)': 'Looking_at_item_s',
    'Holding the item (s)': 'Holding_the_item_s',
    'Holding the bag': 'Holding_the_bag',
    'Picking up item': 'Picking_up_item',
    'Returning item': 'Returning_item',
    'Putting item into bag': 'Putting_item_into_bag',
    'Taking item out of bag': 'Taking_item_out_of_bag',
    'Putting item into bag in the 2nd time': 'Putting_item_into_bag_in_the_2nd_time'
})

item_df = item_df.rename(columns={
    'Shelf ID': 'Shelf_ID',
    'Item ID': 'Item_ID',
    'Name': 'Name',
    'Origin': 'Origin',
    'Location': 'Location',
    'Weight (g)': 'Weight_g',
    'Price': 'Price',
    'NSX': 'NSX',
    'HSD': 'HSD',
    'Marketing strategy': 'Marketing_strategy',
    'Discount ': 'Discount',  # Loại bỏ khoảng trắng ở cuối
    'Rate': 'Rate'
})

# Chuyển đổi cột 'Timestamp' thành định dạng datetime
customer_df['Timestamp'] = pd.to_datetime(customer_df['Timestamp'])

# Chuyển đổi cột 'Marketing_strategy' thành chuỗi và xóa khoảng trắng nếu có
item_df['Marketing_strategy'] = item_df['Marketing_strategy'].astype(str).str.strip()

# Lọc các sản phẩm có chiến dịch quảng cáo hoặc giảm giá
promoted_items_df = item_df[(item_df['Marketing_strategy'] == 'TRUE') | (item_df['Discount'] > 0)]

# Xác định các sản phẩm đã được mua
customer_df['Purchased'] = (
    (customer_df['Putting_item_into_bag'] == True) & 
    (customer_df['Taking_item_out_of_bag'] == False) & 
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == False) |
    (customer_df['Putting_item_into_bag_in_the_2nd_time'] == True)
)

# Kết hợp dữ liệu từ hai file dựa trên 'Item_ID'
merged_df = pd.merge(customer_df, item_df, on='Item_ID', how='left', suffixes=('', '_item'))

# Thêm cột 'Promotion' vào dữ liệu khách hàng, kiểm tra Discount hoặc Marketing_strategy
merged_df['Promotion'] = (merged_df['Marketing_strategy'] == 'TRUE') | (merged_df['Discount'] > 0)

# Tính toán số lượng sản phẩm được mua trong các giai đoạn có và không có chiến dịch quảng cáo hoặc khuyến mãi
purchased_with_promotion = merged_df[(merged_df['Promotion'] == True) & (merged_df['Purchased'] == True)].shape[0]
purchased_without_promotion = merged_df[(merged_df['Promotion'] == False) & (merged_df['Purchased'] == True)].shape[0]

# Hiển thị kết quả
print("Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_with_promotion)
print("Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi:", purchased_without_promotion)

# Đưa ra nhận định và đề xuất
if purchased_with_promotion > purchased_without_promotion:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi có hiệu quả trong việc tăng số lượng sản phẩm được mua.")
else:
    print("\nChiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.")


Số lượng sản phẩm được mua trong các giai đoạn có chiến dịch quảng cáo hoặc khuyến mãi: 32129
Số lượng sản phẩm được mua trong các giai đoạn không có chiến dịch quảng cáo hoặc khuyến mãi: 42498

Chiến dịch quảng cáo hoặc khuyến mãi không có hiệu quả rõ rệt trong việc tăng số lượng sản phẩm được mua.
