# Data Structure

Chinook là một cửa hàng bán băng đĩa. Cấu trúc dữ liệu của chinook:

![image](https://user-images.githubusercontent.com/107552816/178102888-2724559d-f1d7-4d86-aba1-ed42c73b618a.png)

# Connect database

In [1]:
%%capture
%load_ext sql
%sql sqlite:///chinook.db

# Explore Data

In [2]:
%%sql
SELECT
    name,
    type
FROM sqlite_master
WHERE type IN ("table","view");

 * sqlite:///chinook.db
Done.


name,type
album,table
artist,table
customer,table
employee,table
genre,table
invoice,table
invoice_line,table
media_type,table
playlist,table
playlist_track,table


# Select New Album to Purchase

Giả sử, một hãng thu âm chuyên về các nghệ sĩ ở Hoa Kì, họ cần mua 3 thể loại nhạc và muốn hợp tác lâu dài với tôi. Đồng thời họ đưa tôi 1 số tiền để chạy quảng cáo 3 sản phẩm này. Vì vậy, tôi phải tìm hiểu thể loại nhạc nào bán chạy nhất.

In [3]:
%%sql
WITH usa_track_sold AS
    (
    SELECT il.*
    FROM invoice_line il
    INNER JOIN invoice i ON il.invoice_id = i.invoice_id
    INNER JOIN customer c ON c.customer_id = i.customer_id
    WHERE c.country = "USA"
    )
SELECT  g.name genre,
        COUNT(uts.invoice_line_id) AS amounts_sold,
        CAST(COUNT(uts.invoice_line_id) AS FLOAT)/( SELECT COUNT(*) FROM usa_track_sold) AS percentage_sold
FROM usa_track_sold uts
INNER JOIN track t ON t.track_id = uts.track_id
INNER JOIN genre g ON t.genre_id = g.genre_id
GROUP BY 1
ORDER BY 2 DESC
LIMIT 10

 * sqlite:///chinook.db
Done.


genre,amounts_sold,percentage_sold
Rock,561,0.5337773549000951
Alternative & Punk,130,0.1236917221693625
Metal,124,0.1179828734538534
R&B/Soul,53,0.0504281636536631
Blues,36,0.0342530922930542
Alternative,35,0.033301617507136
Pop,22,0.0209324452901998
Latin,22,0.0209324452901998
Hip Hop/Rap,20,0.0190294957183634
Jazz,14,0.0133206470028544


Dựa theo bảng trên, chúng ta có thể chọn được 3 thể loại:
* Rock chiếm 53.3 %
* Alternative & Punk chiếm 12.4%
* Metal chiếm 11.7%

# Analyzing Employee Sales Performance

Mỗi khách hàng của cửa hàng Chinook được chỉ định cho 1 nhân viên bán hàng hỗ trợ trong công ty khi họ mua hàng lần đầu tiên. Tôi muốn biết các giao dịch mua hàng của khách thuộc từng nhân viên để xem nhân viên hỗ trợ nào có hiệu suất tốt và kém hơn những người khác hay không.

In [4]:
%%sql

WITH customer_support_rep_sales AS
    (
    SELECT  e.employee_id,
            c.customer_id,
            SUM(i.total) total
    FROM invoice i
    INNER JOIN customer c ON c.customer_id=i.customer_id
    INNER JOIN employee e ON e.employee_id=c.support_rep_id
    GROUP BY 1,2
    )
SELECT  e.first_name || " " || e.last_name Employee,
        e.hire_date,
        SUM(csrs.total) total_sales
FROM customer_support_rep_sales csrs
INNER JOIN employee e ON e.employee_id == csrs.employee_id
GROUP BY 1

 * sqlite:///chinook.db
Done.


Employee,hire_date,total_sales
Jane Peacock,2017-04-01 00:00:00,1731.5099999999998
Margaret Park,2017-05-03 00:00:00,1584.0000000000002
Steve Johnson,2017-10-17 00:00:00,1393.92


Mặc dù có sự khác biệt về doanh số giữa Jane và Steve, tuy nhiên nó có liên quan đến ngày tuyển dụng, nhân viên nào làm lâu hơn thì sẽ có doanh số cao hơn.

# Analyzing Sales For Country

Truy vấn doanh số bán hàng theo từng quốc gia khác nhau:
* Với mỗi quốc gia chỉ có 1 khách hàng thì sẽ gộp chung một nhóm "Other"
* Kết quả được sắp xếp theo tổng doanh số từ cao nhất đến thấp nhất, với nhóm "Other" ở dưới cùng
* Đối với mỗi quốc gia bao gồm:
    * Tổng số khách hàng
    * Tổng số tiền bán hàng
    * Số tiền bán hàng trung bình cho mỗi khách hàng
    * Số tiền bán hàng trung bình trên mỗi hóa đơn.

In [5]:
%%sql
WITH country_or_other AS
    (
    SELECT
        CASE
        WHEN (SELECT COUNT(*)
              FROM customer
              WHERE country = c.country
             ) = 1 THEN "Other" ELSE c.country
        END AS country,
        c.customer_id,
        il.*
    FROM invoice_line il
    INNER JOIN invoice i ON i.invoice_id = il.invoice_id
    INNER JOIN customer c ON c.customer_id = i.customer_id
    )

SELECT  country,
        total_customer,
        average_sales_customer,
        average_order
FROM (
SELECT  country,
        COUNT(DISTINCT customer_id) total_customer,
        SUM(unit_price) total_sales,
        SUM(unit_price) / COUNT(DISTINCT customer_id) average_sales_customer,
        SUM(unit_price) / COUNT(DISTINCT invoice_id) average_order,
        CASE
        WHEN country = "Other" THEN 1 ELSE 0
        END AS sort        
FROM country_or_other
GROUP BY 1
ORDER BY sort ASC, total_sales DESC
)

 * sqlite:///chinook.db
Done.


country,total_customer,average_sales_customer,average_order
USA,13,80.03769230769292,7.942671755725252
Canada,8,66.94875000000043,7.047236842105309
Brazil,5,85.53600000000048,7.011147540983647
France,5,77.81400000000042,7.781400000000042
Germany,4,83.6550000000004,8.161463414634186
Czech Republic,2,136.62000000000052,9.108000000000034
United Kingdom,3,81.84000000000026,8.768571428571457
Portugal,2,92.56500000000013,6.383793103448284
India,2,91.5750000000001,8.72142857142858
Other,15,72.99600000000056,7.448571428571486


Dựa vào bảng dữ liệu trên, có thể thấy số liệu ở các quốc gia:
* Czech Republic
* United Kingdom
* India

Vì lượng dữ liệu ở các quốc gia này tương đối thấp, nên không đánh giá được tổng quan thị trường ở các quốc gia này. Vì thế, chúng ta nên thận trọng chi quá nhiều tiền cho chiến dịch quảng cáo. Một cách tiếp cận hiệu quả là chạy quảng cáo nhỏ ở những khu vực này để tiếp cận thêm khách hàng mới và phân tích xu hướng mua hàng của họ có phù hợp mà chiến dịch quảng cáo hướng đến hay không.