# BÀI TẬP PYTHON CƠ BẢN

## Đề Bài

Đọc file “supermarket_sales_vn.csv” và tính:
1. Tần số & tần suất khách hàng mua ở TP HCM, Hà Nội, Đà Nẵng.
2. Tần số & tần suất khách hàng Nam, Nữ.
3. Mean, median, mode của Total và Rating.

## Script

### Using

In [1]:
import collections
import csv
from datetime import datetime

### Utilities

In [2]:
# Calculates the frequency distribution as a percentage based on given frequency and sample size
def frequency_distribution(requency=0, size=100):
    try:
        return requency * 100 / size
    except:
        return 0

### Fields

In [3]:
INVOICE_ID = 0
CITY = 1
CUSTOMER_TYPE = 2
GENDER = 3
PRODUCT_LINE = 4
UNIT_PRICE = 5
QUANTITY = 6
TAX = 7
TOTAL = 8
DATE = 9
TIME = 10
PAYMENT = 11
COGS = 12
RATING = 13

In [4]:
FOCUS_CITIES = ['TP HCM', 'Hà Nội', 'Đà Nẵng']
FOCUS_GENDERS = ['Nam', 'Nữ']

In [5]:
class Invoice:
    def __init__(self, invoiceId, city, gender, productLine, unitPrice, quantity, tax, total, date, time, payment, cogs, rating):
        self.invoiceId = invoiceId
        self.city = city
        self.gender = gender
        self.productLine = productLine
        self.unitPrice = unitPrice
        self.quantity = quantity
        self.tax = tax
        self.total = total
        self.date = date
        self.time = time
        self.payment = payment
        self.cogs = cogs
        self.rating = rating

### Common

In [6]:
# Sale records
def sales_record():
    invoices = []
    with open('supermarket_sales_vn.csv', 'r', encoding='utf-8') as f:
        data_reader = csv.reader(f)
        next(data_reader)
        for row in data_reader:
            invoiceId = row[INVOICE_ID]
            city = row[CITY]
            gender = row[GENDER]
            productLine = row[PRODUCT_LINE]
            unitPrice = float(row[UNIT_PRICE])
            quantity = int(row[QUANTITY])
            tax = float(row[TAX])
            total = float(row[TOTAL])
            date = datetime.strptime(row[DATE], '%m/%d/%y').date()
            time = datetime.strptime(row[TIME], '%H:%M').time()
            payment = row[PAYMENT]
            cogs = float(row[COGS])
            rating = float(row[RATING])
            invoices.append(Invoice(invoiceId, city, gender, productLine, unitPrice, quantity, tax, total, date, time, payment, cogs, rating))
    return invoices

In [7]:
# Frequency city
frequency_city = lambda invoices=[], city='': len(list([item for item in invoices if (item.city == city)]))

In [8]:
# Frequency gender
frequency_gender = lambda invoices=[], gender='': len(list([item for item in invoices if (item.gender == gender)]))

In [9]:
def main():
    invoices = sales_record()
    invoicesCount = len(invoices)
    # display result cities
    print('City')
    for item in FOCUS_CITIES:
        frequency = frequency_city(invoices, item)
        print(f'''Tần số khách hàng mua ở {item} là: {frequency} lần.
Tần suất khách hàng mua ở {item} là: {frequency_distribution(frequency, invoicesCount)}%.''')
    # display result genders
    print('\nGender')
    for item in FOCUS_GENDERS:
        frequency = frequency_gender(invoices, item)
        print(f'''Tần số khách hàng {item} là: {frequency} người.
Tần suất khách hàng {item} là: {frequency_distribution(frequency, invoicesCount)}%.''')
    # display mean, median, mode of total
    print('\nTotal')
    invoicesTotal = [item.total for item in invoices]
    print(f'''Mean = {sum(invoicesTotal) / invoicesCount}
Median = {sorted(invoicesTotal)[invoicesCount // 2]}
Mode = {collections.Counter(invoicesTotal).most_common(1)[0][0]}''')
    # display mean, median, mode of rating
    print('\nRating')
    invoicesRating = [item.rating for item in invoices]
    print(f'''Mean = {sum(invoicesRating) / invoicesCount}
Median = {sorted(invoicesRating)[invoicesCount // 2]}
Mode = {collections.Counter(invoicesRating).most_common(1)[0][0]}''')

In [10]:
main()

City
Tần số khách hàng mua ở TP HCM là: 490 lần.
Tần suất khách hàng mua ở TP HCM là: 49.0%.
Tần số khách hàng mua ở Hà Nội là: 274 lần.
Tần suất khách hàng mua ở Hà Nội là: 27.4%.
Tần số khách hàng mua ở Đà Nẵng là: 236 lần.
Tần suất khách hàng mua ở Đà Nẵng là: 23.6%.

Gender
Tần số khách hàng Nam là: 499 người.
Tần suất khách hàng Nam là: 49.9%.
Tần số khách hàng Nữ là: 501 người.
Tần suất khách hàng Nữ là: 50.1%.

Total
Mean = 322.96674900000005
Median = 254.016
Mode = 829.08

Rating
Mean = 6.972700000000003
Median = 7.0
Mode = 6.0
