In [1]:
import pandas as pd
import numpy as np
import os

# Đọc file CSV
file_path = r"F:\Dữ liệu thống kê\Sales by quarter.csv"
if os.path.exists(file_path):
    print("Tệp tồn tại!")
    data = pd.read_csv(file_path)
else:
    print("Tệp không tồn tại. Kiểm tra lại đường dẫn.")
    exit()

# Kiểm tra dữ liệu đã đọc
print(data.head())  # In ra vài dòng đầu tiên của dữ liệu từ tệp CSV
data.columns = ['Quarter', 'Tesla Sales', 'Total']

# Kiểm tra tên cột sau khi đổi tên
print(data.columns)  # In ra tên các cột

# Dictionary chứa số ngày của mỗi quý
quarter_days = {
    'Q1': 90,  # Tháng 1, 2, 3
    'Q2': 91,  # Tháng 4, 5, 6
    'Q3': 92,  # Tháng 7, 8, 9
    'Q4': 92   # Tháng 10, 11, 12
}

# Hàm random phân phối số xe bán theo ngày
def random_daily_sales(total_sales, num_days):
    daily_sales = np.random.randint(0, total_sales // num_days + 10, size=num_days)
    daily_sales = (daily_sales / daily_sales.sum() * total_sales).round().astype(int)
    # Điều chỉnh tổng cho khớp với tổng số quý
    difference = total_sales - daily_sales.sum()
    if difference > 0:
        for _ in range(difference):
            daily_sales[np.random.randint(0, num_days)] += 1
    elif difference < 0:
        for _ in range(-difference):
            daily_sales[np.random.randint(0, num_days)] -= 1
    return daily_sales

# Tạo DataFrame kết quả ban đầu (lần đầu tiên khởi tạo)
result_df = pd.DataFrame(columns=['Date', 'Daily Tesla Sales'])

# Ngày bắt đầu
current_date = pd.to_datetime('2019-01-01')

# Phân phối dữ liệu theo quý
for _, row in data.iterrows():
    quarter = row['Quarter'].split('-')[0]
    total_sales = row['Tesla Sales']
    num_days = quarter_days.get(quarter, 90)
    
    # Random phân phối số xe bán theo ngày
    daily_sales = random_daily_sales(total_sales, num_days)
    
    # Kiểm tra daily_sales
    print(f"Ngày bán trong quý {quarter}: {daily_sales}")
    
    # Tạo danh sách ngày
    dates = pd.date_range(start=current_date, periods=num_days)
    current_date = dates[-1] + pd.Timedelta(days=1)
    
    # Tạo DataFrame tạm thời cho quý hiện tại
    quarter_df = pd.DataFrame({'Date': dates, 'Daily Tesla Sales': daily_sales})
    
    # Kiểm tra nếu quarter_df không rỗng trước khi nối
    if not quarter_df.empty:
        result_df = pd.concat([result_df, quarter_df], ignore_index=True)

# In thử một vài dòng đầu tiên của DataFrame kết quả
print(result_df.head())

# Lưu kết quả vào tệp CSV
output_file_path = r"F:\Dữ liệu thống kê\Daily_Sales_2019_2024.csv"
result_df.to_csv(output_file_path, index=False)

# In ra tên file để xác nhận
print(f"Dữ liệu đã được lưu vào tệp: {output_file_path}")


Tệp tồn tại!
   Quarter  Tesla    Total
0  Q1-2019  46844  3952566
1  Q2-2019  36367  4391544
2  Q3-2019  42075  4275342
3  Q4-2019  53996  4425526
4  Q1-2020  52800  3505888
Index(['Quarter', 'Tesla Sales', 'Total'], dtype='object')
Ngày bán trong quý Q1: [ 780 1056  204  353  648  914   16  608  202  894  188  190  304  914
 1063  894  255  868 1225  587 1031  142 1044  682   77  631 1068  708
  841  631  914  357   26  378  731  125  125  383  631 1049  255   42
  123  332  543  197  585  566  344  966  385 1019  487  160  996   12
  991  381  696  209   16  606  487  425 1003  596 1010  353  594  650
  462  272   77   30  183  202   30  982  747  559  641  267    9  866
 1123  172  346  460  406  244]
Ngày bán trong quý Q2: [536 535 112 522 452 118 233 143 105  57 693 592 266 698 709 573 665 206
 156 141  37 134 702 722 338  83 739 132 551 525 575 263 696 683 553  85
 321   7  99 452 702 316 601 737 610 742 437 235 467 314 103 608 535 597
  15 259 555 355 200 380 518 516 358 152 70

  result_df = pd.concat([result_df, quarter_df], ignore_index=True)
