# Data Analysis - Phân tích dữ liệu

**Người phụ trách:** Người 3 - Data Analyst

## Mục tiêu:
- Phân tích thống kê mô tả
- Tìm patterns và trends
- Phát hiện insights quan trọng
- Đưa ra nhận định và đề xuất


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import skew, kurtosis

plt.style.use('ggplot')

df = pd.read_csv('../data/foodpanda_orders.csv')
df.head()

## Thống kê mô tả

In [None]:
desc = df.describe().T
desc['median'] = df.median()
desc['mode'] = df.mode().iloc[0]
desc['skewness'] = df.skew(numeric_only=True)
desc['kurtosis'] = df.kurtosis(numeric_only=True)
desc

## Kiểm tra phân phối dữ liệu từng biến

In [None]:
numeric_cols = df.select_dtypes(include=['int64','float64']).columns

for col in numeric_cols:
    plt.figure(figsize=(7,4))
    sns.histplot(df[col], kde=True)
    plt.title(f'Phân phối biến: {col}')
    plt.xlabel(col)
    plt.ylabel('Tần suất')
    plt.show()

## Kiểm tra phân phối chuẩn
Dựa vào skewness và kurtosis:
- **Skewness > 1** → lệch mạnh
- **Kurtosis > 3** → nhọn hơn phân phối chuẩn


In [None]:
for col in numeric_cols:
    print(f"Biến: {col}")
    print(f"  Skewness  : {df[col].skew():.3f}")
    print(f"  Kurtosis  : {df[col].kurtosis():.3f}")
    print('')

## Phân tích tương quan giữa các biến

In [None]:
plt.figure(figsize=(8,6))
corr = df.corr(numeric_only=True)
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f', linewidths=.5)
plt.title('Heatmap tương quan giữa các biến')
plt.show()

## Nhận xét nhanh (Insights)
- Kiểm tra phân phối giúp phát hiện biến lệch phải (right-skewed), thường gặp ở dữ liệu doanh thu.
- Skewness cao → dữ liệu không chuẩn → cần log-transform nếu dùng cho mô hình.
- Tương quan > 0.5 giữa các biến → có quan hệ đáng chú ý.
- Heatmap giúp xác định yếu tố ảnh hưởng đến thời gian giao hàng hoặc tổng tiền.
