# Dự án: Phân tích Dataset "Football Stadiums" (Kaggle)

CSC17104 – Lập trình cho Khoa học Dữ liệu

## 1. Data Collection

- **Dataset:** Football Stadiums (Kaggle)
- **Đường dẫn:** https://www.kaggle.com/datasets/imtkaggleteam/football-stadiums
- **Lưu ý:** đặt file CSV `football_stadiums.csv` vào cùng thư mục với notebook.

**Thông tin cần ghi trong báo cáo:** nguồn dữ liệu, tác giả, license, phương pháp thu thập, và lý do chọn dataset.


In [3]:
# --- Phần: Đọc dữ liệu (CSV thủ công) ---
import pandas as pd

# Đổi tên file nếu cần
FILE = 'football_stadiums.csv'

try:
    df = pd.read_csv(FILE)
    print('Đã load dữ liệu. Kích thước:', df.shape)
    display(df.head())
except FileNotFoundError:
    print(f"Không tìm thấy file '{FILE}'. Vui lòng đặt file CSV trong cùng thư mục notebook và chạy lại.")


Đã load dữ liệu. Kích thước: (2024, 8)


Unnamed: 0,Confederation,Stadium,City,HomeTeams,Capacity,Country,IOC,Population
0,UEFA,Stadiumi Besëlidhja,Lezhë,Besëlidhja,7000,Albania,ALB,2876591
1,UEFA,Stadiumi Flamurtari,Vlorë,Flamurtari Vlorë,8200,Albania,ALB,2876591
2,UEFA,Stadiumi Laçi,Laçi,KF Laçi,5000,Albania,ALB,2876591
3,UEFA,Stadiumi Niko Dovana,Durrës,Teuta,12040,Albania,ALB,2876591
4,UEFA,Stadiumi Selman Stërmasi,Tirana,"KF Tirana, Dinamo, Partizani",9500,Albania,ALB,2876591


## 2. Data Exploration (Khung phân tích)

Các bước khám phá dữ liệu nên làm:
1. Kiểm tra số hàng/cột, kiểu dữ liệu, giá trị null.
2. Phân tích biến số: `Capacity`, `Opened`, `Country`, `Region`, `Latitude`, `Longitude`.
3. Tìm duplicate, outliers, và placeholder values.


In [4]:
# Kiểm tra nhanh dữ liệu
if 'df' in globals():
    display(df.info())
    display(df.describe(include='all'))
    print('\nSố giá trị null theo cột:')
    print(df.isna().sum())
else:
    print('Chưa có dataframe `df`. Vui lòng chạy ô đọc dữ liệu trước.')


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2024 entries, 0 to 2023
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Confederation  2024 non-null   object
 1   Stadium        2024 non-null   object
 2   City           2024 non-null   object
 3   HomeTeams      2024 non-null   object
 4   Capacity       2024 non-null   int64 
 5   Country        2024 non-null   object
 6   IOC            2024 non-null   object
 7   Population     2024 non-null   int64 
dtypes: int64(2), object(6)
memory usage: 126.6+ KB


None

Unnamed: 0,Confederation,Stadium,City,HomeTeams,Capacity,Country,IOC,Population
count,2024,2024,2024,2024,2024.0,2024,2024,2024.0
unique,6,1993,1544,1636,,129,129,
top,UEFA,Stadion Gradski,London,-,,Poland,POL,
freq,1364,4,17,204,,242,242,
mean,,,,,22905.075099,,,99649310.0
std,,,,,20728.566347,,,232611200.0
min,,,,,244.0,,,32194.0
25%,,,,,7477.75,,,10291030.0
50%,,,,,16408.0,,,38433600.0
75%,,,,,32004.75,,,80810520.0



Số giá trị null theo cột:
Confederation    0
Stadium          0
City             0
HomeTeams        0
Capacity         0
Country          0
IOC              0
Population       0
dtype: int64


In [None]:
# Kiểm tra duplicate và dữ liệu thiếu
if 'df' in globals():
    print('Duplicate rows:', df.duplicated().sum())
    # Tỉ lệ missing
    miss = df.isna().sum().sort_values(ascending=False)
    display(miss[miss>0])
else:
    print('Chưa có dataframe `df`.')


### Phân tích biến số số (numerical)
- Vẽ histogram, boxplot cho `Capacity`.
- Kiểm tra min/max, mean, median, outliers (IQR).


In [None]:
import matplotlib.pyplot as plt

if 'df' in globals():
    if 'Capacity' in df.columns:
        plt.figure(figsize=(8,4))
        df['Capacity'].dropna().hist(bins=40)
        plt.title('Phân bố Capacity')
        plt.xlabel('Capacity')
        plt.ylabel('Số lượng sân')
        plt.show()

        plt.figure(figsize=(8,2))
        df.boxplot(column='Capacity')
        plt.title('Boxplot Capacity')
        plt.show()
    else:
        print('Không tìm thấy cột Capacity trong dataframe.')
else:
    print('Chưa có dataframe `df`.')


### Phân tích biến phân loại (categorical)
- Đếm số lượng theo `Country`, top 10 countries, phân bố theo `Region`.


In [None]:
if 'df' in globals():
    if 'Country' in df.columns:
        print('Top 10 countries có nhiều sân nhất:')
        display(df['Country'].value_counts().head(10))
    if 'Region' in df.columns:
        print('\nSố sân theo Region:')
        display(df['Region'].value_counts())
else:
    print('Chưa có dataframe `df`.')


### Missing Data – Gợi ý xử lý
- Với cột `Capacity` hoặc `Opened` bị thiếu: xem xét loại bỏ hàng nếu thiếu nhiều, hoặc impute bằng median nếu chỉ vài mẫu.
- Ghi rõ lý do và ảnh hưởng khi chọn cách xử lý.


In [None]:
# Ví dụ: hiển thị các hàng thiếu Capacity hoặc Opened
if 'df' in globals():
    display(df[df['Capacity'].isna()].head())
    display(df[df['Opened'].isna()].head())
else:
    print('Chưa có dataframe `df`.')


### Quan hệ giữa các biến (Relationships & Correlations)
- Tạo ma trận tương quan cho các cột số.
- So sánh Capacity theo Region/Opened.


In [None]:
import seaborn as sns

if 'df' in globals():
    numeric = df.select_dtypes(include=['number'])
    if not numeric.empty:
        plt.figure(figsize=(6,5))
        sns.heatmap(numeric.corr(), annot=True, fmt='.2f')
        plt.title('Correlation matrix (numeric)')
        plt.show()
    else:
        print('Không tìm thấy cột số nào để tính corr.')
else:
    print('Chưa có dataframe `df`.')


## 3. Research Questions (6 câu cho nhóm 3 người)

Dưới đây là 6 câu hỏi gợi ý — copy vào báo cáo và thực hiện phân tích cho từng câu.

1. Quốc gia nào có nhiều sân vận động nhất? (Descriptive)
2. Phân bố sức chứa (Capacity) trên toàn cầu như thế nào? (Descriptive)
3. Liệu các sân mới (Opened gần đây) có xu hướng có sức chứa lớn hơn không? (Correlation)
4. So sánh độ tuổi trung bình của sân theo từng Region (Comparative)
5. (ML) Dự đoán `Capacity` dựa trên `Opened`, `Region`, `Country` (Regression)
6. Các sân tổ chức sự kiện lớn (World Cup, Euro) khác biệt như thế nào về capacity và vị trí? (Analytical)

Mỗi câu nên có: Motivation, Preprocessing, Code, Visualization, Result & Interpretation.


In [None]:
# Mẫu code để trả lời 1 câu: (ví dụ câu 1)
if 'df' in globals():
    q1 = df['Country'].value_counts().reset_index()
    q1.columns = ['Country','Count']
    display(q1.head(20))
    # Vẽ bar chart top 10
    plt.figure(figsize=(6,6))
    sns.barplot(y='Country', x='Count', data=q1.head(10))
    plt.title('Top 10 quốc gia có nhiều sân nhất')
    plt.show()
else:
    print('Chưa có dataframe `df`.')


## 4. Machine Learning (ví dụ: Regression cho Capacity)

Gợi ý: sử dụng LinearRegression và một model tree-based (RandomForest) để so sánh.
Metrics: MAE, RMSE, R².


In [None]:
# --- Mẫu ML: dự đoán Capacity ---
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

if 'df' in globals():
    # Chuẩn bị dữ liệu (ví dụ đơn giản)
    tmp = df.copy()
    # Loại bỏ hàng thiếu Capacity hoặc Opened
    if 'Capacity' in tmp.columns and 'Opened' in tmp.columns:
        tmp = tmp.dropna(subset=['Capacity','Opened'])
        # Chuyển Region sang dummies nếu có
        X = tmp[['Opened']].copy()
        if 'Region' in tmp.columns:
            X = pd.concat([X, pd.get_dummies(tmp['Region'], prefix='Reg', drop_first=True)], axis=1)
        y = tmp['Capacity']

        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        lr = LinearRegression()
        lr.fit(X_train, y_train)
        y_pred = lr.predict(X_test)

        print('Linear Regression MAE:', mean_absolute_error(y_test, y_pred))
        print('Linear Regression R2:', r2_score(y_test, y_pred))

        rf = RandomForestRegressor(n_estimators=100, random_state=42)
        rf.fit(X_train, y_train)
        y_pred_rf = rf.predict(X_test)
        print('RandomForest MAE:', mean_absolute_error(y_test, y_pred_rf))
        print('RandomForest R2:', r2_score(y_test, y_pred_rf))
    else:
        print('Cần có cột Capacity và Opened để chạy mẫu ML.')
else:
    print('Chưa có dataframe `df`.')


## 5. Kết luận, Limitations và Hướng phát triển

- **Key findings**: (liệt kê 3-5 insight quan trọng từ phân tích)
- **Limitations**: dữ liệu thiếu, bias, không có biến quan trọng như chi phí, tình trạng sân
- **Future work**: thêm data host events, scrape lịch sử World Cup/Olympic, phân tích không gian (spatial)

---

## 6. Gửi nộp
- README.md: mô tả dataset, cách chạy notebook, câu hỏi nghiên cứu.
- Nộp file `Football_Stadiums_Project.ipynb` và CSV nguồn.
