In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches

In [2]:
matches = pd.read_csv("E:/BTL/KHDL/matches_after_preprocessing.csv", index_col=0)

In [3]:
matches = matches.fillna(0)
del matches["comp"]
del matches["notes"]
matches["date"] = pd.to_datetime(matches["date"])
matches["target"] = (matches["result"] == "W").astype("int")

KeyError: 'comp'

In [None]:
matches["venue_code"] = matches["venue"].astype("category").cat.codes
matches["opp_code"] = matches["opponent"].astype("category").cat.codes
matches["hour"] = matches["time"].str.replace(":.+", "", regex=True).astype("int")
matches["day_code"] = matches["date"].dt.dayofweek

In [None]:
data = matches

In [None]:
result_counts = data['result'].value_counts()
plt.figure(figsize=(6, 6))
plt.pie(result_counts, labels=result_counts.index, autopct='%1.1f%%', startangle=90)
plt.title('Phân bố kết quả trận đấu')
plt.axis('equal')
plt.show()

In [None]:
# Lấy mẫu ngẫu nhiên 500 hàng từ tập dữ liệu
sample_df = data.sample(n=500)

# Tính toán thống kê tổng quan của dữ liệu
summary_stats = data.describe()

In [None]:
summary_stats

In [None]:
# Trực quan hóa phân phối của số bàn thắng của đội chủ nhà
plt.figure(figsize=(8, 6))
sns.histplot(sample_df['gf'], kde=True)
plt.xlabel('Số bàn thắng của đội chủ nhà')
plt.ylabel('Tần suất')
plt.title('Phân phối số bàn thắng của đội chủ nhà')
plt.grid(True)
plt.show()

In [None]:
# Trực quan hóa biểu đồ boxplot cho xếp hạng xG của đội chủ nhà theo giải đấu
plt.figure(figsize=(10, 6))
sns.boxplot(data, x='team', y='xg')
plt.xlabel('Đội')
plt.ylabel('Xếp hạng xG')
plt.title('Xếp hạng xG của đội chủ nhà')
plt.xticks(rotation=90)
plt.grid(True)
plt.show()

In [None]:
# Sử dụng biểu đồ heatmap để hiển thị ma trận tương quan giữa các biến
corr_matrix = data.corr()
plt.figure(figsize=(14, 12))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm', annot_kws={"size": 10})
plt.title('Ma trận tương quan')
plt.show()

In [None]:
# Tạo biểu đồ barplot
plt.figure(figsize=(10, 6))
sns.boxplot(data=matches, x='gf', y='poss')

# Thiết lập tiêu đề và nhãn trục
plt.xlabel('Số bàn thắng')
plt.ylabel('Tỷ lệ kiểm soát bóng')
plt.title('Tương quan giữa số bàn thắng và tỷ lệ kiểm soát bóng')

plt.xticks(rotation=90)
plt.grid(True)
plt.show()

In [None]:
# Trực quan hóa biểu đồ boxplot cho xếp hạng xG của đội chủ nhà theo giải đấu
plt.figure(figsize=(10, 6))
sns.boxplot(data=matches, x='team', y='xg')
plt.xlabel('Đội')
plt.ylabel('Xếp hạng xG')
plt.title('Xếp hạng xG của đội chủ nhà')
plt.xticks(rotation=90)
plt.grid(True)
plt.show()

In [None]:
# Tạo biểu đồ hộp
plt.figure(figsize=(15, 10))
sns.boxplot(data=data, x='sh', y='shot_accuracy')

# Thiết lập tiêu đề và nhãn trục
plt.xlabel('Tổng số cú sút')
plt.ylabel('Tỷ lệ sút trúng đích')
plt.title('Biểu đồ tỷ lệ sút trúng đích và tổng số cú sút')

# Hiển thị biểu đồ
plt.show()

In [None]:
plt.figure(figsize=(15, 10))
sns.boxplot(data=data, x='xg', y='gf')

# Thiết lập tiêu đề và nhãn trục
plt.xlabel('Xếp hạng xG')
plt.ylabel('Số bàn thắng')
plt.title('Biểu đồ tương quan giữa xếp hạng xG và số bàn thắng')

# Hiển thị biểu đồ
plt.show()

In [None]:
plt.figure(figsize=(25, 10))
sns.boxplot(data=data, x='poss', y='gf')

# Thiết lập tiêu đề và nhãn trục
plt.xlabel('Tỷ lệ kiểm soát bóng')
plt.ylabel('Số bàn thắng')
plt.title('Biểu đồ tương quan giữa tỷ lệ kiểm soát bóng và số bàn thắng')

# Hiển thị biểu đồ
plt.show()

In [None]:
data[['fk', 'pk']].plot.hist(alpha=0.5, bins=10)
plt.xlabel('Số lượt sút')
plt.ylabel('Số lượng trận đấu')
plt.title('Phân bố sút phạt và sút penalty')
plt.legend(['Sút phạt', 'Sút penalty'])
plt.show()

In [None]:
plt.figure(figsize=(20, 10))
sns.boxplot(data=data, x='xg', y='poss')

# Thiết lập tiêu đề và nhãn trục
plt.xlabel('Xếp hạng xG')
plt.ylabel('Tỷ lệ kiểm soát bóng')
plt.title('Biểu đồ tương quan giữa xếp hạng xG và tỷ lệ kiểm soát bóng')

# Hiển thị biểu đồ
plt.show()

In [None]:
# Tính tổng số bàn thắng của từng đội theo mùa giải
goals_by_team = data.groupby(['season', 'team'])['gf'].sum().reset_index()

# Vẽ biểu đồ cột
plt.figure(figsize=(15, 10))
sns.barplot(data=goals_by_team, x='season', y='gf', hue='team')

# Thiết lập tiêu đề và nhãn trục
plt.xlabel('Mùa giải')
plt.ylabel('Tổng số bàn thắng')
plt.title('Tổng số bàn thắng của từng đội theo mùa giải')

# Hiển thị biểu đồ
plt.legend(title='Đội')
plt.show()

In [None]:
matches

In [None]:
matches.info

In [None]:
# Tạo subplot
fig, axs = plt.subplots(6, 2, figsize=(12, 20))

# Chỉ mục cho vị trí của biểu đồ trong subplot
row_index = 0
col_index = 0

# Lặp qua từng đặc trưng và vẽ biểu đồ
for feature, ax in zip(sample_df.keys(), axs.flat):
    # Tạo biểu đồ cột đếm số lượng
    sns.countplot(x=feature, data=sample_df, ax=ax)
    ax.set_title(feature)
    # ax.set_xlabel('')
    ax.set_ylabel('Count')

    # Kiểm tra vị trí của biểu đồ trong subplot để điều chỉnh chỉ mục
    if col_index < 2:
        col_index += 1
    else:
        row_index += 1
        col_index = 0
# Tạo bảng chú thích bên phải
handles, labels = axs[0, 1].get_legend_handles_labels()
fig.legend(handles, labels, loc='right')

# Tự động căn chỉnh và hiển thị biểu đồ
fig.tight_layout()
plt.show()