In [None]:
import pandas as pd

# Load the Excel file to examine its structure and the sheet names
file_path = 'world_cup_results.xlsx'
excel_data = pd.ExcelFile(file_path)

# Display sheet names to understand the structure of the file
sheet_names = excel_data.sheet_names
sheet_names

# Load the first few rows of each sheet to examine their structure and contents
matches_df = excel_data.parse('WorldCupMatches').head()
world_cup_tableau_df = excel_data.parse('World Cup - Tableau format').head()
world_cups_df = excel_data.parse('WorldCups').head()

matches_df, world_cup_tableau_df, world_cups_df


(   Year       Date     Time    Round         Stadium         City  Country  \
 0  1930 1930-07-13   15:00   Group 1         Pocitos  Montevideo   Uruguay   
 1  1930 1930-07-13   15:00   Group 4  Parque Central  Montevideo   Uruguay   
 2  1930 1930-07-14   12:45   Group 2  Parque Central  Montevideo   Uruguay   
 3  1930 1930-07-14   14:50   Group 3         Pocitos  Montevideo   Uruguay   
 4  1930 1930-07-15   16:00   Group 1  Parque Central  Montevideo   Uruguay   
 
      HomeTeam  HomeGoals  AwayGoals AwayTeam Observation  
 0      France          4          1   Mexico              
 1         USA          3          0  Belgium              
 2  Yugoslavia          2          1   Brazil              
 3     Romania          3          1     Peru              
 4   Argentina          1          0   France              ,
    Year  Game #       Date     Time    Round         Stadium         City  \
 0  1930       1 1930-07-13   15:00   Group 1         Pocitos  Montevideo    
 1  193

In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
!pip install kaleido

# Đọc file Excel và các trang khác nhau
file_path = 'world_cup_results.xlsx'
matches_data = pd.read_excel(file_path, sheet_name="WorldCupMatches")
tableau_data = pd.read_excel(file_path, sheet_name="World Cup - Tableau format")
world_cups_data = pd.read_excel(file_path, sheet_name="WorldCups")

Collecting kaleido
  Downloading kaleido-0.2.1-py2.py3-none-manylinux1_x86_64.whl.metadata (15 kB)
Downloading kaleido-0.2.1-py2.py3-none-manylinux1_x86_64.whl (79.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: kaleido
Successfully installed kaleido-0.2.1


In [None]:
# 1. Phân tích số bàn thắng mỗi năm (WorldCupMatches)
# Tính tổng số bàn thắng mỗi năm
matches_data['TotalGoals'] = matches_data['HomeGoals'] + matches_data['AwayGoals']
goals_per_year = matches_data.groupby('Year')['TotalGoals'].sum().reset_index()

fig1 = px.bar(goals_per_year, x='Year', y='TotalGoals', title='Số bàn thắng mỗi năm')

fig1.update_traces(marker=dict(line=dict(width=1, color='pink'),color='lightblue'),width = 2.5)  # Tùy chỉnh màu của cột
fig1.update_layout(
    xaxis_title='Năm',
    yaxis_title='Tổng số bàn thắng',
    title_font=dict(size=20),
    title_x=0.5,  # Tùy chỉnh tiêu đề
    yaxis=dict(titlefont=dict(size=16), tickfont=dict(size=14)),  # Tùy chỉnh trục y
    xaxis=dict(
        tickformat='d',
        tickangle=45,
        titlefont=dict(size=16),
        tickfont=dict(size=14),
    ),
    plot_bgcolor='rgba(245, 245, 245, 1)',  # Đặt nền sáng
    margin=dict(l=50, r=50, t=60, b=50)
)

fig1.show()


In [None]:
# 2. Phân tích tỷ lệ thắng của đội chủ nhà (WorldCupMatches)
matches_data['HomeWin'] = matches_data['HomeGoals'] > matches_data['AwayGoals']
home_win_rate = matches_data['HomeWin'].mean() * 100

# Tạo biểu đồ Pie
fig2 = go.Figure(data=[go.Pie(
    labels=['Thắng', 'Thua'],
    values=[home_win_rate, 100 - home_win_rate],
    hole=0.3,  # Tạo hình bánh rán (donut chart)
    textinfo='percent+label',  # Hiển thị phần trăm và nhãn
    marker=dict(colors=['lightgreen', 'pink']),  # Màu sắc của các phần
    hoverinfo='label+percent',  # Hiển thị phần trăm khi hover
    textfont=dict(family='Arial', size=16, color='black', weight='bold')
)])

# Cập nhật layout cho biểu đồ
fig2.update_layout(
    title="Tỷ lệ thắng của đội chủ nhà",
    title_font=dict(size=20),  # Kích thước tiêu đề
    title_x=0.5,  # Căn giữa tiêu đề
    # font=dict(size=14),  # Kích thước font của các nhãn
    plot_bgcolor='rgba(245, 245, 245, 1)',  # Nền sáng
    margin=dict(l=50, r=50, t=60, b=50)  # Lề của biểu đồ
)

fig2.show()

In [None]:
# 3. Phân bố số trận theo thành phố (WorldCupMatches)
city_counts = matches_data['City'].value_counts().nlargest(10).reset_index()
city_counts.columns = ['City', 'MatchCount']
city_counts['MatchLabel'] = city_counts['MatchCount'].apply(lambda x: f"{x} trận")
# Tạo biểu đồ tròn
fig3 = go.Figure(data=[go.Pie(
    labels=city_counts['City'],
    values=city_counts['MatchCount'],
    text=city_counts['MatchLabel'],
    hole=0.3,  # Tạo hình bánh rán (donut chart)
    textinfo='percent+label+text',  # Hiển thị phần trăm và nhãn
    marker=dict(colors=['#4CAF50', '#FF5722', '#03A9F4', '#9C27B0', '#FF9800', '#2196F3', '#009688', '#673AB7', '#FF5722', '#00BCD4']),  # Màu sắc của các phần
    hoverinfo='label+percent+text',  # Hiển thị phần trăm khi hover
    textfont=dict(family='Arial', size=12, color='black', weight='bold')  # Định dạng chữ đậm
)])

fig3.update_layout(
    title="Top 10 thành phố tổ chức nhiều trận nhất",
    title_font=dict(size=20),  # Kích thước tiêu đề
    title_x=0.5,  # Căn giữa tiêu đề
    font=dict(size=14),  # Kích thước font của các nhãn
    plot_bgcolor='rgba(245, 245, 245, 1)',  # Nền sáng
    margin=dict(l=50, r=50, t=60, b=50)  # Lề của biểu đồ
)

fig3.show()

In [None]:
city_counts = matches_data['City'].value_counts().nlargest(10).reset_index()
city_counts.columns = ['City', 'MatchCount']

# Tính tổng số bàn thắng cho mỗi thành phố
matches_data['TotalGoals'] = matches_data['HomeGoals'] + matches_data['AwayGoals']
total_goals_per_city = matches_data.groupby('City')['TotalGoals'].sum().reset_index()
city_counts = city_counts.merge(total_goals_per_city, on='City', how='left')

# Tạo biểu đồ cột cho số trận đấu
fig3 = go.Figure(data=[
    # Biểu đồ cột cho số trận đấu
    go.Bar(
        x=city_counts['City'],
        y=city_counts['MatchCount'],
        text=city_counts['MatchCount'],
        textposition='auto',  # Hiển thị số trận trên các cột
        marker=dict(color='lightblue'),
        name="Số trận đấu",
        hoverinfo='x+y',  # Hiển thị khi hover
        width=0.6
    ),

    # Đường cho số bàn thắng
    go.Scatter(
        x=city_counts['City'],
        y=city_counts['TotalGoals'],
        mode='lines+markers',  # Vẽ đường với các điểm
        name='Tổng số bàn thắng',
        yaxis='y2',  # Sử dụng trục y phụ cho số bàn thắng
        line=dict(color='orange', width=4, dash='dot'),  # Đường đứt nét với màu cam
        marker=dict(color='orange', size=10)  # Màu và kích thước các điểm
    )
])

fig3.update_layout(
    title="Top 10 thành phố tổ chức nhiều trận đấu và tổng số bàn thắng",
    title_font=dict(size=22, color='black'),  # Kích thước và màu tiêu đề
    title_x=0.5,  # Căn giữa tiêu đề
    xaxis_title='Thành phố',  # Tiêu đề trục X
    yaxis_title='Số trận đấu',  # Tiêu đề trục Y chính
    yaxis2=dict(
        title='Tổng số bàn thắng',  # Tiêu đề trục Y phụ
        overlaying='y',  # Đặt trục này chồng lên trục Y chính
        side='right',  # Đặt trục này ở phía bên phải
        range=[0, city_counts['TotalGoals'].max() * 1.1]  # Cập nhật phạm vi của trục Y phụ
    ),
    font=dict(size=14, family="Arial"),  # Kích thước font của các nhãn
    plot_bgcolor='rgba(245, 245, 245, 1)',  # Nền sáng
    margin=dict(l=50, r=50, t=60, b=50),  # Lề của biểu đồ
    hovermode='closest'  # Hiển thị thông tin khi hover gần các điểm
)


fig3.show()

In [4]:
# 5. Hiệu suất ghi bàn trung bình mỗi trận của các đội (World Cup - Tableau format)
home_goals = tableau_data.groupby('Team')['Team G'].sum()
away_goals = tableau_data.groupby('Opponent')['Opponent G'].sum()

team_total_goals = home_goals.add(away_goals, fill_value=0)
team_match_counts = tableau_data['Team'].value_counts().add(tableau_data['Opponent'].value_counts(), fill_value=0)
team_goal_avg = (team_total_goals / team_match_counts).sort_values(ascending=False).nlargest(20).reset_index()
team_goal_avg.columns = ['Team', 'AvgGoalsPerMatch']

fig5 = px.bar(
    team_goal_avg,
    x='Team',
    y='AvgGoalsPerMatch',
    title='Hiệu suất ghi bàn trung bình mỗi trận của các đội',
    text='AvgGoalsPerMatch'
)

fig5.update_traces(
    marker=dict(
        color='lightblue',
        line=dict(width=1.5, color='darkblue')
    ),
    textposition='outside',
    texttemplate='%{text:.2f}'
)

fig5.update_layout(
    xaxis_title='Đội',
    yaxis_title='Bàn thắng trung bình mỗi trận',
    title_font=dict(size=20),
    title_x=0.5,
    yaxis=dict(
        titlefont=dict(size=16),
        tickfont=dict(size=14)
    ),
    xaxis=dict(
        titlefont=dict(size=16),
        tickfont=dict(size=12),
        tickangle=-45
    ),
    plot_bgcolor='rgba(245, 245, 245, 1)',
    margin=dict(l=50, r=50, t=60, b=150)
)

fig5.show()

In [6]:
# 6. Số trận mỗi năm (WorldCups)
matches_per_year = world_cups_data.groupby('Year')['MatchesPlayed'].sum().reset_index()

fig6 = px.bar(
    matches_per_year,
    x='Year',
    y='MatchesPlayed',
    title='Số trận mỗi năm',
    text='MatchesPlayed'
)

fig6.update_traces(
    marker=dict(
        color='lightgreen',
        line=dict(width=1.5, color='darkgreen')
    ),
    textposition='outside',
    texttemplate='%{text}'
)


fig6.update_layout(
    xaxis_title='Năm',
    yaxis_title='Số trận',
    title_font=dict(size=20),
    title_x=0.5,
    yaxis=dict(
        titlefont=dict(size=16),
        tickfont=dict(size=14)
    ),
    xaxis=dict(
        titlefont=dict(size=16),
        tickfont=dict(size=12),
        tickangle=-45
    ),
    plot_bgcolor='rgba(245, 245, 245, 1)',
    margin=dict(l=50, r=50, t=60, b=150)
)

fig6.show()

In [20]:

# 8. Tỷ lệ thắng của các đội vô địch (WorldCups)
champion_counts = world_cups_data['Winner'].value_counts().reset_index()
champion_counts.columns = ['Team', 'Championships']

fig8 = px.pie(
    champion_counts,
    names='Team',
    values='Championships',
    title='Tỷ lệ vô địch của các đội qua các kỳ World Cup',
    hole=0.3,
)

fig8.update_traces(
    textinfo='label+percent+value',
    marker=dict(line=dict(color='white', width=2)) ,
    textfont=dict(family='Arial', size=12, color='black', weight='bold')
)

fig8.update_layout(
    title_font=dict(size=20),
    title_x=0.5,
    showlegend=True,
    plot_bgcolor='rgba(245, 245, 245, 1)',
    margin=dict(l=50, r=50, t=80, b=50)
)

fig8.show()



In [None]:
# 7. Lượng khán giả trung bình mỗi trận qua các kỳ World Cup(WorldCups)
# Đảm bảo các cột 'Attendance' và 'MatchesPlayed' là số
world_cups_data['Attendance'] = pd.to_numeric(world_cups_data['Attendance'], errors='coerce')
world_cups_data['MatchesPlayed'] = pd.to_numeric(world_cups_data['MatchesPlayed'], errors='coerce')


# Tính lượng khán giả trung bình mỗi trận
world_cups_data['AvgAttendance'] = world_cups_data['Attendance'] / world_cups_data['MatchesPlayed']

# Vẽ biểu đồ đường với các điểm đánh dấu
fig7 = px.line(world_cups_data, x='Year', y='AvgAttendance', title='Lượng khán giả trung bình mỗi trận qua các kỳ World Cup',
               markers=True, line_shape='spline')

fig7.update_layout(
    xaxis_title='Năm',
    yaxis_title='Lượng khán giả trung bình',
    title_font=dict(size=20),
    title_x=0.5,
    xaxis=dict(titlefont=dict(size=16), tickfont=dict(size=14), tickangle=45),
    yaxis=dict(titlefont=dict(size=16), tickfont=dict(size=14)),
    plot_bgcolor='rgba(245, 245, 245, 1)',
    margin=dict(l=50, r=50, t=60, b=50)
)

fig7.update_traces(
    marker=dict(size=8, color='blue'),
    line=dict(color='green', width=2)
)

fig7.show()

In [None]:
# Tính toán hiệu suất ghi bàn (GoalsScored / MatchesPlayed)
world_cups_data['GoalsPerMatch'] = world_cups_data['GoalsScored'] / world_cups_data['MatchesPlayed']

# Vẽ biểu đồ line chart để thể hiện hiệu suất ghi bàn qua từng năm
fig = px.line(
    world_cups_data,
    x='Year',
    y='GoalsPerMatch',
    title='Hiệu suất ghi bàn qua các kỳ World Cup',
    labels={'GoalsPerMatch': 'Số bàn trung bình mỗi trận', 'Year': 'Năm'}
)

# Hiển thị biểu đồ
fig.show()

In [None]:

# Đếm số lần vô địch, về nhì và hạng ba cho mỗi đội
team_counts = (
    world_cups_data[['Winner', 'Runners-Up', 'Third']]
    .melt(var_name='Position', value_name='Team')
    .groupby(['Team', 'Position'])
    .size()
    .unstack(fill_value=0)
)

# Sắp xếp theo tổng số lần vào top 3 (vô địch, thứ 2, thứ 3)
team_counts = team_counts.loc[team_counts.sum(axis=1).sort_values(ascending=False).index]

fig = px.bar(
    team_counts,
    x=team_counts.index,
    y=['Winner', 'Runners-Up', 'Third'],
    title='Số lần các đội đạt hạng Vô địch, Hạng hai và Hạng 3 tại World Cup',
    labels={'value': 'Số lần', 'Team': 'Đội'},
    color_discrete_sequence=px.colors.qualitative.Pastel
)

fig.update_layout(xaxis_title='Đội', yaxis_title='Số lần', barmode='stack')

fig.for_each_trace(lambda t: t.update(name=t.name.replace('Winner', 'Vô địch').replace('Runners-Up', 'Hạng hai').replace('Third', 'Hạng ba')))

fig.show()

In [None]:

# Đếm số lần các quốc gia tổ chức World Cup và sắp xếp theo số lần giảm dần
host_counts = world_cups_data['Country'].value_counts().reset_index()
host_counts.columns = ['Country', 'Count']
host_counts = host_counts.sort_values(by='Count', ascending=False)

# Vẽ biểu đồ cột
fig = px.bar(
    host_counts,
    x='Country',
    y='Count',
    title='Số lần các quốc gia tổ chức World Cup',
    labels={'Count': 'Số lần tổ chức', 'Country': 'Quốc gia'},
    color='Count',  # Sử dụng màu theo giá trị Count
    color_continuous_scale='Viridis'  # Thay đổi màu sắc cho phù hợp
)

fig.update_layout(
    xaxis_title='Quốc gia',
    yaxis_title='Số lần tổ chức',
    plot_bgcolor='rgba(0,0,0,0)',
    paper_bgcolor='rgba(0,0,0,0)',
    font=dict(size=14, family='Arial'),
    title_font=dict(size=20, color='#333'),
    margin=dict(l=40, r=40, t=60, b=80),  # Tăng khoảng cách dưới
    xaxis_tickangle=-45,  # Để các nhãn trục X nghiêng dễ đọc
    xaxis_tickmode='array',  # Đảm bảo các nhãn trên trục X không bị cắt
)

fig.update_traces(
    textposition='outside',  # Đặt giá trị trên các cột
    hovertemplate='<b>%{x}</b><br>Số lần tổ chức: %{y}<extra></extra>',  # Thêm thông tin khi hover
)

fig.show()
