# 파이썬을 활용한 데이터 시각화
* Pandas 라이브러리 복습
* Plotly 개요
* 시각화 실습
* 심화 강의 (선택)

# Pandas 기초


## Pandas란?

파이썬을 통한 데이터 분석을 위하여 꼭 필요한 "라이브러리" 중 하나입니다. dataframe이라는 것을 통하여 데이터를 다루는데 엑셀 형식의 데이터를 다루는 것에 특화되어 있습니다.

이번에는 샘플 데이터를 통해 이 Pandas의 기능과 다루는 방법에 대하여 간단하게 알아보도록 하겠습니다.

In [3]:
import pandas as pd # pandas 라이브러리를 pd라는 이름으로 가져온다

In [2]:
df1 = pd.read_excel('player_stats.xlsx', engine='openpyxl') # Excel 파일을 read_excel 함수를 사용하여 읽어온다

In [3]:
print(df1.columns)

Index(['Match', 'Competition', 'Date', 'Position', 'Minutes played', 'Goals',
       'Assists', 'Shots / on target', 'Unnamed: 8', 'xG', 'Shot assists',
       'Crosses / accurate', 'Unnamed: 12', 'Dribbles / successful',
       'Unnamed: 14', 'Offensive duels / won', 'Unnamed: 16',
       'Touches in penalty area', 'Offsides', 'Progressive runs',
       'Fouls suffered'],
      dtype='object')


In [4]:
df2 = pd.read_excel('player_stats2.xlsx', engine='openpyxl')
df3 = pd.read_excel('player_stats3.xlsx', engine='openpyxl')

In [5]:
print(df2.columns)

Index(['Match', 'Competition', 'Date', 'Position', 'Minutes played',
       'Passes / accurate', 'Unnamed: 6', 'Long passes / accurate',
       'Unnamed: 8', 'Through passes / accurate', 'Unnamed: 10',
       'Crosses / accurate', 'Unnamed: 12', 'Assists', 'xA', 'Second assists',
       'Passes to final third / accurate', 'Unnamed: 17',
       'Passes to penalty area / accurate', 'Unnamed: 19', 'Received passes',
       'Forward passes / accurate', 'Unnamed: 22', 'Back passes / accurate',
       'Unnamed: 24'],
      dtype='object')


In [6]:
print(df3.columns)

Index(['Match', 'Competition', 'Date', 'Position', 'Minutes played',
       'Defensive duels / won', 'Unnamed: 6', 'Aerial duels / won',
       'Unnamed: 8', 'Loose ball duels / won', 'Unnamed: 10',
       'Sliding tackles / successful', 'Unnamed: 12', 'Interceptions',
       'Losses / own half', 'Unnamed: 15', 'Recoveries / opp. half',
       'Unnamed: 17', 'Clearances', 'Fouls', 'Yellow cards', 'Red cards'],
      dtype='object')


두 Column이 하나의 이름을 공유하고 있으면, 두 번째 column의 이름이 "`Unnamed: 숫자`"로 자동으로 변경됩니다.

이 상태에서는 보기가 어려우니, 보기 쉬운 이름으로 바꿔봅시다!

rename 함수를 사용하면 쉽게 바꿀 수 있다.

In [7]:
# {"바꾸고 싶은 이름": "바꿀 이름"} 형태의 딕셔너리로 입력을 넣는다.
df1 = df1.rename(columns={
    "Shots / on target": "Shots", # 예시) Shots / on target 이름의 column을 Shots로 바꾼다.
    "Unnamed: 8": "Shots on target",
    "Crosses / accurate": "Crosses",
    "Unnamed: 12": "Crosses accurate",
    "Dribbles / successful": "Dribbles",
    "Unnamed: 14": "Dribbles successful",
    "Offensive duels / won": "Offensive duels",
    "Unnamed: 16": "Offensive duels won"
})
df2 = df2.rename(columns={
    "Passes / accurate": "Passes",
    "Unnamed: 6": "Passes accurate",
    "Long passes / accurate": "Long passes",
    "Unnamed: 8": "Long passes accurate",
    "Through passes / accurate": "Through passes",
    "Unnamed: 10": "Through passes accurate",
    "Crosses / accurate": "Crosses",
    "Unnamed: 12": "Crosses accurate",
    "Passes to final third / accurate": "Passes to final third",
    "Unnamed: 17": "Passes to final third accurate",
    "Passes to penalty area / accurate": "Passes to penalty area",
    "Unnamed: 19": "Passes to penalty area accurate",
    "Forward passes / accurate": "Forward passes",
    "Unnamed: 22": "Forward passes accurate",
    "Back passes / accurate": "Back passes",
    "Unnamed: 24": "Back passes accurate"
})
df3 = df3.rename(columns={
    "Defensive duels / won": "Defensive duels",
    "Unnamed: 6": "Defensive duels won",
    "Aerial duels / won": "Aerial duels",
    "Unnamed: 8": "Aerial duels won",
    "Loose ball duels / won": "Loose ball duels",
    "Unnamed: 10": "Loose ball duels won",
    "Sliding tackles / successful": "Sliding tackles",
    "Unnamed: 12": "Sliding tackles successful",
})

In [8]:
df = pd.merge(df1, df2)
df = pd.merge(df, df3)
print(df.columns)

Index(['Match', 'Competition', 'Date', 'Position', 'Minutes played', 'Goals',
       'Assists', 'Shots', 'Shots on target', 'xG', 'Shot assists', 'Crosses',
       'Crosses accurate', 'Dribbles', 'Dribbles successful',
       'Offensive duels', 'Offensive duels won', 'Touches in penalty area',
       'Offsides', 'Progressive runs', 'Fouls suffered', 'Passes',
       'Passes accurate', 'Long passes', 'Long passes accurate',
       'Through passes', 'Through passes accurate', 'xA', 'Second assists',
       'Passes to final third', 'Passes to final third accurate',
       'Passes to penalty area', 'Passes to penalty area accurate',
       'Received passes', 'Forward passes', 'Forward passes accurate',
       'Back passes', 'Back passes accurate', 'Defensive duels',
       'Defensive duels won', 'Aerial duels', 'Aerial duels won',
       'Loose ball duels', 'Loose ball duels won', 'Sliding tackles',
       'Sliding tackles successful', 'Interceptions', 'Losses / own half',
       'Unnamed:

### 경기 날짜를 통해 경기 분류하기

Date 값을 보면 각 경기가 치뤄진 날짜를 알 수 있습니다.



In [9]:
date_list = df["Date"].tolist() # tolist 함수를 통해 리스트 형태로 변환합니다.
print(date_list)

['2022-09-18', '2022-09-14', '2022-09-11', '2022-09-03', '2022-08-29', '2022-08-20', '2022-08-14', '2022-08-06', '2022-08-02', '2022-07-30', '2022-07-16', '2022-07-10', '2022-07-02', '2022-06-29', '2022-06-26', '2022-06-21', '2022-06-17', '2022-05-29', '2022-05-25', '2022-05-21', '2022-05-18', '2022-05-15', '2022-05-08', '2022-05-05', '2022-04-10', '2022-04-06', '2022-04-03', '2022-03-27', '2022-03-12', '2022-03-05', '2022-03-02', '2022-02-27', '2022-02-20', '2021-12-04', '2021-11-23', '2021-11-07', '2021-11-03', '2021-10-30', '2021-10-24', '2021-10-20', '2021-10-17', '2021-10-03', '2021-09-29', '2021-09-25', '2021-09-21', '2021-09-15', '2021-09-10', '2021-08-28', '2021-08-25', '2021-08-22', '2021-08-15', '2021-08-07', '2021-08-04', '2021-08-01', '2021-07-24', '2021-07-07', '2021-07-04', '2021-07-01', '2021-06-25', '2021-06-22', '2021-05-30', '2021-05-26', '2021-05-22', '2021-05-18', '2021-05-01', '2021-04-24', '2021-04-20', '2021-04-17', '2021-04-06', '2021-04-02', '2021-03-21', '2021

가장 먼저, 전체 데이터가 몇년도의 정보들을 담고 있는 것인지를 분석해봅시다.

In [10]:
years = []
for date in date_list:
    split_data = date.split('-') # 연, 월, 일로 분리됨
    years.append(split_data[0])
print(years)

['2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2022', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2021', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2020', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019', '2019',

In [11]:
# 1강에서 배웠던 "years를 통한 중복 제거"를 사용해봅시다!
years = list(set(years))
print(years)

['2018', '2017', '2019', '2021', '2022', '2020', '2016']


In [12]:
# 이제 우리가 원하는 정보를 담을 딕셔너리를 생성하고, 각 key에 연도, value에 빈 리스트를 담습니다.
year_dict = dict()
for year in years:
    year_dict[year] = []
print(year_dict)

{'2018': [], '2017': [], '2019': [], '2021': [], '2022': [], '2020': [], '2016': []}


In [13]:
i = 0
for date in date_list:
    year = date.split('-')[0]
    year_dict[year].append(i)
    i += 1
print(year_dict)

{'2018': [133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150], '2017': [151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174], '2019': [97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132], '2021': [33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75], '2022': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32], '2020': [76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96], '2016': [175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192]}


## 연도별 평균 수치 구하기

위에서 만든 `year_dict`를 활용하여, 각 연도별로 평균 수치들을 구해봅시다.

이번 강의에서 다룰 수치들은 다음과 같습니다 (분자, 분모):

* 경기 시간 ("Minutes played")
* 어시스트 ("Assists")
* Shot 어시스트 ("Shot assists")
* 크로스 정확도 ("Crosses accurate", "Crosses")
* 드리블 성공률 ("Dribbles successful", "Dribbles")
* Offensive Duels 승률 ("Offensive duels won", "Offensive duels")
* Defensive Duels 승률 ("Defensive duels won", "Defensive duels")
* Penalty area 패스 성공률 ("Passes to penalty area accurate", "Passes to penalty area")
* 패스 성공률 ("Passes", "Passes accurate")
* 롱패스 성공률 ("Long passes", "Long passes accurate")
* 쓰루패스 성공률 ("Through passes", "Through passes accurate")
* 백패스 성공률 ("Back passes accurate", "Back passes")
---
실습용
* 공중경합 성공률 ("Aerial duels won", "Aerial duels")
* Losse Ball 경합 성공률 ("Loose ball duels won", "Loose ball duels")
* 오프사이드 횟수 ("Offsides")
* 슬라이딩 태클 성공률 ("Sliding tackles successful", "Sliding tackles")
* 옐로우 카드 ("Yellow cards")

특정 년도에 해당하는 데이터들을 먼저 모아봅시다.

In [14]:
year = "2020"

idxes = year_dict[year]
year_dataset = []
for idx in idxes:
    # print(df.iloc[idx])
    year_dataset.append(df.iloc[idx])

우리가 원하는 정보를 데이터에서 수집하고, 평균을 구해봅시다.

In [15]:
key = "Minutes played"

_sum = 0
for data in year_dataset:
    _sum += data[key]
avg = _sum / len(year_dataset)
print(avg)

95.71428571428571


모든 연도의 값을 일일히 구하는 것은 번거롭습니다. 이럴 때 "함수"를 사용해봅시다.

In [16]:
def get_average_status_for_year(year, key1, key2): # 연도, 분모, 분자 (없으면 None)
    year = str(year) # 숫자로 넣어도 가능하도록 구현 
    idxes = year_dict[year]
    year_dataset = []
    for idx in idxes:
        year_dataset.append(df.loc[idx])

    sum = 0
    for data in year_dataset:
        if key2 is not None:
            if data[key2] != 0: # 0이 아닌 경우에만 나눗셈을 하도록 변경
                sum += data[key1] / data[key2]
            else:
                sum += 0
        else:
            sum += data[key1]
    avg = sum / len(idxes)
    return avg

In [17]:
print(get_average_status_for_year(2016, "Dribbles successful", "Dribbles"))

0.3888888888888889


In [18]:
print(get_average_status_for_year(2022, "Back passes accurate", "Back passes"))

0.9023407148407148


# Plotly 개요

Plotly란? 파이썬 라이브러리 중 하나로, 시각화를 돕는 라이브러리입니다.

https://plotly.com/

익숙해지면 다음과 같은 시각화도 가능합니다.

https://dash.gallery/dash-soccer-analytics/

이번 시간에는 가장 기초적인 것을 다룰 예정입니다.

In [19]:
# 라이브러리 import
import plotly.graph_objects as go
import plotly.express as px

In [20]:
# 우리가 시각화하고 싶은 데이터의 예시를 만들어봅시다.
categories = ["경기 시간", "어시스트", "크로스 정확도", "드리블 성공률", "롱패스 성공률", "쓰루패스 성공률"]

In [21]:
# 먼저 "틀"을 만들어줍니다
fig = go.Figure()
print(fig)

Figure({
    'data': [], 'layout': {'template': '...'}
})


In [22]:
# 시각화 시키려면, 다음 함수를 사용합니다.
fig.show()
# 아무런 데이터를 넣지 않았기 때문에, 빈 공간이 나옵니다.

In [23]:
# 우리가 원하는 "Radar Chart"를 그리기 위해서는 Scatterpolar라는 것을 사용해야 합니다.
data = go.Scatterpolar(
      r=[1, 5, 2, 2, 3], # 데이터 값
      theta=categories, # 데이터 이름
      fill='toself', # 그래프 내부를 채울 것인가?
      name='Player Statistics A' # 플롯 이름
)

In [24]:
# add_trace 함수로 빈 공간에 위에서 만든 Scatterpolar 데이터를 넣어줍니다.
fig.add_trace(data)

In [25]:
# 다른 데이터도 넣어볼까요?
data2 = go.Scatterpolar(
      r=[5, 2, 3, 1, 4], # 데이터 값
      theta=categories, # 데이터 이름
      fill='toself', # 그래프 내부를 채울 것인가?
      name='Player Statistics B' # 플롯 이름
)
fig.add_trace(data2)

In [26]:
# 그래프를 좀 더 이쁘게 만들기 위해서, 여러가지 변경 사항을 주도록 하겠습니다.
# 각 옵션에 대한 자세한 설명은, 공식 사이트에서 직접 찾아야합니다.
# https://plotly.com/python/polar-chart/
fig.update_layout(
    height=400, # 원하는 크기로 height를 지정
    margin=dict( # Margin 변경
        l=0,
        r=0,
        t=20,
        b=20,
    ),
    polar=dict(
        bgcolor='#eeeeee',
        radialaxis=dict( # 방사축 꾸미기
            visible=True, # 방사축 시각화 여부
            range=[0, 5], # 방사축 범위
            color="dimgray", # 방사축 선 색깔
            showticklabels=False, # tick 시각화 여부
            showline=False, # 실선 시각화 여부
            ticklen=0, # tick의 크기
        ),
        angularaxis=dict( # 축 꾸미기
            # rotation=210, # 차트 회전율
            color='#eee', # 선 색깔
            ticklen=0,
            tickfont=dict(
                color='#888',
                size=13
            ),
        ),
        gridshape='linear',
    ),
    showlegend=True,
)
fig.show()

# 시각화 실습

get_average_status_for_year 함수와 위에서 배운 시각화 방법을 통해 직접 시각화를 해봅시다.

### 준비 단계

가장 우선적으로, 편한 사용을 위해서 자연어 "Key"를 주면 실제 데이터에 접근할 수 있는 값을 주는 "Value"를 가지는 dictionary를 만들어봅시다.

In [27]:
korean_to_key = {
    "경기 시간": ("Minutes played", None),
    "어시스트": ("Assists", None),
    "Shot 어시스트": ("Shot assists", None),
    "크로스 정확도": ("Crosses accurate", "Crosses"),
    "드리블 성공률": ("Dribbles successful", "Dribbles"),
    "Offensive Duels 승률": ("Offensive duels won", "Offensive duels"),
    "Defensive Duels 승률": ("Defensive duels won", "Defensive duels"),
    "Penalty area 패스 성공률": ("Passes to penalty area accurate", "Passes to penalty area"),
    "패스 성공률": ("Passes", "Passes accurate"),
    "롱패스 성공률": ("Long passes", "Long passes accurate"),
    "쓰루패스 성공률": ("Through passes", "Through passes accurate"),
    "백패스 성공률": ("Back passes accurate", "Back passes"),
    "공중경합 성공률": ("Aerial duels won", "Aerial duels"), # 이하 실습용
    "Loose Ball 경합 성공률": ("Loose ball duels won", "Loose ball duels"),
    "오프사이드 횟수": ("Offsides", None),
    "슬라이딩 태클 성공률": ("Sliding tackles successful", "Sliding tackles"),
    "옐로우 카드": ("Yellow cards", None),
}

이를 이용하면 다음과 같은 함수 get_average_status_for_year_by_name 를 만들 수가 있습니다.

In [28]:
def get_average_status_for_year_by_name(year, name):
    keys = korean_to_key[name]
    key1 = keys[0]
    key2 = keys[1]

    return get_average_status_for_year(year, key1, key2)

In [29]:
# 활용해봅시다
print(get_average_status_for_year_by_name(2022, "백패스 성공률"))

0.9023407148407148


시각화 또한 편한 활용을 위하여, 함수로 만들어줍시다.

In [30]:
def draw_fig(fig, radial_range=[-0.2, 1.2]):
    fig.update_layout(
        height=400, # 원하는 크기로 height를 지정
        margin=dict( # Margin 변경
            l=0,
            r=0,
            t=20,
            b=20,
        ),
        polar=dict(
            bgcolor='#eeeeee',
            radialaxis=dict( # 방사축 꾸미기
                visible=True,
                range=radial_range,
                color="dimgray", # 방사축 선 색깔
                showticklabels=False,
                showline=False,
                ticklen=0,
            ),
            angularaxis=dict( # 축 꾸미기
                # rotation=210, # 차트 회전율
                color='#eee', # 선 색깔
                ticklen=0,
                tickfont=dict(
                    color='#888',
                    size=13
                ),
            ),
            gridshape='linear',
        ),
        showlegend=True,
    )
    fig.show()

### 실제 시각화 함수 만들기

우리가 만들고 싶은 함수는 다음과 같습니다.

1. 유저가 원하는 년도와 시각화 하고 싶은 수치의 리스트를 넣는다.
2. 해당 년도들에서 시각화 하고 싶은 수치들을 모은다.
3. 모은 정보를 바탕으로 시각화해준다.

In [31]:
def visualize(years, keys):
    fig = go.Figure() # 빈 공간 만들기

    for year in list(years): # 주어진 연도별로 radar chart 생성
        categories = [] # 시각화 하고 싶은 수치의 이름
        values = [] # 해당 수치의 값
        for key in keys:
            status = get_average_status_for_year_by_name(year, key)
            categories.append(key)
            values.append(status)

        fig.add_trace(go.Scatterpolar(
            r=values,
            theta=categories,
            fill='toself',
            name=year,
            mode='lines',
        ))
    draw_fig(fig)

In [32]:
# 시험해봅시다
visualize([2021, 2022], ["경기 시간", "어시스트", "크로스 정확도", "드리블 성공률", "롱패스 성공률", "쓰루패스 성공률"])

원하는대로 나왔나요...?

왜 이런 결과가 나올까요? 각 수치의 값의 "범위"가 제각각이기 때문입니다.

visualize 함수를 수정하여 각 수치를 볼 수 있도록 해봅시다.

In [33]:
def visualize(years, keys):
    fig = go.Figure() # 빈 공간 만들기

    for year in list(years): # 주어진 연도별로 radar chart 생성
        print(year)
        categories = [] # 시각화 하고 싶은 수치의 이름
        values = [] # 해당 수치의 값
        for key in keys:
            status = get_average_status_for_year_by_name(year, key)
            categories.append(key)
            values.append(status)
            print(f"{key}: {status}")

        fig.add_trace(go.Scatterpolar(
            r=values,
            theta=categories,
            fill='toself',
            name=year,
            mode='lines',
        ))
    draw_fig(fig)
visualize([2021, 2022], ["경기 시간", "어시스트", "크로스 정확도", "드리블 성공률", "롱패스 성공률", "쓰루패스 성공률"])

2021
경기 시간: 90.95348837209302
어시스트: 0.0
크로스 정확도: 0.2094130675526024
드리블 성공률: 0.29069767441860467
롱패스 성공률: 1.6970653377630118
쓰루패스 성공률: 0.47286821705426363
2022
경기 시간: 79.51515151515152
어시스트: 0.09090909090909091
크로스 정확도: 0.2287878787878788
드리블 성공률: 0.2919191919191919
롱패스 성공률: 1.3491341991341992
쓰루패스 성공률: 0.2878787878787879


0~1 사이에 값이 없는 경우 (경기 시간, 롱패스 성공률)의 경우 극단적으로 튀어나가는 값이 나오는 것을 볼 수 있습니다. 이를 해소해주기 위해서 "Standardization (표준화)"를 통해 값을 정제해봅시다.


In [34]:
def standardize(values):
    min_value = min(values)
    max_value = max(values)

    new_values = []
    for value in values:
        new_value = (value - min_value) / (max_value - min_value)
        new_values.append(new_value)
    return new_values

위 함수를 이용해 시각화 함수를 수정해줍시다.

In [35]:
# 뒤의 시각화 부분을 구현하기 전에, 표준화가 잘 되는지부터 확인해봅시다.
# 먼저 모든 년도를 가져옵니다.
date_list = df["Date"].tolist()
all_years = []
for date in date_list:
    split_data = date.split('-') # 연, 월, 일로 분리됨
    all_years.append(int(split_data[0]))
all_years = list(set(all_years))

print(all_years)

def visualize(years, keys):
    fig = go.Figure() # 빈 공간 만들기

    # 표준화된 값을 담을 공간을 만들어줍니다.

    stand_values = {
        key: {} for key in keys # 안의 값도 dictionary로, 각 년도의 값을 지정해서 저장할 수 있게 해줍시다.
    }

    # 먼저 각 key 별로 연도별 값을 모아서 표준화를 해줍시다.
    for key in keys:
        values = []
        for year in all_years:
            status = get_average_status_for_year_by_name(year, key)
            values.append(status)
        values = standardize(values)
        for i in range(len(all_years)):
            stand_values[key][all_years[i]] = values[i]

    # 표준화가 잘 됐는지 확인해봅시다.
    for year in years:
        print(year)
        for key in keys:
            print(f"{key}: {stand_values[key][year]}")
        
visualize([2020, 2021, 2022], ["경기 시간", "어시스트", "크로스 정확도", "드리블 성공률", "롱패스 성공률", "쓰루패스 성공률"])

[2016, 2017, 2018, 2019, 2020, 2021, 2022]
2020
경기 시간: 0.9752728457403482
어시스트: 0.8571428571428571
크로스 정확도: 0.0
드리블 성공률: 0.6911593276426127
롱패스 성공률: 0.7604320667012958
쓰루패스 성공률: 1.0
2021
경기 시간: 0.6886478746254406
어시스트: 0.0
크로스 정확도: 0.17096007587158937
드리블 성공률: 0.0
롱패스 성공률: 0.38536984707678457
쓰루패스 성공률: 0.29970184853905785
2022
경기 시간: 0.0
어시스트: 0.8181818181818182
크로스 정확도: 0.23246160232461602
드리블 성공률: 0.004977386393548442
롱패스 성공률: 0.0
쓰루패스 성공률: 0.14032634032634034


In [36]:
# 이제 시각화 부분을 넣어줍시다
def visualize(years, keys):
    fig = go.Figure() # 빈 공간 만들기

    # 표준화된 값을 담을 공간을 만들어줍니다.

    stand_values = {
        key: {} for key in keys # 안의 값도 dictionary로, 각 년도의 값을 지정해서 저장할 수 있게 해줍시다.
    }

    # 먼저 각 key 별로 연도별 값을 모아서 표준화를 해줍시다.
    for key in keys:
        values = []
        for year in all_years:
            status = get_average_status_for_year_by_name(year, key)
            values.append(status)
        values = standardize(values)
        for i in range(len(all_years)):
            stand_values[key][all_years[i]] = values[i]

    for year in years: # 주어진 연도별로 radar chart 생성
        categories = [] # 시각화 하고 싶은 수치의 이름
        values = [] # 해당 수치의 값
        for key in keys:
            value = stand_values[key][year]
            categories.append(key)
            values.append(value)

        # 빈 공간 메우기
        values.append(values[0])
        categories.append(categories[0])

        fig.add_trace(go.Scatterpolar(
            r=values,
            theta=categories,
            fill='toself',
            name=year,
            mode='lines',
        ))
    draw_fig(fig)

visualize([2016, 2018, 2020, 2022], ["경기 시간", "어시스트", "Shot 어시스트", "크로스 정확도", "드리블 성공률", "Offensive Duels 승률"])
visualize([2020, 2021, 2022], ["경기 시간", "어시스트", "크로스 정확도", "드리블 성공률", "롱패스 성공률", "쓰루패스 성공률"])

# 심화과제

인천 유나이티드 데이터를 이용해서 직접 시각화를 해봅시다.

이번에는 바 그래프를 그려볼 것입니다.

In [8]:
# 라이브러리 import
import plotly.graph_objects as go
import plotly.express as px
import pandas as pd

In [5]:
df1 = pd.read_csv("incheon_2021_stats.csv")
df2 = pd.read_csv("incheon_2022_stats.csv")

In [6]:
df1

Unnamed: 0,날짜,VS,결과,점수,평균 평점,슈팅,유효슈팅,점유율,패스성공률,인터셉트,태클 성공,공중볼 경합 성공률,세이브,프리킥,코너킥,파울,경고,퇴장
0,2021년 12월 4일,광주FC,D,1:01,6.7,8,5,34.8,74.2,28,19,53.8,3,10,2,20,0,0
1,2021년 11월 28일,포항 스틸러스,D,0:00,6.7,11,3,46.2,67.3,30,13,71.6,4,18,9,23,1,0
2,2021년 11월 7일,강원FC,D,1:01,6.6,12,4,36.2,73.2,24,6,72.9,4,10,7,12,1,0
3,2021년 11월 3일,성남FC,D,1:01,6.5,6,3,43.1,68.3,26,4,53.6,1,16,4,19,3,0
4,2021년 10월 30일,FC서울,W,2:00,7.0,10,6,60.2,81.8,21,4,57.8,2,7,6,17,4,0
5,2021년 10월 24일,포항 스틸러스,W,1:00,6.8,9,5,27.4,69.8,29,8,58.2,2,14,3,14,1,0
6,2021년 10월 6일,강원FC,L,0:01,6.3,6,0,38.5,79.0,14,9,52.1,3,12,1,7,1,1
7,2021년 10월 2일,수원삼성 블루윙즈,L,0:01,6.3,9,4,53.1,81.1,19,8,42.6,0,9,4,18,4,0
8,2021년 9월 25일,전북 현대 모터스,L,0:02,6.3,8,2,60.7,84.3,15,5,46.7,3,24,4,13,2,0
9,2021년 9월 22일,FC서울,D,0:00,6.4,4,3,31.5,67.0,9,16,38.5,3,12,2,17,3,0


In [9]:
data1 = go.Bar(x=df1["날짜"], y=df1["슈팅"], name="2021")
data2 = go.Bar(x=df2["날짜"], y=df2["슈팅"], name="2022")
layout = go.Layout(title='슈팅')
fig = go.Figure(data=[data1, data2], layout=layout)
fig.show()

### 목표

2021년, 2022년 데이터에서 각 월 별로 원하는 수치의 평균값을 구하여 정리해봅시다. 

In [12]:
# 2021년 전체 데이터의 길이 구하기
data_length = df1.shape[0]
month_to_value = {i:[] for i in range(1, 13)}# 12월까지의 key와 빈 리스트를 value로 가지는 딕셔너리 만들기
for idx in range(data_length):
    data = df1.iloc[idx]
    date = data["날짜"]
    month = date.split()[1]
    month = month[:-1]
    month_to_value[int(month)].append(data["슈팅"])

month_to_avg_2021 = {}
for k, v in month_to_value.items(): # key와 value에 둘 다 접근한다.
    if len(v) > 0:
        month_to_avg_2021[k] = sum(v) / len(v)
    else:
        month_to_avg_2021[k] = 0
print(month_to_avg_2021)

{1: 0, 2: 4.0, 3: 11.4, 4: 8.666666666666666, 5: 11.333333333333334, 6: 0, 7: 10.666666666666666, 8: 10.2, 9: 7.0, 10: 8.5, 11: 9.666666666666666, 12: 8.0}


2022년에 대해서도 똑같이 구현해 줍니다.

In [13]:
# 2021년 전체 데이터의 길이 구하기
data_length = df2.shape[0]
month_to_value = {i:[] for i in range(1, 13)}# 12월까지의 key와 빈 리스트를 value로 가지는 딕셔너리 만들기
for idx in range(data_length):
    data = df2.iloc[idx]
    date = data["날짜"]
    month = date.split()[1]
    month = month[:-1]
    month_to_value[int(month)].append(data["슈팅"])

month_to_avg_2022 = {}
for k, v in month_to_value.items(): # key와 value에 둘 다 접근한다.
    if len(v) > 0:
        month_to_avg_2022[k] = sum(v) / len(v)
    else:
        month_to_avg_2022[k] = 0
print(month_to_avg_2022)

{1: 0, 2: 14.0, 3: 7.75, 4: 8.333333333333334, 5: 9.666666666666666, 6: 8.666666666666666, 7: 12.0, 8: 13.0, 9: 9.0, 10: 0, 11: 0, 12: 0}


In [16]:
months = []
data_2021 = []
data_2022 = []
for k, v in month_to_avg_2021.items():
    months.append(str(k))
    data_2021.append(v)
for k, v in month_to_avg_2022.items():
    data_2022.append(v)

data1 = go.Bar(x=months, y=data_2021, name="2021")
data2 = go.Bar(x=months, y=data_2022, name="2022")
layout = go.Layout(title='슈팅')
fig = go.Figure(data=[data1, data2], layout=layout)
fig.show()