### 강의에서 사용된 파이썬 주요 기능

- 데이터 불러오기
  - pandas.read_csv: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
  - pandas.read_pickle: https://pandas.pydata.org/docs/reference/api/pandas.read_pickle.html

- 중복 제거를 활용한 데이터 구성 파악
  - pandas.Series.unique: https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html
  - pandas.DataFrame.drop_duplicates: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html
  - pandas.DataFrame.sort_values: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html
  - set: https://wikidocs.net/22262

### 데이터 불러오기

In [None]:
import pandas as pd

##### (1) 경기 정보 불러오기

In [None]:
dataset_name = 'World_Cup'
match_df = pd.read_csv(f'data/refined_events/{dataset_name}/matches.csv', index_col=0, encoding='utf-8-sig')
match_df

##### (2) 경기 정보 필터링

In [None]:
match_df[(match_df['team1_name'] == 'Korea Republic') | (match_df['team2_name'] == 'Korea Republic')]

##### (3) 경기 이벤트 데이터 불러오기

- 3차전 한국 vs 독일 이벤트 데이터를 DataFrame 형태로 불러오기

In [None]:
match_id = 2057988
match_events = pd.read_pickle(f'data/refined_events/{dataset_name}/{match_id}.pkl')
match_events

### 이벤트 데이터 인덱싱(indexing), 슬라이싱(slicing), 필터링(filtering)

##### (1) 열 인덱싱(column indexing)

In [None]:
match_events['player_name']

##### (2) 행 인덱싱(row indexing)

In [None]:
match_events.loc[0]

##### (3) 슬라이싱

In [None]:
match_events[0:10]

##### (4) 필터링 또는 불린 인덱싱(Boolean indexing)

In [None]:
match_events[match_events['event_type'] == 'Shot'].head()

In [None]:
match_events[match_events['player_name'] == 'Son Heung-Min'].head()

### 중복 제거를 활용한 데이터 구성 파악

##### (1) Series 원소 중복 제거

- 전후반 구분

In [None]:
match_events['period'].unique()

- 팀 구분

In [None]:
match_events['team_name'].unique()

- 경기 출전 선수

In [None]:
match_events['player_name'].unique()

##### (2) DataFrame 행 중복 제거

- 팀과 선수의 ID 및 이름

In [None]:
match_events[['team_id', 'team_name', 'player_id', 'player_name']].drop_duplicates().sort_values('team_id')

- 이벤트 유형의 종류

In [None]:
match_events[['event_type', 'sub_event_type']].drop_duplicates().sort_values(['event_type', 'sub_event_type'])

##### (3) List 원소 중복 제거

- 추가 태그의 종류

In [None]:
match_events['tags'].sum()

In [None]:
set(match_events['tags'].sum())

In [None]:
match_events[match_events['event_type'] == 'Substitution']