# 1. 120年のオリンピックデータを分析

世界中の超人アスリートが国旗を背負って戦う、これがオリンピックです。2020年、その戦いの舞台は東京です。人類はこの戦いを120年以上も続けてきました。この120年の記録を紐解きながらデータ分析の自習に役立てようと考えています。  

## 1.1 データセット

[20 years of Olympic history: athletes and results](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results)  

Kaggleのデータセットを使います。1896年のアテネオリンピックから2016年のリオデジャネイロオリンピックまでの競技結果データです。オリンピック参加選手バイオグラフィー(国、名前、体重、身長など)とメダル獲得結果のデータが含まれています。なお、1992年までは冬季と夏季のオリンピックは同じ年に行われていましたが、以降は冬季オリンピックと夏季オリンピックは2年ずらして開催されているようです。



## 1.2 データの概要

1. [athlete_events.csv](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results#athlete_events.csv)  
271116行×15列のオリンピック競技の結果データです。

2. [noc_regions.csv](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results#noc_regions.csv)
国内オリンピック委員会(NOC）のリストです。  
国際オリンピック委員会（IOC）の管理下で組織された各国のオリンピック委員会です。このデータを必要とするのは、歴史的というより政治的な事情により、国内に複数のNOCを擁する国があるからです。  

このCSVファイルのカラム15列は以下の通り。
- ID - Unique number for each athlete
- Name - Athlete's name
- Sex - M or F
- Age - Integer
- Height - In centimeters
- Weight - In kilograms
- Team - Team name
- NOC - National Olympic Committee 3-letter code
- Games - Year and season
- Year - Integer
- Season - Summer or Winter
- City - Host city
- Sport - Sport
- Event - Event
- Medal - Gold, Silver, Bronze, or NA


## 1.3 備考
### 1.3.3 各競技の日本語訳

データ(名前、競技、開催地など)は全てが英語のため、競技名の対訳はこちらに。

| 夏季オリンピック競技	| Summer Olympic Games	|
|----------------------------------	|-----------------------	|
| アーチェリー 	| Archery 	|
| 陸上競技 	| Athletics 	|
| バドミントン 	| Badminton 	|
| バスケットボール 	| Basketball 	|
| ビーチバレー 	| Beach Volleyball 	|
| ボクシング 	| Boxing 	|
| カヌースラローム 	| Canoe Slalom 	|
| カヌースプリント 	| Canoe Sprint 	|
| 自転車・BMX（モトクロス） 	| Cycling BMX 	|
| 自転車・マウンテンバイク 	| Cycling Mountain Bike 	|
| 自転車・ロードレース 	| Cycling Road 	|
| 自転車・トラックレース 	| Cycling Track 	|
| 水泳 	| Swimming 	|
| 水泳・飛込み 	| Diving 	|
| 馬術・ドレッサージュ（馬場馬術） 	| Equestrian / Dressage 	|
| 馬術・総合馬術 	| Equestrian / Eventing 	|
| 馬術・障害馬術（障害飛越） 	| Equestrian / Jumping 	|
| フェンシング 	| Fencing 	|
| サッカー 	| Football 	|
| ゴルフ 	| Golf 	|
| 体操 	| Gymnastics Artistic 	|
| 新体操 	| Gymnastics Rhythmic 	|
| ハンドボール 	| Handball 	|
| ホッケー 	| Hockey 	|
| 柔道 	| Judo 	|
| 近代5種競技 	| Modern Pentathlon 	|
| ボート 	| Rowing 	|
| ラグビー 	| Rugby 	|
| セーリング 	| Sailing 	|
| 射撃競技 	| Shooting 	|
| ライフル射撃 	| Rifle Shooting 	|
| クレー射撃 	| Cray Shooting 	|
| シンクロナイズドスイミング 	| Synchronized Swimming 	|
| 卓球 	| Table Tennis 	|
| テコンドー 	| Taekwondo 	|
| テニス 	| Tennis 	|
| トランポリン 	| Trampoline 	|
| トライアスロン 	| Triathlon 	|
| バレーボール 	| Volleyball 	|
| 水球 	| Water Polo 	|
| ウエイトリフティング（重量挙げ） 	| Weightlifting 	|
| レスリング（フリースタイル） 	| Wrestling Freestyle 	|
| レスリング（グレコローマン） 	| Wrestling Greco-Roman 	|


| 冬季オリンピック競技 	| Winter Olympic Games 	|
|--------------------------	|---------------------------	|
| アイスホッケー 	| Ice Hockey 	|
| カーリング 	| Curling 	|
| ショートトラック 	| Short Track Speed Skating 	|
| スキー・アルペン 	| Alpine Skiing 	|
| スキー・クロスカントリー 	| Cross Country Skiing 	|
| スキー・フリースタイル 	| Freestyle Skiing 	|
| スキージャンプ 	| Ski Jumping 	|
| スケルトン 	| Skeleton 	|
| スノーボード 	| Snowboard 	|
| スピードスケート 	| Speed skating 	|
| ノルディック複合 	| Nordic Combined 	|
| バイアスロン 	| Biathlon 	|
| フィギュアスケート 	| Figure skating 	|
| ボブスレー 	| Bobsleigh 	|
| リュージュ 	| Luge 	|


# 2. 必要なモジュールのインポート




In [16]:
import pandas as pd
import matplotlib.pyplot as plt
import pandas_profiling as pp

# 3. データのインポート

eventsデータとnocデータをインポートします。

- **df**:  結果データ
- **region_df**:  地域データ

In [49]:
df = pd.read_csv('./data/raw/athlete_events.csv')
region_df = pd.read_csv('./data/raw/noc_regions.csv')
#df = df.merge(region_df,left_on='NOC',right_on='NOC',how='left')

# 4. データの前処理

## 4.1 データの全体像把握

In [17]:
df.profile_report(style={'full_width':True})



## 4-2 欠損値処理

Pandas-Profilingで概要を調べると、年齢、身長、メダル獲得状況、体重に欠損値が多いので、欠損値処理を施します。

- **Age has 9474 (3.5%) missing values	Missing**
- Event has a high cardinality: 765 distinct values	Warning
- Games has a high cardinality: 51 distinct values	Warning
- **Height has 60171 (22.2%) missing values	Missing**
- **Medal has 231333 (85.3%) missing values	Missing**
- Name has a high cardinality: 134732 distinct values	Warning
- NOC has a high cardinality: 230 distinct values	Warning
- Sport has a high cardinality: 66 distinct values	Warning
- Team has a high cardinality: 1184 distinct values	Warning
- **Weight has 62875 (23.2%) missing values**

### 欠損値処理の方法

- メダル獲得状況：メダルが欠損値（NaN）は、メダル未獲得なので'No Medal'としておく  
- 年齢:同じNOC、同じ性別、同じスポーツの平均値を代入する。
- 身長:同じNOC、同じ性別、同じスポーツの平均値を代入する
- 体重:同じNOC、同じ性別、同じスポーツの平均値を代入する

平均値が取得できない（同一NOC・性別・スポーツの選手が全て欠損値の場合）場合は、条件を緩めて平均値代入します。
例：`df[df.isnull().any(axis=1)].query('NOC == "DEN" & Sport == "Tug-Of-War"')`は3選手中3選手がNaNです。

参考：[Pandas Groupbyの使い方](https://qiita.com/propella/items/a9a32b878c77222630ae)

In [53]:
# メダル獲得状況
df = df.fillna({'Medal':'No Medal'})

########  条件1 ##########
# 年齢 
df['Age'] = df.groupby(['Sex','Sport','NOC'])['Age'].apply(lambda d: d.fillna(d.mean()))

# 身長
df['Height'] = df.groupby(['Sex','Sport','NOC'])['Height'].apply(lambda d: d.fillna(d.mean()))

# 体重
df['Weight'] = df.groupby(['Sex','Sport','NOC'])['Weight'].apply(lambda d: d.fillna(d.mean()))


########  条件2 ##########
# 年齢 
df['Age'] = df.groupby(['Sex','Sport'])['Age'].apply(lambda d: d.fillna(d.mean()))

# 身長
df['Height'] = df.groupby(['Sex','Sport'])['Height'].apply(lambda d: d.fillna(d.mean()))

# 体重
df['Weight'] = df.groupby(['Sex','Sport'])['Weight'].apply(lambda d: d.fillna(d.mean()))


########  条件3 ##########
# 年齢 
df['Age'] = df.groupby(['Sex'])['Age'].apply(lambda d: d.fillna(d.mean()))

# 身長
df['Height'] = df.groupby(['Sex'])['Height'].apply(lambda d: d.fillna(d.mean()))

# 体重
df['Weight'] = df.groupby(['Sex'])['Weight'].apply(lambda d: d.fillna(d.mean()))

## 4-3 国と地域の修正

２つのデータフレームには、国や地域を表すカラムが４つあります。

**df（結果データ）**
- Team
- NOC

**region_df（地域データ）**
- NOC
- region

NOCで２つのデータを結合すれば良さそうです。



In [58]:
# 結果データと国コードのNOCの要素の差を調べる
print(set(df['NOC'].unique())-set(region_df['NOC'].unique()))
print(set(df['NOC'].unique())-set(region_df['NOC'].unique()))

{'SGP'}
{'SGP'}


In [59]:
df^region_df

TypeError: unsupported operand type(s) for ^: 'float' and 'bool'