# 順天堂大学データサイエンス学部
# 「データビジュアライゼーション入門」
## -2023年1月6日-
### 各セル左上の［　］をクリックすることで各セルを順番に実行していくことができます
### 最初だけ「このノートブックは Google が作成したものではありません」と警告が出ますが心配はありません
### 「このまま実行」をクリックし先に進んでください
- 各セル左上の[ ]をクリックするとプログラムの実行がはじまります
- 各セル左上にグルグルと回るアニメーションが表示されている間は、プログラムが実行中です。そのままお待ちください
- プログラムの実行が完了すると、各セル左上に小さな三角形が表示されます
- 最初のセルではこれから使うライブラリを呼び出しています。今はライブラリの詳しい意味はわからなくて大丈夫

In [None]:
!pip install japanize_matplotlib
import japanize_matplotlib
import math
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sympy
%matplotlib inline

## 基本中の基本である棒グラフを描いてみます

In [None]:
smap_name = ['中居', '木村', '稲垣', '草彅', '香取']
smap_height = np.array([165, 176, 172, 170, 183])
plt.bar(smap_name, smap_height)

## このように簡単な棒グラフはわずか３行のプログラムで作図できます
- １行目でSMAPのメンバー名をデータとして与えています
- ２行目でSMAPの５人の身長をデータとして与えています
- ３行目で棒グラフを作図しています
  
### 棒グラフは軸が１つしかありませんでした
### データも１種類だけでした
## 次はもう少し複雑なグラフを描画したいと思います
## データの種類を増やし、軸の数も増やし、散布図を作成します

In [None]:
df_mb = pd.DataFrame(data={'身長': [185,183,181,187,186,181,187,188,180,183,188,178,175,190,182,183,188,186,178,178,193,174,175,185,183,183,182,190,181,173,185,184,170,186,186,175,188], '体重': [99,95,88,98,95,81,80,94,90,82,97,86,78,97,89,86,82,82,85,82,113,100,81,87,78,90,86,98,74,82,100,84,73,85,89,78,102],})
ax = df_mb[['身長', '体重']].plot(kind='scatter', x='身長', y='体重', color='blue', alpha=0.3, title='男性野球選手と女性サッカー選手の身長体重分布（青=男性野球選手、赤=女性サッカー選手）')
df_fs = pd.DataFrame(data={'身長': [158,154,158,157,157,160,160,167,169,156,164,162,158,154,158,157,157,160,160,167,169,156,164,162], '体重': [55,44,52,47,52,53,48,55,62,54,56,53,55,44,52,47,52,53,48,55,62,54,56,53],})
df_fs[['身長', '体重']].plot(kind='scatter', x='身長', y='体重', color='red', alpha=0.3, ax=ax)

## 散布図もわずか４行のプログラムで作図できます
- １行目で男性野球選手の身長と体重をデータとして与えています
- ２行目で男性野球選手の身長と体重の散布図を作図します。男性野球選手のデータは青いマーカーです
- ３行目で女性サッカー選手の身長と体重をデータとして与えています
- ４行目で女性サッカー選手の身長と体重の散布図を作図します。女性サッカー選手のデータは赤いマーカーです
- 散布図にはX軸とY軸の２つの軸があります
- この散布図では横軸（X軸）が身長、縦軸（Y軸）が体重になります
- 散布図を使うことで、野球選手の身長と体重、女性サッカー選手の身長と体重、合計４種類のデータの分布をわかりやすく図示できました

## データがあれば平均値と標準偏差を計算できます
- 平均値とは、数の集合やデータの中間的な値のことです
- 標準偏差とは、データの平均値からの散らばり具合（ばらつき）のことです
## 男性野球選手と女性サッカー選手の身長と体重のデータから、平均値と標準偏差を計算します

In [None]:
mb_height_mean = df_mb['身長'].mean()
mb_height_std = df_mb['身長'].std()
mb_weight_mean = df_mb['体重'].mean()
mb_weight_std = df_mb['体重'].std()
fs_height_mean = df_fs['身長'].mean()
fs_height_std = df_fs['身長'].std()
fs_weight_mean = df_fs['体重'].mean()
fs_weight_std = df_fs['体重'].std()
print(f'男性野球選手　　　平均身長：{mb_height_mean:.1f}cm（標準偏差：{mb_height_std:.1f}cm）')
print(f'女性サッカー選手　平均身長：{fs_height_mean:.1f}cm（標準偏差：{fs_height_std:.1f}cm）')
print(f'男性野球選手　　　平均体重： {mb_weight_mean:.1f}kg（標準偏差：{mb_weight_std:.1f}kg）')
print(f'女性サッカー選手　平均体重： {fs_weight_mean:.1f}kg（標準偏差：{fs_weight_std:.1f}kg）')

## 平均値と標準偏差の２つさえあれば（元になったデータが無くても）偏差値を計算できます
### 大谷翔平選手の身長と体重（193cm、93kg）を使って、大谷翔平選手の男性野球選手における身長偏差値と体重偏差値、女性サッカー選手における身長偏差値と体重偏差値を計算します
- 下のセル内の数字は自由に編集できます。
- 余裕があれば好きな数字、気になる数字を身長、体重として入力し再計算してみましょう

In [None]:
my_height = 193
my_weight = 93

df_me = pd.DataFrame(data={'身長': [my_height],'体重': [my_weight],})
ax = df_mb[['身長', '体重']].plot(kind='scatter', x='身長', y='体重', color='blue', alpha=0.3, title='男性野球選手と女性サッカー選手の身長体重分布（青=男性野球選手、赤=女性サッカー選手）')
df_fs[['身長', '体重']].plot(kind='scatter', x='身長', y='体重', color='red', alpha=0.3, ax=ax)
df_me[['身長', '体重']].plot(kind='scatter', x='身長', y='体重', color='green', alpha=0.8, ax=ax, s=200)
deviation_value_mb_height = int((my_height - mb_height_mean) / mb_height_std * 10 + 50)
deviation_value_mb_weight = int((my_weight - mb_weight_mean) / mb_weight_std * 10 + 50)
deviation_value_fs_height = int((my_height - fs_height_mean) / fs_height_std * 10 + 50)
deviation_value_fs_weight = int((my_weight - fs_weight_mean) / fs_weight_std * 10 + 50)
print(f'男性野球選手における　身長偏差値：{deviation_value_mb_height}　体重偏差値：{deviation_value_mb_weight}')
print(f'女性サッカー選手における　身長偏差値：{deviation_value_fs_height}、体重偏差値：{deviation_value_fs_weight}')

ここまでで、平均、標準偏差、偏差値を計算し簡単にグラフにできることをお示ししました

## ここからは高校数学で最後に学習する定積分をとりあげましょう
## 二次関数、三次関数の定積分も簡単に解いたりグラフに描いたりできます

### 以下の3つの二次関数と三次関数の定積分を計算しグラフにします
$$\int_1^2 (9x^2-4x+3)dx$$　$$\int_1^3 (3x-1)(x+1)dx$$　$$\int_{-1}^2 (\frac{8}{3}x^3+x-1)dx$$
- 定積分を解くことを簡単に言い換えると関数で囲まれた図形の面積を計算することです
- 計算はコンピューターがやってくれます
- 計算用紙は用意しなくても大丈夫

In [None]:
x = sympy.Symbol('x')
print(sympy.integrate(9 * x ** 2 - 4 * x + 3, (x, 1, 2)))
print(sympy.integrate((3 * x - 1) * (x + 1), (x, 1, 3)))
print(sympy.integrate((8 / 3) * x ** 3 + x - 1, (x, -1, 2)))

### １行で1つの定積分の解を求めることができます
$$\int_1^2 (9x^2-4x+3)dx=18$$　$$\int_1^3 (3x-1)(x+1)dx=32$$　$$\int_{-1}^2 (\frac{8}{3}x^3+x-1)dx=8.5$$
#### プログラミングに習熟すると定積分を簡単に検算できるようになります
## 与えられた3つの二次関数と三次関数の定積分をグラフにしていきます
## １つめの二次関数をグラフに描いていきます
$$\int_1^2 (9x^2-4x+3)dx$$

In [None]:
y_val = []
integral_y = []
for i in np.arange(-3, 3, 0.1):
    y_val.append(9 * i ** 2 - 4 * i + 3)
for i in np.arange(1, 2.1, 0.1):
    integral_y.append(9 * i ** 2 - 4 * i + 3)
plt.plot(np.arange(-3, 3, 0.1), y_val, color='blue')
plt.axhline(y=0, color="gray")
plt.axvline(x=0, color="gray")
plt.fill_between(np.arange(1, 2.1, 0.1), integral_y, facecolor='red')
plt.show()

## 11行のプログラムで１つ目の二次関数の定積分をグラフにすることができました
- １行目と２行目で作図に必要な変数を用意しています。- 今は変数の詳しい意味はわからなくて大丈夫
- ５行目と６行目で定積分の範囲を計算
- ７行目で二次関数を青色で作図
- ８行目で灰色でY軸を作図、９行目で灰色でX軸を作図
- １０行目で定積分する範囲を赤色で作図
- １１行目で作図したグラフを表示しています
## 定積分のグラフを作図すると定積分の解をわかりやすく視覚化することができます
## グラフで赤色で示した図形の面積が定積分の解です

## ２つめの二次関数をグラフに描いていきます。
$$\int_1^3 (3x-1)(x+1)dx$$

In [None]:
y_val = []
integral_y = []
for i in np.arange(-4, 4, 0.1):
    y_val.append((3 * i - 1) * (i + 1))
for i in np.arange(1, 3.1, 0.1):
    integral_y.append((3 * i - 1) * (i + 1))
plt.plot(np.arange(-4, 4, 0.1), y_val, color='blue')
plt.axhline(y=0, color="gray")
plt.axvline(x=0, color="gray")
plt.fill_between(np.arange(1, 3.1, 0.1), integral_y, facecolor='red')
plt.show()

## 11行のプログラムで２つ目の二次関数の定積分をグラフにすることができました
- プログラムの内容は先程のプログラムとほぼ同じです
- 与えられた二次方程式の部分だけが違います

## 定積分のグラフを作図すると定積分の解をわかりやすく視覚化することができます
## グラフで赤色で示した図形の面積が定積分の解です

## ３つめの三次関数をグラフに描いていきます。
$$\int_{-1}^2 (\frac{8}{3}x^3+x-1)dx$$

In [None]:
y_val = []
integral_y = []
for i in np.arange(-3, 3, 0.1):
    y_val.append((8 / 3) * i ** 3 + i - 1)
for i in np.arange(-1, 2, 0.1):
    integral_y.append((8 / 3) * i ** 3 + i - 1)
plt.plot(np.arange(-3, 3, 0.1), y_val, color='blue')
plt.axhline(y=0, color="gray")
plt.axvline(x=0, color="gray")
plt.fill_between(np.arange(-1, 2, 0.1), integral_y, facecolor='red')
plt.show()

## 11行のプログラムで３つ目の三次関数の定積分をグラフにすることができました
- プログラムの内容は先程のプログラムとほぼ同じです
- 与えられた三次方程式の部分だけが違います
## 定積分のグラフを作図すると定積分の解をわかりやすく視覚化することができます
## グラフで赤色で示した図形の面積が定積分の解です

# 皆様、おつかれさまでした！
- 本日はPython（パイソン）というプログラミング言語を使用しました
- Pythonはデータサイエンス領域でとても人気のあるプログラミング言語です
- Pythonには多機能で便利なライブラリがたくさん用意されています。本日は以下のPythonライブラリを使用しました
    - japanize_matplotlib、math、matplotlib、numpy、pandas、sympy
- Pythonにはを使いこなせるようになると色々なことが簡単に実現できます
- 学生の皆さんと一緒に勉強できるのを教職員一同楽しみにしています

# 体験プログラム「データビジュアライゼーション入門」は以上です
## 質問、疑問は、Slack または Google forms で受け付けています
- Slack と Google forms のURLは対象者にメールでお伝えします（セキュリティ上の理由でここには記載しません）
- 対象者なのにメールが届かない人は各自で大学の教職員まで申し出てください