# 第1回資料

## ポイント

### 基本統計量
- 代表値
    - 平均値
    - 中央値
    - 最頻値
- 散布度
    - 標準偏差

## Pythonの知識
- PythonはPython2.x系とPython3.x系の2種類あり、互換性はあまり高くない。
- 今から始めるなら3.x系を入れるのがおすすめ。
- データ分析は、さらに各種パッケージが必要となる。anaconda3を入れることで基本的なツールはそろう。
- 講義のハンズオンはJupyter Notebookを使って行う。

## データ分析によく使うライブラリ
- 分析系
    - pandas
    - numpy
    - scipy
    - scikit-learn
- 可視化
    - matplotlib
    - seaborn

## ハンズオン

In [1]:
import pandas as pd       # pandasを「pd」という名前に変更してインポート
import numpy as np        # numpyを「np」という名前に変更してインポート
import scipy as sp        # scipyを「sp」という生へに変更してインポート

In [2]:
a = np.array([1.0, 2.0, 3.0, 4.0, 5.0, 5.0])     # numpy.array（配列）としてデータを読み込み
a                                                 # aの内容を表示

array([1., 2., 3., 4., 5., 5.])

### 平均値
- 平均値は3種類の表示方法がある。

In [3]:
print(a.mean())
print(np.mean(a))
print(sp.mean(a))

3.3333333333333335
3.3333333333333335
3.3333333333333335


### 中央値
- 中央値は2種類の表示方法がある。

In [4]:
print(np.median(a))
print(sp.median(a))

3.5
3.5


### 最頻値
- 最頻値はあまりメジャーな代表値ではないため、一般的に決まった算出方法はない。
- ヒストグラムのところで詳細の取り扱いをする。

### 標準偏差
- 標準偏差は平均値同様3種類の表示方法がある。

In [6]:
print(a.std())
print(np.std(a))
print(sp.std(a))

1.4907119849998598
1.4907119849998598
1.4907119849998598


### 分散
- 分散も同様に3種類の表示方法がある。

In [7]:
print(a.var())
print(np.var(a))
print(sp.var(a))

2.2222222222222223
2.2222222222222223
2.2222222222222223


### その他基本統計量
- その他の基本統計量としては、以下のものが重要。
    - 歪度: 分布の左右へのゆがみ具合
    - 尖度: 分布の上下への尖り具合
    - 最大値
    - 最小値
    - パーセンタイル

In [11]:
from scipy import stats as st
print(st.skew(a))           # 歪度
print(st.kurtosis(a))       # 尖度

-0.2795084971874741
-1.3650000000000002


In [12]:
print(a.max())             # 最大値
print(np.max(a))           # 最大値
print(a.min())             # 最小値
print(np.min(a))           # 最小値

5.0
5.0
1.0
1.0


In [13]:
print(np.percentile(a, 20))  # 20パーセンタイル点

2.0
