In [7]:
import pandas as pd

# アジア語の文字幅をきれいに表示するおまじない
pd.set_option('display.unicode.east_asian_width', True) 

In [8]:
df = pd.read_csv('mydata1.csv',skipinitialspace=True)
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,# mydata1.csv
名前,性別,好きな数,誕生月,セロリ好き度,身長
薗田,男,7,5,とても嫌い,172
鈴木,女,3,12,好き,165
斎藤,男,4,10,嫌い,180


`skip-initial-space`はアジア語で余計な空白が入るのを防ぐので，いつもつけておくとよい．

In [10]:
type(df)

pandas.core.frame.DataFrame

`df`は`DataFrame`というクラスに割当てられています．

```{.py}
class DataFrame():
    def __str__(self):
```

のように`__str__`メソッドがあるので，文字列にすることができ，

In [9]:
df.__str__()

'                                       # mydata1.csv\n名前 性別 好きな数 誕生月 セロリ好き度          身長\n薗田 男   7        5      とても嫌い             172\n鈴木 女   3        12     好き                   165\n斎藤 男   4        10     嫌い                   180'

文字列を表示すれば

In [None]:
print(df.__str__())

のように表示されます．jupyterだともっときれいに出力できて

In [11]:
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,# mydata1.csv
名前,性別,好きな数,誕生月,セロリ好き度,身長
薗田,男,7,5,とても嫌い,172
鈴木,女,3,12,好き,165
斎藤,男,4,10,嫌い,180


```{.py}
class DataFrame():
    def __init__(self, ...):
        self.shape = ...
```

のようなクラス変数`shape`があり，データフレームの行数（観測数）と列数（変数数）をタプルで表示します．

In [12]:
print(df.shape)

(4, 1)


4つの観測，1つの変数となりました．

あれれ，それは違います．今回のデータは3観測(薗田と鈴木と斎藤)，6変数（名前,..., 身長）のはずなので`(3,6)`であるはずです．

ファイルを直接見ると，1行目に`# mydata1.csv`とあり，これはメモですね．読み飛ばす行番号をリストにして`skiprows`オプションに渡します．


In [13]:
df = pd.read_csv('mydata1.csv',skipinitialspace=True, skiprows=[0])
df

Unnamed: 0,名前,性別,好きな数,誕生月,セロリ好き度,身長
0,薗田,男,7,5,とても嫌い,172
1,鈴木,女,3,12,好き,165
2,斎藤,男,4,10,嫌い,180


In [14]:
df.shape

(3, 6)

きちんと，3観測6変数になりました．ちなみに読み飛ばした後の最初の行をヘッダ(header)，変数名リストとして読みます．
クラス変数columnsに変数名が保存されています．

ちなみに，ヘッダ行は観測ではないので，(4,6)ではなく(3,6)になっています．

In [15]:
df.columns

Index(['名前', '性別', '好きな数', '誕生月', 'セロリ好き度', '身長'], dtype='object')

変数名が並んだ行が無いCSVもあります．例えば`mydata2.csv`は`mydata1.csv`と同じ3観測6変数のデータですが，

In [16]:
df = pd.read_csv('mydata2.csv',skipinitialspace=True)
df

Unnamed: 0,薗田,男,7,5,とても嫌い,172
0,鈴木,女,3,12,好き,165
1,斎藤,男,4,10,嫌い,180


In [17]:
df.shape

(2, 6)

のように，データの1観測目がヘッダと捉えられてしまいます．よって，
`header`が無いことを教えて read_csv　します．

In [18]:
df = pd.read_csv('mydata2.csv',skipinitialspace=True,header=None)
df

Unnamed: 0,0,1,2,3,4,5
0,薗田,男,7,5,とても嫌い,172
1,鈴木,女,3,12,好き,165
2,斎藤,男,4,10,嫌い,180


ただし，ヘッダが無いので変数名が仮に0,....,5となっています．


In [19]:
df.columns

Int64Index([0, 1, 2, 3, 4, 5], dtype='int64')

きちんと変数名を決めるには
このクラス変数`columns`を正しいもので上書きします．

In [20]:
df.columns=['Name','Sex','FavoriteNumber','BirthMonth','CeleryFavor','Height']
df

Unnamed: 0,Name,Sex,FavoriteNumber,BirthMonth,CeleryFavor,Height
0,薗田,男,7,5,とても嫌い,172
1,鈴木,女,3,12,好き,165
2,斎藤,男,4,10,嫌い,180


変数名を変えるにはrenameメソッドを使ってもよいです．

In [21]:
df.rename(columns={'Sex':'Gender'})

Unnamed: 0,Name,Gender,FavoriteNumber,BirthMonth,CeleryFavor,Height
0,薗田,男,7,5,とても嫌い,172
1,鈴木,女,3,12,好き,165
2,斎藤,男,4,10,嫌い,180


ところで，データフレームを表示したときに，左端に毎回0から始まる数字が書かれています．
これは，CSVにおける観測の個体IDであり，「インデックス(index)」と読んでいます．データ本体には含まれません．

In [22]:
print(df.index)

RangeIndex(start=0, stop=3, step=1)


indexは0から始まって，1ずつ増えて，3の前までということみたいですね．

### データを集めたら

そんなこんなで，`mydata1.csv`を読みます．

In [23]:
df = pd.read_csv('mydata1.csv',skipinitialspace=True,header=1)
df

Unnamed: 0,名前,性別,好きな数,誕生月,セロリ好き度,身長
0,薗田,男,7,5,とても嫌い,172
1,鈴木,女,3,12,好き,165
2,斎藤,男,4,10,嫌い,180


同じデータですが，場合によっては，次のような表でまとめているかもしれません．

In [24]:
df2 = pd.read_csv('mydata3.csv',skipinitialspace=True,skiprows=[0])
df2

Unnamed: 0,名前,変数名,回答
0,薗田,性別,男
1,薗田,好きな数,7
2,薗田,誕生月,5
3,薗田,セロリ好き度,とても嫌い
4,薗田,身長,172
5,鈴木,性別,女
6,鈴木,好きな数,3
7,鈴木,誕生月,12
8,鈴木,セロリ好き度,好き
9,鈴木,身長,165


この場合，「名前」が同じ行は，1人に対する別々の変数と回答を表しています．つまり，回答者は「薗田」「鈴木」「斎藤」の3人です．よって，回答者をIDとします．

In [25]:
df2 = df2.set_index('名前')
df2


Unnamed: 0_level_0,変数名,回答
名前,Unnamed: 1_level_1,Unnamed: 2_level_1
薗田,性別,男
薗田,好きな数,7
薗田,誕生月,5
薗田,セロリ好き度,とても嫌い
薗田,身長,172
鈴木,性別,女
鈴木,好きな数,3
鈴木,誕生月,12
鈴木,セロリ好き度,好き
鈴木,身長,165


このような縦長の表を先程のようなデータフレームに変換するには，pivot関数を使います．変数名が並ぶ列と，回答が並ぶ列を指定すると，変換できます．

In [26]:
df3 = pd.pivot(df2,columns='変数名',values='回答')
df3

変数名,セロリ好き度,好きな数,性別,誕生月,身長
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
斎藤,嫌い,4,男,10,180
薗田,とても嫌い,7,男,5,172
鈴木,好き,3,女,12,165



#### データフレーム上の値は以下のように参照できます．

- 変数「好きな数」だけを全サンプル参照してみます．

1. df[[変数名]]

In [28]:
col1 = df3[['好きな数']]
col1

変数名,好きな数
名前,Unnamed: 1_level_1
斎藤,4
薗田,7
鈴木,3


In [29]:
print(type(col1), col1.shape)

<class 'pandas.core.frame.DataFrame'> (3, 1)


2. df.変数名

In [31]:
col2 = df3.好きな数
col2

名前
斎藤    4
薗田    7
鈴木    3
Name: 好きな数, dtype: object

In [32]:
print(type(col2), col2.shape)

<class 'pandas.core.series.Series'> (3,)


3. df[変数名]

In [34]:
col3 = df3['好きな数']
col3

名前
斎藤    4
薗田    7
鈴木    3
Name: 好きな数, dtype: object

In [35]:
print(type(col3),col3.shape)

<class 'pandas.core.series.Series'> (3,)


4. df[[変数名]][範囲]

In [36]:
col4 = df3[['好きな数']][1:3] #　スライスで行番号
col4

変数名,好きな数
名前,Unnamed: 1_level_1
薗田,7
鈴木,3


In [37]:
print(type(col4),col4.shape)

<class 'pandas.core.frame.DataFrame'> (2, 1)


5. df.loc[範囲,変数名]

In [39]:
col5 = df.loc[:1, '好きな数'] # 行スライスが`:1`に注意
col5

0    7
1    3
Name: 好きな数, dtype: int64

In [40]:
print(type(col5), col5.shape)

<class 'pandas.core.series.Series'> (2,)


6. df.iloc[行範囲，列範囲]

In [42]:
col6 = df3.iloc[:2, 1] # 変数の順番で指定
col6

名前
斎藤    4
薗田    7
Name: 好きな数, dtype: object

以上から，
- `df[['var']]` : DataFrame 2階テンソル（行列）
- `df['var']` : Series 1階テンソル（ベクトル）
- `df.var` : Series 1階テンソル（ベクトル）

- `df[['var']][:2]` : DataFrame
- `df.loc[:1, 'var']` : Series
- `df.iloc[:2, 2]` : Series 


### データの要約

データの要約は describeメソッドで行います．

In [44]:
df.describe(include='all')

Unnamed: 0,名前,性別,好きな数,誕生月,セロリ好き度,身長
count,3,3,3.0,3.0,3,3.0
unique,3,2,,,3,
top,薗田,男,,,とても嫌い,
freq,1,2,,,1,
mean,,,4.666667,9.0,,172.333333
std,,,2.081666,3.605551,,7.505553
min,,,3.0,5.0,,165.0
25%,,,3.5,7.5,,168.5
50%,,,4.0,10.0,,172.0
75%,,,5.5,11.0,,176.0


全て，各項目ごとの代表値で，

- `count`はデータの個数(sample size，サンプルサイズ)
- `unique`は*データに現れた*水準の個数 (**本当の水準数ではない**)
- `top`はデータの最頻値，`freq`は最頻値の頻度
- `mean`は平均値，`std`は標準偏差(STandard Deviation)
- `min`は最小値，`max`は最大値，
- `25%`, `50%`, `75%`は四分位で，ヒストグラムを低い水準から並べたときに下位25％，50％，75％にあたる水準を答えるものです．下位50％はmedian（メディアン，メジアン）とも呼ばれます．
- `NaN` は *Not a Number* 値なし

この関数の中身は，以下のDataFrameのメソッドを使っても表示されます．

In [45]:
# 各変数のサンプルサイズ
df.count()

名前            3
性別            3
好きな数        3
誕生月          3
セロリ好き度    3
身長            3
dtype: int64

In [46]:
# 各変数の標本平均
df.mean()

  df.mean()


好きな数      4.666667
誕生月        9.000000
身長        172.333333
dtype: float64

In [47]:
# 各変数の標本中央値
df.median()

  df.median()


好きな数      4.0
誕生月       10.0
身長        172.0
dtype: float64

In [None]:
# 各変数の標本標準偏差
df.std()

In [None]:
# 第1四分位
df.quantile(q=0.25)

In [None]:
# 第2四分位（中央値）
df.quantile(q=0.5)

In [None]:
# 第3四分位
df.quantile(q=0.75)

ところで，身長は平均や標準偏差に意味がありますが，「好きな数」や「誕生月」にとっての平均や標準偏差は意味不明ですね．

「好きな数」や「誕生月」って，いわば「性別」と同じように，どれが最初でどれが最後だとか無いですね．

ということで，各変数は，尺度（スケール，scale）というものがあります．

|尺度名|特徴|計算可能|
|---|---|---|
|名義尺度(nominal)|分類のための単なる文字・数字| `==`, `!=`, `is`, `not`|
|順序尺度(ordered)|順序関係のある文字・数字| `>`, `<`|
|間隔尺度(interval)|MKS単位系でない測定値| `+`,`-`|
|比尺度(ratio)| MKS単位系の測定値 | `*`,`/`|

間隔尺度と比尺度は見分けにくいが，MKS単位系（メートル，キログラム，秒）を基本単位とする測定値は原器に対する比で表されるので比尺度，それ以外の単位系（または単位無し）の測定値は間隔尺度と考えられる．

では，`mydata1.csv`の各変数の尺度は何でしょうか.

また，各変数は，とりうる値のリスト（「水準」といいます）がすでに決められています．各変数の具体的な水準はどうなっているでしょうか

|変数名|尺度|水準|
|---|---|---|
|名前|名義尺度|あらゆる人名|
|性別|名義尺度|集合{'男','女'}|
|好きな数|名義尺度|集合{'1','2','3','4','5','6','7','8','9','10','11','12'}|
|誕生月|名義尺度|集合{'1','2','3','4','5','6','7','8','9','10','11','12'}|
|セロリ好き度|順序尺度|リスト['とても嫌い'，'嫌い'，'普通'，'好き'，'とても好き']|
|身長|比尺度|あらゆる実数|



Pandasでは，それぞれの尺度に型（クラス）を割り当てています．
- 名義尺度は，`Categorical(categories=[...],ordered=False)`クラス
- 順序尺度は，`Categorical(categories=[...],ordered=True)`クラス
- 間隔尺度と比尺度は，`Float`クラス

というわけで，そのように直します．

[公式サイトの`class pandas.Categorical`](https://pandas.pydata.org/docs/reference/api/pandas.Categorical.html)

- 「名前」

In [48]:
df['名前']

0    薗田
1    鈴木
2    斎藤
Name: 名前, dtype: object

In [49]:
df['名前'] = pd.Categorical(df['名前'])
df['名前']

0    薗田
1    鈴木
2    斎藤
Name: 名前, dtype: category
Categories (3, object): ['斎藤', '薗田', '鈴木']

- 「性別」

In [None]:
df['性別']

In [None]:
GenderSet = {'男','女'}
df['性別'] = pd.Categorical(df['性別'], categories=GenderSet, ordered=False)
df['性別']

- 「好きな数」，「誕生月」

In [None]:
df['好きな数']

In [None]:
df['好きな数'] = df['好きな数'].astype('str') 
# MonthSet = {'1','2','3','4','5','6','7','8','9','10','11','12'} でもいいですが
MonthSet = set([str(n) for n in range(1,13)])
df['好きな数'] = pd.Categorical(df['好きな数'], categories=MonthSet, ordered=False)

df['好きな数']

In [None]:
df['誕生月'] = df['誕生月'].astype('str') 
df['誕生月'] = pd.Categorical(df['誕生月'], categories=MonthSet, ordered=False)

- 「セロリ好き度」

セロリ好き度は，強弱・大小があるので，順序尺度です．

In [50]:
df['セロリ好き度']

0    とても嫌い
1          好き
2          嫌い
Name: セロリ好き度, dtype: object

In [51]:
CerelyFavorLevel = ['とても嫌い','嫌い','ふつう','好き','とても好き']
df['セロリ好き度'] = pd.Categorical(df['セロリ好き度'],categories=CerelyFavorLevel,ordered=True)
df['セロリ好き度']

0    とても嫌い
1          好き
2          嫌い
Name: セロリ好き度, dtype: category
Categories (5, object): ['とても嫌い' < '嫌い' < 'ふつう' < '好き' < 'とても好き']

変数が文字列のものは，数字と対応付けすることができます．

性別に対して，

- 男: -1
- 女: +1

に対応付けしたいならば，まず対応を記した辞書を作り，それをマッピングします．

マッピングしたのちも，尺度は変わらず名義尺度(Categorical, ordered=False)となっています．

数字だからといって大小をつけられるわけではありません．

In [None]:
SexMap = {'男':-1, '女':+1}
df['性別'] = df['性別'].map(SexMap)
df['性別']

同様に，「セロリ好き度」も数字にしましょうか．

とても嫌い(-2) - 嫌い(-1) - ふつう(0) - 好き(+1) - とても好き(+2)

In [None]:
CerelyFavorMap = {'とても嫌い':-2, '嫌い':-1, 'ふつう':0, '好き':+1, 'とても好き':+2}
df['セロリ好き度'] = df['セロリ好き度'].map(CerelyFavorMap)
df['セロリ好き度'] 

In [None]:
df['セロリ好き度'].median()

セロリ好き度の5段階は，等間隔ですので，数字にしたからには間隔尺度になってほしいですが，そうなっていません．
間隔尺度にしてあげましょう．

In [None]:
df['セロリ好き度'] = df['セロリ好き度'].cat.codes
df['セロリ好き度']


In [None]:
df['セロリ好き度'] = df['セロリ好き度']-2

In [None]:
df['セロリ好き度'].median()

今回のデータでは，名前は単に各データのID（データを見分けるための符号）でしかありません．set_indexでIDとなる列を指定します．

In [None]:
df = df.set_index('名前')

In [None]:
df

要約

In [None]:
df.describe(include='all')


ある変数をグループ分けして，グループごとに要約することもできます．

In [None]:
df.groupby(['性別']).describe(include='all')

クロス集計表を作ることもできます．クロスさせる2つの変数名を引数に並べます．

In [None]:
pd.crosstab(df['性別'],df['好きな数'])

## 課題k02



[これ](heights14.csv)は，身近の14人（男7人，女7人）に性別と身長を尋ねたときの回答を集めた標本データである．

(1) pandasパッケージを用いて，データフレームを作成し，
この標本集団における男性と女性それぞれの平均と標準偏差を求めよ．

(2) このデータはある特定の14人のデータなので，別な14人で回答を集めるたびに別の標本平均が求まる．
適当な男7人，女7人で回答を集めたときにその標本平均が収まる範囲「◯±△」を推定せよ．
これはすなわち，男性全体，女性全体の母集団平均が収まる範囲に等しい．

(3) 男性全体，女性全体の母集団の標準偏差を求めよ．

母集団の分散$u^2$は標本の分散$s^2$と標本サイズ$N$から「推定」できる．所謂，不偏分散と呼ばれる．
$$ u^2 = \frac{N}{N-1}s^2 $$

母集団の平均の最良推定値（「◯±△」の「◯」）は，標本平均と等しい．また，標本誤差（「◯±△」の「△」）は，$\sqrt{\frac{u^2}{N}}$で求まる．

提出するファイル`k02.py`は，
```
python k02.py　
```
を実行すると，同じ階層にある`heights14.csv`を読み込み，

```
--男--
標本平均: 173.89 cm
標本標準偏差：　25.36 cm
母集団平均範囲： 173.89 ± 1.90 cm
母集団標準偏差：　28.98 cm

--女--
標本平均: ◯ cm
標本標準偏差：　◯ cm
母集団平均範囲： ◯ ± △ cm
母集団標準偏差：　◯ cm
```

と表示されるようにせよ．（男について表示される数値は上記になるのが正解）


 
 






