#### 統計検定2級 学習資料

公式サイトの出題範囲表の用語と関連事項をまとめる。

----

## 1. Pandasの使い方

PandasとはPythonのデータ分析用ライブラリ。  
公式の10 Minutes to pandasと公式マニュアルを見ながら自分なりにまとめる。

Pandasの環境の構築は以下を参照のこと(docker)   
https://qiita.com/tsnb/items/4893bc46bbdff4f97dfb

In [93]:
# importする
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### オブジェクト生成

データの型としてSeriesとDataFrameがありそれぞれ、1次元、2次元配列にラベルを付加したもの。

 - Series 
 
   ```
   Seriesは、任意のデータ型を保持できる1次元のラベル付き配列です
  （整数、文字列、浮動小数点数、Pythonオブジェクトなど）。
   軸ラベルはまとめてindexと呼ばれます。
   ```
   
 - DataFrame

   ```
   DataFrameは、異なる型の列を持ち得る2次元のラベル付きデータ構造です。
    スプレッドシートやSQLテーブル、またはSeriesオブジェクトの辞書のように考えることができます。
    DataFrameは最も一般的に使用されるpandasオブジェクトです。
    Seriesと同様に、DataFrameはさまざまな種類の入力を受け入れます。
      - 1D配列のリスト、リスト、辞書、シリーズ
      - 2-D numpy.ndarray
      - ndarrayの構造化または記録
      - シリーズ
      - 別のDataFrame
    データとともに、オプションでインデックス（行ラベル）と列（列ラベル）引数を渡すことができます。
    インデックスや列を渡すと、
    結果のDataFrameのインデックスおよび/または列を保証しています。
    したがって、Seriesの特定のインデックスと特定のインデックスは、渡されたインデックスまで一致しないすべてのデータを破棄します。
    軸ラベルが渡されない場合は、常識的な規則に基づいて入力データから構築されます。
   ```


(;´･ω･)･･･ とりあえずやってみるか

### Series

In [2]:
# Series を生成する

# 配列-> Series.
myarray = ['BTC','XRP','ETH']
print(pd.Series(myarray))

# indexをつけてみる
myindex = ['A','B','C']
print(pd.Series(myarray,index=myindex))

# 辞書-> Series.
mydict = {'a':'BTC', 'b':'XRP','c':'ETH'}
s = pd.Series(mydict)
print(s)

0    BTC
1    XRP
2    ETH
dtype: object
A    BTC
B    XRP
C    ETH
dtype: object
a    BTC
b    XRP
c    ETH
dtype: object


In [3]:
# Series を読み出す

# indexを出力する
print("s.index: ",s.index)

# indexの'a'を取り出す
print("s.index[0]: ",s.index[0])

# 'BTC'を取り出す 番号で指定 or indexキーで指定
# indexキーで指定する場合はkeyerrorにならずにnoneを返してくれるgetメソッドを利用した方が良さそう
print("s[0]: ",s[0])
print("s['a']: ",s['a'])
#print("s['f']: ",s['f']) => key error!!!
print("s.get('f'): ", s.get('f'))

# Seriesの2行分を抜き出す
print("s[2]: ",s[:2])

# 行の順番を入れ替える
print("s[[2,0,1]]: ",s[[2,0,1]])

# 'BTC'という文字列の有無を確認する
print("BT check: ", 'BT' in s)
print("BTC check: ", 'BTC' in s)

s.index:  Index(['a', 'b', 'c'], dtype='object')
s.index[0]:  a
s[0]:  BTC
s['a']:  BTC
s.get('f'):  None
s[2]:  a    BTC
b    XRP
dtype: object
s[[2,0,1]]:  c    ETH
a    BTC
b    XRP
dtype: object
BT check:  False
BTC check:  False


In [4]:
# Seriesのベクトル操作

mydict = {'a':0.1, 'b':0.2, 'c':0.3, 'd':0.4}
s = pd.Series(mydict)

print(s)

# 要素を全て2倍にする
print(s*2)

# 各要素をlog(s)にする
print(np.log(s))

a    0.1
b    0.2
c    0.3
d    0.4
dtype: float64
a    0.2
b    0.4
c    0.6
d    0.8
dtype: float64
a   -2.302585
b   -1.609438
c   -1.203973
d   -0.916291
dtype: float64


### DataFrame

In [5]:
# DataFrameを生成する

# Seriesのdict-> DataFrame
d  = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
      'two' : pd.Series([4., 5., 6., 7.], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df

print("index: ",df.index)
print("columns: ",df.columns)

index:  Index(['a', 'b', 'c', 'd'], dtype='object')
columns:  Index(['one', 'two'], dtype='object')


In [6]:
# Arrayのdict-> DataFrame
d = {'one' : [1., 2., 3., 4.],
     'two' : [4., 3., 2., 1.]}

df = pd.DataFrame(d)
df

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [7]:
# 後からindexを付加
df.index = ['a','b','c','d']
df

# 一気にindexまで付ける場合は、pd.DataFrame(d, index=[...])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


In [8]:
# from_items
item = [('percent_change_24h', [10.,20.,30.]), ('market_cap', [1000,2000,3000])]
pd.DataFrame.from_items( item )

Unnamed: 0,percent_change_24h,market_cap
0,10.0,1000
1,20.0,2000
2,30.0,3000


In [10]:
# from_items orient='index'
item = [('BTC',[100.,10000]), ('XRP',[40.,4000]), ('ETH',[50.,5000])]
df = pd.DataFrame.from_items(item, orient='index', columns=['percent_change_24h','market_cap'])
df

Unnamed: 0,percent_change_24h,market_cap
BTC,100.0,10000
XRP,40.0,4000
ETH,50.0,5000


In [11]:
# market_cap削除
del df['market_cap']
df

Unnamed: 0,percent_change_24h
BTC,100.0
XRP,40.0
ETH,50.0


In [12]:
# test列を追加 各行のpercent_change_24h * 2
df['test'] = df['percent_change_24h']*2
df

Unnamed: 0,percent_change_24h,test
BTC,100.0,200.0
XRP,40.0,80.0
ETH,50.0,100.0


In [13]:
# testが100より大きい行をTrueとするflag列を追加
df['flag'] = df['test'] > 100
df

Unnamed: 0,percent_change_24h,test,flag
BTC,100.0,200.0,True
XRP,40.0,80.0,False
ETH,50.0,100.0,False


In [14]:
# insert 位置を指定してvolumeを追加 insert(位置、変数名、値)
df.insert(2, 'volume', df['test']*4)
df

Unnamed: 0,percent_change_24h,test,volume,flag
BTC,100.0,200.0,800.0,True
XRP,40.0,80.0,320.0,False
ETH,50.0,100.0,400.0,False


In [15]:
# indexing 情報の抜き出し方
print("===========")
print(df.loc['BTC'])
print("===========")
print(df.iloc[0])
print("===========")
print(df['test'])
print("===========")
print(df[:2])

percent_change_24h     100
test                   200
volume                 800
flag                  True
Name: BTC, dtype: object
percent_change_24h     100
test                   200
volume                 800
flag                  True
Name: BTC, dtype: object
BTC    200.0
XRP     80.0
ETH    100.0
Name: test, dtype: float64
     percent_change_24h   test  volume   flag
BTC               100.0  200.0   800.0   True
XRP                40.0   80.0   320.0  False


In [103]:
# 実際のデータで試してみる
# スクレイピングでsuumoの情報を取得して解析する（情報解析目的での利用です）
# スクレイピングのルールは、https://qiita.com/nezuq/items/c5e827e1827e7cb29011

from bs4 import BeautifulSoup
import requests

# suumoで自分の好みの条件で検索を実行（上位50件）した時のURIを以下に貼り付ける。 クローリングが面倒いので今回はしない。
uri='http://www.data.jma.go.jp/obd/stats/etrn/view/daily_s1.php?prec_no=44&block_no=47662&year=2017&month=1&day=&view=p1'

result = requests.get(uri)
cont = result.content

soup = BeautifulSoup(cont, 'lxml')
a = soup.find_all('table',{'id':'tablefix1'})
a
#a.find_all('a',{'class':'data_0_0'})
#items = bukken.find_all('div',{'class':'cassetteitem'})

[<table class="data2_s" id="tablefix1">
 <tr class="mtx"><th rowspan="4" scope="col">日</th><th colspan="2" scope="colgroup">気圧(hPa)</th><th colspan="3" rowspan="2" scope="colgroup">降水量(mm)</th><th colspan="3" rowspan="2" scope="colgroup">気温(℃)</th><th colspan="2" rowspan="2" scope="colgroup">湿度(％)</th><th colspan="5" rowspan="2" scope="colgroup">風向・風速(m/s)</th><th rowspan="4" scope="col">日照<br/>時間<br/>(h)</th><th colspan="2" rowspan="2" scope="colgroup">雪(cm)</th><th colspan="2" rowspan="2" scope="colgroup">天気概況</th></tr>
 <tr class="mtx" scope="colgroup"><th scope="colgroup">現地</th><th colspan="1" scope="colgroup">海面</th></tr>
 <tr class="mtx"><th rowspan="2" scope="col">平均</th><th rowspan="2" scope="col">平均</th><th rowspan="2" scope="col">合計</th><th colspan="2" scope="colgroup">最大</th><th rowspan="2" scope="col">平均</th><th rowspan="2" scope="col">最高</th><th rowspan="2" scope="col">最低</th><th rowspan="2" scope="col">平均</th><th rowspan="2" scope="col">最小</th><th rowspan="2" scope="col"

In [90]:
name = []
address = []
ekitime = []
tikunen = []
kai = []
cost = []
kanri = []
zappi = []
madori = []
area = []

for i in range(len(items)):
    # 建物名のdiv要素を取り出す
    content_title = items[i].find_all('div',{'class':'cassetteitem_content-title'})
    # 名前だけ抽出
    name.append(content_title[0].text)
    
    # 住所のdiv要素を取り出す
    detail_col1 = items[i].find_all('li',{'class':'cassetteitem_detail-col1'})
    address.append(detail_col1[0].text)
    
    # 駅からの距離情報
    detail_text = items[i].find_all('div',{'class':'cassetteitem_detail-text'})
    access=[0,0,0]
    for j in range(3):
        access[j] = detail_text[j].text
        
    ekitime.append(access)
    
    # 築年数
    detail_col3 = items[i].find_all('li',{'class':'cassetteitem_detail-col3'})
    tikunen.append(detail_col3[0].div.text)
    
    # table
    table_other = items[i].find_all('table',{'class':'cassetteitem_other'})
    #print(table_other[0])
    
    other_col = table_other[0].find_all('td')
    # 階
    kai.append(other_col[2].text)
    # 賃料
    cost.append( float(other_col[3].text.replace('万円','')) )
    # 管理費
    #kanri.append( float(other_col[4].text.replace('円','')) )
    # 敷金など
    zappi.append(other_col[5].text)
    # 間取り
    madori.append(float(other_col[6].text.replace('ワンルーム','0').replace('1K','1').replace('1LDK','2').replace('2LDK','3').replace('1DK','4')))
    # 面積
    area.append(other_col[7].text)
    
name
pd.DataFrame
#name

# from_items
item = [
        #('建物名', name),  コメントアウトを外すと表示できます。
        #('住所', address), 建物名と住所がgithubに残るとよろしくないかもなのでコメントアウト。
        ('駅からの距離', ekitime),
        ('築年数', tikunen),
        ('階', kai),
        ('賃料', cost),
        #('管理費', kanri),
        ('敷/礼/保証/敷引、償却', zappi),
        ('間取り', madori),
        ('占有面積', area)
       ]
df = pd.DataFrame.from_items( item )
df

Unnamed: 0,駅からの距離,築年数,階,賃料,敷/礼/保証/敷引、償却,間取り,占有面積
0,"[東京メトロ丸ノ内線/新宿三丁目駅 歩3分, 東京メトロ丸ノ内線/新宿御苑前駅 歩5分, Ｊ...",築2年,11階,11.15,-/11.15万円/-/-,1.0,25.41m2
1,"[東京メトロ副都心線/東新宿駅 歩5分, 都営大江戸線/若松河田駅 歩6分, 東京メトロ丸ノ...",築2年,12階,16.45,16.45万円/32.9万円/-/-,2.0,40.61m2
2,"[京王新線/初台駅 歩5分, ＪＲ山手線/新宿駅 歩13分, 小田急線/参宮橋駅 歩11分]",新築,7階,11.5,11.5万円/23万円/-/-,1.0,30.37m2
3,"[都営大江戸線/西新宿五丁目駅 歩3分, 都営大江戸線/都庁前駅 歩7分, 東京メトロ丸ノ内...",新築,3階,8.7,8.7万円/8.7万円/-/-,0.0,23.71m2
4,"[東京メトロ東西線/飯田橋駅 歩5分, 都営大江戸線/牛込神楽坂駅 歩11分, 東京メトロ東...",築3年,4階,16.9,16.9万円/33.8万円/-/-,2.0,45.12m2
5,"[ＪＲ山手線/新大久保駅 歩3分, ＪＲ中央線/大久保駅 歩6分, 西武新宿線/西武新宿駅 ...",築3年,3階,12.0,12万円/12万円/-/-,1.0,30.78m2
6,"[東京メトロ丸ノ内線/新宿御苑前駅 歩5分, 東京メトロ副都心線/新宿三丁目駅 歩8分, 都...",築3年,6階,21.0,42万円/21万円/-/-,2.0,42.29m2
7,"[都営大江戸線/牛込柳町駅 歩5分, 東京メトロ東西線/神楽坂駅 歩9分, 都営大江戸線/牛...",新築,2階,10.0,10万円/10万円/-/-,1.0,25.28m2
8,"[東京メトロ副都心線/東新宿駅 歩2分, 都営大江戸線/東新宿駅 歩3分, ＪＲ山手線/新大...",築2年,2階,10.7,10.7万円/10.7万円/-/-,1.0,25.03m2
9,"[都営大江戸線/東新宿駅 歩8分, 東京メトロ丸ノ内線/新宿三丁目駅 歩3分, 西武新宿線/...",築2年,2階,10.85,10.85万円/16.28万円/-/-,1.0,25.39m2


実データが作れたのでここから、このデータを操作してみる。

In [18]:
# head, tail
df.head(3)

Unnamed: 0,駅からの距離,築年数,階,賃料,管理費,敷/礼/保証/敷引、償却,間取り,占有面積
0,"[西武新宿線/下落合駅 歩4分, ＪＲ山手線/高田馬場駅 歩9分, 西武新宿線/中井駅 歩16分]",築2年,4階,8.5,5000.0,8.5万円/8.5万円/-/-,ワンルーム,20.08m2
1,"[西武新宿線/下落合駅 歩1分, 都営大江戸線/中井駅 歩10分, ＪＲ山手線/高田馬場駅 ...",築4年,2階,8.2,8000.0,8.2万円/8.2万円/-/-,1K,23.73m2
2,"[東京メトロ東西線/早稲田駅 歩1分, 都営大江戸線/若松河田駅 歩14分, 東京メトロ副都...",築4年,2階,8.9,4000.0,8.9万円/8.9万円/-/-,ワンルーム,27.41m2


In [19]:
# 値の取り出し values
df.values[0][0]

['西武新宿線/下落合駅 歩4分', 'ＪＲ山手線/高田馬場駅 歩9分', '西武新宿線/中井駅 歩16分']

In [91]:
# 賃料の列だけ抽出
dfext = df.loc[:,['賃料','間取り']]
# 万円という文字列を削除するために正規表現で置換する
dfext.to_csv('ch3-2_suumo.csv')
dfext.head(5)

Unnamed: 0,賃料,間取り
0,11.15,1.0
1,16.45,2.0
2,11.5,1.0
3,8.7,0.0
4,16.9,2.0


In [21]:
# 転置
dfext.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
賃料,8.5,8.2,8.9,8.6,8.6,8.95,8.4,8.4,8.0,8.0,...,8.4,8.0,8.0,7.9,8.5,8.0,8.0,8.1,7.9,8.5
管理費,5000.0,8000.0,4000.0,8000.0,8000.0,3500.0,5000.0,5000.0,8000.0,8000.0,...,6000.0,10000.0,10000.0,9000.0,9000.0,8000.0,8000.0,8000.0,10000.0,7000.0


In [22]:
# 数値でソートする ascending=True -> 昇順
dfext.sort_values(by=['賃料','管理費'], ascending=[True,True])

Unnamed: 0,賃料,管理費
17,7.9,9000.0
22,7.9,10000.0
8,8.0,8000.0
9,8.0,8000.0
19,8.0,8000.0
20,8.0,8000.0
15,8.0,10000.0
16,8.0,10000.0
21,8.1,8000.0
1,8.2,8000.0


In [25]:
# date_rangeで日付型でインデックスを生成する
dates = pd.date_range('20130101', periods=6)

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,0.530312,0.8641,-0.256549,0.216121
2013-01-02,-0.47131,-0.168429,-2.904705,0.699489
2013-01-03,0.46133,-0.009411,0.985406,1.287114
2013-01-04,1.223221,-0.339662,-0.25181,0.615212
2013-01-05,1.363411,-0.663018,0.288587,-1.067782
2013-01-06,-0.452059,-0.76806,-1.629485,-1.005302


In [26]:
# 日付指定で行を抽出
df['2013-01-03':'2013-01-05']

Unnamed: 0,A,B,C,D
2013-01-03,0.46133,-0.009411,0.985406,1.287114
2013-01-04,1.223221,-0.339662,-0.25181,0.615212
2013-01-05,1.363411,-0.663018,0.288587,-1.067782


In [27]:
# 日付指定で行を取り出す
df.loc[dates[0]]

A    0.530312
B    0.864100
C   -0.256549
D    0.216121
Name: 2013-01-01 00:00:00, dtype: float64

In [28]:
# 行と列を指定して抜き出す
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,-0.47131,-0.168429
2013-01-03,0.46133,-0.009411
2013-01-04,1.223221,-0.339662


In [29]:
# 行列を位置指定で抜き出す
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,1.223221,-0.339662
2013-01-05,1.363411,-0.663018


In [31]:
# 列平均
df.mean()

A    0.442484
B   -0.180747
C   -0.628093
D    0.124142
dtype: float64

In [32]:
# 行平均
df.mean(1)

2013-01-01    0.338496
2013-01-02   -0.711239
2013-01-03    0.681110
2013-01-04    0.311740
2013-01-05   -0.019700
2013-01-06   -0.963726
Freq: D, dtype: float64

In [33]:
df.apply(lambda x: x.max() - x.min())

A    1.834722
B    1.632160
C    3.890111
D    2.354896
dtype: float64

とりあえずこんなもんでいいか。

### 参考
 
参考1: "10 Minutes to pandas".http://pandas.pydata.org/pandas-docs/stable/10min.html 、(参照2018-02-10).

*Revision:001 2018/02/10 init*