#### 統計検定2級 学習資料

公式サイトの出題範囲表の用語と関連事項をまとめる。

----

## 1. Pandasの使い方

PandasとはPythonのデータ分析用ライブラリ。  
公式の10 Minutes to pandasと公式マニュアルを見ながら自分なりにまとめる。

Pandasの環境の構築は以下を参照のこと(docker)   
https://qiita.com/tsnb/items/4893bc46bbdff4f97dfb

In [1]:
# importする
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### オブジェクト生成

データの型としてSeriesとDataFrameがありそれぞれ、1次元、2次元配列にラベルを付加したもの。

 - Series 
 
   ```
   Seriesは、任意のデータ型を保持できる1次元のラベル付き配列です
  （整数、文字列、浮動小数点数、Pythonオブジェクトなど）。
   軸ラベルはまとめてindexと呼ばれます。
   ```
   
 - DataFrame

   ```
   DataFrameは、異なる型の列を持ち得る2次元のラベル付きデータ構造です。
    スプレッドシートやSQLテーブル、またはSeriesオブジェクトの辞書のように考えることができます。
    DataFrameは最も一般的に使用されるpandasオブジェクトです。
    Seriesと同様に、DataFrameはさまざまな種類の入力を受け入れます。
      - 1D配列のリスト、リスト、辞書、シリーズ
      - 2-D numpy.ndarray
      - ndarrayの構造化または記録
      - シリーズ
      - 別のDataFrame
    データとともに、オプションでインデックス（行ラベル）と列（列ラベル）引数を渡すことができます。
    インデックスや列を渡すと、
    結果のDataFrameのインデックスおよび/または列を保証しています。
    したがって、Seriesの特定のインデックスと特定のインデックスは、渡されたインデックスまで一致しないすべてのデータを破棄します。
    軸ラベルが渡されない場合は、常識的な規則に基づいて入力データから構築されます。
   ```


(;´･ω･)･･･ とりあえずやってみるか

### Series

In [2]:
# Series を生成する

# 配列-> Series.
myarray = ['BTC','XRP','ETH']
print(pd.Series(myarray))

# indexをつけてみる
myindex = ['A','B','C']
print(pd.Series(myarray,index=myindex))

# 辞書-> Series.
mydict = {'a':'BTC', 'b':'XRP','c':'ETH'}
s = pd.Series(mydict)
print(s)

0    BTC
1    XRP
2    ETH
dtype: object
A    BTC
B    XRP
C    ETH
dtype: object
a    BTC
b    XRP
c    ETH
dtype: object


In [3]:
# Series を読み出す

# indexを出力する
print("s.index: ",s.index)

# indexの'a'を取り出す
print("s.index[0]: ",s.index[0])

# 'BTC'を取り出す 番号で指定 or indexキーで指定
# indexキーで指定する場合はkeyerrorにならずにnoneを返してくれるgetメソッドを利用した方が良さそう
print("s[0]: ",s[0])
print("s['a']: ",s['a'])
#print("s['f']: ",s['f']) => key error!!!
print("s.get('f'): ", s.get('f'))

# Seriesの2行分を抜き出す
print("s[2]: ",s[:2])

# 行の順番を入れ替える
print("s[[2,0,1]]: ",s[[2,0,1]])

# 'BTC'という文字列の有無を確認する
print("BT check: ", 'BT' in s)
print("BTC check: ", 'BTC' in s)

s.index:  Index(['a', 'b', 'c'], dtype='object')
s.index[0]:  a
s[0]:  BTC
s['a']:  BTC
s.get('f'):  None
s[2]:  a    BTC
b    XRP
dtype: object
s[[2,0,1]]:  c    ETH
a    BTC
b    XRP
dtype: object
BT check:  False
BTC check:  False


In [27]:
# Seriesのベクトル操作

mydict = {'a':0.1, 'b':0.2, 'c':0.3, 'd':0.4}
s = pd.Series(mydict)

print(s)

# 要素を全て2倍にする
print(s*2)

# 各要素をlog(s)にする
print(np.log(s))

a    0.1
b    0.2
c    0.3
d    0.4
dtype: float64
a    0.2
b    0.4
c    0.6
d    0.8
dtype: float64
a   -2.302585
b   -1.609438
c   -1.203973
d   -0.916291
dtype: float64


### DataFrame

In [34]:
# DataFrameを生成する

# Seriesのdict-> DataFrame
d  = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
      'two' : pd.Series([4., 5., 6., 7.], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df

print("index: ",df.index)
print("columns: ",df.columns)

index:  Index(['a', 'b', 'c', 'd'], dtype='object')
columns:  Index(['one', 'two'], dtype='object')


In [37]:
# Arrayのdict-> DataFrame
d = {'one' : [1., 2., 3., 4.],
     'two' : [4., 3., 2., 1.]}

df = pd.DataFrame(d)
df

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [55]:
# 後からindexを付加
df.index = ['a','b','c','d']
df

# 一気にindexまで付ける場合は、pd.DataFrame(d, index=[...])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


In [92]:
# from_items
item = [('percent_change_24h', [10.,20.,30.]), ('market_cap', [1000,2000,3000])]
pd.DataFrame.from_items( item )

Unnamed: 0,percent_change_24h,market_cap
0,10.0,1000
1,20.0,2000
2,30.0,3000


In [93]:
# from_items orient='index'
item = [('BTC',[100.,10000]), ('XRP',[40.,4000]), ('ETH',[50.,5000])]
df = pd.DataFrame.from_items(item, orient='index', columns=['percent_change_24h','market_cap'])
df

Unnamed: 0,percent_change_24h,market_cap
BTC,100.0,10000
XRP,40.0,4000
ETH,50.0,5000


In [94]:
# market_cap削除
del df['market_cap']
df

Unnamed: 0,percent_change_24h
BTC,100.0
XRP,40.0
ETH,50.0


In [95]:
# test列を追加 各行のpercent_change_24h * 2
df['test'] = df['percent_change_24h']*2
df

Unnamed: 0,percent_change_24h,test
BTC,100.0,200.0
XRP,40.0,80.0
ETH,50.0,100.0


In [96]:
# testが100より大きい行をTrueとするflag列を追加
df['flag'] = df['test'] > 100
df

Unnamed: 0,percent_change_24h,test,flag
BTC,100.0,200.0,True
XRP,40.0,80.0,False
ETH,50.0,100.0,False


In [97]:
# insert 位置を指定してvolumeを追加 insert(位置、変数名、値)
df.insert(2, 'volume', df['test']*4)
df

Unnamed: 0,percent_change_24h,test,volume,flag
BTC,100.0,200.0,800.0,True
XRP,40.0,80.0,320.0,False
ETH,50.0,100.0,400.0,False


In [108]:
# indexing 情報の抜き出し方
print("===========")
print(df.loc['BTC'])
print("===========")
print(df.iloc[0])
print("===========")
print(df['test'])
print("===========")
print(df[:2])

percent_change_24h     100
test                   200
volume                 800
flag                  True
Name: BTC, dtype: object
percent_change_24h     100
test                   200
volume                 800
flag                  True
Name: BTC, dtype: object
BTC    200.0
XRP     80.0
ETH    100.0
Name: test, dtype: float64
     percent_change_24h   test  volume   flag
BTC               100.0  200.0   800.0   True
XRP                40.0   80.0   320.0  False


In [202]:
# 実際のデータで試してみる
# スクレイピングでsuumoの情報を取得する

from bs4 import BeautifulSoup
import requests

# suumoで自分の好みの条件で検索を実行（上位50件）した時のURIを以下に貼り付ける。 クローリングが面倒いので今回はしない。
uri='https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&ta=13&sc=13104&cb=0.0&ct=9.5&mb=0&mt=9999999&ts=1&et=5&cn=10&co=1&kz=1&tc=0400101&tc=0400501&tc=0400502&tc=0400503&tc=0400601&tc=0400301&tc=0400302&tc=0400303&tc=0400905&tc=0400801&tc=0400803&tc=0400401&tc=0400702&shkr1=03&shkr2=03&shkr3=03&shkr4=03&sngz=&po1=04&pc=50'

result = requests.get(uri)
cont = result.content

soup = BeautifulSoup(cont, 'lxml')
bukken = soup.find('div',{'id':'js-bukkenList'})
items = bukken.find_all('div',{'class':'cassetteitem'})

In [203]:
name = []
address = []
ekitime = []
tikunen = []
kai = []
cost = []
kanri = []
zappi = []
madori = []
area = []

for i in range(len(items)):
    # 建物名のdiv要素を取り出す
    content_title = items[i].find_all('div',{'class':'cassetteitem_content-title'})
    # 名前だけ抽出
    name.append(content_title[0].text)
    
    # 住所のdiv要素を取り出す
    detail_col1 = items[i].find_all('li',{'class':'cassetteitem_detail-col1'})
    address.append(detail_col1[0].text)
    
    # 駅からの距離情報
    detail_text = items[i].find_all('div',{'class':'cassetteitem_detail-text'})
    access=[0,0,0]
    for j in range(3):
        access[j] = detail_text[j].text
        
    ekitime.append(access)
    
    # 築年数
    detail_col3 = items[i].find_all('li',{'class':'cassetteitem_detail-col3'})
    tikunen.append(detail_col3[0].div.text)
    
    # table
    table_other = items[i].find_all('table',{'class':'cassetteitem_other'})
    #print(table_other[0])
    
    other_col = table_other[0].find_all('td')
    # 階
    kai.append(other_col[2].text)
    # 賃料
    cost.append(other_col[3].text)
    # 管理費
    kanri.append(other_col[4].text)
    # 敷金など
    zappi.append(other_col[5].text)
    # 間取り
    madori.append(other_col[6].text)
    # 面積
    area.append(other_col[7].text)
    
name
pd.DataFrame
#name

# from_items
item = [('建物名', name), 
        ('住所', address),
        ('駅からの距離', ekitime),
        ('築年数', tikunen),
        ('階', kai),
        ('賃料', cost),
        ('管理費', kanri),
        ('敷/礼/保証/敷引、償却', zappi),
        ('間取り', madori),
        ('占有面積', area)
       ]
pd.DataFrame.from_items( item )

Unnamed: 0,建物名,住所,駅からの距離,築年数,階,賃料,管理費,敷/礼/保証/敷引、償却,間取り,占有面積
0,ＥＸＡＭ高田馬場,東京都新宿区下落合１,"[ＪＲ山手線/高田馬場駅 歩9分, 東京メトロ東西線/高田馬場駅 歩9分, 西武新宿線/下落...",築2年,4階,8.5万円,5000円,8.5万円/8.5万円/-/-,ワンルーム,20.08m2
1,ラフォルテ落合,東京都新宿区上落合１,"[西武新宿線/下落合駅 歩1分, ＪＲ山手線/高田馬場駅 歩13分, 西武新宿線/中井駅 歩...",築4年,2階,8.2万円,8000円,8.2万円/8.2万円/-/-,1K,23.4m2
2,クロシェット早稲田,東京都新宿区馬場下町,"[東京メトロ東西線/早稲田駅 歩1分, 都営大江戸線/若松河田駅 歩14分, 東京メトロ副都...",築4年,2階,8.9万円,4000円,8.9万円/8.9万円/-/-,ワンルーム,27.41m2
3,クオリア西落合,東京都新宿区西落合１,"[都営大江戸線/落合南長崎駅 歩5分, 西武池袋線/東長崎駅 歩13分, 西武新宿線/新井薬...",築6年,6階,8.5万円,8000円,8.5万円/8.5万円/-/-,1K,25.95m2
4,東京メトロ副都心線 西早稲田駅 11階建 築7年,東京都新宿区西早稲田３,"[東京メトロ副都心線/西早稲田駅 歩10分, ＪＲ山手線/高田馬場駅 歩10分, 都電荒川線...",築7年,11階,7.95万円,10000円,7.95万円/7.95万円/-/-,1K,20.7m2
5,スパシエ グランス 早稲田,東京都新宿区早稲田鶴巻町,"[東京メトロ東西線/早稲田駅 歩4分, 都営大江戸線/牛込柳町駅 歩17分, 東京メトロ有楽...",築7年,6階,8.95万円,3500円,8.95万円/17.9万円/-/8.95万円,1K,21.9m2
6,東京メトロ東西線 神楽坂駅 8階建 築7年,東京都新宿区早稲田鶴巻町,"[東京メトロ東西線/神楽坂駅 歩15分, 東京メトロ東西線/早稲田駅 歩4分, 東京メトロ有...",築7年,6階,8.95万円,3500円,8.95万円/17.9万円/-/8.95万円,1K,21.9m2
7,ベルペトラ,東京都新宿区西落合１,"[都営大江戸線/落合南長崎駅 歩3分, 西武池袋線/東長崎駅 歩12分, 西武新宿線/中井駅...",築8年,3階,8.4万円,5000円,8.4万円/8.4万円/-/-,1K,25.47m2
8,都営大江戸線 落合南長崎駅 7階建 築8年,東京都新宿区西落合１,"[都営大江戸線/落合南長崎駅 歩3分, 西武池袋線/東長崎駅 歩12分, 西武新宿線/中井駅...",築8年,3階,8.4万円,5000円,8.4万円/8.4万円/-/-,1K,25.47m2
9,ブライズ高田馬場,東京都新宿区下落合４,"[西武新宿線/下落合駅 歩5分, ＪＲ山手線/高田馬場駅 歩9分, ＪＲ山手線/目白駅 歩14分]",築9年,7階,8万円,8000円,8万円/8万円/-/-,1K,21.28m2


実データが作れたのでここから、このデータを操作してみる。

### 参考
 
参考1: "10 Minutes to pandas".http://pandas.pydata.org/pandas-docs/stable/10min.html 、(参照2018-02-10).

*Revision:001 2018/02/10 init*