# データソース

## webサイト

日本語  
http://www.data.go.jp/  
http://linkdata.org/  
http://aws.amazon.com/public-data-sets/  
http://www.google.com/publicdata/directory  
http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do  

英語  
http://www.data.gov/  
https://www.kaggle.com/

## 適当なサンプル作成

In [None]:
np.zeros(5)
np.ones((5,5))
np.empty((3,4))
np.eye(5)
np.arange(5, 50, 2)
np.arange(9).reshape((3,3))
np.random.randn(10, 10)
np.random.permutation(4)
np.random.randint(0, 5, size=10)
np.random.seed(12345) # ランダムシード
dframe = DataFrame(np.random.randn(5*5).reshape((5,5)),index=['A','B','D','E','F'],columns=['col1','col2','col3','col4','col5'])

from scipy import stats
stats.norm(0,5).rvs(100)
# 正規分布に従う乱数です。
data1 = stats.norm(0, 5).rvs(100)
# γ分布に従う乱数を生成します。
data2 = np.concatenate([stats.gamma(5).rvs(50) - 1, - 1 * stats.gamma(5).rvs(50)])

N = 500
X = np.random.uniform(low=0, high=1, size=[N,2])
X = np.random.uniform(low=-1, high=1, size=(1000,2)) * (2,1)
y = np.random.choice([0,1], size=N)
mu, sigma = 0, 0.1 # mean and standard deviation
s = np.random.normal(mu, sigma, 1000)

# 用意されているデータ

## seaborn

In [None]:
sns.load_dataset("tips")
sns.load_dataset('flights')

## scikit-learn

In [None]:
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
print(data.DESCR)

from sklearn.datasets import load_iris
data = load_iris()

from sklearn.datasets import fetch_mldata
mnist = fetch_mldata('MNIST original')
# MNISTの場合，60000が学習，10000がテスト，と決まっている
# http://yann.lecun.com/exdb/mnist/
X_train = mnist.data[:60000]
X_test  = mnist.data[60000:70000]
y_train = mnist.target[:60000]
y_test  = mnist.target[60000:70000]

from sklearn.datasets import load_sample_image
china = load_sample_image('china.jpg')
plt.imshow(china);

## ファイルを指定してダウンロード

In [None]:
import urllib.request
# データのダウンロード
urllib.request.urlretrieve("http://www.gutenberg.org/files/11/11-0.txt", "allice.txt")

In [None]:
# Webからデータを取得するために、requestsをインポートします。
import requests
# CSVデータのために、StringIOをつかいます。
from io import StringIO
# データのURLです。
url = "http://elections.huffingtonpost.com/pollster/2012-general-election-romney-vs-obama.csv"
# requestsをつかってデータをtextとして取得します。
source = requests.get(url).text
# StringIOを使ってpandasのエラーを防ぎます。
poll_data = StringIO(source) 
poll_df = pd.read_csv(poll_data)

## API

### yahoo

In [None]:
# http://qiita.com/HirofumiYashima/items/50d56ba229c364ae4960
# !conda install pandas-datareader
import pandas_datareader.data as web
import datetime
prices = web.DataReader(['CVX','XOM','BP'], 'yahoo', 
                               start=datetime.datetime(2010, 1, 1), 
                               end=datetime.datetime(2013, 1, 1))['Adj Close']


# 所謂ハイテク企業の株価を扱ってみます。
tech_list = ['AAPL','GOOG','MSFT','AMZN']
# 直近1年間のデータを使ってみましょう。
end = datetime.datetime.now()
start = datetime.datetime(end.year - 1,end.month,end.day)
# それぞれの企業ごとに、Yahooのサイトからデータを取得します
for stock in tech_list:   
    # それぞれの名前でDataFrameを作ります。
    globals()[stock] = web.DataReader(stock,'yahoo',start, end)

# 各社の'Adj Close'をデータフレームでまとめる。
closing_df = web.DataReader(['AAPL','GOOG','MSFT','AMZN'],'yahoo',start,end)['Adj Close']

## スクレイピングは最後の手段

### web上のテーブル

In [None]:
#pip install beautiful-soup
#pip install html5lib
import pandas as pd
url = 'http://www.fdic.gov/bank/individual/failed/banklist.html'
dframe_list = pd.io.html.read_html(url)
dframe_list[0]