# 2章　データのロード
## レシピ2.1　サンプルデータセットのロード


In [None]:
# scikit-learnのdatasetsをロード
from sklearn import datasets

# digitデータセットをロード
digits = datasets.load_digits()

# 特徴量行列を作成
features = digits.data

# ターゲットベクトルを作成
target = digits.target

# 最初の観測値を表示
features[0]

In [None]:
# scikit-learnのデータセットをインポート
from sklearn import datasets

# digitsデータセットをロード
digits = datasets.load_digits()

# DESCR属性を表示
print(digits.DESCR)

## レシピ2.2　シミュレーションによるデータセットの生成


In [None]:
# ライブラリをロード
from sklearn.datasets import make_regression

# 特徴量行列、ターゲットベクトル、生成に用いた係数の真の値を生成
features, target, coefficients = make_regression(n_samples = 100,
                                                n_features = 3,
                                                n_informative = 3,
                                                n_targets = 1,
                                                noise = 0.0,
                                                coef = True,
                                                random_state = 1)

# 特徴量行列とターゲットベクトルを表示
print('特徴量行列\n', features[:3])
print('ターゲットベクトル\n', target[:3])

In [None]:
# ライブラリをロード
from sklearn.datasets import make_classification

# 特徴量行列、ターゲットベクトルを生成
features, target = make_classification(n_samples = 100,
                                    n_features = 3,
                                    n_informative = 3,
                                    n_redundant = 0,
                                    n_classes = 2,
                                    weights = [.25, .75],
                                    random_state = 1)

# 特徴量行列、ターゲットベクトルを表示
print('特徴量行列\n', features[:3])
print('ターゲットベクトル\n', target[:3])

In [None]:
# ライブラリをロード
from sklearn.datasets import make_blobs

# 特徴量行列、ターゲットベクトルを生成
features, target = make_blobs(n_samples = 100,
                              n_features = 2,
                              centers = 3,
                              cluster_std = 0.5,
                              shuffle = True,
                              random_state = 1)

# 特徴量行列、ターゲットベクトルを表示
print('特徴量行列\n', features[:3])
print('ターゲットベクトル\n', target[:3])

In [None]:
# ライブラリのロード
import matplotlib.pyplot as plt

# 散布図を表示
plt.scatter(features[:,0], features[:,1], c=target)
plt.show()

## レシピ2.3　CSVファイルのロード


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'

# データセットをロード
dataframe = pd.read_csv(url)

# 最初の2行を表示
dataframe.head(2)

## レシピ2.4　Excelファイルの読み込み


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'

# データをロード
dataframe = pd.read_excel(url, sheet_name=0, header=0)

# 最初の2行を表示
dataframe.head(2)

## レシピ2.5　JSONファイルの読み込み


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.json'

# データをロード
dataframe = pd.read_json(url, orient='columns')

# 最初の2行を表示
dataframe.head(2)

## レシピ2.6　Parquetファイルの読み込み


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.parquet'

# データをロード
dataframe = pd.read_parquet(url)

# 最初の2行を表示
dataframe.head(2)

## レシピ2.7　Avroファイルの読み込み


In [None]:
# ライブラリをロード
import requests
import pandavro as pdx

# URLを作成
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.avro'

# ファイルをダウンロード
r = requests.get(url)
open('data.avro', 'wb').write(r.content)

# データをロード
dataframe = pdx.read_avro('data.avro')

# 最初の2行を表示
dataframe.head(2)

## レシピ2.8　SQLiteデータベースの検索


In [None]:
# ライブラリをロード
import pandas as pd
from sqlalchemy import create_engine

# データベース接続を作成
database_connection = create_engine('sqlite:///sample.db')

# データをロード
dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)

# 最初の2行を表示
dataframe.head(2)

## レシピ2.9　リモートSQLデータベースの検索


In [None]:
# ライブラリをロード
import pymysql
import pandas as pd

# データベース接続を作成
# 下記URLにあるコード例を用いてDBインスタンスを起動しておくこと
# https://github.com/kylegallatin/mysql-db-example
conn = pymysql.connect(
    host='localhost',
    user='root',
    password = "",
    db='db',
)                    
# SQLクエリを発行し、結果をデータフレームに読み込む
dataframe = pd.read_sql("select * from data", conn)
# 最初の2行を表示
dataframe.head(2)

## レシピ2.10　Google Sheetsからの読み込み


In [None]:
# ライブラリをロード
import pandas as pd

# Google SheetsのURL。CSVとしてダウンロードする
url = "https://docs.google.com/spreadsheets/d/"\
"1ehC-9otcAuitqnmWksqt1mOrTRCL38dv0K9UjhwzTOA/export?format=csv"

# CSVをデータフレームとして読み込む
dataframe = pd.read_csv(url)

# 最初の2行を表示
dataframe.head(2)


## レシピ2.11　S3バケットからのデータロード


In [None]:
# ライブラリをロード
import pandas as pd

# CSVファイルのS3パス
s3_uri = "s3://machine-learning-python-cookbook/data.csv"

# AWSクレデンシャルをセット（適切なものに置き換える）
ACCESS_KEY_ID = "xxxxxxxxxxxxx"
SECRET_ACCESS_KEY = "xxxxxxxxxxxxxxxx"

# CSVをデータフレームに読み込む
dataframe = pd.read_csv(s3_uri,storage_options={
        "key": ACCESS_KEY_ID,
        "secret": SECRET_ACCESS_KEY,
    }
)

# 最初の2行を表示
dataframe.head(2)

## レシピ2.12　非構造データのロード


In [None]:
# ライブラリをロード
import requests

# txtファイルをダウンロードするURL
txt_url = "https://machine-learning-python-cookbook.s3.amazonaws.com/text.txt"

# txtを取得
r = requests.get(txt_url)

# ローカルなtext.txtとして書き出す
with open('text.txt', 'wb') as f:
    f.write(r.content)

# text.txtを読み込む
with open('text.txt', 'r') as f:
    text = f.read()

# 内容を表示
print(text)