# pandasでreadできる物

## 背景

データ分析はpandasでDataFrameを作ることから始まります。  
基本的にはcsvファイルを読み込むことが多いですが、必ずしも手に入れたローデータがcsv形式であるとは限りません。  
筆者はデータがエクセル形式だった場合、一度csvに変換して読み込むという手間をかけていました。  
この作業がなかなか面倒だったのですが、実はエクセルもそのまま読めてしまうんですね。  
よく使うものをあげると、  
- csv  
- tsv
- json  
- excel  
- sql  
- html  

というわけでpandasで直接DataFrameとしてreadできる物について紹介します。  

In [1]:
import pandas as pd

## csv/tsv

csvには`pd.read_csv()`  
tsvには`pd.read_table()`が使えます。  
基本的にはファイルパスを指定しますが、実はurlを指定してもOKです。 

In [17]:
url = "https://raw.githubusercontent.com/fumingos/pandas_read/master/meibo.csv"
df = pd.read_csv(url)
df.head()

Unnamed: 0,name,gender,age
0,john,m,18
1,paul,m,20
2,alice,f,15
3,dabid,m,17
4,jasmin,f,17


## json

ファイルが以下のようなjson形式であっても、keyをカラムとしたDataFrameに変換してくれます。

```json:meibo.json
[{"name":"john","gender":"m","age":"18"},
 {"name":"paul","gender":"m","age":"20"},
 {"name":"alice","gender":"f","age":"15"},
 {"name":"dabid","gender":"m","age":"17"},
 {"name":"jasmin","gender":"f","age":"17"}]
 ```

In [18]:
df = pd.read_json("meibo.json")
df.head()

Unnamed: 0,age,gender,name
0,18,m,john
1,20,m,paul
2,15,f,alice
3,17,m,dabid
4,17,f,jasmin


前述の通りurlも叩けるということは、apiも取得できます。  

In [19]:
url = "https://raw.githubusercontent.com/fumingos/pandas_read/master/meibo.json"
df = pd.read_json(url)
df.head()

Unnamed: 0,age,gender,name
0,18,m,john
1,20,m,paul
2,15,f,alice
3,17,m,dabid
4,17,f,jasmin


## excel

read_excel()でエクセルもDataFrame化できます。  
sheet_nameでシートの指定もできますよ。  

In [20]:
df = pd.read_excel('meibo.xlsx')
df.head()

Unnamed: 0,name,gender,age
0,john,m,18
1,paul,m,20
2,alice,f,15
3,dabid,m,17
4,jasmin,f,17


## sql

別途モジュールが必要になりますがmysqlclientなどを使えばデータベースもreadできます。  
`pip install mysqlclient`

In [22]:
import pandas.io.sql as psql
import MySQLdb

conn = MySQLdb.connect(
    host = "127.0.0.1",
    user = 'root',
    password = '',
    database = 'training',
)
cur = conn.cursor()

In [23]:
df = psql.read_sql("SELECT * from meibo;", conn)
df.head()

Unnamed: 0,name,gender,age
0,john,m,18
1,paul,m,20
2,alice,f,15
3,dabid,m,17
4,jasmin,f,17


## html

read_htmlを使えばweb上のtableタグを読み取ってDataFrameにすることができます。  
スクレイピングいらずですね！  

In [24]:
url = 'https://fumingos.github.io/pandas_read'
datasets = pd.io.html.read_html(url, header=0)
datasets[0]

Unnamed: 0,名前,背番号,ポジション,打率,打点,本塁打,盗塁
0,佐藤,1,ライト,0.302,40,18,20
1,鈴木,18,ピッチャー,0.188,10,1,2
2,田中,99,キャッチャー,0.28,70,38,0
3,山田,0,ショート,0.333,52,9,30


## 終わりに