# pandasでreadできる物

## 背景

データ分析はpandasでDataFrameを作ることから始まります。  
基本的にはcsvファイルを読み込むことが多いですが、必ずしも手に入れたローデータがcsv形式であるとは限りません。  
筆者はデータがエクセル形式だった場合、一度csvに変換して読み込むという手間をかけていました。  
この作業がなかなか面倒だったのですが、実はエクセルもそのまま読めてしまうんですね。  
よく使うものをあげると、  
- csv  
- tsv
- json  
- excel  
- sql  
- html  

というわけでpandasで直接readできる物について紹介します。  

In [1]:
import pandas as pd

## csv/tsv

csvには`pd.read_csv()`  
tsvには`pd.read_table()`が使えます。  
基本中の基本ですが実はこれ、ファイルパスだけでなく、urlに対しても実行できるんです！  

In [4]:
url = "https://raw.githubusercontent.com/fumingos/pandas_read/master/meibo.csv"
df = pd.read_csv(url)
df.head()

Unnamed: 0,name,gender,age
0,john,m,18
1,paul,m,20
2,alice,f,15
3,dabid,m,17
4,jasmin,f,17


## json

ファイルがjson形式であっても上手いことkeyをカラムに変換してくれます。

```json:meibo.json
[{"name":"john","gender":"m","age":"18"},
 {"name":"paul","gender":"m","age":"20"},
 {"name":"alice","gender":"f","age":"15"},
 {"name":"dabid","gender":"m","age":"17"},
 {"name":"jasmin","gender":"f","age":"17"}]
 ```

In [7]:
df = pd.read_json("meibo.json")
df.head()

Unnamed: 0,age,gender,name
0,18,m,john
1,20,m,paul
2,15,f,alice
3,17,m,dabid
4,17,f,jasmin


jsonが読めてurlも叩けるということはapiも取得できます。  

In [5]:
url = "https://raw.githubusercontent.com/fumingos/pandas_read/master/meibo.json"
df = pd.read_json(url)
df.head()

Unnamed: 0,age,gender,name
0,18,m,john
1,20,m,paul
2,15,f,alice
3,17,m,dabid
4,17,f,jasmin


## excel

read_excel()でエクセルもDataFrame化できます。  
sheet_nameでシートの指定もできますよ。  

In [16]:
df = pd.read_excel('meibo.xlsx')
df.head()

Unnamed: 0,name,gender,age
0,john,m,18
1,paul,m,20
2,alice,f,15
3,dabid,m,17
4,jasmin,f,17


## sql

別途モジュールが必要になりますがmysqlclientなどを使えばデータベースもreadできます。  
`pip install mysqlclient`

In [11]:
import pandas.io.sql as psql
import MySQLdb

conn = MySQLdb.connect(
    host = "127.0.0.1",
    user = 'root',
    password = '',
    database = 'training',
)
cur = conn.cursor()

In [20]:
df = psql.read_sql("SELECT * from meibo;", conn)
df.head()

Unnamed: 0,name,gender,age
0,john,m,18
1,paul,m,20
2,alice,f,15
3,dabid,m,17
4,jasmin,f,17


## html

web上のtableタグを読み取ってDataFrameにすることができます。  
スクレイピングいらずですね！  

In [25]:
url = 'https://baseball-data.com/team/hitter.html'
datasets = pd.io.html.read_html(url, header=1)  
datasets[0]

Unnamed: 0,順位,チーム,試合,勝利,敗北,引分,打率,得点,安打,本塁打,...,三振,併殺打,出塁率,長打率,OPS,NOI,IsoD,IsoP,得点平均,安打平均
0,1,広島,143,82,59,2,0.262,721,1275,175,...,1143,85,0.349,0.431,0.78,0.493,0.086,0.169,5.04,8.92
1,2,ヤクルト,143,75,66,2,0.266,658,1287,135,...,931,112,0.347,0.402,0.749,0.481,0.081,0.136,4.6,9.0
2,3,巨人,143,67,71,5,0.257,625,1255,152,...,1120,100,0.325,0.403,0.728,0.46,0.068,0.146,4.37,8.78
3,4,DeNA,143,67,74,2,0.25,572,1209,181,...,1041,91,0.307,0.415,0.722,0.446,0.057,0.165,4.0,8.45
4,5,中日,143,63,78,2,0.265,598,1288,97,...,981,105,0.325,0.38,0.705,0.451,0.059,0.115,4.18,9.01
5,6,阪神,143,62,79,2,0.253,577,1221,85,...,1086,109,0.33,0.361,0.691,0.45,0.077,0.109,4.03,8.54
