In [1]:
# pandasは基本的に 'pd' と名前をつけてimportする
import pandas as pd

## read_csv()を用いてcsvファイルを読み込む

In [2]:
# read_csv()で 'iris.csv' を読み込む
# データがカレントディレクトリに無い場合, パスも含めて指定
iris = pd.read_csv('./data/iris.csv')

In [3]:
# head()で先頭の5行を確認
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## 引数を用いて様々なケースに対応する

#### ① ヘッダーのないcsvの読み込み ... header
データは './data/noheader.csv' を使用し, 以下のような形式

In [4]:
# そのまま読み込むと, 1行目がヘッダーとして認識されてしまう
pd.read_csv('./data/noheader.csv')

Unnamed: 0,a,A,aAaAaA
0,b,B,bBbBbB
1,c,C,cCcCcC


In [5]:
# header=Noneを指定すると, 0から始まる連番が仮のカラム名として付けられる
pd.read_csv('./data/noheader.csv', header=None)

Unnamed: 0,0,1,2
0,a,A,aAaAaA
1,b,B,bBbBbB
2,c,C,cCcCcC


#### ②カンマ区切りでないファイルの読み込み ... sep
データは './data/space_sep.txt' を使用し, 以下のような形式

In [6]:
# そのまま読み込むと, 区切り文字が無いと認識されてしまい, 1列のデータとして読み込まれる
pd.read_csv('./data/space_sep.txt')

Unnamed: 0,col1 col2 col3
0,a A aAaAaA
1,b B bBbBbB
2,c C cCcCcC


In [7]:
# sep=' 'としてスペースを区切り文字とすると
pd.read_csv('./data/space_sep.txt', sep=' ')

Unnamed: 0,col1,col2,col3
0,a,A,aAaAaA
1,b,B,bBbBbB
2,c,C,cCcCcC


#### ③ データにヘッダーが含まれない場合に, カラム名を指定して読み込む ... names
データは './data/noheader.csv'を使用する

In [8]:
# カラム名をそれぞれ column1, column2, column3　とする場合
pd.read_csv('./data/noheader.csv', names=['column1', 'column2', 'column3'])

Unnamed: 0,column1,column2,column3
0,a,A,aAaAaA
1,b,B,bBbBbB
2,c,C,cCcCcC


#### ④ 行ラベルとして読み込みたい列があるとき ... index_col
データは './data/score.csv'を使用し, 以下のような形式

In [9]:
# id列を行ラベルとして読み込みたい場合, index_col  に列番号を指定
# 重複するカラム名がある場合, 自動的にprefixが付く(今回のmath'.1')
pd.read_csv('./data/score.csv', index_col=0)

Unnamed: 0_level_0,name,math,math.1,english
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1111,tanaka,90,85,70
1112,sato,80,75,80
1113,suzuki,70,65,90


#### ⑤ 一部の列を指定して読み込みたいとき ... usecols
データは './data/score.csv' を使用する

In [10]:
# math列以外を読み込みたい場合, usecolsに読み込みたいカラム名をリスト形式で指定
pd.read_csv('./data/score.csv', usecols=['id', 'name', 'english'])

Unnamed: 0,id,name,english
0,1111,tanaka,70
1,1112,sato,80
2,1113,suzuki,90


#### ⑥ 各カラムでデータの型を指定して読み込みたい場合 ... dtype
データは './data/score.csv'を使用

In [11]:
# score.csvをscoreとして読み込み, 各カラムの型を確認
# idを文字列として認識して欲しいのに, 各カラムに含まれるデータから自動的に, intとして認識されてしまっている
score = pd.read_csv('./data/score.csv')
score.dtypes

id          int64
name       object
math        int64
math.1      int64
english     int64
dtype: object

In [12]:
# 意図した型で読み込みたい場合, それをdict形式で指定する
score = pd.read_csv('./data/score.csv', dtype={'id': 'str'})
score.dtypes

id         object
name       object
math        int64
math.1      int64
english     int64
dtype: object

In [13]:
'''
型のみを指定すると, 全カラムがその型で読み込まれる
idの先頭が0から始まるデータなどでは, intとして読み込まれると0が抜け落ちてしまうことがあるので, 
とりあえず文字列で読み込んだあと, 必要に応じて型を変換すると良い
'''
score = pd.read_csv('./data/score.csv', dtype='str')
score.dtypes

id         object
name       object
math       object
math.1     object
english    object
dtype: object