In [1]:
import pandas as pd

<hr>

# データの入出力

事前にcsvのファイルと中身表示

In [2]:
with open('csv/read_sample.csv','r') as f:
    print(f.read())

index,name,yen
1,apple,120
2,banana,100
3,orange,80


<hr>
<hr>

## csvの読み込み

In [3]:
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


read_csvでcsvを読み込んだ時、デフォルトで１行目はヘッダーとして認識されて読み込まれる。

ヘッダーを認識させたくないときは、read_csvの引数headerをNoneにして実行する。

In [4]:
df = pd.read_csv('csv/read_sample.csv',header=None)
df

Unnamed: 0,0,1,2
0,index,name,yen
1,1,apple,120
2,2,banana,100
3,3,orange,80


読み込まれたデータは**pandas.DataFrame**型のデータとなる。

In [21]:
df_bkup = pd.read_csv('csv/read_sample.csv')
df = pd.read_csv('csv/read_sample.csv')

<hr>

## csvの書き込み

In [22]:
#df.to_csv(ファイルパス)で書き込める
df.to_csv('csv/to_sample.csv')

<hr>

### Dataframe型のデータへのアクセス

In [6]:
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


DataFrame型のデータの内部にある読み込んできたデータを取得したい場合は、列名と行名を指定して取得する。

In [7]:
print(df['index'][0])
print(df['name'][1])
print(df['yen'][2])

1
banana
80


#### 指定した列の要素を全て置き換える

In [8]:
#yen列に0を代入
df['yen']=0
df

Unnamed: 0,index,name,yen
0,1,apple,0
1,2,banana,0
2,3,orange,0


In [9]:
df = pd.read_csv('csv/read_sample.csv')

#### 新しい列を作って値を代入する

In [10]:
#個数(num)列を作って、1を代入
df['num']=1
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,3,orange,80,1


#### 指定した行の要素を全て置き換える

In [11]:
#2行目に0を代入
df.loc[[2],:]=0
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,0,0,0,0


#### 新しい行を作って値を代入する

In [12]:
#4行目に0を代入
df.loc[4]=0
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,0,0,0,0
4,0,0,0,0


#### 指定した行を削除する

In [13]:
#drop関数でできるが、インプレースではない。引数には行名を入力
df = df.drop(4)
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,0,0,0,0


In [14]:
#引数inplaceをTrueにするとインプレースで実行できる
df.drop(2,inplace=True)
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1


In [15]:
#削除したい行をリストで複数指定できる。指定された表が全て削除される
df.drop([0,1],inplace=True)
df

Unnamed: 0,index,name,yen,num


In [16]:
#戻す
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


#### 指定した列を削除する

In [17]:
#drop関数でできるが、列の場合は引数axis=1にする（axisはデフォルトで0(行方向)になる）
df.drop('yen',axis=1,inplace=True)
df

Unnamed: 0,index,name
0,1,apple
1,2,banana
2,3,orange


In [19]:
#行と同様に削除したい列をリストで複数指定できる
df.drop(['index','name'],axis=1,inplace=True)
df

0
1
2


In [20]:
#戻す
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


<hr>
<hr>

# データの抽出

<hr>

## Dataframeから行、列を指定して抽出

In [23]:
#データ再読み込み
df = pd.read_csv('csv/read_sample2.csv')
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
2,3,orange,80,400,30
3,4,grape,100,100,40
4,5,lemon,50,400,20
5,6,peach,70,200,20
6,7,melon,200,50,100
7,8,strawberry,10,500,10
8,9,durian,500,20,100


In [24]:
#行名、列名を指定して抽出するにはdf.loc
df.loc[3,'name']

'grape'

In [25]:
#行名、列名はリストで複数指定することもできる。返り値はDataframe
df.loc[[3,5,8],['name','yen']]

Unnamed: 0,name,yen
3,grape,100
5,peach,70
8,durian,500


In [26]:
#行番号、列番号を指定して抽出するにはdf.iloc
df.iloc[3,1]

'grape'

In [27]:
#同じように、行番号、列番号をリストで指定することもできる
df.iloc[[4,6,7],[0,1]]

Unnamed: 0,index,name
4,5,lemon
6,7,melon
7,8,strawberry


<hr>

## 比較演算子を利用して抽出

In [28]:
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
2,3,orange,80,400,30
3,4,grape,100,100,40
4,5,lemon,50,400,20
5,6,peach,70,200,20
6,7,melon,200,50,100
7,8,strawberry,10,500,10
8,9,durian,500,20,100


df.query関数を用いて抽出する

### 行、列がある数値以上/以下のみ抽出

In [29]:
# yenが100以上のデータ
df.query('yen>=100')

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
3,4,grape,100,100,40
6,7,melon,200,50,100
8,9,durian,500,20,100


In [30]:
# yenが100以上200以下のデータ
df.query('100<=yen<=200')

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
3,4,grape,100,100,40
6,7,melon,200,50,100
