In [1]:
import pandas as pd

<hr>

# データの入出力

事前にcsvのファイルと中身表示

In [2]:
with open('csv/read_sample.csv','r') as f:
    print(f.read())

index,name,yen
1,apple,120
2,banana,100
3,orange,80


<hr>
<hr>

## csvの読み込み

In [3]:
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


read_csvでcsvを読み込んだ時、デフォルトで１行目はヘッダーとして認識されて読み込まれる。

ヘッダーを認識させたくないときは、read_csvの引数headerをNoneにして実行する。

In [4]:
df = pd.read_csv('csv/read_sample.csv',header=None)
df

Unnamed: 0,0,1,2
0,index,name,yen
1,1,apple,120
2,2,banana,100
3,3,orange,80


読み込まれたデータは**pandas.DataFrame**型のデータとなる。

In [21]:
df_bkup = pd.read_csv('csv/read_sample.csv')
df = pd.read_csv('csv/read_sample.csv')

<hr>

## csvの書き込み

In [22]:
#df.to_csv(ファイルパス)で書き込める
df.to_csv('csv/to_sample.csv')

<hr>

### Dataframe型のデータへのアクセス

In [6]:
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


DataFrame型のデータの内部にある読み込んできたデータを取得したい場合は、列名と行名を指定して取得する。

In [7]:
print(df['index'][0])
print(df['name'][1])
print(df['yen'][2])

1
banana
80


#### 指定した列の要素を全て置き換える

In [8]:
#yen列に0を代入
df['yen']=0
df

Unnamed: 0,index,name,yen
0,1,apple,0
1,2,banana,0
2,3,orange,0


In [9]:
df = pd.read_csv('csv/read_sample.csv')

#### 新しい列を作って値を代入する

In [10]:
#個数(num)列を作って、1を代入
df['num']=1
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,3,orange,80,1


#### 指定した行の要素を全て置き換える

In [11]:
#2行目に0を代入
df.loc[[2],:]=0
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,0,0,0,0


#### 新しい行を作って値を代入する

In [12]:
#4行目に0を代入
df.loc[4]=0
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,0,0,0,0
4,0,0,0,0


#### 指定した行を削除する

In [13]:
#drop関数でできるが、インプレースではない。引数には行名を入力
df = df.drop(4)
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1
2,0,0,0,0


In [14]:
#引数inplaceをTrueにするとインプレースで実行できる
df.drop(2,inplace=True)
df

Unnamed: 0,index,name,yen,num
0,1,apple,120,1
1,2,banana,100,1


In [15]:
#削除したい行をリストで複数指定できる。指定された表が全て削除される
df.drop([0,1],inplace=True)
df

Unnamed: 0,index,name,yen,num


In [16]:
#戻す
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


#### 指定した列を削除する

In [17]:
#drop関数でできるが、列の場合は引数axis=1にする（axisはデフォルトで0(行方向)になる）
df.drop('yen',axis=1,inplace=True)
df

Unnamed: 0,index,name
0,1,apple
1,2,banana
2,3,orange


In [19]:
#行と同様に削除したい列をリストで複数指定できる
df.drop(['index','name'],axis=1,inplace=True)
df

0
1
2


In [20]:
#戻す
df = pd.read_csv('csv/read_sample.csv')
df

Unnamed: 0,index,name,yen
0,1,apple,120
1,2,banana,100
2,3,orange,80


<hr>
<hr>

# データの抽出

<hr>

## Dataframeから行、列を指定して抽出

In [23]:
#データ再読み込み
df = pd.read_csv('csv/read_sample2.csv')
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
2,3,orange,80,400,30
3,4,grape,100,100,40
4,5,lemon,50,400,20
5,6,peach,70,200,20
6,7,melon,200,50,100
7,8,strawberry,10,500,10
8,9,durian,500,20,100


### loc:行名、列名を指定して抽出

In [24]:
#行名、列名を指定して抽出するにはdf.loc
df.loc[3,'name']

'grape'

### loc:行、列名をリストで複数指定

In [25]:
#行名、列名はリストで複数指定することもできる。返り値はDataframe
df.loc[[3,5,8],['name','yen']]

Unnamed: 0,name,yen
3,grape,100
5,peach,70
8,durian,500


### loc:行名を指定して抽出

In [73]:
#指定した行を抽出：locで列を":"にする
df.loc[[3,5,8],:]

Unnamed: 0,index,name,yen,stock,weight
3,4,grape,100.0,100.0,
5,6,,70.0,200.0,20.0
8,9,durian,75.714286,20.0,100.0


### loc:列名を指定して抽出

In [74]:
#指定した列を抽出：locで行を":"にする
df.loc[:,['name','yen']]

Unnamed: 0,name,yen
0,apple,120.0
1,banana,100.0
2,,80.0
3,grape,100.0
4,lemon,50.0
5,,70.0
6,melon,75.714286
7,strawberry,10.0
8,durian,75.714286


### iloc:行、列を番号で指定

In [26]:
#行番号、列番号を指定して抽出するにはdf.iloc
df.iloc[3,1]

'grape'

### iloc:行、列を番号でリストで複数指定

In [27]:
#同じように、行番号、列番号をリストで指定することもできる
df.iloc[[4,6,7],[0,1]]

Unnamed: 0,index,name
4,5,lemon
6,7,melon
7,8,strawberry


### drop:行を削除して表示

In [70]:
#指定した行を削除するにはdrop
df.drop([1,3,5,7])

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120.0,200.0,50.0
2,3,,80.0,400.0,30.0
4,5,lemon,50.0,,20.0
6,7,melon,75.714286,50.0,100.0
8,9,durian,75.714286,20.0,100.0


### drop:列を削除して表示

In [71]:
#指定した列を削除するにはdrop、ただしaxis=1とする
df.drop(['index','stock'],axis=1)

Unnamed: 0,name,yen,weight
0,apple,120.0,50.0
1,banana,100.0,30.0
2,,80.0,30.0
3,grape,100.0,
4,lemon,50.0,20.0
5,,70.0,20.0
6,melon,75.714286,100.0
7,strawberry,10.0,10.0
8,durian,75.714286,100.0


<hr>

## 比較演算子を利用して抽出

In [28]:
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
2,3,orange,80,400,30
3,4,grape,100,100,40
4,5,lemon,50,400,20
5,6,peach,70,200,20
6,7,melon,200,50,100
7,8,strawberry,10,500,10
8,9,durian,500,20,100


df.query関数を用いて抽出する

### 行、列がある値以上/以下/等価のみ抽出

In [29]:
# yenが100以上のデータ
df.query('yen>=100')

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
3,4,grape,100,100,40
6,7,melon,200,50,100
8,9,durian,500,20,100


In [31]:
# yenが100以上でないデータ
df.query('not yen>=100')

Unnamed: 0,index,name,yen,stock,weight
2,3,orange,80,400,30
4,5,lemon,50,400,20
5,6,peach,70,200,20
7,8,strawberry,10,500,10


In [30]:
# yenが100以上200以下のデータ
df.query('100<=yen<=200')

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
3,4,grape,100,100,40
6,7,melon,200,50,100


In [32]:
# yenが100のデータ
df.query('yen==100')

Unnamed: 0,index,name,yen,stock,weight
1,2,banana,100,300,30
3,4,grape,100,100,40


In [33]:
# yenが100でないデータ
df.query('yen!=100')

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
2,3,orange,80,400,30
4,5,lemon,50,400,20
5,6,peach,70,200,20
6,7,melon,200,50,100
7,8,strawberry,10,500,10
8,9,durian,500,20,100


In [34]:
# nameが指定したリスト内に含まれているデータ
df.query('name in ["apple","banana"]')

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30


<hr>
<hr>

# データフレームの情報

In [35]:
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,2,banana,100,300,30
2,3,orange,80,400,30
3,4,grape,100,100,40
4,5,lemon,50,400,20
5,6,peach,70,200,20
6,7,melon,200,50,100
7,8,strawberry,10,500,10
8,9,durian,500,20,100


<hr>

## データフレームのサイズ

### 行数と列数

In [36]:
# 行数,列数
df.shape

(9, 5)

### 行数

In [38]:
# 行数
len(df)

9

### 列数

In [40]:
# 列数
len(df.columns)

5

### 行名

In [41]:
# Index(行名)の取得
df.index

RangeIndex(start=0, stop=9, step=1)

### 列名

In [42]:
# Columns(列名)の取得
df.columns

Index(['index', 'name', 'yen', 'stock', 'weight'], dtype='object')

<hr>

## データの情報

### データ数・null数・データ型

In [43]:
# データ数,null数,データ型など
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   index   9 non-null      int64 
 1   name    9 non-null      object
 2   yen     9 non-null      int64 
 3   stock   9 non-null      int64 
 4   weight  9 non-null      int64 
dtypes: int64(4), object(1)
memory usage: 488.0+ bytes


### nullでない要素の数

In [45]:
# nullでない要素数を列ごとに数える
df.count()

index     9
name      9
yen       9
stock     9
weight    9
dtype: int64

### データの値の種類・個数

In [46]:
# yen列における要素の値の出現個数を数える
df['yen'].value_counts()

100    2
10     1
120    1
70     1
500    1
50     1
200    1
80     1
Name: yen, dtype: int64

### データの値の種類の個数

In [47]:
# yen列にある要素の種類(uniqueな要素)の個数を数える
df['yen'].nunique()

8

<hr>

## データの計算

### 列方向の総和

In [48]:
# 列方向の総和
df.sum()

index                                                    45
name      applebananaorangegrapelemonpeachmelonstrawberr...
yen                                                    1230
stock                                                  2170
weight                                                  400
dtype: object

### 列方向の累積和

In [49]:
# 列方向の累積和
df.cumsum()

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120,200,50
1,3,applebanana,220,500,80
2,6,applebananaorange,300,900,110
3,10,applebananaorangegrape,400,1000,150
4,15,applebananaorangegrapelemon,450,1400,170
5,21,applebananaorangegrapelemonpeach,520,1600,190
6,28,applebananaorangegrapelemonpeachmelon,720,1650,290
7,36,applebananaorangegrapelemonpeachmelonstrawberry,730,2150,300
8,45,applebananaorangegrapelemonpeachmelonstrawberr...,1230,2170,400


### 列中のデータの最大値

In [50]:
#列方向の最大値
df.max()

index              9
name      strawberry
yen              500
stock            500
weight           100
dtype: object

### 列中のデータの最小値

In [51]:
#列方向の最小値
df.min()

index         1
name      apple
yen          10
stock        20
weight       10
dtype: object

### 列中のデータの最小値　の行番号

In [53]:
#yen列で最小値の行番号(index)を取得
df['yen'].idxmin()

7

### 列中のデータの最大値　の行番号

In [54]:
#yen列で最大値の行番号(index)を取得
df['yen'].idxmax()

8

### 各列(数値)の要素数、平均値、標準偏差、最小値、四分位数、最大値

In [56]:
#各列(数値)の要素数、平均値、標準偏差、最小値、四分位数、最大値を表示
df.describe()

Unnamed: 0,index,yen,stock,weight
count,9.0,9.0,9.0,9.0
mean,5.0,136.666667,241.111111,44.444444
std,2.738613,145.859521,169.443534,33.582403
min,1.0,10.0,20.0,10.0
25%,3.0,70.0,100.0,20.0
50%,5.0,100.0,200.0,30.0
75%,7.0,120.0,400.0,50.0
max,9.0,500.0,500.0,100.0


### 列中のデータの平均値

In [57]:
#各列(数値)の平均値の取得
df.mean()

index       5.000000
yen       136.666667
stock     241.111111
weight     44.444444
dtype: float64

### 列中のデータの中央値

In [72]:
#各列(数値)の中央値の取得
df.median()

index       5.000000
yen        75.714286
stock     200.000000
weight     30.000000
dtype: float64

### 列のデータ型

In [60]:
#各列のデータ型を表示
df.dtypes

index      int64
name      object
yen        int64
stock      int64
weight     int64
dtype: object

<hr>
<hr>

# 欠損値処理

In [61]:
df = pd.read_csv('csv/read_sample3.csv')
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120.0,200.0,50.0
1,2,banana,100.0,300.0,30.0
2,3,,80.0,400.0,30.0
3,4,grape,100.0,100.0,
4,5,lemon,50.0,,20.0
5,6,,70.0,200.0,20.0
6,7,melon,,50.0,100.0
7,8,strawberry,10.0,500.0,10.0
8,9,durian,,20.0,100.0


### 列中の欠損値の数

In [62]:
# 各カラムの欠損値をカウントする
df.isnull().sum()

index     0
name      2
yen       2
stock     1
weight    1
dtype: int64

### 欠損値の削除

In [63]:
# 欠損値を含む行を削除する(インプレース処理ではない)
df.dropna()

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120.0,200.0,50.0
1,2,banana,100.0,300.0,30.0
7,8,strawberry,10.0,500.0,10.0


### 欠損値の補填

In [66]:
# 欠損値を100で補填する(インプレース処理ではない)
df.fillna(100)

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120.0,200.0,50.0
1,2,banana,100.0,300.0,30.0
2,3,100,80.0,400.0,30.0
3,4,grape,100.0,100.0,100.0
4,5,lemon,50.0,100.0,20.0
5,6,100,70.0,200.0,20.0
6,7,melon,100.0,50.0,100.0
7,8,strawberry,10.0,500.0,10.0
8,9,durian,100.0,20.0,100.0


### 欠損値を他の値で補填

In [69]:
# yen列の欠損値をyen列の平均値で補填する(インプレース処理でさせる)
df['yen'].fillna(df['yen'].mean(),inplace=True)
df

Unnamed: 0,index,name,yen,stock,weight
0,1,apple,120.0,200.0,50.0
1,2,banana,100.0,300.0,30.0
2,3,,80.0,400.0,30.0
3,4,grape,100.0,100.0,
4,5,lemon,50.0,,20.0
5,6,,70.0,200.0,20.0
6,7,melon,75.714286,50.0,100.0
7,8,strawberry,10.0,500.0,10.0
8,9,durian,75.714286,20.0,100.0
