# 表データを読み込む

データ分析では、基本的に表データ（テーブル）を扱う。表データとは、行と列からなるデータで、行がデータレコード、列がデータ項目を表す。表データを読み込む方法はいくつかあるが、ここでは、Python のライブラリ Pandas を使う。

## リスト 2.1

In [47]:
import pandas as pd

data = [
    [60, 65, 66],
    [80, 85, 88],
    [100, 100, 100],
]

df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,60,65,66
1,80,85,88
2,100,100,100


## リスト 2.2

In [48]:
df.columns = ['国語', '数学', '英語']
df.index = ['A太', 'B介', 'C子']
df

Unnamed: 0,国語,数学,英語
A太,60,65,66
B介,80,85,88
C子,100,100,100


## リスト 2.5

In [49]:
import pandas as pd

df = pd.read_csv('./data/test.csv')
df

Unnamed: 0,名前,国語,数学,英語,学生番号
0,A太,83,89,76,A001
1,B介,66,93,75,B001
2,C子,100,84,96,B002
3,D郎,60,73,40,A002
4,E美,92,62,84,C001
5,F菜,96,92,94,C002


## リスト 2.7

In [50]:
import pandas as pd

df = pd.read_csv('./data/test.csv', index_col=0)
df

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
B介,66,93,75,B001
C子,100,84,96,B002
D郎,60,73,40,A002
E美,92,62,84,C001
F菜,96,92,94,C002


## リスト 2.8

In [51]:
import pandas as pd

df = pd.read_csv('./data/test.csv', index_col=0, header=None)
df

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
名前,国語,数学,英語,学生番号
A太,83,89,76,A001
B介,66,93,75,B001
C子,100,84,96,B002
D郎,60,73,40,A002
E美,92,62,84,C001
F菜,96,92,94,C002


# データを眺める

データを読み込んだら、データの内容を確認する。データの行数、列数、データ型、統計量などを確認することができる。

## リスト 2.9

In [52]:
import pandas as pd

df = pd.read_csv('./data/test.csv', index_col=0)
df.head()

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
B介,66,93,75,B001
C子,100,84,96,B002
D郎,60,73,40,A002
E美,92,62,84,C001


## リスト 2.10

In [53]:
df.columns

Index(['国語', '数学', '英語', '学生番号'], dtype='object')

## リスト 2.11

In [54]:
df.index

Index(['A太', 'B介', 'C子', 'D郎', 'E美', 'F菜'], dtype='object', name='名前')

## リスト 2.12

In [55]:
# 列名をリストに変換する
list1 = [i for i in df.columns]
list1

['国語', '数学', '英語', '学生番号']

In [56]:
# 行名をリストに変換する
list2 = [i for i in df.index]
list2

['A太', 'B介', 'C子', 'D郎', 'E美', 'F菜']

## リスト 2.13

In [57]:
df.dtypes

国語       int64
数学       int64
英語       int64
学生番号    object
dtype: object

## リスト 2.14

In [58]:
len(df)

6

## リスト 2.15

In [59]:
df['国語']

名前
A太     83
B介     66
C子    100
D郎     60
E美     92
F菜     96
Name: 国語, dtype: int64

## リスト 2.16

In [60]:
df[['国語', '数学']]

Unnamed: 0_level_0,国語,数学
名前,Unnamed: 1_level_1,Unnamed: 2_level_1
A太,83,89
B介,66,93
C子,100,84
D郎,60,73
E美,92,62
F菜,96,92


## リスト 2.17

In [61]:
df.iloc[[0]]

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001


## リスト 2.18

In [62]:
df.iloc[[0, 3]]

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
D郎,60,73,40,A002


## リスト 2.19

In [63]:
df.iloc[0]['国語']

83

# 列データや行データを追加する

データフレームに列データや行データを追加することができる。

## リスト 2.20

In [64]:
import pandas as pd

dfA = pd.read_csv('./data/test.csv', index_col=0)

dfB = pd.DataFrame()
dfB['国語'] = dfA['国語']
dfB

Unnamed: 0_level_0,国語
名前,Unnamed: 1_level_1
A太,83
B介,66
C子,100
D郎,60
E美,92
F菜,96


## リスト 2.21

In [65]:
dfA = pd.read_csv('./data/test.csv', index_col=0)

dfB = pd.DataFrame()
dfB = pd.concat([dfB, dfA.iloc[[0]]])
dfB

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001


## リスト 2.22

In [66]:
dfA = pd.read_csv('./data/test.csv', index_col=0)

dfA = dfA.drop('国語', axis=1)
dfA

Unnamed: 0_level_0,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A太,89,76,A001
B介,93,75,B001
C子,84,96,B002
D郎,73,40,A002
E美,62,84,C001
F菜,92,94,C002


## リスト 2.23

In [67]:
dfA = pd.read_csv('./data/test.csv', index_col=0)

dfA = dfA.drop(dfA.index[3])
dfA

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
B介,66,93,75,B001
C子,100,84,96,B002
E美,92,62,84,C001
F菜,96,92,94,C002


## リスト 2.24

In [68]:
dfA = pd.read_csv('./data/test.csv', index_col=0)

dfA['国語'] > 80

名前
A太     True
B介    False
C子     True
D郎    False
E美     True
F菜     True
Name: 国語, dtype: bool

## リスト 2.25

In [69]:
dfB = dfA[dfA['国語'] > 80]
dfB

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
C子,100,84,96,B002
E美,92,62,84,C001
F菜,96,92,94,C002


## リスト 2.26

In [70]:
dfB = dfA[(dfA['国語'] > 80) & (dfA['数学'] > 80)]
dfB

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
C子,100,84,96,B002
F菜,96,92,94,C002


# 欠損値の処理

データには欠損値が含まれることがある。欠損値を処理する方法はいくつかあるが、ここでは、欠損値を含む行を削除する方法を紹介する。

## リスト 2.27

In [71]:
import pandas as pd

data = {
    '国語': [90, 50, None, 40],
    '数学': [80, None, None, 50],
}

idx = ['A太', 'B介', 'C子', 'D郎']

dfA = pd.DataFrame(data, index=idx)
dfA

Unnamed: 0,国語,数学
A太,90.0,80.0
B介,50.0,
C子,,
D郎,40.0,50.0


## リスト 2.28

In [72]:
dfA.isnull().sum()

国語    1
数学    2
dtype: int64

## リスト 2.30

In [73]:
dfB = dfA.dropna(subset=['国語'])
dfB

Unnamed: 0,国語,数学
A太,90.0,80.0
B介,50.0,
D郎,40.0,50.0


## リスト 2.31

In [74]:
dfB = dfA.fillna(dfA.mean())
dfB

Unnamed: 0,国語,数学
A太,90.0,80.0
B介,50.0,65.0
C子,60.0,65.0
D郎,40.0,50.0


## リスト 2.32

In [75]:
dfB = dfA.ffill()
dfB

Unnamed: 0,国語,数学
A太,90.0,80.0
B介,50.0,80.0
C子,50.0,80.0
D郎,40.0,50.0


# 重複したデータを削除する

データには重複したデータが含まれることがある。重複したデータを削除する方法を紹介する。

## リスト 2.33

In [76]:
import pandas as pd

data = [
    [10, 30, 40],
    [20, 30, 40],
    [20, 30, 40],
    [30, 30, 50],
    [20, 30, 40],
]

dfA = pd.DataFrame(data)
dfA

Unnamed: 0,0,1,2
0,10,30,40
1,20,30,40
2,20,30,40
3,30,30,50
4,20,30,40


## リスト 2.34

In [77]:
dfA.duplicated().value_counts()

False    3
True     2
Name: count, dtype: int64

## リスト 2.35

In [78]:
dfB = dfA.drop_duplicates()
dfB

Unnamed: 0,0,1,2
0,10,30,40
1,20,30,40
3,30,30,50


# 文字列型のデータを数値に変換する

データには文字列型のデータが含まれることがある。文字列型のデータを数値に変換する方法を紹介する。

## リスト 2.36

In [79]:
import pandas as pd

data = {
    'A': ['100', '300'],
    'B': ['500', '1,500'],
}

dfA = pd.DataFrame(data)
dfA

Unnamed: 0,A,B
0,100,500
1,300,1500


## リスト 2.37

In [80]:
dfA.dtypes

A    object
B    object
dtype: object

## リスト 2.38

In [81]:
dfA['A'] = dfA['A'].astype(int)
dfA.dtypes

A     int32
B    object
dtype: object

## リスト 2.39

In [82]:
dfA['B'] = dfA['B'].str.replace(',', '').astype(int)
dfA.dtypes

A    int32
B    int32
dtype: object

## リスト 2.40

In [83]:
dfA

Unnamed: 0,A,B
0,100,500
1,300,1500
