# 表形式データ：データ分析のためのデータ形式
### データ分析に向いているデータの形式は以下のようなもの
   - １つの行が１つのデータ > 行方向にデータが並んでいる
   - 各列がデータの1項目 > 列方向にデータの項目が並んでいる

<img src="attachment:74b097fa-c6c3-42fb-841c-be8dbc1eead7.png" width="80%">

<img src="attachment:34deea37-4185-432b-94d6-358d84845b74.png" width="60%">

# 1. データ分析のデータ形式：DataFrame
1. 行見出し、列見出しが付いたnumpy2次元配列　
1. 行、列を自由に追加・削除できる　
2. 特定の行、列を様々な条件で抽出できる
3. 表形式での計算が容易（行合計、列合計、小計など）かつ高速


<img src="attachment:37797e23-c672-4360-86e6-94e51ae316ba.png" width="70%">

# 1. DataFrameを作成する
1. 2次元配列を作る

In [1]:
import numpy as np

profiles =[['Lucy',160,52,'A','USA','20','student'],
 ['Bob',180,52,'O','England','30','dentist'],
 ['Shohei',193,80,'AB','Japan','30','MLB'],
 ['Mami',180,62,'B','Japan','28','wife']]
profiles

[['Lucy', 160, 52, 'A', 'USA', '20', 'student'],
 ['Bob', 180, 52, 'O', 'England', '30', 'dentist'],
 ['Shohei', 193, 80, 'AB', 'Japan', '30', 'MLB'],
 ['Mami', 180, 62, 'B', 'Japan', '28', 'wife']]

2. 見出しを付ける  
列見出し：データ項目が多くなると意味がわかるようにしたい  
行見出し：同名があるかもしれないので、idで識別したい

In [34]:
import pandas as pd
profile_df = pd.DataFrame(profiles, index=['U1','E1','J1','J2'],
                          columns = ['name','height','weight',
                                     'blood type','nation','age','occupation'])
profile_df

Unnamed: 0,name,height,weight,blood type,nation,age,occupation
U1,Lucy,160,52,A,USA,20,student
E1,Bob,180,52,O,England,30,dentist
J1,Shohei,193,80,AB,Japan,30,MLB
J2,Mami,180,62,B,Japan,28,wife


<img src="attachment:85ac3c33-3f41-4008-ad05-962c24fbbdfe.png" width="90%">

## index, columnsを省略すると自動的に番号がつく

In [32]:
import pandas as pd
profile_df = pd.DataFrame(profiles, 
                          columns = ['name','height','weight',
                                     'blood type','nation','age','occupation'])
profile_df

Unnamed: 0,name,height,weight,blood type,nation,age,occupation
0,Lucy,160,52,A,USA,20,student
1,Bob,180,52,O,England,30,dentist
2,Shohei,193,80,AB,Japan,30,MLB
3,Mami,180,62,B,Japan,28,wife



# 2. 行、列の追加

### 1) 列の追加  

構文：

---
```
DataFrame名[追加する列名(column)]=[追加する列データ（データ数はDataFrameの行数と一致すること）]
```
---
  
例：列名 'male/female'  データ female, male, male, female を追加


In [42]:
import pandas as pd
profile_df = pd.DataFrame(profiles, index=['U1','E1','J1','J2'],
                          columns = ['name','height','weight',
                                     'blood type','nation','age','occupation'])
print(profile_df)
print()
profile_df['male/female']=['female', 'male', 'male', 'female']
print(profile_df)

      name  height  weight blood type   nation age occupation
U1    Lucy     160      52          A      USA  20    student
E1     Bob     180      52          O  England  30    dentist
J1  Shohei     193      80         AB    Japan  30        MLB
J2    Mami     180      62          B    Japan  28       wife

      name  height  weight blood type   nation age occupation male/female
U1    Lucy     160      52          A      USA  20    student      female
E1     Bob     180      52          O  England  30    dentist        male
J1  Shohei     193      80         AB    Japan  30        MLB        male
J2    Mami     180      62          B    Japan  28       wife      female


### 2) 列方向にDataFrameを連結する  

**構文：**

---
```
    連結後DataFrame名 = pd.concat([DataFrame1, DataFrame2], axis = 1)
```
    　　　 DataFrame1, DataFrame2の行数は一致していることが条件    
---
    例：2列のDataFrameをprofile_dfに連結する

In [43]:


profile2 = [['tennis','married'],
           ['game','single'],
           ['baseball','married'],
           ['baseball','married']]
profile_df2 = pd.DataFrame(profile2,index=['U1','E1','J1','J2'],columns=['hobby','married'])
profile_df2

Unnamed: 0,hobby,married
U1,tennis,married
E1,game,single
J1,baseball,married
J2,baseball,married


In [52]:
profile_df3 = pd.concat([profile_df,profile_df2],axis=1)
profile_df3

Unnamed: 0,name,height,weight,blood type,nation,age,occupation,male/female,hobby,married
U1,Lucy,160,52,A,USA,20,student,female,tennis,married
E1,Bob,180,52,O,England,30,dentist,male,game,single
J1,Shohei,193,80,AB,Japan,30,MLB,male,baseball,married
J2,Mami,180,62,B,Japan,28,wife,female,baseball,married


### 3). 行方向に連結する  

構文：  

---
```
連結後DataFrame名 = pd.concat([DataFrame1, DataFrame2], axis = 0)  
          　DataFrame1, DataFrame2の列数は一致していることが条件
```
---
    例：2行のDataFrameをprofile_dfに連結する

In [53]:
profile4 = [['Frank',190,80,'O','Germany','15','student','male','ski','single'],
            ['Naomi',185,70,'A','Japan','30','tennis player','fimale','game','marreid']]
profile_df4 = pd.DataFrame(profile4, index=['FR','NA']
                           ,columns=['name','height','weight','blood type','nation','age',
                                     'occupation','male/female','hobby','married'])
profile_df4

Unnamed: 0,name,height,weight,blood type,nation,age,occupation,male/female,hobby,married
FR,Frank,190,80,O,Germany,15,student,male,ski,single
,Naomi,185,70,A,Japan,30,tennis player,fimale,game,marreid


In [54]:
profile_df5 = pd.concat([profile_df3,profile_df4],axis=0)
profile_df5

Unnamed: 0,name,height,weight,blood type,nation,age,occupation,male/female,hobby,married
U1,Lucy,160,52,A,USA,20,student,female,tennis,married
E1,Bob,180,52,O,England,30,dentist,male,game,single
J1,Shohei,193,80,AB,Japan,30,MLB,male,baseball,married
J2,Mami,180,62,B,Japan,28,wife,female,baseball,married
FR,Frank,190,80,O,Germany,15,student,male,ski,single
,Naomi,185,70,A,Japan,30,tennis player,fimale,game,marreid


<img src="attachment:e788ef60-a774-43a4-90ef-5688722edee8.png" width="80%">

# 3. スライシング
DataFrameから部分的な行・列範囲を取り出すことをスライシングと言う。

### 1) 行ラベル、列ラベルにもとづくスライシング

構文：

---
```
DataFrame名[from行ラベル : to行ラベル, from列ラベル : to列ラベル]
```
---

例1：上記のDataFrameから、行ラベル J1～FR かつ blood type～occupationの範囲をスライシングする



In [55]:
profile_df5.loc['J1':'FR',  'blood type':'occupation']

Unnamed: 0,blood type,nation,age,occupation
J1,AB,Japan,30,MLB
J2,B,Japan,28,wife
FR,O,Germany,15,student


例2：上記のDataFrameから、行ラベル J1～FR の全ての列をスライシングする

In [56]:
profile_df5.loc['J1':'FR', :]

Unnamed: 0,name,height,weight,blood type,nation,age,occupation,male/female,hobby,married
J1,Shohei,193,80,AB,Japan,30,MLB,male,baseball,married
J2,Mami,180,62,B,Japan,28,wife,female,baseball,married
FR,Frank,190,80,O,Germany,15,student,male,ski,single


例3：上記のDataFrameから、行ラベル J1～FR かつ列ラベル nation以降の全ての列をスライシングする

In [57]:
profile_df5.loc['J1':'FR','nation':]

Unnamed: 0,nation,age,occupation,male/female,hobby,married
J1,Japan,30,MLB,male,baseball,married
J2,Japan,28,wife,female,baseball,married
FR,Germany,15,student,male,ski,single


例4：上記のDataFrameから、行ラベル J1以降すべての行 かつ列ラベル name, nation, hobbyをスライシングする

In [58]:
profile_df5.loc['J1':,['name','nation','hobby']]

Unnamed: 0,name,nation,hobby
J1,Shohei,Japan,baseball
J2,Mami,Japan,baseball
FR,Frank,Germany,ski
,Naomi,Japan,game


### 2) 行インデックス、列インデックスにもとづくスライシング

構文：

---
```
DataFrame名[from行インデックス : to行インデックス, from列インデックス : to列インデックス]
```
--- 
例1：上記のDataFrameから、行ラベル J1～FR かつ blood type～occupationの範囲を行インデックス、列インデックスを使ってスライシングする

In [50]:
profile_df5.iloc[2:5,3:7]

Unnamed: 0,blood type,nation,age,occupation
J1,AB,Japan,30,MLB
J2,B,Japan,28,wife
FR,O,Germany,15,student


例2：上記のDataFrameから、行ラベル J1～FR の全ての列を行インデックス、列インデックスを使ってスライシングする

In [51]:
profile_df5.iloc[2:5,:]

Unnamed: 0,name,height,weight,blood type,nation,age,occupation,hobby,married,male/female
J1,Shohei,193,80,AB,Japan,30,MLB,baseball,married,
J2,Mami,180,62,B,Japan,28,wife,baseball,married,
FR,Frank,190,80,O,Germany,15,student,ski,single,male


例3: 上記のDataFrameから。3行目～4行目かつ1列目～4列目をスライシングする

In [15]:
profile_df5.iloc[2:4,0:4]

Unnamed: 0,name,height,weight,blood type
2,Shohei,193.0,80.0,AB
3,Mami,180.0,62.0,B


<img src="attachment:7fc5ac5b-48f0-4f0f-8a87-9bcf15650443.png" width="70%">

<img src="attachment:b223ae9b-042a-4742-b8c3-147dfba4bd9a.png" width="70%">

# 演習1 Dataframeの作成
以下のようなDataFrameを作成するコーディングを書け。なお、indexは名前の頭文字2桁とする。

In [16]:
import pandas as pd

scores = [['Alice',70,80,85],['Shohei',95,78,70],['Bob',65,85,97],['Charlie',90,95,100]]

df = pd.DataFrame(scores, index = ['AL','SH','BO','CH'],columns=['名前','国語','数学','英語'])
df



Unnamed: 0,名前,国語,数学,英語
AL,Alice,70,80,85
SH,Shohei,95,78,70
BO,Bob,65,85,97
CH,Charlie,90,95,100


# 演習2. 行、列の追加

1) 上記のDataFrameに以下の列を追加せよ。  
 列名：国籍、データ： ['アメリカ','イギリス','カナダ','イギリス']

In [17]:
df['国籍']=['アメリカ','イギリス','カナダ','イギリス']
df

Unnamed: 0,名前,国語,数学,英語,国籍
AL,Alice,70,80,85,アメリカ
SH,Shohei,95,78,70,イギリス
BO,Bob,65,85,97,カナダ
CH,Charlie,90,95,100,イギリス


2) 上記のDataFrameに以下の2列のDataFrameを連結せよ

In [18]:
profile=[['中1','10分'],['中2','30分'],['中1','15分'],['中3','5分']]
profile_df = pd.DataFrame(profile, index = ['AL','SH','BO','CH'],columns=['学年','通学時間'])
profile_df

Unnamed: 0,学年,通学時間
AL,中1,10分
SH,中2,30分
BO,中1,15分
CH,中3,5分


In [19]:
df2 = pd.concat([df,profile_df],axis = 1) 
df2

Unnamed: 0,名前,国語,数学,英語,国籍,学年,通学時間
AL,Alice,70,80,85,アメリカ,中1,10分
SH,Shohei,95,78,70,イギリス,中2,30分
BO,Bob,65,85,97,カナダ,中1,15分
CH,Charlie,90,95,100,イギリス,中3,5分


3) 上記のDataFrameに以下の2行のDataFrameを連結せよ。なお、2行のDataFrameのindex名は、名前の頭文字2文字とする。

In [20]:
students = [['Mamiko',80,75,90,'日本','中1','10分'],['Peter',65,85,90,'ドイツ','中2','15分']]

students_df = pd.DataFrame(students, index=['MA','PE'], columns=['名前','国語','数学','英語','国籍','学年','通学時間'])
students_df

Unnamed: 0,名前,国語,数学,英語,国籍,学年,通学時間
MA,Mamiko,80,75,90,日本,中1,10分
PE,Peter,65,85,90,ドイツ,中2,15分


In [21]:
df3 = pd.concat([df2,students_df],axis=0)
df3

Unnamed: 0,名前,国語,数学,英語,国籍,学年,通学時間
AL,Alice,70,80,85,アメリカ,中1,10分
SH,Shohei,95,78,70,イギリス,中2,30分
BO,Bob,65,85,97,カナダ,中1,15分
CH,Charlie,90,95,100,イギリス,中3,5分
MA,Mamiko,80,75,90,日本,中1,10分
PE,Peter,65,85,90,ドイツ,中2,15分


# 演習3 スライシング


In [62]:
scores = [['Alice',70,80,85,'アメリカ','中1','10分'],['Shohei',95,78,70,'イギリス','中2','30分'],['Bob',65,85,97,'カナダ','中1','15分'],
          ['Charlie',90,95,100,'イギリス','中3','5分'],['Mamiko',80,75,90,'日本','中1','10分'],['Peter',65,85,90,'ドイツ','中2','15分']]

df = pd.DataFrame(scores, index = ['AL','SH','BO','CH','MA','PE'],columns=['名前','国語','数学','英語','国籍','学年','通学時間'])
df

Unnamed: 0,名前,国語,数学,英語,国籍,学年,通学時間
AL,Alice,70,80,85,アメリカ,中1,10分
SH,Shohei,95,78,70,イギリス,中2,30分
BO,Bob,65,85,97,カナダ,中1,15分
CH,Charlie,90,95,100,イギリス,中3,5分
MA,Mamiko,80,75,90,日本,中1,10分
PE,Peter,65,85,90,ドイツ,中2,15分


1. Shohei, Bob, Charlie, Mamikoの名前,および国語，数学，英語のスコアを以下2通りの方法でスライシングせよ
- 行ラベル列ラベルによるスライシング
- インデックスによるスライシング
2. Bobより下の行をすべて取り出せ。（上記と同様、2通りの方法でスライシングすること）

In [66]:
print(df.loc['SH':'MA','名前':'英語'])
print(df.iloc[1:5,0:4])

         名前  国語  数学   英語
SH   Shohei  95  78   70
BO      Bob  65  85   97
CH  Charlie  90  95  100
MA   Mamiko  80  75   90
         名前  国語  数学   英語
SH   Shohei  95  78   70
BO      Bob  65  85   97
CH  Charlie  90  95  100
MA   Mamiko  80  75   90


In [70]:
print(df.loc['BO':,:])
print(df.iloc[2:,:])

         名前  国語  数学   英語    国籍  学年 通学時間
BO      Bob  65  85   97   カナダ  中1  15分
CH  Charlie  90  95  100  イギリス  中3   5分
MA   Mamiko  80  75   90    日本  中1  10分
PE    Peter  65  85   90   ドイツ  中2  15分
         名前  国語  数学   英語    国籍  学年 通学時間
BO      Bob  65  85   97   カナダ  中1  15分
CH  Charlie  90  95  100  イギリス  中3   5分
MA   Mamiko  80  75   90    日本  中1  10分
PE    Peter  65  85   90   ドイツ  中2  15分
