In [1]:
import pandas as pd

# Part1
## 1. Pandasで使う型の説明

In [2]:
# Series型
s = pd.Series(["New York", "Tokyo", "Paris", "London"])
s

0    New York
1       Tokyo
2       Paris
3      London
dtype: object

In [3]:
# DataFrame型
df = pd.DataFrame({"city": ["New York", "Tokyo", "Paris", "London"], 
                   "country": ["USA", "Japan", "France", "UK"],
                   "city_population": [8623000, 9273000, 2141000, 8136000],
                   "country_population": [327200000, 126800000, 66990000, 66040000]})
df


Unnamed: 0,city,country,city_population,country_population
0,New York,USA,8623000,327200000
1,Tokyo,Japan,9273000,126800000
2,Paris,France,2141000,66990000
3,London,UK,8136000,66040000


In [4]:
# DataFrame型の中の1つの列(column)を取り出せる
df["country"]

0       USA
1     Japan
2    France
3        UK
Name: country, dtype: object

In [5]:
#取り出したものはSeries型になっていることが確認できる
type(df["country"])

pandas.core.series.Series

In [6]:
# dataframeに新たなcolumnを追加することもできる
df["country_GDP"] = [20494050000000, 4971929000000, 2828644000000, 2775252000000]
df

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000


## 2. データの読み込みと書き出し
pandasではcsvファイルやtxtファイルなど、様々な形式のデータを読み込むことができます。  
ここではデータ分析で頻繁に使用するcsvファイルの読み込み方と書き出し方を説明します。

In [7]:
# CSVファイルを読み込むにはpd.read_csv()関数を使い、引数にファイルへのパスを与える
# パスは絶対パスでも相対パスでも読み込まれる
cities_df = pd.read_csv("cities.csv") 

In [8]:
# 最初の5行を表示
cities_df.head()

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000
4,Beijing,China,21540000,1386000000,13407398000000


In [9]:
# データをcsvファイルとして書き出すにはto_csv()関数を使う
# to_csv()関数の引数に書き出すファイル名を指定
cities_df.to_csv("cities_df.csv", index=False)

## 3. データの概要や状態を見るための方法

In [10]:
# データの表示
cities_df.head()

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000
4,Beijing,China,21540000,1386000000,13407398000000


In [11]:
# データの状態の確認
cities_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
city                  7 non-null object
country               7 non-null object
city_population       7 non-null int64
country_population    7 non-null int64
country_GDP           7 non-null int64
dtypes: int64(3), object(2)
memory usage: 408.0+ bytes


上の出力結果から、読み込んだcities_dfには7行のデータが含まれており、columnはcity, country, city_population, country_population, country_GDPがあることがわかります。また、各columnには7 non-null objectまたは7 non-null int64が入っていることがあります。7 non-null objectは7つのstring型が、7 non-null int64は7つのint型のデータが入っていることを意味しています。

In [12]:
# 数値データについてはdescribe()関数を使うことで各種統計量を見ることができる
# この関数は主に平均値(mean)や中央値(50%)を確認するために使う
cities_df.describe()

Unnamed: 0,city_population,country_population,country_GDP
count,7.0,7.0,7.0
mean,9315429.0,314331400.0,7158331000000.0
std,6357688.0,481159700.0,7072929000000.0
min,2141000.0,66040000.0,1630659000000.0
25%,5855500.0,74890000.0,2801948000000.0
50%,8623000.0,126800000.0,4000386000000.0
75%,10596500.0,235850000.0,9189664000000.0
max,21540000.0,1386000000.0,20494050000000.0


例えばcity_populationというcolumnの平均値は9.315429e+06、つまり9315429であることがわかりました。  
このe+06という表記は10の6乗をかけるという意味です。

In [13]:
#　任意のデータを取り出すためにはquery関数を使います。関数の引数に条件を入れることで一致する行のみを出力できる
# 例えばJapanについての行を取り出したいときには次のように書くことで確認できる
cities_df.query("country == 'Japan'")

Unnamed: 0,city,country,city_population,country_population,country_GDP
1,Tokyo,Japan,9273000,126800000,4971929000000


## 4.データの表示と状態の確認

In [14]:
school_df = pd.read_csv("school.csv") 

In [15]:
# 読み込んだデータを表示
school_df.head()

Unnamed: 0,name,age,sex,nationality,height
0,Jack,7,male,England,130
1,John,10,male,United States,139
2,Alice,12,female,England,148
3,Bob,7,male,Australia,127
4,Dominic,8,male,Germany,131


In [16]:
school_df.query("name == 'Bob'")

Unnamed: 0,name,age,sex,nationality,height
3,Bob,7,male,Australia,127


In [17]:
school_df.describe()

Unnamed: 0,age,height
count,7.0,7.0
mean,8.714286,134.0
std,2.288689,9.380832
min,6.0,121.0
25%,7.0,128.5
50%,8.0,131.0
75%,10.5,140.5
max,12.0,148.0


In [18]:
# 読み込んだデータの統計量を確認しましょう。ageというcolumnの平均値を入力してください。
# 回答は小数点を四捨五入し、整数で答えてください
round(school_df["age"].mean())

9

データの追加と書き出し
新たなデータを追加して、CSVファイルとして書き出してみよう

先ほどのschool.csvに新しいcolumnを追加してみましょう。  
追加するデータは[29, 31, 33, 28, 29, 31, 27]というデータで、  
weightというcolumn名で追加してください。  
※ 解答は作成したdataframeをschool_add_weight.csvという名前のCSVファイルとして書き出して提出してください。

In [19]:
school_df["weight"] = [29, 31, 33, 28, 29, 31, 27]
school_df

Unnamed: 0,name,age,sex,nationality,height,weight
0,Jack,7,male,England,130,29
1,John,10,male,United States,139,31
2,Alice,12,female,England,148,33
3,Bob,7,male,Australia,127,28
4,Dominic,8,male,Germany,131,29
5,Akiko,11,female,Japan,142,31
6,Carly,6,female,Canada,121,27


In [20]:
school_df.to_csv("school_add_weight.csv", index=False)

# Part2
## データ整形の仕方

In [21]:
cities_df

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000
4,Beijing,China,21540000,1386000000,13407398000000
5,Moscow,Russia,11920000,144500000,1630659000000
6,Berlin,Germany,3575000,82790000,4000386000000


### 1. 任意の行の削除

In [22]:
cities_df.drop(6)

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000
4,Beijing,China,21540000,1386000000,13407398000000
5,Moscow,Russia,11920000,144500000,1630659000000


しかし、ここでもう一度cities_dfを表示すると、6行目が残っています。

In [23]:
cities_df

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000
4,Beijing,China,21540000,1386000000,13407398000000
5,Moscow,Russia,11920000,144500000,1630659000000
6,Berlin,Germany,3575000,82790000,4000386000000


これはcities_df.drop(6)というコードでは6行目を削除した場合のdataframeを表示しているだけで、  
dataframeから実際に削除しているわけではないからです。  
そのため、削除した結果を保存するためには、cities_dfに削除した場合のdataframeを代入する必要があります。

In [24]:
cities_df = cities_df.drop(6)
cities_df

Unnamed: 0,city,country,city_population,country_population,country_GDP
0,New York,USA,8623000,327200000,20494050000000
1,Tokyo,Japan,9273000,126800000,4971929000000
2,Paris,France,2141000,66990000,2828644000000
3,London,UK,8136000,66040000,2775252000000
4,Beijing,China,21540000,1386000000,13407398000000
5,Moscow,Russia,11920000,144500000,1630659000000


### 2. 任意の列の削除

In [25]:
cities_df = cities_df.drop("city_population", axis=1)
cities_df

Unnamed: 0,city,country,country_population,country_GDP
0,New York,USA,327200000,20494050000000
1,Tokyo,Japan,126800000,4971929000000
2,Paris,France,66990000,2828644000000
3,London,UK,66040000,2775252000000
4,Beijing,China,1386000000,13407398000000
5,Moscow,Russia,144500000,1630659000000


ここで、axis=1というオプションは列方向の操作を意味します。  
デフォルトではaxis=0となっているため、行の削除でオプションを付けなくても行を削除することができました。

### 3. 列名を変更する
次にcolumn名を変更する方法について説明します。  
データを読み込んだ際に、columnの名前がわかりにくい場合や、
今後の処理で名前が被ってしまう場合があり、  
適切なcolumn名に変更する必要があります。  
例えばcountry_GDPは単位がわかりにくいため、country_GDP($)に変更することでUSドルであることを明示します。

In [26]:
cities_df = cities_df.rename(columns={"country_GDP": "country_GDP($)"})
cities_df

Unnamed: 0,city,country,country_population,country_GDP($)
0,New York,USA,327200000,20494050000000
1,Tokyo,Japan,126800000,4971929000000
2,Paris,France,66990000,2828644000000
3,London,UK,66040000,2775252000000
4,Beijing,China,1386000000,13407398000000
5,Moscow,Russia,144500000,1630659000000


### 4. データを並び替える
数値データや文字データを任意の順番に並び替える(ソートする)ことでデータを見やすくすることがあります。  
データを昇順にソートするには

In [27]:
cities_df = cities_df.sort_values("country_population")
cities_df 

Unnamed: 0,city,country,country_population,country_GDP($)
3,London,UK,66040000,2775252000000
2,Paris,France,66990000,2828644000000
1,Tokyo,Japan,126800000,4971929000000
5,Moscow,Russia,144500000,1630659000000
0,New York,USA,327200000,20494050000000
4,Beijing,China,1386000000,13407398000000


In [28]:
# また、順番を降順にソートするにはascending = Falseというオプションを付けます。
cities_df = cities_df.sort_values("country_population", ascending=False)
cities_df 

Unnamed: 0,city,country,country_population,country_GDP($)
4,Beijing,China,1386000000,13407398000000
0,New York,USA,327200000,20494050000000
5,Moscow,Russia,144500000,1630659000000
1,Tokyo,Japan,126800000,4971929000000
2,Paris,France,66990000,2828644000000
3,London,UK,66040000,2775252000000


ここで、index(行番号)に注目すると、ソートした結果、indexが入れ替わっています。  
機械学習ではindexがきちんと0から並んでいなければエラーが起こってしまうため、indexを振り直すことが大切です。

In [29]:
cities_df = cities_df.reset_index(drop=True)
cities_df 

Unnamed: 0,city,country,country_population,country_GDP($)
0,Beijing,China,1386000000,13407398000000
1,New York,USA,327200000,20494050000000
2,Moscow,Russia,144500000,1630659000000
3,Tokyo,Japan,126800000,4971929000000
4,Paris,France,66990000,2828644000000
5,London,UK,66040000,2775252000000


reset_index()関数を使うとソートする前のindexの順番を保存するようになっていますが、  
基本的にはソート以前のindexは不要なため、drop=Trueというオプションをつけることでソート前のindexを削除します。  
このindexを振り直すという操作はソートしたときには忘れないようにしましょう。

### 5.欠損値に対処する
欠損値とはデータの中で値が欠けている部分を指し、空白やnullやNaN(Not a Number)で表される要素が入っています。  
欠損値があるとNumPyでは計算を行えなくなってしまい、機械学習のエラーの元となります。  
そのため、欠損値は埋めたり取り除いたりすることで対処します。

#### 欠損値の確認
例えば、次の欠損値を含む行を追加すると、欠損している値がある(ロシアの出生率がNaNになっている)ことが確認できます。

In [30]:
cities_df["birthrate"] = [1.62, 1.80, None, 1.44, 1.96, 1.80]
cities_df

Unnamed: 0,city,country,country_population,country_GDP($),birthrate
0,Beijing,China,1386000000,13407398000000,1.62
1,New York,USA,327200000,20494050000000,1.8
2,Moscow,Russia,144500000,1630659000000,
3,Tokyo,Japan,126800000,4971929000000,1.44
4,Paris,France,66990000,2828644000000,1.96
5,London,UK,66040000,2775252000000,1.8


In [31]:
# 欠損値の数を数える
cities_df.isnull().sum()

city                  0
country               0
country_population    0
country_GDP($)        0
birthrate             1
dtype: int64

birthrateというcolumnの値が1つ欠損していることが確認できます。

#### 欠損値を埋める
欠損値の代表的な対処方法としては、数値データには0で埋めることが挙げられます。

In [35]:
cities_df.fillna(0)

Unnamed: 0,city,country,country_population,country_GDP($),birthrate
0,Beijing,China,1386000000,13407398000000,1.62
1,New York,USA,327200000,20494050000000,1.8
2,Moscow,Russia,144500000,1630659000000,0.0
3,Tokyo,Japan,126800000,4971929000000,1.44
4,Paris,France,66990000,2828644000000,1.96
5,London,UK,66040000,2775252000000,1.8


ロシアの出生率に0が入ったことが確認できます。

#### 欠損値を消す
また、欠損値が多すぎて分析の役に立たない場合はその行や列ごと消すこともあります。  
これは 任意の列の削除 で説明した方法を使うこともできますが、次のようにすることでcolumn名を調べずに一括で削除することもできます。  
例えば、欠損を含むcolumnをもうひとつ追加すると、datafreme内に欠損値が2箇所あることが確認できます。

In [36]:
cities_df["area(km^2)"] = [9596961, 9629091, 17098242, 377915, None, 242900]
cities_df

Unnamed: 0,city,country,country_population,country_GDP($),birthrate,area(km^2)
0,Beijing,China,1386000000,13407398000000,1.62,9596961.0
1,New York,USA,327200000,20494050000000,1.8,9629091.0
2,Moscow,Russia,144500000,1630659000000,,17098242.0
3,Tokyo,Japan,126800000,4971929000000,1.44,377915.0
4,Paris,France,66990000,2828644000000,1.96,
5,London,UK,66040000,2775252000000,1.8,242900.0


In [37]:
# 欠損してる列を一括で削除
cities_df.dropna(axis=1)

Unnamed: 0,city,country,country_population,country_GDP($)
0,Beijing,China,1386000000,13407398000000
1,New York,USA,327200000,20494050000000
2,Moscow,Russia,144500000,1630659000000
3,Tokyo,Japan,126800000,4971929000000
4,Paris,France,66990000,2828644000000
5,London,UK,66040000,2775252000000


ここで、axis=1というオプションは　任意の列の削除 で説明した通り、列向きの操作を表しています。  
同様に、次のようにすることで欠損している行を削除できます。

In [38]:
# 欠損してる行の削除
cities_df.dropna()

Unnamed: 0,city,country,country_population,country_GDP($),birthrate,area(km^2)
0,Beijing,China,1386000000,13407398000000,1.62,9596961.0
1,New York,USA,327200000,20494050000000,1.8,9629091.0
3,Tokyo,Japan,126800000,4971929000000,1.44,377915.0
5,London,UK,66040000,2775252000000,1.8,242900.0


行を削除するとindexが飛び飛びになるため、ここでもindex番号を振り直すことを忘れないようにしましょう  
この操作を一度にするとこのようになります。

In [39]:
cities_df = cities_df.dropna().reset_index(drop=True)
cities_df 

Unnamed: 0,city,country,country_population,country_GDP($),birthrate,area(km^2)
0,Beijing,China,1386000000,13407398000000,1.62,9596961.0
1,New York,USA,327200000,20494050000000,1.8,9629091.0
2,Tokyo,Japan,126800000,4971929000000,1.44,377915.0
3,London,UK,66040000,2775252000000,1.8,242900.0


## 6. データ整形をしてみよう(1)

In [40]:
game_df = pd.read_csv("game1.csv") 

In [41]:
game_df.head()

Unnamed: 0,user_id,game_genre,age,playing_time(days),cellphone
0,1,puzzle,17.0,98,iOS
1,2,shooting,34.0,35,iOS
2,3,puzzle,23.0,267,Android
3,4,puzzle,,45,iOS
4,5,shooting,14.0,90,iOS


In [42]:
# cellphoneというcolumn名をdevice_typeに変更してください。
game_df = game_df.rename(columns={"cellphone": "device_type"})
game_df 

Unnamed: 0,user_id,game_genre,age,playing_time(days),device_type
0,1,puzzle,17.0,98,iOS
1,2,shooting,34.0,35,iOS
2,3,puzzle,23.0,267,Android
3,4,puzzle,,45,iOS
4,5,shooting,14.0,90,iOS
5,6,racing,,16,Android


In [40]:
# 欠損値のある行を削除してください。
game_df = game_df.dropna().reset_index(drop=True)
game_df

Unnamed: 0,user_id,game_genre,age,playing_time(days),device_type
0,1,puzzle,17.0,98,iOS
1,2,shooting,34.0,35,iOS
2,3,puzzle,23.0,267,Android
3,5,shooting,14.0,90,iOS


In [43]:
# 解答は作成したdataframeをgame1_formatted.csvという名前のCSVファイルとして書き出して提出してください。
game_df.to_csv("game1_formatted.csv", index=False)

## 7. データ整形をしてみよう(2)

In [44]:
game2_df = pd.read_csv("game2.csv") 

In [45]:
game2_df

Unnamed: 0,user_id,game_genre,billing_amount(¥),playing_time(days),ranking
0,1,puzzle,1000.0,98,153
1,2,shooting,,35,978
2,3,puzzle,5000.0,267,8
3,4,puzzle,,45,1032
4,5,shooting,2000.0,90,91
5,6,racing,300.0,16,875


In [46]:
# rankingというcolumnを削除してください。
game2_df = game2_df.drop("ranking", axis=1)
game2_df

Unnamed: 0,user_id,game_genre,billing_amount(¥),playing_time(days)
0,1,puzzle,1000.0,98
1,2,shooting,,35
2,3,puzzle,5000.0,267
3,4,puzzle,,45
4,5,shooting,2000.0,90
5,6,racing,300.0,16


In [47]:
# 欠損値を0で埋めてください。
game2_df = game2_df.fillna(0)
game2_df

Unnamed: 0,user_id,game_genre,billing_amount(¥),playing_time(days)
0,1,puzzle,1000.0,98
1,2,shooting,0.0,35
2,3,puzzle,5000.0,267
3,4,puzzle,0.0,45
4,5,shooting,2000.0,90
5,6,racing,300.0,16


In [48]:
# billing_amount(¥)というcolumnの値が降順になるように並び替えてください。
game2_df = game2_df.sort_values("billing_amount(¥)", ascending=False)
game2_df

Unnamed: 0,user_id,game_genre,billing_amount(¥),playing_time(days)
2,3,puzzle,5000.0,267
4,5,shooting,2000.0,90
0,1,puzzle,1000.0,98
5,6,racing,300.0,16
1,2,shooting,0.0,35
3,4,puzzle,0.0,45


In [49]:
# 解答は作成したdataframeをgame2_formatted.csvという名前のCSVファイルとして書き出して提出してください。
game2_df.to_csv("game2_formatted.csv", index=False)

# Part3
複数のファイルに散らばったデータを統合することで一気に分析する方法

## 1. シンプルな連結 - pd.append()
データの連結とは、さきほど説明した通り、データの中身をある方向(縦方向または横方向)にそのままつなげることです。  
まずは同じcolumn名を持つデータ同士を縦方向につなげるとき(連結するとき)です。このときにはpd.append()関数を使います。

In [51]:
df1 = pd.DataFrame({
    "A": ["A0", "A1", "A2"],
    "B": ["B0", "B1", "B2"],
    "C": ["C0", "C1", "C2"]})
df1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [52]:
df2 = pd.DataFrame({
    "A": ["A3", "A4", "A5"],
    "B": ["B3", "B4", "B5"],
    "C": ["C3", "C4", "C5"]})
df2

Unnamed: 0,A,B,C
0,A3,B3,C3
1,A4,B4,C4
2,A5,B5,C5


In [53]:
# 2つのdataframeを縦方向に連結
df1_df2 = df1.append(df2)
df1_df2 = df1_df2.reset_index(drop=True)
df1_df2

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5


## 2.柔軟な連結 - pd.concat()
次に、上のappned()よりも柔軟な縦方向の結合です。  
「柔軟な」という意味は、column名が異なるcolumnを持つときに、  
片方にしか存在しないcolumnにはNaNを入れることで異なるcolumnに対処するということです。  
異なるcolumn名を持つデータ同士を縦方向に結合するときにはpd.concat()関数を使います。  
コードで表現すると以下のようになります。

次の2つのdataframeがあるとき、df1にはA,B,Cというcolumnがあるのに対し、df2にはA,B,Dというcolumnがあります。

In [62]:
df1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [63]:
df3 = pd.DataFrame({
    "A": ["A3", "A4", "A5"],
    "B": ["B3", "B4", "B5"],
    "D": ["D3", "D4", "D5"]})
df3

Unnamed: 0,A,B,D
0,A3,B3,D3
1,A4,B4,D4
2,A5,B5,D5


In [64]:
df1_df3 = pd.concat([df1, df3], sort=True)
df1_df3 = df1_df3.reset_index(drop=True)
df1_df3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,,D3
4,A4,B4,,D4
5,A5,B5,,D5


ここで、sort=Trueという引数は、結合されていない軸方向(この場合は横方向、  
つまりcolumnについて)のデータをソートするかどうかを指定します。  
初めのうちはおまじないのようなものだと思って書いておきましょう。  
上のようにデータ中に存在しない値を埋めることを パディング すると言います。  
この場合はNaNでパディングしていることになります。

また、このpd.concat()関数は横方向の連結に使うこともできます。  
例えば横方向の連結は次のようになります。  
さきほどの2つのdataframe、df1とdf3を横向きに連結すると以下のようになります。

In [65]:
df1_df3 = pd.concat([df1, df3], axis = 1)
df1_df3 = df1_df3.reset_index(drop = True)
df1_df3

Unnamed: 0,A,B,C,A.1,B.1,D
0,A0,B0,C0,A3,B3,D3
1,A1,B1,C1,A4,B4,D4
2,A2,B2,C2,A5,B5,D5


横向きの連結をするときには引数にaxis=1を加えましょう。  
この引数はデフォルトの値がaxis=0であるため、縦向きの連結ではこの引数を省略することができます。

ここまでは2つのデータの結合を例に説明してきましたが、pd.concat()関数は3つ以上のデータの結合にも対応しています。

In [66]:
df1_df2_df3 = pd.concat([df1, df2, df3], sort = True)
df1_df2_df3 = df1_df2_df3.reset_index(drop = True)
df1_df2_df3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,
5,A5,B5,C5,
6,A3,B3,,D3
7,A4,B4,,D4
8,A5,B5,,D5


df1,df2,df3が結合され、CとDというcolumnは一部がきちんとNaNでパディングされていることが確認できました。

## 3.列の値による結合 - pd.merge()
データの結合とは、初めに説明した通り、データの中身を何らかのキーの値(行または列の値)で紐づけてつなげることです。  
結合にはキーの値で紐づけることと、内部結合,外部結合という2つの新たな概念が登場します。

In [67]:
df4 = pd.DataFrame({
    "A":  ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "K": ["K0", "K1", "K2", "K3"]})
df4

Unnamed: 0,A,B,K
0,A0,B0,K0
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


In [68]:
df5 = pd.DataFrame({
    "K": ["K0", "K1", "K3", "K4"],
    "C": ["C0", "C1", "C3", "C4"],
    "D": ["D0", "D1", "D3", "D4"]},
    index=[0, 1, 3, 4])
df5

Unnamed: 0,K,C,D
0,K0,C0,D0
1,K1,C1,D1
3,K3,C3,D3
4,K4,C4,D4


#### 外部結合

In [58]:
df4_df5 = pd.merge(df4, df5, on="K", how="outer")
df4_df5

Unnamed: 0,A,B,K,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,,
3,A3,B3,K3,C3,D3
4,,,K4,C4,D4


出力結果を見ると、K列の値が同じ行同士(この場合は0,1,3行目)が結合されています。  
このときのK列の値を キー と呼び、2つのdataframeを キーにしたKの値で紐づけた ことになります。  

そして、どちらか一方のdataframeにしか存在しないK2,K4という値の列(2,4行目)にはNaNで埋められています。  
この一方にしか存在しない値の行をNaNで埋めるようにするような結合を 外部結合 と呼びます。

これらの説明をまとめて一言で表現するとK列をキーにdf4とdf5を外部結合したということになります。結合時のキーとなる列名をon="K"という引数で指定し、how="outer"という引数で外部結合するように指定しています。

もう1つ例を見てみましょう。先ほどの2つのdataframe、df4,df5結合する際の引数をhow="innner"に変えてみます。

#### 内部結合

In [59]:
df4_df5 = pd.merge(df4, df5, on = "K", how= "inner")
df4_df5

Unnamed: 0,A,B,K,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A3,B3,K3,C3,D3


出力結果を見ると、キーにしたK列の値が一方にしか存在しないK2,K4を含む行(つまり2行目と4行目)が消えています。  

このように、一方にしか存在しない値の行は消すような結合を 内部結合 と呼びます。  

ここまでの例をまとめると、外部結合とは一方にしか存在しないキーを残すことであり、内部結合とは逆に一方にしか存在しないキーは消すことです。

#### 左外部結合

pd.merge()関数のhowというオプションにはouterとinnerの他にleftとrightが引数を渡すことができます。  
how = leftとすると、以下のようになります。

1つ目のdataframeにのみ存在するキーの行(この場合は2行目)は残し、  
2つ目のdataframeにのみ存在するキーの行(この場合は4行目)は消します。  
これを 左外部結合 と呼びます。

In [70]:
df4_df5 = pd.merge(df4, df5, on = "K", how= "left")
df4_df5

Unnamed: 0,A,B,K,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,,
3,A3,B3,K3,C3,D3


#### 右外部結合

2つ目のdataframeにのみ存在するキーの行(この場合は4行目)が残り、  
1つ目のdataframeにのみ存在するキーの行(この場合は4行目)が消えていることが確認できます。  
これを 右外部結合 と呼びます。

In [69]:
df4_df5 = pd.merge(df4, df5, on="K", how="right")
df4_df5

Unnamed: 0,A,B,K,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A3,B3,K3,C3,D3
3,,,K4,C4,D4


また、キーには複数のcolumnを指定することができます。  
複数のcolumnをキーにするときには列名をlistで与えます。  
例を用いて説明すると、次の2つのdataframeがあるときに、

In [62]:
df6 = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "K": ["K0", "K1", "K2", "K3"],
    "M": ["M0", "M1", "M2", "M3"]})
df6

Unnamed: 0,A,B,K,M
0,A0,B0,K0,M0
1,A1,B1,K1,M1
2,A2,B2,K2,M2
3,A3,B3,K3,M3


In [63]:
df7 = pd.DataFrame({
    "K": ["K0", "K1", "K3", "K4"],
    "M": ["M0", "M1", "M3", "M4"],
    "C": ["C0", "C1", "C3", "C4"],
    "D": ["D0", "D1", "D3", "D4"]},
    index=[0, 1, 3, 4])
df7

Unnamed: 0,K,M,C,D
0,K0,M0,C0,D0
1,K1,M1,C1,D1
3,K3,M3,C3,D3
4,K4,M4,C4,D4


In [64]:
# K列とM列をキーに結合
df6_df7 = pd.merge(df6, df7, on=["K", "M"], how="inner")
df6_df7 

Unnamed: 0,A,B,K,M,C,D
0,A0,B0,K0,M0,C0,D0
1,A1,B1,K1,M1,C1,D1
2,A3,B3,K3,M3,C3,D3


## 3. 行の値による結合 - pd.join()

In [71]:
df8 = pd.DataFrame({
    "A": ["A0", "A1", "A2"],
    'B': ["B0", "B1", "B2"]})
df8

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2


In [72]:
df9 = pd.DataFrame({
    "C": ["C0", "C2", "C3"],
    'D': ["D0", "D2", "D3"]},
    index=[0, 2, 3])
df9

Unnamed: 0,C,D
0,C0,D0
2,C2,D2
3,C3,D3


In [73]:
# 外部結合
df8.join(df9, how='outer')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,,
2,A2,B2,C2,D2
3,,,C3,D3


In [74]:
# 内部結合
df8.join(df9, how='inner')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
2,A2,B2,C2,D2


一方のdataframeにしか存在しない1行目と3行目は消えていることが確認できました。

In [75]:
# 左外部結合
df8.join(df9, how='left')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,,
2,A2,B2,C2,D2


In [76]:
# 右外部結合
df8.join(df9, how='right')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
2,A2,B2,C2,D2
3,,,C3,D3


左外部結合ではdf9の3行目が消え、右外部結合ではdf8の1行目が消えていることが確認できます。

# 4. 宿題A：データ同士の連結

2つのデータを連結してみよう  
2つのデータ、kanto.csvとkansai.csvをダウンロードし、2つのデータを連結してください。  
※ 解答は作成したdataframeをkanto_kansai.csvという名前のCSVファイルとして書き出して提出してください。

In [77]:
kanto_df = pd.read_csv("kanto.csv") 
kanto_df

Unnamed: 0,prefecture,region,capital_city,major_station_1,major_station_2
0,Tokyo,Kanto,Tokyo,Tokyo,Shinjuku
1,Saitama,Kanto,Saitama,Omiya,Urawa
2,Kanagawa,Kanto,Yokohama,Yokohama,Kawasaki


In [78]:
kansai_df = pd.read_csv("kansai.csv")
kansai_df

Unnamed: 0,prefecture,region,capital_city,major_station_1
0,Osaka,Kansai,Osaka,Umeda
1,Kyoto,Kansai,Kyoto,Kyoto
2,Nara,Kansai,Nara,Nara
3,Hyogo,Kansai,Kobe,Kobe


In [90]:
kanto_kansai = pd.concat([kanto_df, kansai_df],sort=False)
kanto_kansai = kanto_kansai.reset_index(drop=True)
kanto_kansai

Unnamed: 0,prefecture,region,capital_city,major_station_1,major_station_2
0,Tokyo,Kanto,Tokyo,Tokyo,Shinjuku
1,Saitama,Kanto,Saitama,Omiya,Urawa
2,Kanagawa,Kanto,Yokohama,Yokohama,Kawasaki
3,Osaka,Kansai,Osaka,Umeda,
4,Kyoto,Kansai,Kyoto,Kyoto,
5,Nara,Kansai,Nara,Nara,
6,Hyogo,Kansai,Kobe,Kobe,


In [91]:
kanto_kansai.to_csv("kanto_kansai.csv", index=False)

# 5. 宿題B：データ同士の結合

2つのデータ、class.csvとgrade.csvをダウンロードし、  
student_numberとnameというcolumnの値をキーにして2つのデータを内部結合してください。  
※ 解答は作成したdataframeをclass_grade.csvという名前のCSVファイルとして書き出して提出してください。

In [93]:
class_df = pd.read_csv("class.csv")
class_df

Unnamed: 0,student_number,name,age,nationality
0,1,Jack,7,England
1,2,John,10,United States
2,3,Alice,12,England
3,4,Bob,7,Australia
4,5,Dominic,8,Germany
5,6,Akiko,11,Japan
6,7,Carly,6,Canada


In [94]:
grade_df = pd.read_csv("grade.csv")
grade_df 

Unnamed: 0,student_number,name,math,science
0,1,Jack,32,19
1,2,John,73,63
2,3,Alice,90,85
3,5,Dominic,45,58
4,6,Akiko,87,66


In [96]:
class_grade = pd.merge(class_df, grade_df, on=["student_number","name"], how="inner")
class_grade

Unnamed: 0,student_number,name,age,nationality,math,science
0,1,Jack,7,England,32,19
1,2,John,10,United States,73,63
2,3,Alice,12,England,90,85
3,5,Dominic,8,Germany,45,58
4,6,Akiko,11,Japan,87,66


In [97]:
class_grade.to_csv("class_grade.csv", index=False)