# Introduction to pandas

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_1/intro-to-pandas.ipynb)

## データ処理で使うライブラリ

### NumPy

Pythonを利用して科学計算を行うための基本的なライブラリです。配列の計算を行うための関数が含まれています。

In [2]:
import numpy as np

### pandas

表形式のデータを高速に処理することができるライブラリです。
主な機能として、

* CSVファイルの読み書き
* 統計量の算出
* 並べ替え
* データの選択
* 条件指定による選択
* 欠損値の除去／補間

があります。

pandasにはデータ処理に便利なデータ構造と関数が含まれています。特にDataFrameオブジェクトは、2次元の表形式でデータを保持することができて取り扱いに便利なので、よく使われます。

In [3]:
import pandas as pd

## pandasの基本

###  データ形式

#### Series

* pandasのデータ構造
* 1次元のリストの値とインデックスが付いたオブジェクト
* 特別に指定しない限りは、0からインデックスが付与される

In [4]:
sample_series = pd.Series([1, 2, 3])

In [5]:
sample_series

0    1
1    2
2    3
dtype: int64

In [6]:
type(sample_series)

pandas.core.series.Series

#### DataFrame

* pandasのデータ構造
* データ分析に使うデータはDataFrameとして扱うことが多い
* Seriesの集合体で、行と列からなる

In [7]:
sample_df = pd.DataFrame({
    "名前": ["David", "Eliza", "Fred"],
    "点数": [90, 87, 68]
})

In [8]:
sample_df

Unnamed: 0,名前,点数
0,David,90
1,Eliza,87
2,Fred,68


In [9]:
type(sample_df)

pandas.core.frame.DataFrame

### 基本的な操作

#### CSVファイルを読み込む

`pd.read_csv()`でカンマ区切りのファイルを読み込みます。区切り文字を指定することで、タブ区切りなどのファイルも読み込むことができます。

今回はURLから読み込みますが、PC上に保存されているローカルファイルもパスを指定することで、同じ要領で読み込めます。

Google Driveに保存されているファイルを読み込むこともできます。ぜひ方法を調べてみてください。

In [10]:
new_data = pd.read_csv("https://raw.githubusercontent.com/shinchu/dataviz-notebooks/main/data/week_1/read_sample.csv")

In [11]:
new_data

Unnamed: 0,名前,点数
0,Alice,77
1,Bob,59
2,Charlie,87


#### CSVファイルとして保存する

`DataFrame.to_csv()`でデータフレームをカンマ区切りのファイルとして保存できます。

`sep="\t"`とすると、タブ区切りで保存できます。

In [20]:
sample_df.to_csv("sample_df.csv", index=False, header=True, sep=",")

In [None]:
# Colabからファイルをダウンロードする

from google.colab import files

files.download("sample_df.csv")

### データフレームを扱う

Titanic datasetを使って、pandasの使い方を学びましょう。

これは、1912年に北大西洋で氷山に衝突して沈没したタイタニック号の乗客の生存状況に関するデータセットです。

In [12]:
# ライブラリのインポート

import pandas as pd
import numpy as np

In [13]:
# データの読み込み
titanic = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

In [14]:
# データの確認
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [18]:
titanic["deck"].value_counts()

C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: deck, dtype: int64

このデータセットには、891データ（行）、15属性（列）が含まれていることが分かります。

15の属性が意味するところは、下記の通りです。
各属性の意味はの、データ取得時に整理しておきましょう。

オープンデータであれば、カラム情報は通常公開されています。  
ログを取得したり、スクレイピングをしたりして自分で作成するデータの場合は、データ仕様書も作りましょう。

| カラム | カラムの説明 | 型情報 | 値の説明 | NULL | UNIQ | CHECK |
|---|---|---|---|---|---|---|
| survived | 生存したかどうか | フラグ | 0=死亡, 1=生存 |  |  |  |
| pclass | チケットの等級 | カテゴリ | 1=上層, 2=中級, 3=下層 |  |  |  |
| sex | 性別 | カテゴリ | male, female |  |  |  | 
| age | 年齢 | 数値 |  |  |  | >=0 | 
| sibsp | 乗船した兄弟、配偶者の数 | 数値 |  |  |  | >=0 |
| parch | 乗船した両親、子供の数 | 数値 |  |  |  | >=0 |
| fare | 乗船代金 | 数値 |  |  |  | >=0 | 
| embarked | 出港地 | カテゴリ | C=Cherbourg, Q=Queenstown, S=Southampton |  |  |  |
| class | チケットの等級 | カテゴリ | First, Second, Third |  |  |  |
| who | 属性 | カテゴリ | man, woman, child |  |  |  |
| adult_male | 成人男性かどうか | フラグ | True, False |  |  |  |
| deck | 乗船していたデッキ | カテゴリ | A, B, C, D, E, F, G | ✓ |  |  |
| embark_town | 出港地 | カテゴリ | Cherbourg, Queenstown, Southampton |  |  |  |
| alive | 生存したかどうか | フラグ | yes, no |  |  |  |
| alone | 一人で乗船したかどうか | フラグ | True, False |  |  |  |


#### 1行目の要素を取得する


pandasでは、整数の位置インデックスを参照できます。位置インデックスは0から始まる整数です。参照する場合は、`iloc`属性を利用します。

In [24]:
titanic.iloc[0]

survived                 0
pclass                   3
sex                   male
age                   22.0
sibsp                    1
parch                    0
fare                  7.25
embarked                 S
class                Third
who                    man
adult_male            True
deck                   NaN
embark_town    Southampton
alive                   no
alone                False
Name: 0, dtype: object

In [25]:
# 3行目の要素を取得してみましょう
# your code goes here


#### 特定の列（カラム）を取得する

取得したいカラム名を指定することで、特定のカラムをシリーズ形式で抽出できます。

In [26]:
titanic_class = titanic["class"]

In [27]:
titanic_class

0       Third
1       First
2       Third
3       First
4       Third
        ...  
886    Second
887     First
888     Third
889     First
890     Third
Name: class, Length: 891, dtype: object

In [19]:
# 出港地を示すカラムを取得してみましょう
# your code goes here


#### データの行数を数える

ヒント：文字列やリストの長さを数えるときは、`len()`関数を使います。

In [21]:
len("data science")

12

In [22]:
len(["apple", "orange", "mango", "banana"])

4

In [23]:
# titanicの行数を数えてみましょう
# your code goes here


####  データの集約をする

データを取得した後に、全体像を把握するためにデータを集約することがよくあります。

また、データの集約はデータ可視化の準備としても重要です。

ここではpandasによるいくつかのデータ集約方法を見ていきましょう。

##### 基本統計量を確認する

`DataFrame.describe()`関数を使うと、数値の列の基本統計量が確認できます。概要を把握する時に便利です。

In [24]:
titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


##### カラム内のデータ数を数える

特定のカラムに含まれる値について件数を数える場合、`Series.value_counts()`関数を使います。

In [35]:
titanic["class"].value_counts()

Third     491
First     216
Second    184
Name: class, dtype: int64

In [42]:
# 各出港地から乗船した人がどれくらいいたか数えてみましょう
# your code goes here



#####  列データのユニーク要素数を数える

列データの中にどれだけユニークな（重複のない）要素があるのかを調べる場合には、`Series.nunique()`関数を使います。

In [38]:
titanic["class"].nunique()

3

In [40]:
# 乗客が乗っていたデッキが何個あったか数えてみましょう
# your code goes here



##### グループごとの集約

列に条件を付けて集約する必要がある時は（チケットの等級ごとの生存者数を知りたいなど）、`DataFrame.groupby()`関数を使うことができます。

In [45]:
titanic.groupby("sex")["class"].value_counts()

sex     class 
female  Third     144
        First      94
        Second     76
male    Third     347
        First     122
        Second    108
Name: class, dtype: int64

In [46]:
# チケットの等級ごとの生存者数を見てみましょう
# your code goes here



`Series.value_counts()`関数では件数を取得しました。`Series.mean()`関数を使うことで、平均値を出すことができます。

In [48]:
titanic.groupby("sex").mean()

Unnamed: 0_level_0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


`DataFrame.groupby()`関数を使った出力は、デフォルトでは集約に使ったカラムがインデックスになるため、インデックスにしない場合は、`as_index=False`と引数を指定します。

In [49]:
titanic.groupby("sex", as_index=False).mean()

Unnamed: 0,sex,survived,pclass,age,sibsp,parch,fare,adult_male,alone
0,female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
1,male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


`DataFrame.groupby()`関数は2つ以上のカラムを指定することもできます。2つ以上の列で集約する場合、リストとして指定します。

In [51]:
titanic.groupby(["sex", "class"], as_index=False).mean()

Unnamed: 0,sex,class,survived,pclass,age,sibsp,parch,fare,adult_male,alone
0,female,First,0.968085,1.0,34.611765,0.553191,0.457447,106.125798,0.0,0.361702
1,female,Second,0.921053,2.0,28.722973,0.486842,0.605263,21.970121,0.0,0.421053
2,female,Third,0.5,3.0,21.75,0.895833,0.798611,16.11881,0.0,0.416667
3,male,First,0.368852,1.0,41.281386,0.311475,0.278689,67.226127,0.97541,0.614754
4,male,Second,0.157407,2.0,30.740707,0.342593,0.222222,19.741782,0.916667,0.666667
5,male,Third,0.135447,3.0,26.507589,0.498559,0.224784,12.661633,0.919308,0.760807


ちなみに、集約結果の関数を指定しないと、pandasのオブジェクトが返されます。

In [53]:
titanic.groupby("sex")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x12f5b13f0>

#### クロス集計を行う

`pd.crosstab()`関数を使うことで、クロス集計をすることができます。グループの出現頻度を見る時に有用です。

In [55]:
pd.crosstab(titanic["who"], titanic["class"])

class,First,Second,Third
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
child,6,19,58
man,119,99,319
woman,91,66,114


絶対数ではなく比率が知りたい時は、`normalize="index"`という引数を指定します。

In [56]:
pd.crosstab(titanic["who"], titanic["class"], normalize="index")

class,First,Second,Third
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
child,0.072289,0.228916,0.698795
man,0.221601,0.184358,0.594041
woman,0.335793,0.243542,0.420664


#### 条件に該当したデータを抽出する

カラムに含まれる値が特定の条件を満たした行を取得する方法はいくつかあります。

In [57]:
titanic[titanic["who"] == "child"]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.00,3,1,21.0750,S,Third,child,False,,Southampton,no,False
9,1,2,female,14.00,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.00,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.00,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.00,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
831,1,2,male,0.83,1,1,18.7500,S,Second,child,False,,Southampton,yes,False
850,0,3,male,4.00,4,2,31.2750,S,Third,child,False,,Southampton,no,False
852,0,3,female,9.00,1,1,15.2458,C,Third,child,False,,Cherbourg,no,False
869,1,3,male,4.00,1,1,11.1333,S,Third,child,False,,Southampton,yes,False


`DataFrame.query()`関数を使うと、複数の条件を簡便に指定できます。

In [62]:
titanic.query("who == 'child' & pclass > 1")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.00,3,1,21.0750,S,Third,child,False,,Southampton,no,False
9,1,2,female,14.00,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.00,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.00,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.00,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
831,1,2,male,0.83,1,1,18.7500,S,Second,child,False,,Southampton,yes,False
850,0,3,male,4.00,4,2,31.2750,S,Third,child,False,,Southampton,no,False
852,0,3,female,9.00,1,1,15.2458,C,Third,child,False,,Cherbourg,no,False
869,1,3,male,4.00,1,1,11.1333,S,Third,child,False,,Southampton,yes,False


#### データの並べ替えを行う

昇順や降順にデータを並べ替える時には、`DataFrame.sort()`関数を使います。

In [64]:
titanic.sort_values("fare", ascending=False)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
88,1,1,female,23.0,3,2,263.0000,S,First,woman,False,C,Southampton,yes,False
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
633,0,1,male,,0,0,0.0000,S,First,man,True,,Southampton,no,True
413,0,2,male,,0,0,0.0000,S,Second,man,True,,Southampton,no,True
822,0,1,male,38.0,0,0,0.0000,S,First,man,True,,Southampton,no,True
732,0,2,male,,0,0,0.0000,S,Second,man,True,,Southampton,no,True


In [68]:
# 乗客の年齢の昇順にデータを並び替えてみましょう
# your code goes here



#### カラム名の変更を行う

`DataFrame.rename()`関数を使うことで、カラム名を変更することができます。

In [70]:
titanic.rename(columns={"age": "年齢"})

Unnamed: 0,survived,pclass,sex,年齢,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [71]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


いずれの変更も、もとのDataFrameを変えているわけではないことに注意してください。  
変更を保持したい場合は、新しい変数（またはもとの変数）に代入する必要があります。

In [72]:
titanic_renamed = titanic.rename(columns={"age": "年齢"})

In [75]:
titanic_renamed.head(1)

Unnamed: 0,survived,pclass,sex,年齢,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False


In [76]:
titanic.head(1)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False


---

pandasの基本的な操作は以上です。

使っていくうちにもっと複雑な処理をしたくなると思うので、そんな時は公式ドキュメントを調べてみましょう。

* [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
* [pandas documentation](https://pandas.pydata.org/docs/index.html)