# Pandasの練習

# Pandasとは

Pandasは、ExcelファイルやCSVファイルのような表形式のデータを高速に処理することができるモジュールです。

主な機能として、

* CSVファイルの読み書き
* 統計量の算出
* 並べ替え
* データの選択
* 条件指定による選択
* 欠損値の除去／補間

があります。

pandasにはデータ処理に便利なデータ構造と関数が含まれています。特にDataFrameオブジェクトは、2次元の表形式でデータを保持することができて取り扱いに便利なので、よく使われます。

次のようにpandasパッケージを`pd`という名前で呼び出しましょう。

以降、`pd.DataFrame()`などと書くことでpandas内で定義されている関数などにアクセスできるようになります。

In [2]:
# Pythonのパッケージ管理ツールのpipをアップグレード（たまに実行）
%pip install --upgrade pip

Note: you may need to restart the kernel to use updated packages.


In [3]:
# モジュールのインストール（初回のみ）
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

## pandasの基本

###  データ形式

pandasが扱う主なデータ構造は、`Series`と`DataFrame`です。

#### Series

* 1次元のリストの値とインデックスが付いたオブジェクト
* 特別に指定しない限りは、0からインデックスが付与される

In [3]:
sample_series = pd.Series([1, 2, 3])

In [4]:
sample_series

0    1
1    2
2    3
dtype: int64

In [5]:
type(sample_series)

pandas.core.series.Series

#### DataFrame

* データ分析に使うデータはDataFrameとして扱うことが多い
* Seriesの集合体で、行と列からなる

In [7]:
sample_df = pd.DataFrame({
    "名前": ["David", "Eliza", "Fred"],
    "点数": [90, 87, 68]
})

In [8]:
sample_df

Unnamed: 0,名前,点数
0,David,90
1,Eliza,87
2,Fred,68


In [9]:
type(sample_df)

pandas.core.frame.DataFrame

## 基本的な操作

### CSVファイルを読み込む

`pd.read_csv()`でカンマ区切りのファイルを読み込みます。区切り文字を指定することで、タブ区切りなどのファイルも読み込むことができます。

今回はPC上に保存されているファイルを読み込みますが、URLを指定することもできます。

In [10]:
new_data = pd.read_csv("./data/read_sample.csv")

In [11]:
new_data

Unnamed: 0,名前,点数
0,Alice,77
1,Bob,59
2,Charlie,87


### CSVファイルとして保存する

`DataFrame.to_csv()`でデータフレームをカンマ区切りのファイルとして保存できます。

`sep="\t"`とすると、タブ区切りで保存できます。

In [12]:
sample_df.to_csv("./data/sample_df.tsv", index=False, header=True, sep="\t")

## データフレームを扱う

Titanic datasetを使って、pandasの使い方を学びましょう。

これは、1912年に北大西洋で氷山に衝突して沈没したタイタニック号の乗客の生存状況に関するデータセットです。

In [13]:
# データの読み込み
titanic = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

In [14]:
# データの確認
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [15]:
titanic["deck"].value_counts()

deck
C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: count, dtype: int64

このデータセットには、891データ（行）、15属性（列）が含まれていることが分かります。

15の属性が意味するところは、下記の通りです。
各属性の意味はの、データ取得時に整理しておきましょう。

オープンデータであれば、カラム情報は通常公開されています。  
ログを取得したり、スクレイピングをしたりして自分で作成するデータの場合は、データ仕様書も作りましょう。

| カラム | カラムの説明 | 型情報 | 値の説明 | NULL | UNIQ | CHECK |
|---|---|---|---|---|---|---|
| survived | 生存したかどうか | フラグ | 0=死亡, 1=生存 |  |  |  |
| pclass | チケットの等級 | カテゴリ | 1=上層, 2=中級, 3=下層 |  |  |  |
| sex | 性別 | カテゴリ | male, female |  |  |  | 
| age | 年齢 | 数値 |  |  |  | >=0 | 
| sibsp | 乗船した兄弟、配偶者の数 | 数値 |  |  |  | >=0 |
| parch | 乗船した両親、子供の数 | 数値 |  |  |  | >=0 |
| fare | 乗船代金 | 数値 |  |  |  | >=0 | 
| embarked | 出港地 | カテゴリ | C=Cherbourg, Q=Queenstown, S=Southampton |  |  |  |
| class | チケットの等級 | カテゴリ | First, Second, Third |  |  |  |
| who | 属性 | カテゴリ | man, woman, child |  |  |  |
| adult_male | 成人男性かどうか | フラグ | True, False |  |  |  |
| deck | 乗船していたデッキ | カテゴリ | A, B, C, D, E, F, G | ✓ |  |  |
| embark_town | 出港地 | カテゴリ | Cherbourg, Queenstown, Southampton |  |  |  |
| alive | 生存したかどうか | フラグ | yes, no |  |  |  |
| alone | 一人で乗船したかどうか | フラグ | True, False |  |  |  |


### 1行目の要素を取得する


pandasでは、整数の位置インデックスを参照できます。位置インデックスは0から始まる整数です。参照する場合は、`iloc`属性を利用します。

In [16]:
titanic.iloc[0]

survived                 0
pclass                   3
sex                   male
age                   22.0
sibsp                    1
parch                    0
fare                  7.25
embarked                 S
class                Third
who                    man
adult_male            True
deck                   NaN
embark_town    Southampton
alive                   no
alone                False
Name: 0, dtype: object

【演習】3行目の要素を取得してみましょう

In [17]:
# your code goes here
titanic.iloc[3]


survived                 1
pclass                   1
sex                 female
age                   35.0
sibsp                    1
parch                    0
fare                  53.1
embarked                 S
class                First
who                  woman
adult_male           False
deck                     C
embark_town    Southampton
alive                  yes
alone                False
Name: 3, dtype: object

### 特定の列（カラム）を取得する

取得したいカラム名を指定することで、特定のカラムをシリーズ形式で抽出できます。

In [18]:
titanic_class = titanic["class"]

In [19]:
titanic_class

0       Third
1       First
2       Third
3       First
4       Third
        ...  
886    Second
887     First
888     Third
889     First
890     Third
Name: class, Length: 891, dtype: object

【演習】出港地を示すカラムを取得してみましょう

In [20]:
# your code goes here
titanic_embarked = titanic["embarked"]
titanic_embarked

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: embarked, Length: 891, dtype: object

### データの行数を数える

ヒント：文字列やリストの長さを数えるときは、`len()`関数を使います。

In [21]:
len("data science")

12

In [22]:
len(["apple", "orange", "mango", "banana"])

4

【演習】データフレーム`titanic`の行数を数えてみましょう

In [23]:
# your code goes here
len(titanic)

891

###  データの集約をする

データを取得した後に、全体像を把握するためにデータを集約することがよくあります。

また、データの集約はデータ可視化の準備としても重要です。

ここではpandasによるいくつかのデータ集約方法を見ていきましょう。

#### 要約統計量を確認する

`DataFrame.describe()`関数を使うと、数値の列の要約統計量が確認できます。概要を把握する時に便利です。

In [24]:
titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


#### カラム内のデータ数を数える

特定のカラムに含まれる値について件数を数える場合、`Series.value_counts()`関数を使います。

In [25]:
titanic["class"].value_counts()

class
Third     491
First     216
Second    184
Name: count, dtype: int64

【演習】各出港地から乗船した人がどれくらいいたか数えてみましょう

In [26]:
# your code goes here
titanic_embarked.value_counts()


embarked
S    644
C    168
Q     77
Name: count, dtype: int64

#####  列データのユニーク要素数を数える

列データの中にどれだけユニークな（重複のない）要素があるのかを調べる場合には、`Series.nunique()`関数を使います。

In [27]:
titanic["class"].nunique()

3

【演習】乗客が乗っていたデッキが何個あったか数えてみましょう

In [28]:
# your code goes here
titanic["deck"].nunique()


7

#### グループごとの集約

列に条件を付けて集約する必要がある時は（チケットの等級ごとの生存者数を知りたいなど）、`DataFrame.groupby()`関数を使うことができます。

In [29]:
titanic.groupby("sex")["class"].value_counts()

sex     class 
female  Third     144
        First      94
        Second     76
male    Third     347
        First     122
        Second    108
Name: count, dtype: int64

【演習】チケットの等級ごとの生存者数を見てみましょう

In [30]:
# your code goes here
titanic.groupby("pclass")["alive"].value_counts()


pclass  alive
1       yes      136
        no        80
2       no        97
        yes       87
3       no       372
        yes      119
Name: count, dtype: int64

`Series.value_counts()`関数では件数を取得しました。`Series.mean()`関数を使うことで、平均値を出すことができます。

In [31]:
titanic.groupby("sex").mean(numeric_only=True)

Unnamed: 0_level_0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


`DataFrame.groupby()`関数を使った出力は、デフォルトでは集約に使ったカラムがインデックスになるため、インデックスにしない場合は、`as_index=False`と引数を指定します。

In [32]:
titanic.groupby("sex", as_index=False).mean(numeric_only=True)

Unnamed: 0,sex,survived,pclass,age,sibsp,parch,fare,adult_male,alone
0,female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
1,male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


`DataFrame.groupby()`関数は2つ以上のカラムを指定することもできます。2つ以上の列で集約する場合、リストとして指定します。

In [33]:
titanic.groupby(["sex", "class"], as_index=False).mean(numeric_only=True)

Unnamed: 0,sex,class,survived,pclass,age,sibsp,parch,fare,adult_male,alone
0,female,First,0.968085,1.0,34.611765,0.553191,0.457447,106.125798,0.0,0.361702
1,female,Second,0.921053,2.0,28.722973,0.486842,0.605263,21.970121,0.0,0.421053
2,female,Third,0.5,3.0,21.75,0.895833,0.798611,16.11881,0.0,0.416667
3,male,First,0.368852,1.0,41.281386,0.311475,0.278689,67.226127,0.97541,0.614754
4,male,Second,0.157407,2.0,30.740707,0.342593,0.222222,19.741782,0.916667,0.666667
5,male,Third,0.135447,3.0,26.507589,0.498559,0.224784,12.661633,0.919308,0.760807


ちなみに、集約結果の関数を指定しないと、pandasのオブジェクトが返されます。

In [35]:
titanic.groupby("sex")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x117eebad0>

### クロス集計を行う

`pd.crosstab()`関数を使うことで、クロス集計をすることができます。グループの出現頻度を見る時に有用です。

In [36]:
pd.crosstab(titanic["who"], titanic["class"])

class,First,Second,Third
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
child,6,19,58
man,119,99,319
woman,91,66,114


絶対数ではなく比率が知りたい時は、`normalize="index"`という引数を指定します。

In [37]:
pd.crosstab(titanic["who"], titanic["class"], normalize="index")

class,First,Second,Third
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
child,0.072289,0.228916,0.698795
man,0.221601,0.184358,0.594041
woman,0.335793,0.243542,0.420664


### 条件に該当したデータを抽出する

カラムに含まれる値が特定の条件を満たした行を取得する方法はいくつかあります。

In [38]:
titanic[titanic["who"] == "child"]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.00,3,1,21.0750,S,Third,child,False,,Southampton,no,False
9,1,2,female,14.00,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.00,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.00,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.00,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
831,1,2,male,0.83,1,1,18.7500,S,Second,child,False,,Southampton,yes,False
850,0,3,male,4.00,4,2,31.2750,S,Third,child,False,,Southampton,no,False
852,0,3,female,9.00,1,1,15.2458,C,Third,child,False,,Cherbourg,no,False
869,1,3,male,4.00,1,1,11.1333,S,Third,child,False,,Southampton,yes,False


`DataFrame.query()`関数を使うと、複数の条件を簡便に指定できます。

In [39]:
titanic.query("who == 'child' & pclass > 1")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.00,3,1,21.0750,S,Third,child,False,,Southampton,no,False
9,1,2,female,14.00,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.00,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.00,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.00,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
831,1,2,male,0.83,1,1,18.7500,S,Second,child,False,,Southampton,yes,False
850,0,3,male,4.00,4,2,31.2750,S,Third,child,False,,Southampton,no,False
852,0,3,female,9.00,1,1,15.2458,C,Third,child,False,,Cherbourg,no,False
869,1,3,male,4.00,1,1,11.1333,S,Third,child,False,,Southampton,yes,False


### データの並べ替えを行う

昇順や降順にデータを並べ替える時には、`DataFrame.sort()`関数を使います。

In [40]:
titanic.sort_values("fare", ascending=False)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
88,1,1,female,23.0,3,2,263.0000,S,First,woman,False,C,Southampton,yes,False
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
633,0,1,male,,0,0,0.0000,S,First,man,True,,Southampton,no,True
413,0,2,male,,0,0,0.0000,S,Second,man,True,,Southampton,no,True
822,0,1,male,38.0,0,0,0.0000,S,First,man,True,,Southampton,no,True
732,0,2,male,,0,0,0.0000,S,Second,man,True,,Southampton,no,True


【演習】乗客の年齢の昇順にデータを並び替えてみましょう

In [42]:
# your code goes here
titanic.sort_values("age", ascending=True)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5000,S,Second,child,False,,Southampton,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
78,1,2,male,0.83,0,2,29.0000,S,Second,child,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True


### カラム名の変更を行う

`DataFrame.rename()`関数を使うことで、カラム名を変更することができます。

In [43]:
titanic.rename(columns={"age": "年齢"})

Unnamed: 0,survived,pclass,sex,年齢,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [44]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


いずれの変更も、もとのDataFrameを変えているわけではないことに注意してください。  
変更を保持したい場合は、新しい変数（またはもとの変数）に代入する必要があります。

In [45]:
titanic_renamed = titanic.rename(columns={"age": "年齢"})

In [46]:
titanic_renamed.head(1)

Unnamed: 0,survived,pclass,sex,年齢,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False


In [47]:
titanic.head(1)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False


pandasの基本的な操作は以上です。

次のセクションでは、以上の操作を応用してmessy data（雑然データ）をtidy data（整然データ）にしてみましょう。

---

# Tidy data（整然データ）

整然データは、次の4つの条件を満たすデータなのでした。

1. 1つの列は、1つの変数を表す。
2. 1つの行は、1つの観測を表す。
3. 1つのセル（特定の列の特定の行）は、1つの値を表す。
4. 1つの表は、1つの観測単位を持つ（異なる観察単位が混ざっていない）。

たとえば、2020年1月1〜3日の各都市の平均気温データでデータセットを作ってみます。

In [48]:
wide_df = pd.DataFrame(
    [
        ["Tokyo", 5.8, 5.7, 5.6],
        ["Osaka", 6.8, 6.7, 6.6],
        ["Nagoya", 5.1, 5.1, 5.0]
    ],
    columns=["Location"] + pd.date_range("2020-01-01", periods=3).tolist()
)

wide_df

Unnamed: 0,Location,2020-01-01 00:00:00,2020-01-02 00:00:00,2020-01-03 00:00:00
0,Tokyo,5.8,5.7,5.6
1,Osaka,6.8,6.7,6.6
2,Nagoya,5.1,5.1,5.0


このデータでは、各行が複数の日付で構成（観測が複数）されています。また、各列が日付と気温の2つの変数で構成（変数が複数）されています。

整然データの条件1と条件2を満たさないため、雑然データであると言えます。

DataFrameの`melt`メソッドを使うと、このデータを整然データへ変換できます。次の引数を渡します。

- `id_vars`: 基本となる列名を指定
- `var_name`: 変数となる列名を指定
- `value_name`: 値となる列名を指定

In [49]:
tidy_df = wide_df.melt(id_vars="Location", var_name="Date", value_name="Temperature")
tidy_df

Unnamed: 0,Location,Date,Temperature
0,Tokyo,2020-01-01 00:00:00,5.8
1,Osaka,2020-01-01 00:00:00,6.8
2,Nagoya,2020-01-01 00:00:00,5.1
3,Tokyo,2020-01-02 00:00:00,5.7
4,Osaka,2020-01-02 00:00:00,6.7
5,Nagoya,2020-01-02 00:00:00,5.1
6,Tokyo,2020-01-03 00:00:00,5.6
7,Osaka,2020-01-03 00:00:00,6.6
8,Nagoya,2020-01-03 00:00:00,5.0


これで整然データを作ることができました。

# おまけ：Plotlyを使った可視化

今日のおまけとして、Plotlyというパッケージを使ってデータ可視化を行います。
データセット中の変数を図の要素に明示的に割り当てることで、可視化を作成します。

In [50]:
# Plotlyパッケージのインストール（初回のみ実行）
%pip install plotly
%pip install notebook

Collecting plotly
  Using cached plotly-5.24.1-py3-none-any.whl.metadata (7.3 kB)
Collecting tenacity>=6.2.0 (from plotly)
  Using cached tenacity-9.0.0-py3-none-any.whl.metadata (1.2 kB)
Using cached plotly-5.24.1-py3-none-any.whl (19.1 MB)
Using cached tenacity-9.0.0-py3-none-any.whl (28 kB)
Installing collected packages: tenacity, plotly
Successfully installed plotly-5.24.1 tenacity-9.0.0
Note: you may need to restart the kernel to use updated packages.
Collecting notebook
  Using cached notebook-7.2.2-py3-none-any.whl.metadata (10 kB)
Collecting jupyter-server<3,>=2.4.0 (from notebook)
  Using cached jupyter_server-2.14.2-py3-none-any.whl.metadata (8.4 kB)
Collecting jupyterlab-server<3,>=2.27.1 (from notebook)
  Using cached jupyterlab_server-2.27.3-py3-none-any.whl.metadata (5.9 kB)
Collecting jupyterlab<4.3,>=4.2.0 (from notebook)
  Using cached jupyterlab-4.2.5-py3-none-any.whl.metadata (16 kB)
Collecting notebook-shim<0.3,>=0.2 (from notebook)
  Using cached notebook_shim-0.2.

In [53]:
# エラーが出る時は、カーネルを再起動してください

import plotly.express as px

px.bar(tidy_df, x="Date", y="Temperature", color="Location", barmode="group").show()

---

複雑な処理をしたい時には、公式ドキュメントが便利です。

* [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
* [pandas documentation](https://pandas.pydata.org/docs/index.html)