# Pandas と seabornの簡単な例


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/kyorin-phys/MLIntro2025/blob/main/2/2a.ipynb)


## Pandas 

[Pandas](https://pandas.pydata.org/) はExcelで扱うような表形式のデータを扱うライブラリ。 Panel Dataが由来であるが、タイトルにPython Data Analysis Libraryと表示される。

import pandas as pd 5文字を短縮して2文字で呼び出すことが多い

* Excel, CSVファイルをそのまま読み込める　pd.read_excel(), pd.read_csv()
* DataFrame形式（表形式） df = pd.DataFrame(), Series形式
* 統計処理もできる（平均、ピボットテーブル）df.groupby(), df.describe(), df.pivot_table()

サンプルデータ(p1.csv, p2.csv, iris.csv)を[ここ](https://github.com/kyorin-phys/MLIntro2025/tree/main/2/data)からダウンロードして、「ファイル」からアップロードする。

In [None]:
import pandas as pd 
import matplotlib.pyplot as plt

#p1 = pd.read_csv('https://raw.githubusercontent.com/kyorin-phys/MLIntro2025/refs/heads/main/2/data/p1.csv')
p1 = pd.read_csv('/content/p1.csv')
p1 # データフレームはprint文を使わない方が表として見やすい

表のうちの特定のカラムを取り出すには df['カラム名'] とする

In [None]:
p1['S']

In [None]:
plt.scatter(p1['S'], p1['v'])
# x, y 軸のラベルやタイトルを追加する

In [None]:
#p2 = pd.read_csv('https://raw.githubusercontent.com/kyorin-phys/MLIntro2025/refs/heads/main/2/data/p2.csv')
p2 = pd.read_csv('/content/p2.csv')
p2

In [None]:
#!pip install japanize_matplotlib
plt.scatter(p2['P[mmHg]'], p2['飽和度[%]'])
# 軸ラベルやタイトルを追加する（日本語だとjapanize-matplotlibをインストールする必要がある）

In [None]:
#iris = pd.read_csv('https://raw.githubusercontent.com/kyorin-phys/MLIntro2025/refs/heads/main/2/data/iris.csv')
iris = pd.read_csv('/content/iris.csv')
iris.head() # 最初の5行

In [None]:
iris.tail() # 最後の5行

In [None]:
plt.scatter(iris['PetalLength'], iris['PetalWidth'])

層別に色分けしてプロットしたい(統計ソフトSPSS,EZRなどでできる)

Geminiに「Nameによって層別してプロットしたい」と聞いてみる　

生成されたコード（かなりややこしい）

```{python}
import matplotlib.pyplot as plt
# plt.scatter(iris['SepalLength'], iris['SepalWidth'])

# Name 列のユニークな値を取得
names = iris['Name'].unique()

# 各 Name ごとにデータを抽出してプロット
for name in names:
    subset = iris[iris['Name'] == name]
    plt.scatter(subset['SepalLength'], subset['SepalWidth'], label=name)

plt.xlabel('SepalLength')
plt.ylabel('SepalWidth')
plt.title('Iris Sepal Length vs Sepal Width by Name')
plt.legend()
plt.show()
```

In [None]:
# geminiに指示してやらせるか、上のコードをコピーして実行

# seaborn

[seaborn](https://seaborn.pydata.org/) は matplotlib をベースに統計的グラフをきれいに描画することに特化したライブラリ

[グラフの例](https://seaborn.pydata.org/examples/index.html)

Geminiに「seabornで同様なグラフを作りたい」と聞いてみる

生成されたコード（実質1行！）
```
import seaborn as sns
import matplotlib.pyplot as plt

# seabornを使って散布図を作成
sns.scatterplot(data=iris, x='SepalLength', y='SepalWidth', hue='Name')

plt.title('Iris Sepal Length vs Sepal Width by Name (Seaborn)')
plt.show()
```
hue = 'Name' 
で色分けするカラムを指定している

In [None]:
import seaborn as sns

sns.scatterplot(data=iris, x='SepalLength', y='SepalWidth', hue='Name')

In [None]:
# 散布図行列（全ての特徴量の組み合わせを縦、横に選んだグラフ）
sns.pairplot(iris, hue='Name')

## ライブラリとAPI（Application　Programming Interface）

* ライブラリは便利な機能の集合体
* APIはライブラリの機能を使うための窓口や説明書

APIは「何を渡せば（入力）、何が帰ってくるか（出力）」を定める

## ライブラリ利用のステップ

ライブラリを使うとは、「目的のAPIを見つけ、仕様通りに呼び出すこと」

* 目的のAPIをドキュメントで探す
  
  実現したいことに対応する関数やメソッド（API）を特定

* APIの使用（Input/Output）を確認する
  
  そのAPIが求めるデータの形式、パラメータ、と戻り値の型や内容を調べる

* パラメータを指定して呼び出す  

ライブラリの公式サイトには機能を利用するための公式情報が用意されている
* Tutorial (入門用コード)
* Example/Gallery (このライブラリで何ができるか) 
* Reference (APIの詳細な説明)

上記の公式ドキュメントを調べるのが最も正確ですが、理解を深めるためには、まとめサイトや **AI（例：ChatGPT、GitHub Copilotなど）に「このライブラリの〇〇というAPIの使い方を教えて」** と聞いて、具体的なコード例を生成させる方法も非常に有効です。

次回はpandas, seabornなどのライブラリを使って、回帰・分類の問題を扱います