## 0-1. Seabornの導入

In [None]:
import piplite
import pyodide
await piplite.install("seaborn")

import seaborn as sns
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
sns.set_theme(style="darkgrid")

最初の設定なので必ず上のコードを回す

In [None]:
np.random.seed(12345)
data = pd.DataFrame({"GPA":np.random.normal(2,0.5,100)})
data.head()

データを作成して、dataという名前で保存した

In [None]:
sns.histplot(data=data, x="GPA")

Seabornパッケージのヒストグラムを描く関数はhistplotで、基本的にsns.histplot(data=データの名前, x=描きたい変数の名前)である

In [None]:
sns.histplot(data=data, x="GPA", color="red")

colorオプションで棒の色を変えられる

In [None]:
sns.histplot(data=data, x="GPA", bins=30)

binsオプションで棒の数を調整できる

In [None]:
sns.histplot(data=data, x="GPA", binwidth=1)

binwidthオプションで棒の範囲を調整できる

In [None]:
sns.histplot(data=data, x="GPA", stat="proportion")

stat="proportion"を指定することで、相対度数を表現できる

## 0-2. プロットの設定

In [None]:
sns.histplot(data=data, x="GPA")
plt.title("Histogram of GPA")
plt.ylabel("Relative Freq")
plt.xlabel("GPA(Grade Point Average)")

- plt.title()でタイトルの設定
- plt.ylabel()で縦軸のラベル設定
- plt.xlabel()で横軸のラベル設定

注意：日本語を対応させるにはものすごくややこしい作業が必要なので、英語だけ使う

## 1. 学校のヒストグラム

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/mhigh.csv"))
data.head()

データを読み込んできた。

In [None]:
data.groupby(["学年","クラス"]).mean()[["国語","数学","成績合計"]]

前回の最後のように、データの成績を学年・クラス別で見ることができる

In [None]:
data.groupby(["学年","性別"]).mean()[["身長","体重"]]

同じように身長と体重を学年・性別で見ることができる

In [None]:
data.columns = ["name","katakana","sex","grade","japanese","math","sum","height","weight","class"]
data["sex"] = data["sex"].replace({"男":"Male","女":"Female"})
data.head()

Seabornで日本語を使えないため、全部英語の表記に変えた
- sex: 性別の英語表記(Female:女、Male:男)
- grade: 学年の英語表記
- japanese: 国語の成績
- math: 数学の成績
- sum：　成績の合計
- height: 身長の英語表記
- weight: 体重の英語表記
- class: クラス

In [None]:
sns.histplot(data=data, x="height")

身長のヒストグラム

In [None]:
sns.histplot(data=data, x="weight")

体重のヒストグラム

In [None]:
fdata = data[data["sex"] == "Female"]
mdata = data[data["sex"] == "Male"]

女性と男性のデータを別々に分けてセーブした。

In [None]:
sns.histplot(data=fdata, x="height")

女性の身長のヒストグラム

In [None]:
sns.histplot(data=mdata, x="height")

男性の身長のヒストグラム

In [None]:
sns.histplot(data=data, x="height", hue="sex")

hue=のオプションを使うと、グループ別のヒストグラムが見れる

In [None]:
sns.histplot(data=data, x="math")

数学の成績のヒストグラム

In [None]:
sns.histplot(data=data, x="japanese")

国語の成績のヒストグラム

In [None]:
sns.histplot(data=data, x="sum")

成績合計のヒストグラム

In [None]:
g = sns.FacetGrid(data, col="grade", row="class")
g.map_dataframe(sns.histplot, x="math")

学年とクラス別の数学成績のヒストグラム

## 2. 年収のヒストグラム

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/CPS1988.csv"))
data.head()

- wage: 週給（ドル単位）
- education: 教育年数
- experience: 経験年数（働いた年数）
- ethnicity: 人種(caucは白人、afamは黒人)
- smsa: 都心に住んでいるかどうか
- region: 地域
- parttime: アルバイトかどうか

In [None]:
sns.histplot(data=data, x="wage")

週給のヒストグラム

In [None]:
sns.histplot(data=data, x="wage", log_scale=True)

log_scale=Trueをつけて、対数で見ることができる

In [None]:
sns.histplot(data=data, x="wage", log_scale=True, hue="ethnicity")

hue=オプションを利用して人種別の給料ヒストグラムを出したが、あまり役立たない

In [None]:
white_data = data[data["ethnicity"] == "cauc"]
black_data = data[data["ethnicity"] == "afam"]

白人と黒人のデータを別々に分けて保存した

In [None]:
sns.histplot(data=white_data, x="wage", log_scale=True)

白人だけのヒストグラム

In [None]:
sns.histplot(data=black_data, x="wage", log_scale=True, color="orange")

黒人だけのヒストグラム

In [None]:
g = sns.FacetGrid(data, row="education", aspect=3)
g.map_dataframe(sns.histplot, x="wage", log_scale=True)

教育年数別の給料ヒストグラム

## 3. コロナ禍のヒストグラム

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/covidGDP.csv"))
data.head()

- Entity: 国名
- Code: 国のISOコード
- Confirmed: 累積感染者数(人口100万人あたり)
- GDP: 一人当たりGDP(ドル単位)
- Continent: 大陸

In [None]:
sns.histplot(data=data, x="Confirmed")

累積感染者数のヒストグラム

In [None]:
sns.histplot(data=data, x="Confirmed", log_scale=True)

log_scale=Trueオプションを使って、対数で表現したヒストグラム

In [None]:
sns.histplot(data=data, x="GDP")

一人当たりGDPのヒストグラム

In [None]:
g = sns.FacetGrid(data, row="Continent", aspect=3)
g.map_dataframe(sns.histplot, x="GDP", log_scale=True)

大陸別の一人当たりGDPのヒストグラム

In [None]:
g = sns.FacetGrid(data, row="Continent", aspect=3)
g.map_dataframe(sns.histplot, x="Confirmed", log_scale=True)

大陸別の累積感染者数のヒストグラム

In [None]:
sns.scatterplot(data=data, x="GDP", y="Confirmed", hue="Continent")

次の授業に学ぶ散布図