## 0-1 Seabornの導入

In [None]:
import piplite
import pyodide
await piplite.install("seaborn")

import seaborn as sns
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
sns.set_theme(style="darkgrid")

最初の設定なので必ず上のコードを回す

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/covidGDP.csv"))
data.head()

前回のコロナ禍のデータで、累積感染者数とGDPの関係性を考えよう

In [None]:
sns.scatterplot(data = data, x = "Confirmed", y = "GDP")

Seabornパッケージのヒストグラムを描く関数はscatterplotで、基本的にsns.scatterplot(data=データの名前, x=横軸に描きたい変数の名前, y=縦軸に描きたい変数の名前)である

In [None]:
sns.scatterplot(data = data, x = "GDP", y = "Confirmed")

横軸と縦軸を置き換えて描いてもいい

In [None]:
sns.scatterplot(data = data, x = "Confirmed", y = "GDP", color = "red")

色を変えることも出来る

In [None]:
sns.scatterplot(data = data, x = "Confirmed", y = "GDP", hue = "Continent")

グループ別に色を分けるには、hueオプションを利用する

In [None]:
sns.scatterplot(data = data, x = "Confirmed", y = "GDP", style = "Continent")


グループ別に点の形を変えるには、styleオプションを利用する

## 0-2 プロットの設定

In [None]:
sns.scatterplot(data = data, x = "Confirmed", y = "GDP")
plt.title("Scatterplot")
plt.xlabel("Confirmed COVID")
plt.ylabel("GDP per capita")

- plt.title()でタイトルの設定
- plt.ylabel()で縦軸のラベル設定
- plt.xlabel()で横軸のラベル設定

注意：日本語を対応させるにはものすごくややこしい作業が必要なので、英語だけ使う

## 1. 学校の散布図

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/mhigh.csv"))
data.head()

データを読み込んできた。

In [None]:
data.columns = ["name","katakana","sex","grade","japanese","math","sum","height","weight","class"]
data["sex"] = data["sex"].replace({"男":"Male","女":"Female"})
data.head()

Seabornで日本語を使えないため、全部英語の表記に変えた
- sex: 性別の英語表記(Female:女、Male:男)
- grade: 学年の英語表記
- japanese: 国語の成績
- math: 数学の成績
- sum：　成績の合計
- height: 身長の英語表記
- weight: 体重の英語表記
- class: クラス

In [None]:
sns.scatterplot(data = data, x = "weight", y = "height")

身長と体重の散布図が完成した

In [None]:
sns.scatterplot(data = data, x = "weight", y = "height", hue = "sex")

学年別に模様も違うものにする

In [None]:
sns.scatterplot(data = data, x = "math", y = "japanese")

今回は成績の散布図を描いてみる

In [None]:
sns.scatterplot(data = data, x = "math", y = "japanese", hue = "grade")

学年で色をつけてみても、学年別の成績の差はないように見える

In [None]:
sns.scatterplot(data = data, x = "math", y = "japanese", hue = "class")

点の模様を学年別に変えて、散布図を完成しよう

## 2. あやめの散布図

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/iris.csv"))
data.head()

irisデータセットは、あやめの種類に関するデータである
- sepal.length: 花のがく片の長さ
- sepal.width: 花のがく片の幅
- petal.length: 花びらの長さ
- petal.width: 花びらの幅
- variety: 花の種類の名前

In [None]:
sns.scatterplot(data = data, x = "sepal.length", y = "sepal.width")

花のがく片の散布図である

In [None]:
sns.scatterplot(data = data, x = "sepal.length", y = "sepal.width", hue = "variety")

花びらの長さと幅の散布図である

In [None]:
sns.scatterplot(data = data, x = "petal.length", y = "petal.width", hue = "variety")

こちらも種類別に色をつけるとはっきりわかる

In [None]:
sns.scatterplot(data = data, x = "petal.length", y = "petal.width", hue = "sepal.length")

花のがく片の長さで色付けることで、萼片の長さと花びらの大きさが正の相関を持つことがわかる

## 3. 幸せの散布図

In [None]:
data = pd.read_csv(pyodide.http.open_url("https://raw.githubusercontent.com/ChungWookyung/kg-jupyterlite-data-analysis/main/content/DATA/happy.csv"))
data.head()

幸せに関するデータを読み込んだ
- Country: 国名
- Region: 地域
- Happiness Rank: 幸せランキング
- Happiness Score: 幸せスコア
- Economy (GDP per Capita): 経済水準(一人当たりGDPで測った)
- Family: 社会福祉
- Health (Life Expectancy): 期待寿命
- Freedom: 人生の選択における自由度
- Trust (Government Corruption): 政府の透明性
- Generosity: 社会の寛容度
- year: 年(ここでは2015しかない)

In [None]:
sns.scatterplot(data = data, x = "Economy (GDP per Capita)", y = "Happiness Score")

経済と幸せの相関が強いことが分かる

In [None]:
ax = sns.scatterplot(data = data, x = "Economy (GDP per Capita)", y = "Happiness Score", hue = "Region")
ax.legend(loc='center left', bbox_to_anchor=(1.02, 0.5), ncol=1)

地域ごとに色づけてみると、このようになる　(2行目のコードはコピペで構わない)

In [None]:
sns.scatterplot(data = data, x = "Trust (Government Corruption)", y = "Happiness Score")

経済とは違って、政府の透明性はあまり幸せと相関がないように見える

In [None]:
data2 = data.melt(id_vars = ["Country","Region","Happiness Score"], value_vars = data.columns[4:9].to_list())
data2.head()

いちいち描くとキリがないので、データを描きやすい形にする

In [None]:
sns.relplot(data=data2, x="value", y="Happiness Score",col="variable",hue="Region",kind="scatter")

このような図の描き方もある(seabornのreplot関数を利用)

経済＞社会福祉＞期待寿命＞人生の自由度＞政府の透明性の順で幸せとの相関が弱くなっていくことがわかる