<a href="https://colab.research.google.com/github/ohki-yu0225/social_media_analysis/blob/main/basic_data_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ソーシャルメディア分析・入門 (1)：基礎データ分析演習


データセットとして，「独立行政法人 統計センター SSDSE-基本素材（SSDSE-E）」([https://www.nstac.go.jp/use/literacy/SSDSE/#SSDSE-E](https://www.nstac.go.jp/use/literacy/SSDSE/#SSDSE-E))を使います。上記リンクからcsvファイルをダウンロードしてください。

【内容】
- 基本的な文法
- データ分析の準備
- データフレームの操作
- データの記述統計量
- データの分布の可視化
- データの関係性の可視化
- データや図の保存
- 演習問題

参考：森 純一郎(著). Pythonデータ解析入門, 東京大学出版会, 2024.

---
## 基本的な文法
### 算術演算

Pythonでは，算術演算子を用いて，四則演算やべき乗の計算を行うことができる。

In [None]:
1 + 1 #1足す1

In [None]:
5 - 3 #5引く3

In [None]:
2 * 3 #2掛ける3

In [None]:
6 / 2 #6割る2

In [None]:
5 ** 2 #5の2乗

### 変数

ある値に名前をつけて，Python上で変数として扱うことができる。変数定義は`（変数名）=（値）`の形で行われる。

In [None]:
x = 2 + 3 #変数xに2+3を代入
print(x) #変数xの値を表示

In [None]:
y = x * 2 #変数yにx掛ける2を代入
print(y) #変数yの値を表示

### 関数

あらかじめ定められた一連の処理を行う手続きを関数と呼ぶ。関数は次のように`def`から始まる構文で定義し，ある値（引数）が入力された場合の処理を定義し，その処理を行った後の値（返り値）を出力する。

In [None]:
def addition(x, y): #引数x,yを持つaddition関数の定義
    return x + y #返り値としてx+yを返す

In [None]:
addition(3, 5) #addition関数を使って3と5の和を計算

Pythonには事前に定義されている組み込み関数もある。例えば，`print`関数は引数を表示する組み込み関数である。後述のライブラリをインポートすることで用いることで，それぞれのライブラリで定義されている関数も組み込み関数のように用いることができる。

In [None]:
print("Hello, World!") #画面にHello, World!と表示

---
## データ分析の準備
### ライブラリのインストール

ライブラリはプログラムに組み込んで利用することができる外部のプログラムである。Colabではデータ分析のための主要なライブラリは事前にインストールされているが，インストールされていないライブラリは実行環境にインストールする必要がある。

In [None]:
!pip install japanize_matplotlib

### ライブラリのインポート

インストールしたライブラリはインポートすることで利用可能となる。ライブラリは`import`文でインポートする。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib

### ファイルの読み込み

`pandas`を用いてデータが記述されているファイルの読み込みし，データフレームを作成する。csvファイルの読み込みは`pd.read_csv()`関数を用いて行う。

In [None]:
df = pd.read_csv('SSDSE-E-2025.csv', encoding="shift-jis", skiprows=[0, 1, 3])
df.head(5)

---
## データフレームの操作
### 列の抽出

データフレームから任意の列を取り出す。

In [None]:
df["総人口"]

### 列の追加

データフレームの変数を用いて計算したデータを新たな列として追加することができる。

In [None]:
df["高齢化率"] = df["65歳以上人口"] / df["総人口"]
df["1万人当たり小学校児童数"] = df["小学校児童数"] / df["総人口"] * 10000
df["1万人当たり中学校生徒数"] = df["中学校生徒数"] / df["総人口"] * 10000
df["1万人当たり高等学校生徒数"] = df["高等学校生徒数"] / df["総人口"] * 10000
df["1万人当たり大学学生数"] = df["大学学生数"] / df["総人口"] * 10000
df["空き家率"] = df["空き家数"] / df["総住宅数"]
df["1万人当たり保育所数"] = df["保育所等数"] / df["総人口"] * 10000
df.head(5)

### 行の並べ替え

データフレームの`sort_values`メソッドを呼び出すと，指定した列の値に基づいてデータフレームの行を並び替えることができる。

In [None]:
df.sort_values(by="高齢化率").head(5)

デフォルトは昇順なので，降順にしたい場合は`ascending=False`を加える。

In [None]:
df.sort_values(by="高齢化率", ascending=False).head(5)

---

## データの記述統計量

データの散らばり方の特徴を記述する統計量を記述統計量という。記述統計量のうち，平均値や中央値など全体のデータを代表する値を代表値と呼ぶ。また，データの分布の広がりを表す尺度である標準偏差や四分位範囲も記述統計量に含まれる。データフレームの`describe`メソッドを用いると，代表的な記述統計量である平均，標準偏差，最小値，第1四分位数，第2四分位数（中央値），第3四分位数，最大値を計算できる。

In [None]:
df["高齢化率"].describe()

練習1：合計特殊出生率の記述統計量を計算する。

---
## データの分布の可視化
### ヒストグラム

データの取り得る値を複数の階級に分けて，各階級に含まれる値を数えた度数を表にまとめたものを度数分布表という。度数分布表の階級を底辺として、度数を高さにした長方形の集まりをヒストグラムという（度数を高さにした棒グラフ）。ヒストグラムはデータの分布を視覚的に把握するために用いられる。ヒストグラフの図示には`plt.hist`関数を用いる。

In [None]:
plt.figure()
plt.hist(df["高齢化率"])
plt.xlabel("高齢化率")
plt.ylabel("度数")
plt.show()

練習2：合計特殊出生率のヒストグラムを作成する。

### 箱ひげ図

データの分布を可視化するための代表的なグラフが箱ひげ図である。箱ひげ図の図示は`plt.boxplot`関数を用いる。

In [None]:
plt.figure()
plt.boxplot(df["高齢化率"], tick_labels=["高齢化率"])
plt.show()

In [None]:
plt.figure()
plt.boxplot(df[["1万人当たり小学校児童数", "1万人当たり中学校生徒数", "1万人当たり高等学校生徒数", "1万人当たり大学学生数"]], tick_labels=["小学生数", "中学生数", "高校生数", "大学生数"])
plt.show()

練習3：合計特殊出生率の箱ひげ図を作成する。

---
## データの関係性の可視化
### 散布図

2変量データの片方のデータを縦軸に、もう片方のデータを縦軸として作るグラフを散布図と呼ぶ。散布図は2つのデータの相関関係を可視化するための図である。散布図の作成のためは、`plt.scatter`関数を使用する。


In [None]:
plt.figure()
plt.scatter(df["高齢化率"], df["空き家率"])
plt.xlabel("高齢化率")
plt.ylabel("空き家率")
plt.show()

練習4：1万人当たり保育所数と合計特殊出生率の散布図を作成する。

### 相関係数
2つのデータの相関関係は-1から1までの値をとる相関係数によって定量的に表すことができる。相関係数の計算は、データフレームの`corr`メソッドを使用する。

In [None]:
df[["高齢化率", "空き家率"]].corr()

練習5：1万人当たり保育所数と合計特殊出生率の相関係数を計算する。

---
## データや図の保存
### データフレームの保存

データフレームは`to_csv`メソッドでcsvデータとして保存することができる。保存したデータはExcel等で開くことができる。

In [None]:
df[["都道府県", "高齢化率", "空き家率", "合計特殊出生率", "1万人当たり保育所数"]].to_csv("data.csv", encoding="utf-8-sig")

### 図の保存

`plt`で作成した図は`plt.savefig`関数で保存することができる。

In [None]:
plt.figure()
plt.hist(df["高齢化率"])
plt.xlabel("高齢化率")
plt.ylabel("度数")
plt.savefig("hist.png")
plt.show()

---
## 演習問題

演習1：データフレームから任意の列を選び，記述統計量を計算する。データセットに含まれている変数の一覧は[こちら](https://www.nstac.go.jp/files/kaisetsu-E-2025.pdf)の別表に記載されている。

演習2：演習1で選んだ列のデータのヒストグラムを作成する。

演習3：演習1で選んだ列のデータの箱ひげ図を作成する。

演習4：データフレームから任意の列を2つ選び，散布図を作成する。

練習5：演習4で選んだ列のデータの相関係数を計算する。