# Pythonの基礎と簡単な分析

## 内容

- Pythonの基礎の確認
- Pythonを使った簡単なデータ分析

## ディレクトリ構成

```
20240831_データ分析研修
├─input
├─output
│  └─df3.xlsx
└─src
    └─xxxx.ipynb
```

---

## 参考URL

### Pythonの基本

1. 次のページを読み進めながら、実際のPythonの使い方を学びましょう。
   - [ゼロからのPython入門講座](https://www.python.jp/train/index.html)

- ※必要な項目のみ読めば大丈夫です

### その他

- [[東京大学]Pythonプログラミング入門](https://utokyo-ipp.github.io/)
  - 東大のPython教材
- [Python早見帳](https://chokkan.github.io/python/index.html)
  - Python早見帳は、Pythonのプログラムと実行例をさっと確認（早見）できるJupyter Notebook（帳）です。

# Load modules

In [None]:
!pip install japanize_matplotlib

In [None]:
import sys, os
import gc
import numpy as np
import pandas as pd

# 可視化用関数
import matplotlib.pyplot as plt
import seaborn as sns

import japanize_matplotlib

%matplotlib inline

# Setting

## warning

In [None]:
import warnings
warnings.simplefilter('ignore')

## Google Colab用設定

In [None]:
# 各自書き換えてください
current_project_dpath = '/content/drive/MyDrive/work/matsue_ct/20240831_データ分析研修'
print(current_project_dpath)

In [None]:
from google.colab import drive

drive.mount('/content/drive')
os.chdir(current_project_dpath)

# 現在のディレクトリを確認
print(os.getcwd())

# Python基礎

## 数値

In [None]:
a = 1 + 2
a

In [None]:
type(a)

In [None]:
b = 1.5 + 2
b

In [None]:
type(b)

## 文字列

In [None]:
s = 'てすと' + 'します'
s

In [None]:
type(s)

In [None]:
# *を使ってたくさん文字列を繋げることも可能
t = 'あいうえお' * 3
t

## list型

In [None]:
l = [1, 2, 3]
l

In [None]:
type(l)

In [None]:
for ii in l:
    print(ii)

## 辞書型

In [None]:
d = {
    'あ': 5,
    'い': 6,
    'う': 7
}

In [None]:
d['い']

In [None]:
type(d)

In [None]:
for ii in d:
    print(ii)

## 関数

### 普通の関数

In [None]:
def func0(x):
    """
    x: 引数という
    ret: 戻り値という
    """
    ret = 2 * x + 1
    return ret

In [None]:
func0(5)

### lambda関数

In [None]:
# xを渡すと2x+1を返す関数
f = (lambda x: 2 * x + 1)
f

In [None]:
f(5)

# DataFrame作成

row: 行.  
column: 列.カラム名=列名.

## 作り方1

pd.DataFrame(リスト, columns=リスト)

In [None]:
df0 = pd.DataFrame(
    [
        ['太郎', 160, 55, 20],
        ['次郎', 170,60,26],
        ['三郎', 180, 70, 30],
        ['四郎', 150, 50, 10],
        ['花子', 145, 45, 13]
    ],
    columns=['名前', '身長', '体重', '年齢']
)
df0

## 作り方2

pd.DataFrame(辞書)

In [None]:
df1 = pd.DataFrame(
    {
        '名前': ['太郎', '次郎', '三郎', '四郎', '花子'],
        '身長': [160, 170, 180, 150, 145],
        '体重': [50, 60, 70, 50, 45],
        '年齢': [20, 26, 30, 10, 13]
    }
)
df1

## 比較してみる

In [None]:
df0 == df1

# 前処理・分析の基礎

## 列の指定

In [None]:
df0[['名前', '年齢']]

## 行の追加

In [None]:
df0.loc[5] = ['五郎', 200, 90, 22]
df0

In [None]:
df0.shape

## 列の追加

### 全ての行で値が同じ場合

In [None]:
df0['出身地'] = '島根'
df0

In [None]:
df0.shape

### 行ごとに値が違う場合

In [None]:
df0['現住所'] = ['島根', '大阪', '東京', '島根', '東京', '広島']
df0['性別'] = ['男', '男', '男', '男', '女', '男']
df0

In [None]:
df0.shape

### 条件を満たす行のみを抽出

In [None]:
df2 = df0[df0['現住所']=='島根']
df2

In [None]:
df2.shape

## 2つの列から計算して新たな列を追加

In [None]:
df0

BMIを追加してみることにする

\begin{align}
\mathrm{BMI} = \dfrac{w}{h^2}
\end{align}

In [None]:
df3 = df0.copy()
df4 = df0.copy()

### BMIを計算する関数を定義してapply()を使用する

In [None]:
def calc_bmi(row):
    """
    BMIを計算して返す
    """
    # print(row)
    w = row['体重']
    h = row['身長'] / 100
    bmi = w / h**2
    return bmi

In [None]:
df3['BMI'] = df3.apply(calc_bmi, axis=1)
df3

### BMIを計算するlambda関数を定義してapply()を使用する

In [None]:
df4['BMI'] = df4.apply(lambda row: row['体重'] / ((row['身長']/100)**2), axis=1)
df4

In [None]:
# 同じ結果になる
df3 == df4

## 基本統計量を確認

In [None]:
df3.describe()

## mean()など単体でも関数としてあるので使える

In [None]:
df3

In [None]:
# 平均
df3[[
    '身長',
    '体重',
    '年齢',
    'BMI'
]].mean()

In [None]:
# 最大値
df3.max()

In [None]:
df0

In [None]:
df3

In [None]:
gc.collect()

## 相関を確認

### 相関行列のDataFrame

In [None]:
corr = df3[[
    '身長',
    '体重',
    '年齢',
    'BMI'
]].corr()
corr

### 相関行列をヒートマップで可視化

In [None]:
sns.heatmap(corr)

## 散布図

### scatterを使用

In [None]:
plt.scatter(
    df3['年齢'],
    df3['身長']
)

# 表示範囲
plt.xlim([0, 35])
plt.ylim([130, 210])

# 軸名、タイトル名
plt.xlabel('年齢(歳)')
plt.ylabel('身長(cm)')
plt.title('年齢と身長の関係', fontsize=12)

# grid
plt.grid(ls='--')
plt.show()

### pairplot

In [None]:
sns.pairplot(
    df3
)

## 集計を行う

In [None]:
df3

### ある列の各値の数を確認

In [None]:
df3['現住所'].value_counts()

### クロス集計

In [None]:
# pivot table
pd.pivot_table(
    df3,
    index='性別',
    columns='現住所',
    values='BMI',
    aggfunc='mean'
)

In [None]:
# pivot table
pd.pivot_table(
    df3,
    index='性別',
    columns='現住所',
    values='名前',
    aggfunc='nunique',
    # 合計(All)を表示させるかどうか
    margins=True
)

In [None]:
# crosstabが便利
pd.crosstab(
    index=[df3['性別']],
    columns=[df3['現住所']],
    # 合計(All)を表示させるかどうか
    margins=True
)

In [None]:
# crosstabが便利
# 2要素の指定も可能
pd.crosstab(
    index=[df3['性別']],
    columns=[
        df3['出身地'],
        df3['現住所']
    ],
    # 合計(All)を表示させるかどうか
    margins=True
)

## ダミー変数化

In [None]:
df3

In [None]:
df4 = pd.get_dummies(df3, columns=['現住所'], dtype=int)
df4

# データの出力と読み込み

## DataFrameをExcelとして保存してみる

In [None]:
# colabの場合
df3.to_excel('./output/df3.xlsx', index=False)

## Excelを読み込んでDataFrameを作成する

In [None]:
# colabの場合
df5 = pd.read_excel('./output/df3.xlsx')
df5

## notebookをhtml化

In [None]:
!jupyter nbconvert --to html ./src/20240831_Pythonの基礎と簡単な分析_colab.ipynb