# Pythonの基礎と簡単な分析

## 内容

- Pythonの基礎の確認
- Pythonを使った簡単なデータ分析

## 参考URL

- [東大]Pythonプログラミング入門
    - もはやこれでいい
    - [https://utokyo-ipp.github.io/](https://utokyo-ipp.github.io/)

- [【メモ】Pythonの自学自習用コンテンツ](https://mana.bi/wiki.cgi?page=%A1%DA%A5%E1%A5%E2%A1%DBPython%A4%CE%BC%AB%B3%D8%BC%AB%BD%AC%CD%D1%A5%B3%A5%F3%A5%C6%A5%F3%A5%C4#p0)
    - まとめてくれてる人がいる

# Load modules

In [None]:
import sys, os
import gc
import numpy as np
import pandas as pd

# 可視化用関数
import seaborn as sns

import japanize_matplotlib

%matplotlib inline

# Python基礎

## 数値

In [None]:
a = 1 + 2
a

In [None]:
type(a)

In [None]:
b = 1.5 + 2
b

In [None]:
type(b)

## 文字列

In [None]:
s = 'てすと' + 'します'
s

In [None]:
type(s)

In [None]:
# *を使ってたくさん文字列を繋げることも可能
t = 'あいうえお' * 3
t

## list型

In [None]:
l = [1, 2, 3]
l

In [None]:
type(l)

In [None]:
for ii in l:
    print(ii)

## 辞書型

In [None]:
d = {
    'あ': 5,
    'い': 6,
    'う': 7
}

In [None]:
d['い']

In [None]:
type(d)

In [None]:
for ii in d:
    print(ii)

## 関数

### 普通の関数

In [None]:
def func0(x):
    """
    x: 引数という
    ret: 戻り値という
    """
    ret = 2 * x + 1
    return ret

In [None]:
func0(5)

### lambda関数

In [None]:
# xを渡すと2x+1を返す関数
f = (lambda x: 2 * x + 1)
f

In [None]:
f(5)

# DataFrame作成

row: 行.  
column: 列.カラム名=列名.

## 作り方1

pd.DataFrame(リスト, columns=リスト)

In [None]:
df0 = pd.DataFrame(
    [
        ['太郎', 160, 50, 20],
        ['次郎', 170,60,26],
        ['三郎', 180, 70, 30],
        ['四郎', 190, 80, 10]
    ],
    columns=['名前', '身長', '体重', '年齢']
)
df0

## 作り方2

pd.DataFrame(辞書)

In [None]:
df1 = pd.DataFrame(
    {
        '名前': ['太郎', '次郎', '三郎', '四郎'],
        '身長': [160, 170, 180, 190],
        '体重': [50, 60, 70, 80],
        '年齢': [20, 26, 30, 10]
    }
)
df1

## 比較してみる

In [None]:
df0 == df1

# 分析の基礎

## 列の指定

In [None]:
df0[['名前', '年齢']]

## 行の追加

In [None]:
df0.loc[4] = ['五郎', 200, 50, 5]
df0

In [None]:
df0.shape

## 列の追加

### 行ごとに値が違う場合

In [None]:
df0['住所'] = ['島根', '島根', '東京', '島根', '島根']
df0

In [None]:
df0.shape

### 全ての行で値が同じ場合

In [None]:
df0['性別'] = '男'
df0

In [None]:
df0.shape

## 条件を満たす行のみを抽出

In [None]:
df2 = df0[df0['住所']=='島根']
df2

In [None]:
df2.shape

## 2つの列から計算して新たな列を追加

In [None]:
df0

BMIを追加してみることにする

\begin{align}
\mathrm{BMI} = \dfrac{w}{h^2}
\end{align}

In [None]:
df3 = df0.copy()
df4 = df0.copy()

### BMIを計算する関数を定義してapply()を使用する

In [None]:
def calc_bmi(row):
    """
    BMIを計算して返す
    """
    # print(row)
    w = row['体重']
    h = row['身長'] / 100
    bmi = w / h**2
    return bmi

In [None]:
df3['BMI'] = df3.apply(calc_bmi, axis=1)
df3

### BMIを計算するlambda関数を定義してapply()を使用する

In [None]:
df4['BMI'] = df4.apply(lambda row: row['体重'] / ((row['身長']/100)**2), axis=1)
df4

In [None]:
# 同じ結果になる
df3 == df4

## 統計量を見る

In [None]:
df3.describe()

## mean()など単体でも関数としてあるので使える

In [None]:
# 平均
df3.mean()

In [None]:
# 最大値
df3.max()

In [None]:
df0

In [None]:
df3

In [None]:
gc.collect()

## 相関を見る

### 相関dataframe

In [None]:
corr = df3.corr()
corr

### ヒートマップの作成

In [None]:
sns.heatmap(corr)

## ダミー変数化

In [None]:
df3

In [None]:
df4 = pd.get_dummies(df3, columns=['住所'])
df4

# データの出力

## DataFrameをExcelとして保存してみる

In [None]:
df3.to_excel('../output/df3.xlsx', index=False)

## Excelを読み込んでDataFrameを作成する

In [None]:
df5 = pd.read_excel('../output/df3.xlsx')
df5