# 5.2　データ処理で必須のpandasに慣れよう
## 5.2.1　テーブルデータの行と列を自在に操作しよう

#### コード5.1


In [None]:
import pandas as pd

#### コード5.2


In [None]:
sm_sales = pd.read_csv('supermarket_sales_dataset.csv')

#### コード5.3


In [None]:
sm_sales.head()

#### コード5.4


In [None]:
sm_sales.shape

### 特定の列の抽出

#### コード5.5


In [None]:
sm_sales['支店']

#### コード5.6


In [None]:
sm_sales[['支店', '会員タイプ']]

#### コード5.7


In [None]:
sm_sales[['支店', '会員タイプ', '合計金額']]

### 列の演算

#### コード5.8


In [None]:
sm_sales['単価'] * sm_sales['数量']

#### コード5.9


In [None]:
sm_sales['税抜合計金額'] = sm_sales['単価'] * sm_sales['数量']

#### コード5.9の実行結果の確認


In [None]:
sm_sales.head()

#### コード5.10


In [None]:
#sm_sales['合計金額'] = sm_sales['単価'] * sm_sales['数量']

### 特定の条件の行の抽出

#### コード5.11


In [None]:
sm_sales[sm_sales['性別'] == '女性']

#### コード5.11の結果を新しいデータフレームに


In [None]:
female_df = sm_sales[sm_sales['性別'] == '女性']
female_df.head()

## 5.2.2　要約統計量を計算してみよう

#### 表5.2 NumPyのコード例をデータフレームsm_salesに適用

In [None]:
import numpy as np

In [None]:
np.mean(sm_sales['単価'])

In [None]:
np.median(sm_sales['単価'])

In [None]:
np.var(sm_sales['単価'])

In [None]:
np.std(sm_sales['単価'])

In [None]:
np.max(sm_sales['合計金額'])

In [None]:
np.min(sm_sales['合計金額'])

#### コード5.12


In [None]:
sm_sales.describe()

## 5.2.3　欠損の扱い方のパターンを覚えよう

#### コード5.13


In [None]:
sm_sales.isnull().sum()

### 欠損値の削除
- 行削除
- 列削除

#### コード5.14


In [None]:
#「合計金額」列が欠損値である行を削除する
sm_sales.dropna(subset=['合計金額'], axis=0)

#### コード5.15


In [None]:
# 欠損を含む全ての行を削除する
sm_sales.dropna(axis=0)

#### コード5.16


In [None]:
# 欠損値を含む列をすべて削除する
sm_sales.dropna(axis=1)

#### コード5.17


In [None]:
#sm_sales.dropna(subset=[' 合計金額'], axis=0, inplace=True)

#### コード5.18


In [None]:
#sm_sales_2 = sm_sales.dropna(subset=[' 合計金額'], axis=0)

### 欠損値の補完
- 0で補完

#### コード5.19


In [None]:
# 0で補完
sm_sales.fillna(0)

#### コード5.20


In [None]:
sm_sales.fillna({'合計金額': 0, '支払い方法': '現金'})

## 5.3　データ可視化で必須のseabornでグラフを描こう
### 5.3.1　ヒストグラム

#### コード5.21


In [None]:
! pip install japanize-matplotlib
import seaborn as sns
import matplotlib.pyplot as plt
import japanize_matplotlib

# ヒストグラムの作成
plt.figure(figsize=(8, 6))
sns.histplot(sm_sales['単価'], bins=150)
plt.xlabel('単価')
plt.show()

### 5.3.2　箱ひげ図

#### コード5.22


In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(data=sm_sales, x='支店', y='合計金額')
plt.show()

### 5.3.3　棒グラフ

#### コード5.23


In [None]:
import numpy as np
plt.figure(figsize=(8, 6))
sns.barplot(data=sm_sales, x='支店', y='合計金額', estimator=np.mean)
plt.show()

### 5.3.4　散布図

#### コード5.24


In [None]:
plt.figure(figsize=(8, 6))
sns.scatterplot(data=sm_sales, x='単価あたりの原価', y='単価', hue='商品カテゴリ', alpha=0.8)
plt.show()

### 5.3.5　折れ線グラフ

#### コード5.25


In [None]:
sm_sales['購入時間'] = pd.to_datetime(sm_sales['購入時刻'], format='%H:%M').dt.hour

plt.figure(figsize=(8, 6))
sns.lineplot(data=sm_sales, x='購入時間', y='合計金額', estimator=np.mean, ci=None)
plt.show()

## 5.4　探索的データ分析に利用できる便利なツールSweetviz

#### コード5.26


In [None]:
# sweetvizが動作しない場合は、以下の行の「#」を削除して、再実行してください
#! pip install numpy==1.26.4
! pip install sweetviz
import sweetviz as sv

report = sv.analyze(sm_sales)
report.show_notebook()