# 📊 pandas 実践教材：データ処理の基本と応用

この教材は、Pythonのデータ分析ライブラリ「pandas」を使って、業務でよく使われる表データの処理方法を学ぶための実践ガイドです。

## ✅ ステップ①：基本操作

### 📌 データの読み込み

In [None]:
import pandas as pd

# CSVファイル読み込み
df = pd.read_csv("data/pandas/sales.csv")

# Excelファイル読み込み
df = pd.read_excel("data/pandas/sales.xlsx")

### 📌 データの確認

In [None]:
print(df.head())      # 先頭5行
print(df.tail())      # 最後の5行
print(df.shape)       # 行数と列数
print(df.columns)     # カラム名一覧
print(df.info())      # 型やnullの有無

### 📌 特定列の抽出と基本統計

In [None]:
print(df["売上"].mean())  # 平均
print(df["売上"].sum())   # 合計
print(df["担当者"].unique())  # ユニーク値

## ✅ ステップ②：フィルタ・並べ替え・集計

### 📌 条件による抽出（フィルタ）

In [None]:
high_sales = df[df["売上"] >= 10000]
print(high_sales)

### 📌 並べ替え

In [None]:
sorted_df = df.sort_values(by="売上", ascending=False)
print(sorted_df)

### 📌 グループ集計

In [None]:
grouped = df.groupby("担当者")["売上"].sum().reset_index()
print(grouped)

## ✅ ステップ③：列の追加・変換・削除

### 📌 新しい列の追加

In [None]:
df["税込売上"] = df["売上"] * 1.1
print(df)

### 📌 日付列から年月を抽出

In [None]:
df["日付"] = pd.to_datetime(df["日付"])
df["月"] = df["日付"].dt.month
print(df)

### 📌 列の削除

In [None]:
df.drop(columns=["メモ"], inplace=True)
print(df)

## ✅ ステップ④：データの結合と整形

### 📌 加工データの保存

In [None]:
# CSVとして保存（インデックスを含めず）
df.to_csv("out/pandas/output.csv", index=False)

# Excelとして保存
df.to_excel("out/pandas/output.xlsx", index=False)

### 📌 複数のCSVを結合

In [None]:
import glob
files = glob.glob("data/pandas/*.csv")
df_list = [pd.read_csv(f) for f in files]
all_data = pd.concat(df_list)
print(all_data)

### 📌 データのピボット（列⇔行）

In [None]:
pivot_df = df.pivot_table(index="担当者", columns="月", values="売上", aggfunc="sum")
print(pivot_df)

## ✅ ステップ⑤：実践課題例

### 📁 課題1：高売上データの抽出

* 条件：売上が10,000円以上のレコードを抽出
* 出力形式：CSVで保存（`to_csv()`）

### 📊 課題2：月別売上のグラフ化

* `groupby` + `plot()`（matplotlibとの併用）

### 📈 課題3：前年比較のための差分列作成

* 売上前年との差（新規列）を追加

## 🔚 補足

* 欠損値の処理：`fillna()` / `dropna()`
* データ型変換：`astype()`
* datetime処理、カテゴリ型、列のmap・apply関数

### 🚀 最終ゴール

* CSVやExcelの実データを使って、集計・抽出・整形・可視化が自力でできるようになること。