# Day 3: Pandas基礎① - DataFrame操作（シンプル版）

## Excelユーザーのための Pandas 入門

PandasのDataFrameは、Excelのシートと同じような表形式のデータです。
今日は最も基本的な操作だけに絞って学習します。

### 今日の目標
1. データの読み込みと表示
2. 基本的なデータ選択
3. 簡単なフィルタリング
4. 基本的な集計

## 準備

In [3]:
import pandas as pd
import numpy as np

# 表示設定（見やすくするため）
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

## 1. まずはシンプルなデータを作ってみる

Excelで表を作るように、Pandasでもデータを作れます。

In [4]:
# Excelで作るような社員リストを作成
社員データ = {
    '名前': ['田中', '鈴木', '佐藤', '高橋', '山田'],
    '部署': ['営業', 'IT', '営業', 'IT', '人事'],
    '年齢': [25, 30, 35, 28, 33],
    '給与': [300000, 400000, 350000, 380000, 320000]
}

# DataFrameを作成（Excelのシートのようなもの）
df = pd.DataFrame(社員データ)

print("社員リスト:")
df

社員リスト:


Unnamed: 0,名前,部署,年齢,給与
0,田中,営業,25,300000
1,鈴木,IT,30,400000
2,佐藤,営業,35,350000
3,高橋,IT,28,380000
4,山田,人事,33,320000


### 📊 Excel との比較
- **Excel**: セルに直接データを入力
- **Pandas**: 辞書形式でデータを定義してDataFrameを作成

## 2. データを見る - Excelのように

In [5]:
# 最初の3行だけ見る（Excelで上の方だけ見るような感じ）
print("最初の3行:")
df.head(3)

最初の3行:


Unnamed: 0,名前,部署,年齢,給与
0,田中,営業,25,300000
1,鈴木,IT,30,400000
2,佐藤,営業,35,350000


In [6]:
# データの基本情報（Excelのステータスバーのような情報）
print(f"行数: {len(df)}")
print(f"列数: {len(df.columns)}")
print(f"\n列名: {df.columns.tolist()}")

行数: 5
列数: 4

列名: ['名前', '部署', '年齢', '給与']


## 3. 列を選ぶ - Excelで列を選択するように

In [7]:
# 1つの列を選ぶ（ExcelでB列を選ぶような感じ）
print("名前の列だけ:")
df['名前']

名前の列だけ:


0    田中
1    鈴木
2    佐藤
3    高橋
4    山田
Name: 名前, dtype: object

In [8]:
# 複数の列を選ぶ（ExcelでCtrlを押しながら複数列を選ぶような感じ）
print("名前と給与の列:")
df[['名前', '給与']]

名前と給与の列:


Unnamed: 0,名前,給与
0,田中,300000
1,鈴木,400000
2,佐藤,350000
3,高橋,380000
4,山田,320000


### 📊 Excel との比較
- **Excel**: 列のヘッダーをクリックして選択
- **Pandas**: `df['列名']` または `df[['列1', '列2']]`

## 4. フィルタリング - Excelのオートフィルタのように

In [9]:
# 年齢が30歳以上の人だけ表示
print("30歳以上の社員:")
df[df['年齢'] >= 30]

30歳以上の社員:


Unnamed: 0,名前,部署,年齢,給与
1,鈴木,IT,30,400000
2,佐藤,営業,35,350000
4,山田,人事,33,320000


In [10]:
# IT部署の人だけ表示
print("IT部署の社員:")
df[df['部署'] == 'IT']

IT部署の社員:


Unnamed: 0,名前,部署,年齢,給与
1,鈴木,IT,30,400000
3,高橋,IT,28,380000


In [11]:
# 複数条件（営業部で給与35万以上）
print("営業部で給与35万以上:")
df[(df['部署'] == '営業') & (df['給与'] >= 350000)]

営業部で給与35万以上:


Unnamed: 0,名前,部署,年齢,給与
2,佐藤,営業,35,350000


### 📊 Excel との比較
- **Excel**: オートフィルタで条件を設定
- **Pandas**: `df[条件]` で条件に合う行を抽出

## 5. 並べ替え - Excelのソート機能のように

In [12]:
# 給与の高い順に並べ替え。ascending=上昇する。 True =上昇する（昇順）、False=上昇しない（降順）
print("給与の高い順:")
df.sort_values('給与', ascending=False)

給与の高い順:


Unnamed: 0,名前,部署,年齢,給与
1,鈴木,IT,30,400000
3,高橋,IT,28,380000
2,佐藤,営業,35,350000
4,山田,人事,33,320000
0,田中,営業,25,300000


In [13]:
# 年齢の若い順に並べ替え。 ascendingを省略すると、昇順になる。基本は明示的につけるべき。
print("年齢の若い順:")
df.sort_values('年齢')

年齢の若い順:


Unnamed: 0,名前,部署,年齢,給与
0,田中,営業,25,300000
3,高橋,IT,28,380000
1,鈴木,IT,30,400000
4,山田,人事,33,320000
2,佐藤,営業,35,350000


## 6. 基本的な集計 - ExcelのSUM、AVERAGE関数のように

In [14]:
# 基本的な統計
print(f"給与の合計: {df['給与'].sum():,}円")
print(f"給与の平均: {df['給与'].mean():,.0f}円")
print(f"最高給与: {df['給与'].max():,}円")
print(f"最低給与: {df['給与'].min():,}円")

給与の合計: 1,750,000円
給与の平均: 350,000円
最高給与: 400,000円
最低給与: 300,000円


In [15]:
# 部署ごとの平均給与（Excelのピボットテーブルのようなもの）
print("部署ごとの平均給与:")
df.groupby('部署')['給与'].mean()

部署ごとの平均給与:


部署
IT    390000.0
人事    320000.0
営業    325000.0
Name: 給与, dtype: float64

### 📊 Excel との比較
- **Excel**: SUM()、AVERAGE()、MAX()、MIN()関数
- **Pandas**: `.sum()`、`.mean()`、`.max()`、`.min()`メソッド

## 7. 新しい列を追加 - Excelで計算列を作るように

In [18]:
# ボーナス列を追加（給与の20%）
df['ボーナス'] = df['給与'] * 1.5

print("ボーナス列を追加:")
df

ボーナス列を追加:


Unnamed: 0,名前,部署,年齢,給与,ボーナス,年収
0,田中,営業,25,300000,450000.0,3720000.0
1,鈴木,IT,30,400000,600000.0,4960000.0
2,佐藤,営業,35,350000,525000.0,4340000.0
3,高橋,IT,28,380000,570000.0,4712000.0
4,山田,人事,33,320000,480000.0,3968000.0


In [19]:
# 年収列を追加（給与×12 + ボーナス×2）
df['年収'] = df['給与'] * 12 + df['ボーナス'] * 2

print("年収列を追加:")
df[['名前', '給与', 'ボーナス', '年収']]

年収列を追加:


Unnamed: 0,名前,給与,ボーナス,年収
0,田中,300000,450000.0,4500000.0
1,鈴木,400000,600000.0,6000000.0
2,佐藤,350000,525000.0,5250000.0
3,高橋,380000,570000.0,5700000.0
4,山田,320000,480000.0,4800000.0


## 8. CSVファイルの読み書き - Excelファイルの保存・読み込みのように

In [None]:
# CSVファイルに保存
df.to_csv('社員リスト.csv', index=False, encoding='utf-8-sig')
print("'社員リスト.csv'として保存しました")

In [None]:
# CSVファイルから読み込み
df_読み込み = pd.read_csv('社員リスト.csv')
print("CSVファイルから読み込み:")
df_読み込み

## 🎯 練習問題（簡単なものだけ）

### 練習1: 商品リストを作成
以下のような商品リストを作ってみましょう：
- 商品名: りんご、みかん、バナナ、ぶどう、いちご
- 価格: 100, 80, 50, 200, 300
- 在庫: 50, 100, 80, 30, 20

In [24]:
# ここに練習1のコードを書いてください
商品データ = {
    '商品名': ['りんご', 'みかん', 'バナナ', 'ぶどう', 'いちご'],
    '価格': [100, 80, 50, 200, 300],
    '在庫': [50, 100, 80, 30, 20],
}

df_商品 = pd.DataFrame(商品データ)

print("商品データ:")
df_商品

商品データ:


Unnamed: 0,商品名,価格,在庫
0,りんご,100,50
1,みかん,80,100
2,バナナ,50,80
3,ぶどう,200,30
4,いちご,300,20


### 練習2: フィルタリングと集計
上で作った商品リストから：
1. 価格が100円以上の商品を表示
2. 全商品の在庫数の合計を計算

In [31]:
# ここに練習2のコードを書いてください
# 1. 価格が100円以上の商品
print("価格が100円以上:")
df_商品[df_商品['価格'] >= 100]

# 2. 在庫数の合計
print(f"\n全商品の在庫数合計: {df_商品['在庫'].sum()}個")

価格が100円以上:

全商品の在庫数合計: 280個


## 💡 練習問題の解答

In [None]:
# 練習1の解答
商品データ = {
    '商品名': ['りんご', 'みかん', 'バナナ', 'ぶどう', 'いちご'],
    '価格': [100, 80, 50, 200, 300],
    '在庫': [50, 100, 80, 30, 20]
}

df_商品 = pd.DataFrame(商品データ)
print("商品リスト:")
df_商品

In [None]:
# 練習2の解答
# 1. 価格が100円以上の商品
print("価格が100円以上の商品:")
print(df_商品[df_商品['価格'] >= 100])

# 2. 在庫数の合計
print(f"\n全商品の在庫数合計: {df_商品['在庫'].sum()}個")

## まとめ

### 今日覚えたこと（最小限）

1. **データを作る**: `pd.DataFrame(辞書)`
2. **データを見る**: `df.head()`、`len(df)`
3. **列を選ぶ**: `df['列名']`
4. **フィルタリング**: `df[df['列'] > 値]`
5. **並べ替え**: `df.sort_values('列名')`
6. **集計**: `.sum()`、`.mean()`、`.max()`、`.min()`
7. **新しい列**: `df['新列'] = 計算式`
8. **保存・読込**: `to_csv()`、`read_csv()`

### 🎯 次のステップ
これらの基本操作を何度も練習して、手が自然に動くようになることが大切です。
Excelでできることの多くは、Pandasでも同じようにできます！