# Day 3: Pandas基礎① - DataFrame操作

## 学習目標
- PandasのDataFrameの基本的な使い方を理解する
- データの作成、選択、フィルタリングを習得する
- 統計情報の取得とCSV操作を学ぶ
- 実践的なデータ操作スキルを身につける

## 1. Pandasのインポートと基本

In [1]:
import pandas as pd
import numpy as np

# Pandasのバージョン確認
print(f"Pandas version: {pd.__version__}")

Pandas version: 2.3.1


## 2. DataFrameの作成

In [2]:
# 辞書からDataFrameを作成
data_dict = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 35, 28, 33],
    'city': ['Tokyo', 'Osaka', 'Kyoto', 'Nagoya', 'Sapporo'],
    'salary': [50000, 60000, 55000, 52000, 58000]
}

df = pd.DataFrame(data_dict)
print("辞書から作成したDataFrame:")
print(df)
print("\n型:", type(df))
print("形状:", df.shape)
print("列名:", df.columns.tolist())
print("インデックス:", df.index.tolist())

辞書から作成したDataFrame:
      name  age     city  salary
0    Alice   25    Tokyo   50000
1      Bob   30    Osaka   60000
2  Charlie   35    Kyoto   55000
3    David   28   Nagoya   52000
4      Eve   33  Sapporo   58000

型: <class 'pandas.core.frame.DataFrame'>
形状: (5, 4)
列名: ['name', 'age', 'city', 'salary']
インデックス: [0, 1, 2, 3, 4]


In [3]:
# リストからDataFrameを作成
data_list = [
    ['Alice', 25, 'Tokyo', 50000],
    ['Bob', 30, 'Osaka', 60000],
    ['Charlie', 35, 'Kyoto', 55000],
    ['David', 28, 'Nagoya', 52000]
]

columns = ['name', 'age', 'city', 'salary']
df_from_list = pd.DataFrame(data_list, columns=columns)

print("リストから作成したDataFrame:")
print(df_from_list)

リストから作成したDataFrame:
      name  age    city  salary
0    Alice   25   Tokyo   50000
1      Bob   30   Osaka   60000
2  Charlie   35   Kyoto   55000
3    David   28  Nagoya   52000


In [4]:
# NumPy配列からDataFrameを作成
np_data = np.random.randint(1, 100, size=(5, 4))
df_from_numpy = pd.DataFrame(
    np_data, 
    columns=['A', 'B', 'C', 'D'],
    index=['row1', 'row2', 'row3', 'row4', 'row5']
)

print("NumPy配列から作成したDataFrame:")
print(df_from_numpy)

NumPy配列から作成したDataFrame:
       A   B   C   D
row1  83  67  33  80
row2  32  97  79  67
row3  79  86  70  64
row4  87  95  58  28
row5  42  84   6  55


In [5]:
# 空のDataFrameや特殊なDataFrameの作成
# 空のDataFrame
df_empty = pd.DataFrame()
print("空のDataFrame:")
print(df_empty)

# 日付インデックスを持つDataFrame
dates = pd.date_range('2025-01-01', periods=5)
df_dates = pd.DataFrame(
    np.random.randn(5, 3),
    index=dates,
    columns=['A', 'B', 'C']
)
print("\n日付インデックスのDataFrame:")
print(df_dates)

空のDataFrame:
Empty DataFrame
Columns: []
Index: []

日付インデックスのDataFrame:
                   A         B         C
2025-01-01  1.934462 -0.608731 -0.079724
2025-01-02  2.656073  0.482774  0.458227
2025-01-03 -0.187513 -0.041333  1.266468
2025-01-04  0.126678  0.254965 -0.201742
2025-01-05  0.645702  0.040066  0.450757


## 3. DataFrameの基本操作 - データの選択

In [6]:
# 使用するDataFrame
print("元のDataFrame:")
print(df)
print("\n" + "="*50 + "\n")

# 単一列の選択（Seriesが返される）
print("単一列の選択 - df['name']:")
print(df['name'])
print("型:", type(df['name']))

# 別の方法（属性アクセス）
print("\n属性アクセス - df.name:")
print(df.name)

元のDataFrame:
      name  age     city  salary
0    Alice   25    Tokyo   50000
1      Bob   30    Osaka   60000
2  Charlie   35    Kyoto   55000
3    David   28   Nagoya   52000
4      Eve   33  Sapporo   58000


単一列の選択 - df['name']:
0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: name, dtype: object
型: <class 'pandas.core.series.Series'>

属性アクセス - df.name:
0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: name, dtype: object


In [7]:
# 複数列の選択（DataFrameが返される）
print("複数列の選択 - df[['name', 'age']]:")
selected_cols = df[['name', 'age']]
print(selected_cols)
print("型:", type(selected_cols))

複数列の選択 - df[['name', 'age']]:
      name  age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   28
4      Eve   33
型: <class 'pandas.core.frame.DataFrame'>


In [8]:
# 行の選択 - loc（ラベルベース）とiloc（位置ベース）
print("ilocを使った行選択（位置ベース）:")
print("最初の行 - df.iloc[0]:")
print(df.iloc[0])

print("\n複数行の選択 - df.iloc[1:3]:")
print(df.iloc[1:3])

print("\n最後の行 - df.iloc[-1]:")
print(df.iloc[-1])

ilocを使った行選択（位置ベース）:
最初の行 - df.iloc[0]:
name      Alice
age          25
city      Tokyo
salary    50000
Name: 0, dtype: object

複数行の選択 - df.iloc[1:3]:
      name  age   city  salary
1      Bob   30  Osaka   60000
2  Charlie   35  Kyoto   55000

最後の行 - df.iloc[-1]:
name          Eve
age            33
city      Sapporo
salary      58000
Name: 4, dtype: object


In [9]:
# locを使った選択（ラベルベース）
# インデックスを設定
df_indexed = df.set_index('name')
print("名前をインデックスに設定したDataFrame:")
print(df_indexed)

print("\nlocを使った選択 - df_indexed.loc['Alice']:")
print(df_indexed.loc['Alice'])

print("\n特定の行と列 - df_indexed.loc['Bob', 'salary']:")
print(df_indexed.loc['Bob', 'salary'])

名前をインデックスに設定したDataFrame:
         age     city  salary
name                         
Alice     25    Tokyo   50000
Bob       30    Osaka   60000
Charlie   35    Kyoto   55000
David     28   Nagoya   52000
Eve       33  Sapporo   58000

locを使った選択 - df_indexed.loc['Alice']:
age          25
city      Tokyo
salary    50000
Name: Alice, dtype: object

特定の行と列 - df_indexed.loc['Bob', 'salary']:
60000


## 4. 条件によるフィルタリング

In [10]:
# 条件によるフィルタリング
print("元のDataFrame:")
print(df)

# 単一条件
print("\n年齢が30以上の人:")
age_filter = df[df['age'] >= 30]
print(age_filter)

# 条件の確認（ブールマスク）
print("\n条件マスク (df['age'] >= 30):")
print(df['age'] >= 30)

元のDataFrame:
      name  age     city  salary
0    Alice   25    Tokyo   50000
1      Bob   30    Osaka   60000
2  Charlie   35    Kyoto   55000
3    David   28   Nagoya   52000
4      Eve   33  Sapporo   58000

年齢が30以上の人:
      name  age     city  salary
1      Bob   30    Osaka   60000
2  Charlie   35    Kyoto   55000
4      Eve   33  Sapporo   58000

条件マスク (df['age'] >= 30):
0    False
1     True
2     True
3    False
4     True
Name: age, dtype: bool


In [11]:
# 複数条件
print("複数条件でのフィルタリング:")

# AND条件
print("\n年齢30以上 AND 給与55000以上:")
multi_filter = df[(df['age'] >= 30) & (df['salary'] >= 55000)]
print(multi_filter)

# OR条件
print("\n東京 OR 大阪に住んでいる人:")
city_filter = df[(df['city'] == 'Tokyo') | (df['city'] == 'Osaka')]
print(city_filter)

# isinを使った複数値の確認
print("\nisinを使った方法:")
cities = ['Tokyo', 'Osaka', 'Kyoto']
isin_filter = df[df['city'].isin(cities)]
print(isin_filter)

複数条件でのフィルタリング:

年齢30以上 AND 給与55000以上:
      name  age     city  salary
1      Bob   30    Osaka   60000
2  Charlie   35    Kyoto   55000
4      Eve   33  Sapporo   58000

東京 OR 大阪に住んでいる人:
    name  age   city  salary
0  Alice   25  Tokyo   50000
1    Bob   30  Osaka   60000

isinを使った方法:
      name  age   city  salary
0    Alice   25  Tokyo   50000
1      Bob   30  Osaka   60000
2  Charlie   35  Kyoto   55000


In [12]:
# 文字列条件
print("文字列条件:")

# 文字列メソッドを使った条件
print("\n名前が'C'で始まる人:")
name_filter = df[df['name'].str.startswith('C')]
print(name_filter)

# 文字列の長さ
print("\n都市名が5文字の人:")
city_len_filter = df[df['city'].str.len() == 5]
print(city_len_filter)

文字列条件:

名前が'C'で始まる人:
      name  age   city  salary
2  Charlie   35  Kyoto   55000

都市名が5文字の人:
      name  age   city  salary
0    Alice   25  Tokyo   50000
1      Bob   30  Osaka   60000
2  Charlie   35  Kyoto   55000


## 5. データのソート

In [13]:
# ソート
print("元のDataFrame:")
print(df)

# 単一列でソート
print("\n年齢で昇順ソート:")
sorted_age = df.sort_values('age')
print(sorted_age)

# 降順ソート
print("\n給与で降順ソート:")
sorted_salary = df.sort_values('salary', ascending=False)
print(sorted_salary)

元のDataFrame:
      name  age     city  salary
0    Alice   25    Tokyo   50000
1      Bob   30    Osaka   60000
2  Charlie   35    Kyoto   55000
3    David   28   Nagoya   52000
4      Eve   33  Sapporo   58000

年齢で昇順ソート:
      name  age     city  salary
0    Alice   25    Tokyo   50000
3    David   28   Nagoya   52000
1      Bob   30    Osaka   60000
4      Eve   33  Sapporo   58000
2  Charlie   35    Kyoto   55000

給与で降順ソート:
      name  age     city  salary
1      Bob   30    Osaka   60000
4      Eve   33  Sapporo   58000
2  Charlie   35    Kyoto   55000
3    David   28   Nagoya   52000
0    Alice   25    Tokyo   50000


In [14]:
# 複数列でソート
# より複雑なデータを作成
df_complex = pd.DataFrame({
    'department': ['Sales', 'Sales', 'IT', 'IT', 'HR'],
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'salary': [50000, 60000, 55000, 55000, 52000]
})

print("複雑なDataFrame:")
print(df_complex)

print("\n部署で昇順、給与で降順ソート:")
sorted_multi = df_complex.sort_values(['department', 'salary'], 
                                     ascending=[True, False])
print(sorted_multi)

複雑なDataFrame:
  department     name  salary
0      Sales    Alice   50000
1      Sales      Bob   60000
2         IT  Charlie   55000
3         IT    David   55000
4         HR      Eve   52000

部署で昇順、給与で降順ソート:
  department     name  salary
4         HR      Eve   52000
2         IT  Charlie   55000
3         IT    David   55000
1      Sales      Bob   60000
0      Sales    Alice   50000


## 6. 統計情報の取得

In [15]:
# 基本的な統計情報
print("DataFrameの基本情報:")
print(df.info())

print("\n" + "="*50)
print("\n数値列の統計サマリー:")
print(df.describe())

# 全ての列を含むdescribe
print("\n全列の統計（include='all'）:")
print(df.describe(include='all'))

DataFrameの基本情報:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    5 non-null      object
 1   age     5 non-null      int64 
 2   city    5 non-null      object
 3   salary  5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None


数値列の統計サマリー:
             age        salary
count   5.000000      5.000000
mean   30.200000  55000.000000
std     3.962323   4123.105626
min    25.000000  50000.000000
25%    28.000000  52000.000000
50%    30.000000  55000.000000
75%    33.000000  58000.000000
max    35.000000  60000.000000

全列の統計（include='all'）:
         name        age   city        salary
count       5   5.000000      5      5.000000
unique      5        NaN      5           NaN
top     Alice        NaN  Tokyo           NaN
freq        1        NaN      1           NaN
mean      NaN  30.200000    NaN  55000.000000
std       NaN   

In [16]:
# 個別の統計量
print("個別の統計量:")
print(f"\n年齢の平均: {df['age'].mean():.2f}")
print(f"年齢の中央値: {df['age'].median()}")
print(f"年齢の標準偏差: {df['age'].std():.2f}")
print(f"年齢の最小値: {df['age'].min()}")
print(f"年齢の最大値: {df['age'].max()}")

# 複数列の統計
print("\n複数列の統計:")
print(df[['age', 'salary']].mean())

個別の統計量:

年齢の平均: 30.20
年齢の中央値: 30.0
年齢の標準偏差: 3.96
年齢の最小値: 25
年齢の最大値: 35

複数列の統計:
age          30.2
salary    55000.0
dtype: float64


In [17]:
# 値のカウント
print("都市ごとの人数:")
print(df['city'].value_counts())

# 正規化（割合）
print("\n都市ごとの割合:")
print(df['city'].value_counts(normalize=True))

都市ごとの人数:
city
Tokyo      1
Osaka      1
Kyoto      1
Nagoya     1
Sapporo    1
Name: count, dtype: int64

都市ごとの割合:
city
Tokyo      0.2
Osaka      0.2
Kyoto      0.2
Nagoya     0.2
Sapporo    0.2
Name: proportion, dtype: float64


## 7. グループ化と集計

In [18]:
# より詳細なデータを作成
df_employees = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'department': ['Sales', 'IT', 'Sales', 'IT', 'HR', 'Sales'],
    'age': [25, 30, 35, 28, 33, 27],
    'salary': [50000, 65000, 55000, 60000, 52000, 48000]
})

print("従業員データ:")
print(df_employees)

# グループ化と平均
print("\n部署ごとの平均給与:")
dept_avg = df_employees.groupby('department')['salary'].mean()
print(dept_avg)

従業員データ:
      name department  age  salary
0    Alice      Sales   25   50000
1      Bob         IT   30   65000
2  Charlie      Sales   35   55000
3    David         IT   28   60000
4      Eve         HR   33   52000
5    Frank      Sales   27   48000

部署ごとの平均給与:
department
HR       52000.0
IT       62500.0
Sales    51000.0
Name: salary, dtype: float64


In [19]:
# 複数の集計
print("複数の集計関数:")
dept_stats = df_employees.groupby('department').agg({
    'salary': ['mean', 'min', 'max'],
    'age': 'mean',
    'name': 'count'
})
print(dept_stats)

# 名前付き集計（pandas 0.25以降）
print("\n名前付き集計:")
dept_summary = df_employees.groupby('department').agg(
    avg_salary=('salary', 'mean'),
    max_salary=('salary', 'max'),
    employee_count=('name', 'count')
)
print(dept_summary)

複数の集計関数:
             salary                 age  name
               mean    min    max  mean count
department                                   
HR          52000.0  52000  52000  33.0     1
IT          62500.0  60000  65000  29.0     2
Sales       51000.0  48000  55000  29.0     3

名前付き集計:
            avg_salary  max_salary  employee_count
department                                        
HR             52000.0       52000               1
IT             62500.0       65000               2
Sales          51000.0       55000               3


## 8. CSVファイルの読み書き

In [20]:
# CSVファイルへの書き込み
# サンプルデータの作成
products_data = pd.DataFrame({
    'product_id': [101, 102, 103, 104, 105],
    'product_name': ['Laptop', 'Mouse', 'Keyboard', 'Monitor', 'USB Cable'],
    'price': [80000, 3000, 5000, 25000, 1000],
    'stock': [15, 50, 30, 20, 100]
})

print("商品データ:")
print(products_data)

# CSVファイルに保存
csv_filename = 'products.csv'
products_data.to_csv(csv_filename, index=False, encoding='utf-8')
print(f"\n'{csv_filename}'に保存しました")

商品データ:
   product_id product_name  price  stock
0         101       Laptop  80000     15
1         102        Mouse   3000     50
2         103     Keyboard   5000     30
3         104      Monitor  25000     20
4         105    USB Cable   1000    100

'products.csv'に保存しました


In [21]:
# CSVファイルの読み込み
print("CSVファイルから読み込み:")
loaded_data = pd.read_csv(csv_filename)
print(loaded_data)
print("\nデータ型:")
print(loaded_data.dtypes)

CSVファイルから読み込み:
   product_id product_name  price  stock
0         101       Laptop  80000     15
1         102        Mouse   3000     50
2         103     Keyboard   5000     30
3         104      Monitor  25000     20
4         105    USB Cable   1000    100

データ型:
product_id       int64
product_name    object
price            int64
stock            int64
dtype: object


In [22]:
# 読み込みオプション
# 特定の列のみ読み込み
print("特定の列のみ読み込み:")
partial_data = pd.read_csv(csv_filename, usecols=['product_name', 'price'])
print(partial_data)

# データ型を指定して読み込み
print("\nデータ型を指定:")
dtype_data = pd.read_csv(csv_filename, dtype={'product_id': str})
print(dtype_data.dtypes)

特定の列のみ読み込み:
  product_name  price
0       Laptop  80000
1        Mouse   3000
2     Keyboard   5000
3      Monitor  25000
4    USB Cable   1000

データ型を指定:
product_id      object
product_name    object
price            int64
stock            int64
dtype: object


## 9. データの追加と削除

In [23]:
# 新しい列の追加
print("元のDataFrame:")
print(products_data)

# 計算による新列追加
products_data['total_value'] = products_data['price'] * products_data['stock']
print("\n在庫価値を追加:")
print(products_data)

# 条件による新列追加
products_data['price_category'] = pd.cut(products_data['price'], 
                                         bins=[0, 5000, 20000, 100000],
                                         labels=['Low', 'Medium', 'High'])
print("\n価格カテゴリを追加:")
print(products_data)

元のDataFrame:
   product_id product_name  price  stock
0         101       Laptop  80000     15
1         102        Mouse   3000     50
2         103     Keyboard   5000     30
3         104      Monitor  25000     20
4         105    USB Cable   1000    100

在庫価値を追加:
   product_id product_name  price  stock  total_value
0         101       Laptop  80000     15      1200000
1         102        Mouse   3000     50       150000
2         103     Keyboard   5000     30       150000
3         104      Monitor  25000     20       500000
4         105    USB Cable   1000    100       100000

価格カテゴリを追加:
   product_id product_name  price  stock  total_value price_category
0         101       Laptop  80000     15      1200000           High
1         102        Mouse   3000     50       150000            Low
2         103     Keyboard   5000     30       150000            Low
3         104      Monitor  25000     20       500000           High
4         105    USB Cable   1000    100       100

In [24]:
# 列の削除
# drop（元のDataFrameは変更されない）
print("列を削除（dropメソッド）:")
df_dropped = products_data.drop('price_category', axis=1)
print(df_dropped)

# inplace=Trueで元のDataFrameを変更
products_copy = products_data.copy()
products_copy.drop('total_value', axis=1, inplace=True)
print("\ninplace=Trueで削除:")
print(products_copy)

列を削除（dropメソッド）:
   product_id product_name  price  stock  total_value
0         101       Laptop  80000     15      1200000
1         102        Mouse   3000     50       150000
2         103     Keyboard   5000     30       150000
3         104      Monitor  25000     20       500000
4         105    USB Cable   1000    100       100000

inplace=Trueで削除:
   product_id product_name  price  stock price_category
0         101       Laptop  80000     15           High
1         102        Mouse   3000     50            Low
2         103     Keyboard   5000     30            Low
3         104      Monitor  25000     20           High
4         105    USB Cable   1000    100            Low


In [25]:
# 行の追加
new_product = pd.DataFrame({
    'product_id': [106],
    'product_name': ['Webcam'],
    'price': [8000],
    'stock': [25]
})

# concat を使用
products_extended = pd.concat([products_copy, new_product], ignore_index=True)
print("新しい商品を追加:")
print(products_extended)

新しい商品を追加:
   product_id product_name  price  stock price_category
0         101       Laptop  80000     15           High
1         102        Mouse   3000     50            Low
2         103     Keyboard   5000     30            Low
3         104      Monitor  25000     20           High
4         105    USB Cable   1000    100            Low
5         106       Webcam   8000     25            NaN


## 10. 欠損値の処理

In [26]:
# 欠損値を含むデータの作成
data_with_nan = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [5, np.nan, np.nan, 8, 10],
    'C': [10, 20, 30, np.nan, 50],
    'D': ['a', 'b', np.nan, 'd', 'e']
})

print("欠損値を含むDataFrame:")
print(data_with_nan)

# 欠損値の確認
print("\n欠損値の確認 (isnull()):")
print(data_with_nan.isnull())

print("\n各列の欠損値数:")
print(data_with_nan.isnull().sum())

print("\n欠損値の割合:")
print(data_with_nan.isnull().sum() / len(data_with_nan) * 100)

欠損値を含むDataFrame:
     A     B     C    D
0  1.0   5.0  10.0    a
1  2.0   NaN  20.0    b
2  NaN   NaN  30.0  NaN
3  4.0   8.0   NaN    d
4  5.0  10.0  50.0    e

欠損値の確認 (isnull()):
       A      B      C      D
0  False  False  False  False
1  False   True  False  False
2   True   True  False   True
3  False  False   True  False
4  False  False  False  False

各列の欠損値数:
A    1
B    2
C    1
D    1
dtype: int64

欠損値の割合:
A    20.0
B    40.0
C    20.0
D    20.0
dtype: float64


In [27]:
# 欠損値の補完
print("欠損値の補完方法:")

# 固定値で補完
print("\n0で補完:")
filled_zero = data_with_nan.fillna(0)
print(filled_zero)

# 列ごとに異なる値で補完
print("\n列ごとに異なる値で補完:")
fill_values = {'A': 0, 'B': data_with_nan['B'].mean(), 'C': data_with_nan['C'].median(), 'D': 'missing'}
filled_custom = data_with_nan.fillna(value=fill_values)
print(filled_custom)

# 前方補完（forward fill）
print("\n前方補完:")
filled_ffill = data_with_nan.fillna(method='ffill')
print(filled_ffill)

欠損値の補完方法:

0で補完:
     A     B     C  D
0  1.0   5.0  10.0  a
1  2.0   0.0  20.0  b
2  0.0   0.0  30.0  0
3  4.0   8.0   0.0  d
4  5.0  10.0  50.0  e

列ごとに異なる値で補完:
     A          B     C        D
0  1.0   5.000000  10.0        a
1  2.0   7.666667  20.0        b
2  0.0   7.666667  30.0  missing
3  4.0   8.000000  25.0        d
4  5.0  10.000000  50.0        e

前方補完:
     A     B     C  D
0  1.0   5.0  10.0  a
1  2.0   5.0  20.0  b
2  2.0   5.0  30.0  b
3  4.0   8.0  30.0  d
4  5.0  10.0  50.0  e


  filled_ffill = data_with_nan.fillna(method='ffill')


In [28]:
# 欠損値を含む行・列の削除
print("欠損値を含む行の削除:")
dropped_rows = data_with_nan.dropna()
print(dropped_rows)

print("\n特定の列に欠損値がある行を削除:")
dropped_specific = data_with_nan.dropna(subset=['A', 'B'])
print(dropped_specific)

print("\n欠損値を含む列の削除:")
dropped_cols = data_with_nan.dropna(axis=1)
print(dropped_cols)

欠損値を含む行の削除:
     A     B     C  D
0  1.0   5.0  10.0  a
4  5.0  10.0  50.0  e

特定の列に欠損値がある行を削除:
     A     B     C  D
0  1.0   5.0  10.0  a
3  4.0   8.0   NaN  d
4  5.0  10.0  50.0  e

欠損値を含む列の削除:
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4]


## 11. 実践演習

### 演習1: 売上データの分析
以下のような売上データを作成し、分析してください：
1. 10個の商品の売上データ（商品名、カテゴリ、価格、販売数）を作成
2. 売上金額（価格×販売数）を計算して新列として追加
3. カテゴリごとの売上合計を計算
4. 売上金額TOP5の商品を表示

In [29]:
# 演習1の解答
# ここにコードを書いてください
np.random.seed(42)

# 1. 売上データの作成
sales_data = pd.DataFrame({
    'product': ['商品A', '商品B', '商品C', '商品D', '商品E', 
                '商品F', '商品G', '商品H', '商品I', '商品J'],
    'category': ['電化製品', '食品', '電化製品', '衣類', '食品',
                 '衣類', '電化製品', '食品', '衣類', '電化製品'],
    'price': [15000, 500, 8000, 3000, 800, 
              4500, 20000, 1200, 2500, 12000],
    'quantity': np.random.randint(10, 100, 10)
})

print("売上データ:")
print(sales_data)

# 2. 売上金額の計算
sales_data['revenue'] = sales_data['price'] * sales_data['quantity']
print("\n売上金額を追加:")
print(sales_data)

# 3. カテゴリごとの売上合計
category_revenue = sales_data.groupby('category')['revenue'].sum()
print("\nカテゴリごとの売上合計:")
print(category_revenue)

# 4. 売上金額TOP5
top5 = sales_data.nlargest(5, 'revenue')
print("\n売上金額TOP5:")
print(top5[['product', 'category', 'revenue']])

売上データ:
  product category  price  quantity
0     商品A     電化製品  15000        61
1     商品B       食品    500        24
2     商品C     電化製品   8000        81
3     商品D       衣類   3000        70
4     商品E       食品    800        30
5     商品F       衣類   4500        92
6     商品G     電化製品  20000        96
7     商品H       食品   1200        84
8     商品I       衣類   2500        84
9     商品J     電化製品  12000        97

売上金額を追加:
  product category  price  quantity  revenue
0     商品A     電化製品  15000        61   915000
1     商品B       食品    500        24    12000
2     商品C     電化製品   8000        81   648000
3     商品D       衣類   3000        70   210000
4     商品E       食品    800        30    24000
5     商品F       衣類   4500        92   414000
6     商品G     電化製品  20000        96  1920000
7     商品H       食品   1200        84   100800
8     商品I       衣類   2500        84   210000
9     商品J     電化製品  12000        97  1164000

カテゴリごとの売上合計:
category
衣類       834000
電化製品    4647000
食品       136800
Name: revenue, dtype:

### 演習2: 学生の成績データ分析
1. 20人の学生データ（名前、数学、英語、理科の点数）を作成
2. 各学生の平均点を計算
3. 平均点が80点以上の学生を抽出
4. 科目ごとの統計情報（平均、最高、最低）を表示

In [30]:
# 演習2の解答
# ここにコードを書いてください
np.random.seed(42)

# 1. 学生データの作成
students = [f'学生{i+1}' for i in range(20)]
scores_data = pd.DataFrame({
    'name': students,
    'math': np.random.randint(60, 101, 20),
    'english': np.random.randint(60, 101, 20),
    'science': np.random.randint(60, 101, 20)
})

print("学生の成績データ:")
print(scores_data.head(10))

# 2. 平均点の計算
scores_data['average'] = scores_data[['math', 'english', 'science']].mean(axis=1)
print("\n平均点を追加:")
print(scores_data.head())

# 3. 平均点80点以上の学生
high_performers = scores_data[scores_data['average'] >= 80]
print(f"\n平均点80点以上の学生（{len(high_performers)}人）:")
print(high_performers[['name', 'average']].sort_values('average', ascending=False))

# 4. 科目ごとの統計情報
subjects_stats = scores_data[['math', 'english', 'science']].agg(['mean', 'max', 'min'])
print("\n科目ごとの統計情報:")
print(subjects_stats)

学生の成績データ:
   name  math  english  science
0   学生1    98       61       68
1   学生2    88       80       85
2   学生3    74       92       61
3   学生4    67       71       79
4   学生5    80       81       87
5   学生6    98       84       66
6   学生7    78       86       67
7   学生8    82       87       94
8   学生9    70       75       73
9  学生10    70       74       76

平均点を追加:
  name  math  english  science    average
0  学生1    98       61       68  75.666667
1  学生2    88       80       85  84.333333
2  学生3    74       92       61  75.666667
3  学生4    67       71       79  72.333333
4  学生5    80       81       87  82.666667

平均点80点以上の学生（9人）:
    name    average
11  学生12  96.666667
7    学生8  87.666667
19  学生20  87.666667
18  学生19  86.000000
1    学生2  84.333333
4    学生5  82.666667
5    学生6  82.666667
15  学生16  80.666667
10  学生11  80.000000

科目ごとの統計情報:
      math  english  science
mean  81.9     77.9    77.25
max   99.0     98.0    99.00
min   61.0     61.0    61.00


### 演習3: 時系列データの処理
1. 30日分の架空の株価データ（日付、始値、高値、安値、終値）を作成
2. 日付をインデックスに設定
3. 5日移動平均を計算
4. 終値が最も高かった日と最も低かった日を特定

In [31]:
# 演習3の解答
# ここにコードを書いてください
np.random.seed(42)

# 1. 株価データの作成
dates = pd.date_range('2025-01-01', periods=30, freq='D')
base_price = 1000
price_changes = np.random.randn(30) * 20

stock_data = pd.DataFrame({
    'date': dates,
    'close': base_price + np.cumsum(price_changes)
})

# 始値、高値、安値を終値から生成
stock_data['open'] = stock_data['close'] + np.random.randn(30) * 5
stock_data['high'] = stock_data[['open', 'close']].max(axis=1) + np.abs(np.random.randn(30) * 10)
stock_data['low'] = stock_data[['open', 'close']].min(axis=1) - np.abs(np.random.randn(30) * 10)

# 列の順序を整理
stock_data = stock_data[['date', 'open', 'high', 'low', 'close']]

print("株価データ（最初の10日）:")
print(stock_data.head(10))

# 2. 日付をインデックスに設定
stock_data.set_index('date', inplace=True)
print("\n日付をインデックスに設定:")
print(stock_data.head())

# 3. 5日移動平均
stock_data['MA5'] = stock_data['close'].rolling(window=5).mean()
print("\n5日移動平均を追加:")
print(stock_data[['close', 'MA5']].head(10))

# 4. 最高値と最安値の日
max_day = stock_data['close'].idxmax()
min_day = stock_data['close'].idxmin()

print(f"\n終値が最も高かった日: {max_day.strftime('%Y-%m-%d')}")
print(f"終値: {stock_data.loc[max_day, 'close']:.2f}")

print(f"\n終値が最も低かった日: {min_day.strftime('%Y-%m-%d')}")
print(f"終値: {stock_data.loc[min_day, 'close']:.2f}")

株価データ（最初の10日）:
        date         open         high          low        close
0 2025-01-01  1006.925750  1014.726025  1005.954975  1009.934283
1 2025-01-02  1016.430388  1018.286978   997.482547  1007.168997
2 2025-01-03  1020.055282  1031.186118  1013.034751  1020.122768
3 2025-01-04  1045.294810  1062.545431  1042.018189  1050.583365
4 2025-01-05  1050.013022  1058.138280  1041.979216  1045.900297
5 2025-01-06  1035.113340  1054.779959  1020.478191  1041.217558
6 2025-01-07  1073.846133  1074.566234  1069.840612  1072.801815
7 2025-01-08  1078.352159  1098.185838  1075.741606  1088.150509
8 2025-01-09  1072.120091  1082.377382  1072.068957  1078.761021
9 2025-01-10  1090.596529  1097.047726  1087.266351  1089.612222

日付をインデックスに設定:
                   open         high          low        close
date                                                          
2025-01-01  1006.925750  1014.726025  1005.954975  1009.934283
2025-01-02  1016.430388  1018.286978   997.482547  1007.168997
202

## 演習の解答例

In [None]:
# 演習1の解答例
np.random.seed(42)

# 1. 売上データの作成
sales_data = pd.DataFrame({
    'product': ['商品A', '商品B', '商品C', '商品D', '商品E', 
                '商品F', '商品G', '商品H', '商品I', '商品J'],
    'category': ['電化製品', '食品', '電化製品', '衣類', '食品',
                 '衣類', '電化製品', '食品', '衣類', '電化製品'],
    'price': [15000, 500, 8000, 3000, 800, 
              4500, 20000, 1200, 2500, 12000],
    'quantity': np.random.randint(10, 100, 10)
})

print("売上データ:")
print(sales_data)

# 2. 売上金額の計算
sales_data['revenue'] = sales_data['price'] * sales_data['quantity']
print("\n売上金額を追加:")
print(sales_data)

# 3. カテゴリごとの売上合計
category_revenue = sales_data.groupby('category')['revenue'].sum()
print("\nカテゴリごとの売上合計:")
print(category_revenue)

# 4. 売上金額TOP5
top5 = sales_data.nlargest(5, 'revenue')
print("\n売上金額TOP5:")
print(top5[['product', 'category', 'revenue']])

In [None]:
# 演習2の解答例
np.random.seed(42)

# 1. 学生データの作成
students = [f'学生{i+1}' for i in range(20)]
scores_data = pd.DataFrame({
    'name': students,
    'math': np.random.randint(60, 101, 20),
    'english': np.random.randint(60, 101, 20),
    'science': np.random.randint(60, 101, 20)
})

print("学生の成績データ:")
print(scores_data.head(10))

# 2. 平均点の計算
scores_data['average'] = scores_data[['math', 'english', 'science']].mean(axis=1)
print("\n平均点を追加:")
print(scores_data.head())

# 3. 平均点80点以上の学生
high_performers = scores_data[scores_data['average'] >= 80]
print(f"\n平均点80点以上の学生（{len(high_performers)}人）:")
print(high_performers[['name', 'average']].sort_values('average', ascending=False))

# 4. 科目ごとの統計情報
subjects_stats = scores_data[['math', 'english', 'science']].agg(['mean', 'max', 'min'])
print("\n科目ごとの統計情報:")
print(subjects_stats)

In [None]:
# 演習3の解答例
np.random.seed(42)

# 1. 株価データの作成
dates = pd.date_range('2025-01-01', periods=30, freq='D')
base_price = 1000
price_changes = np.random.randn(30) * 20

stock_data = pd.DataFrame({
    'date': dates,
    'close': base_price + np.cumsum(price_changes)
})

# 始値、高値、安値を終値から生成
stock_data['open'] = stock_data['close'] + np.random.randn(30) * 5
stock_data['high'] = stock_data[['open', 'close']].max(axis=1) + np.abs(np.random.randn(30) * 10)
stock_data['low'] = stock_data[['open', 'close']].min(axis=1) - np.abs(np.random.randn(30) * 10)

# 列の順序を整理
stock_data = stock_data[['date', 'open', 'high', 'low', 'close']]

print("株価データ（最初の10日）:")
print(stock_data.head(10))

# 2. 日付をインデックスに設定
stock_data.set_index('date', inplace=True)
print("\n日付をインデックスに設定:")
print(stock_data.head())

# 3. 5日移動平均
stock_data['MA5'] = stock_data['close'].rolling(window=5).mean()
print("\n5日移動平均を追加:")
print(stock_data[['close', 'MA5']].head(10))

# 4. 最高値と最安値の日
max_day = stock_data['close'].idxmax()
min_day = stock_data['close'].idxmin()

print(f"\n終値が最も高かった日: {max_day.strftime('%Y-%m-%d')}")
print(f"終値: {stock_data.loc[max_day, 'close']:.2f}")

print(f"\n終値が最も低かった日: {min_day.strftime('%Y-%m-%d')}")
print(f"終値: {stock_data.loc[min_day, 'close']:.2f}")

## まとめ

今日学んだこと：
1. **DataFrameの作成**: 辞書、リスト、NumPy配列から作成
2. **データの選択**: 列選択、行選択、loc/iloc
3. **フィルタリング**: 条件によるデータ抽出
4. **ソート**: 単一・複数列でのソート
5. **統計情報**: describe、個別統計量、グループ集計
6. **CSV操作**: 読み書きとオプション
7. **データ操作**: 列の追加・削除、欠損値処理

PandasのDataFrameは、データ分析において最も重要なツールの一つです。
これらの基本操作を習得することで、実践的なデータ分析が可能になります。

次回（Day 4）は、Pandas基礎②としてデータクリーニングについて学習します。