In [None]:
# Pythonによるデータ前処理入門 / Data Preprocessing with Python

- NumPy・Pandas基礎
- 簡単なデータ前処理例

このNotebookでは、Pythonのライブラリ NumPy・Pandas を使ったデータ前処理の基礎を実演します。  
サンプルデータを作成し、欠損値の確認・補完、簡単な集計を行います。  

In [3]:
import numpy as np
import pandas as pd

In [4]:
df = pd.DataFrame({
    "name": ["Shino", "Mika", "Rin", None],
    "score": [95, 88, None, 72],
    "class": ["A", "B", "A", "B"]
})
df

Unnamed: 0,name,score,class
0,Shino,95.0,A
1,Mika,88.0,B
2,Rin,,A
3,,72.0,B


In [5]:
df.info()
df.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    3 non-null      object 
 1   score   3 non-null      float64
 2   class   4 non-null      object 
dtypes: float64(1), object(2)
memory usage: 228.0+ bytes


name     1
score    1
class    0
dtype: int64

In [6]:
# Fill missing values
df_fill = df.copy()
df_fill["name"] = df_fill["name"].fillna("Unknown")
df_fill["score"] = df_fill["score"].fillna(df_fill["score"].mean())
df_fill

Unnamed: 0,name,score,class
0,Shino,95.0,A
1,Mika,88.0,B
2,Rin,85.0,A
3,Unknown,72.0,B


In [7]:
df_fill.groupby("class")["score"].mean()

class
A    90.0
B    80.0
Name: score, dtype: float64

In [None]:
学んだことを整理
- `info()`, `isna().sum()` で欠損を確認  
- `fillna()` で欠損を補完（文字列は固定値、数値は平均値で補完）  
- `groupby()` でカテゴリごとに集計  
データ分析の前処理に必要な基本操作を学んだ。