In [2]:
import pandas as pd

## データフレームの作成

In [42]:
# データフレームの作成
df = pd.DataFrame()

# 列の追加
df["Name"] = ["Taro", "Hanako"]
df["Age"] = [20, 30]

# 行の作成
new_person = pd.DataFrame(
    {
        "Name": ["Jiro"],
        "Age": [30],
    }
)

# 行の追加
df = pd.concat([df, new_person], ignore_index=True, axis=0)

# データフレームの表示
df

Unnamed: 0,Name,Age
0,Taro,20
1,Hanako,30
2,Jiro,40


## データの性質を取得

In [46]:
# 最初の2行を表示
print(df.head(2))

# データの形状を表示
print(df.shape)

# 統計量を表示
print(df.describe())

     Name  Age
0    Taro   20
1  Hanako   30
(3, 2)
        Age
count   3.0
mean   30.0
std    10.0
min    20.0
25%    25.0
50%    30.0
75%    35.0
max    40.0


## DataFrameの操作

In [116]:
# データフレームの作成
df = pd.DataFrame()

# 列の追加
df["Name"] = ["Taro", "Hanako", "Jiro"]
df["Age"] = [20, 30, 30]

# indexを指定
df.set_index("Name",inplace=True)

# 行数から特定の行を取得
print(df.iloc[0])

# indexから特定の行を取得
print(df.loc["Hanako"])

# 条件から行を取得
print(df[df["Age"] == 30])

# 値の置き換え
print(df.replace(30,40))

# 列の名前を変更
print(df.rename(columns={"Age": "年齢"}))

Age    20
Name: Taro, dtype: int64
Age    30
Name: Hanako, dtype: int64
        Age
Name       
Hanako   30
Jiro     30
        Age
Name       
Taro     20
Hanako   40
Jiro     40
        年齢
Name      
Taro    20
Hanako  30
Jiro    30


## 行・列の削除

In [119]:
# データフレームの作成
df = pd.DataFrame()

# 列の追加
df["Name"] = ["Taro", "Hanako", "Jiro", "Jiro"]
df["Age"] = [20, 30, 30, 30]

print(df)

# 列の削除
print(df.drop("Age", axis=1))

# 行の削除
print(df.drop(1, axis=0))

# 重複した行の削除
print(df.drop_duplicates())

     Name  Age
0    Taro   20
1  Hanako   30
2    Jiro   30
3    Jiro   30
     Name
0    Taro
1  Hanako
2    Jiro
3    Jiro
   Name  Age
0  Taro   20
2  Jiro   30
3  Jiro   30
     Name  Age
0    Taro   20
1  Hanako   30
2    Jiro   30


## 最大・最小・合計・平均を算出

In [77]:
print(df["Age"].max())
print(df["Age"].min())
print(df["Age"].mean())
print(df["Age"].sum())
print(df["Age"].count())


30
20
26.666666666666668
80
3


## ユニークな値の算出

In [95]:
# ユニークな値の抽出
print(df["Age"].unique())

# データのカウント
print(df["Age"].value_counts())

[20 30]
30    2
20    1
Name: Age, dtype: int64


## 欠損データの取扱

In [103]:
# データフレームの作成
df = pd.DataFrame()

# 列の追加
df["Name"] = ["Taro", "Hanako", "Jiro"]
df["Age"] = [20, 30, None]

# null値の確認
print(df.isnull())


    Name    Age
0  False  False
1  False  False
2  False   True
Name   Age  
False  False    2
       True     1
dtype: int64
