# 値の重複

## 重複の有無の確認方法

In [None]:
import pandas as pd

df = pd.read_parquet("data/penguins.parquet")
df_adelie = df.loc[
    df.loc[:, "Species"] == "Adelie Penguin (Pygoscelis adeliae)"
]  # Adelieのみ
print(df_adelie.shape)

In [None]:
df_adelie.nunique(dropna=False)

In [None]:
df_adelie.duplicated().sum()

In [None]:
# subsetを指定する例
df_adelie.duplicated(
    subset=[
        "Individual_ID",
        "Flipper_Length",
    ]
).sum()

In [None]:
# Individual_IDが重複している箇所（すべて）
df_adelie.loc[
    df_adelie.loc[:, "Individual_ID"].duplicated(keep=False)
].sort_values(by="Individual_ID").head()

In [None]:
# Individual_IDが重複している箇所（最初の出現は含まない）
df_adelie.loc[
    df_adelie.loc[:, "Individual_ID"].duplicated(keep="first")
].sort_values(by="Individual_ID").head()

## 重複の発生パターンと対処方法

### 行全体の重複への対処

In [None]:
df_adelie_duplicated = pd.concat(
    [df_adelie, df_adelie]
)  # 重複のあるDataFrameを作成。
print(f"重複あり：{df_adelie_duplicated.shape}")

print(f"重複除去：{df_adelie_duplicated.drop_duplicates().shape}")  # 元と同じ

### 一部の列の重複への対処

In [None]:
# 最初の出現を残す。
df_adelie.drop_duplicates(
    subset=[
        "Individual_ID",
        "Flipper_Length",
    ],
    keep="first",
).head()

In [None]:
# 最後の出現を残す。
df_adelie.drop_duplicates(
    subset=[
        "Individual_ID",
        "Flipper_Length",
    ],
    keep="last",
).head()

In [None]:
df_adelie.sort_values(by="Date_Egg", ascending=False).drop_duplicates(
    subset="Individual_ID", keep="first"
).head()

In [None]:
# 平均値に集約。
df_adelie_agg = df_adelie.groupby("Individual_ID")["Flipper_Length"].mean()
df_adelie_agg.head()

In [None]:
df_adelie_agg.shape