# import

In [None]:
import os
import numpy as np 
import pandas as pd 
import os
import matplotlib.pyplot as plt
import seaborn as sns
import cv2

# config

In [None]:
# seed値
SEED = 20211105
# train画像のフォルダ
TRAIN_IMG_PASS = '../input/petfinder-pawpularity-score/train'

# fanctions

In [None]:
def plot_img(min, max):
    less10 = train.query(f'{min} <= Pawpularity < {max}')
    sample_less10 = less10.sample(n=5, random_state=SEED).reset_index()

    fig = plt.figure(figsize=(30,30))
    for index, row in sample_less10.iterrows():
        title = str(row['Pawpularity'])
        img = plt.imread(os.path.join(TRAIN_IMG_PASS, row['Id'] + '.jpg'))
        plt.subplot(1,5,index+1)
        plt.title(f'Pawpularity:{title}', fontsize=18)
        plt.imshow(img)
    plt.show()

def plot_box_hist(target, base):
    fig, ax = plt.subplots(1,2)
    sns.boxplot(data=train, x=target, y=base, ax=ax[0])
    sns.histplot(train, x=base, hue=target, kde=True, ax=ax[1])
    plt.suptitle(target, fontsize=20, fontweight='bold')
    fig.show()

def plot_category_img(item):
    item_df = train.query(f'{item} == 1')
    sample_item_df = item_df.sample(n=5, random_state=SEED).reset_index()

    fig = plt.figure(figsize=(30,30))
    for index, row in sample_item_df.iterrows():
        title = str(row['Pawpularity'])
        img = plt.imread(os.path.join(TRAIN_IMG_PASS, row['Id'] + '.jpg'))
        plt.subplot(1,5,index+1)
        plt.title(f'Pawpularity:{title}', fontsize=18)
        plt.imshow(img)

    fig.show()

# 予測する内容を確認する。

Idの写真からペットの人気(Pawpularity)を予測する。

なお、Pawpularityスコアは様々なページから統計量を正規化するアルゴリズムを使って、それぞれのペットのプロフィールページの統計から計算されるようです。

In [None]:
sample = pd.read_csv("../input/petfinder-pawpularity-score/sample_submission.csv")
sample

* Id:画像ファイル名,
* Subject Focus:ペットは整頓された背景に対して際立っており、近すぎたり遠すぎたりすることはありません。
* Eyes:両方の目が正面または正面近くを向いており、少なくとも1つの目/瞳孔が適切にクリアされています。
* Face:正面または正面近くを向いた、きちんとクリアな顔。
* Near:写真のかなりの部分を占める1匹のペット（写真の幅または高さの約50％以上）。
* Action:アクション（ジャンプなど）の途中でペットを飼う。
* Accessory:付属の物理的またはデジタルの付属品/支柱（おもちゃ、デジタルステッカーなど）、首輪と鎖を除く。
* Group:写真に写っているペットが1匹以上。
* Collage:デジタルレタッチされた写真（つまり、デジタルフォトフレーム、複数の写真の組み合わせ）。
* Human:写真の中の人間。
* Occlusion:ペットの一部をブロックする特定の望ましくないオブジェクト（つまり、人間、ケージ、または柵）。すべてのブロッキングオブジェクトがオクルージョンと見なされるわけではないことに注意してください。
* Info:カスタム追加されたテキストまたはラベル（つまり、ペットの名前、説明）。
* Blur:特にペットの目や顔の焦点がはっきりしていないか、ノイズが多い。ぼかしエントリの場合、「目」列は常に0に設定されます。
* Pawpularity:ペットの人気(魅力)度

In [None]:
test = pd.read_csv("../input/petfinder-pawpularity-score/test.csv")
test

# 学習データの確認

## trainのCSVを読み込み

In [None]:
train = pd.read_csv("../input/petfinder-pawpularity-score/train.csv")
train

## 先頭の画像を表示してみる

In [None]:
# neko.jpgを読み込んで、imgオブジェクトに入れる
img = cv2.imread(os.path.join(TRAIN_IMG_PASS, train['Id'][0] + '.jpg'))

#imgオブジェクトをmatlotlibを用いて表示する
plt.imshow(img)
plt.show()

## ペットの人気(魅力)度をヒストグラムで可視化

In [None]:
sns.set(rc={'figure.figsize':(15,5)})
fig = plt.figure()
sns.histplot(data=train, x='Pawpularity', bins=100)
plt.axvline(train['Pawpularity'].mean(), ls='--', c='red', lw=3, label='Mean')
plt.axvline(train['Pawpularity'].median(), ls='--', c='blue',lw=3, label='Median')
plt.title('Pawpularity Scores', fontstyle='italic', fontsize=20, fontweight='bold')
plt.legend()
plt.show()

# 各項目ごとに分析

In [None]:
plot_box_hist('Eyes', 'Pawpularity')
plot_category_img('Eyes')

In [None]:
plot_box_hist('Subject Focus', 'Pawpularity')
# plot_category_img('Subject Focus')

In [None]:
plot_box_hist('Face', 'Pawpularity')
plot_category_img('Face')

In [None]:
plot_box_hist('Near', 'Pawpularity')
plot_category_img('Near')

In [None]:
plot_box_hist('Action', 'Pawpularity')
plot_category_img('Action')

In [None]:
plot_box_hist('Accessory', 'Pawpularity')
plot_category_img('Accessory')

In [None]:
plot_box_hist('Group', 'Pawpularity')
plot_category_img('Group')

In [None]:
plot_box_hist('Collage', 'Pawpularity')
plot_category_img('Collage')

In [None]:
plot_box_hist('Human', 'Pawpularity')
plot_category_img('Human')

In [None]:
plot_box_hist('Occlusion', 'Pawpularity')
plot_category_img('Occlusion')

In [None]:
plot_box_hist('Info', 'Pawpularity')
plot_category_img('Info')

In [None]:
plot_box_hist('Blur', 'Pawpularity')
plot_category_img('Blur')

## 魅力度ごとにサンプルを表示してみる

### 魅力度が0以上10未満を表示

In [None]:
plot_img(0, 10)

### 魅力度が10以上20未満を表示

In [None]:
plot_img(10, 20)

### 魅力度が20以上30未満を表示

In [None]:
plot_img(20, 30)

### 魅力度が30以上40未満を表示

In [None]:
plot_img(30, 40)

### 魅力度が40以上50未満を表示

In [None]:
plot_img(40, 50)

### 魅力度が50以上60未満を表示

In [None]:
plot_img(50, 60)

### 魅力度が60以上70未満を表示

In [None]:
plot_img(60, 70)

### 魅力度が70以上80未満を表示

In [None]:
plot_img(70, 80)

### 魅力度が80以上90未満を表示

In [None]:
plot_img(80, 90)

### 魅力度が90以上100未満を表示

In [None]:
plot_img(90, 100)