# Tabular Playground Series - Jul 2021
まずは、データの中身を確認しました。
target_carbon_monoxide、target_benzene、target_nitrogen_oxidesの3種類を予測する必要があるようです。ベンゼンが入っていることから、自動車の排気ガスによる大気汚染の予測ではないかと思われます。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [None]:
train = pd.read_csv('../input/tabular-playground-series-jul-2021/train.csv')
test = pd.read_csv('../input/tabular-playground-series-jul-2021/test.csv')
sub = pd.read_csv('../input/tabular-playground-series-jul-2021/sample_submission.csv')

## Overview

In [None]:
train

In [None]:
train.info()

In [None]:
train.describe().T

In [None]:
test

In [None]:
test.info()

In [None]:
sub

## Correlation

散布図を見ると、センサー1～5は、ベンゼンとは強い相関がありますが、一酸化炭素や窒素酸化物との相関は外れ値が目立ちます。

### Correlation coefficient


In [None]:
plt.figure(figsize=(9,9))
sns.heatmap(train.drop('date_time',axis = 1).corr(), vmax=1, square=True,annot=True,cmap='RdBu')
plt.show()

### Distribution chart

In [None]:
sns.pairplot(train.drop('date_time',axis = 1))

相関を見ると  
　・target_benzeneとsensor2は、強い正の相関  
　・target_carbon_monoxideとtarget_benzeneは、外れ値を対象外にすれば強い正の相関   
　・target_nitrogen_oxidesとtarget_carbon_monoxideは、やや強い正の相関  
があることがわかります。

これらを大きな図で見てみます。

### Relationship between benzene and sensor_2
target_benzeneとsensor_2は、普通に式が書けそうなぐらい正の強い相関がありますね。

In [None]:
sns.jointplot('target_benzene', 'sensor_2', data=train)

### Relationship between carbon monoxide and benzene
target_carbon_monoxideとtarget_benzeneは強めの正の相関ですが、外れ値が目立ちます。

In [None]:
sns.jointplot('target_carbon_monoxide', 'target_benzene', data=train)

### Relationship between carbon monoxide and nitrogen oxides
target_nitrogen_oxidesとtarget_carbon_monoxideは、まぁまぁな正の相関があります。外れ値は見当たりません。

In [None]:
sns.jointplot('target_nitrogen_oxides', 'target_carbon_monoxide', data=train)

## Predict and check SHAP with LightGBM
SHAPで特徴量の重要度を確認したいので、いったん、PyCaretを使ってLightGBMで予測してSHAPを表示します。

In [None]:
!pip install pycaret==2.3.1

In [None]:
!pip install shap

In [None]:
from pycaret.regression import setup, create_model, tune_model, finalize_model, predict_model, interpret_model
import shap

### Carbon monoxide

In [None]:
train1 = train.drop(['date_time','target_benzene','target_nitrogen_oxides'], axis=1)
train1.head()

In [None]:
reg1 = setup(data=train1, target='target_carbon_monoxide', session_id=1)

In [None]:
selected1 = create_model("lightgbm")
tuned1 = tune_model(selected1)

In [None]:
final1 = finalize_model(tuned1)
pred1 = predict_model(final1, data=test)
interpret_model(final1)

### Benzene

In [None]:
train2 = train.drop(['date_time','target_carbon_monoxide','target_nitrogen_oxides'], axis=1)
train2.head()

In [None]:
reg2 = setup(data=train2, target='target_benzene', session_id=2)

In [None]:
selected2 = create_model("lightgbm")
tuned2 = tune_model(selected2)

In [None]:
final2 = finalize_model(tuned2)
pred2 = predict_model(final2, data=test)
interpret_model(final2)

## Nitrogen oxides

In [None]:
train3 = train.drop(['date_time','target_carbon_monoxide','target_benzene'], axis=1)
train3.head()

In [None]:
reg3 = setup(data=train3, target='target_nitrogen_oxides', session_id=3)

In [None]:
selected3 = create_model("lightgbm")
tuned3 = tune_model(selected3)

In [None]:
final3 = finalize_model(tuned3)
pred3 = predict_model(final3, data=test)
interpret_model(final3)

Carbon monoxide、Benzeneはsensor_2、Nitrogen oxidesはsensor_5が予測する際に重要度が高いようです。  
これらをサブミットしてみます。

In [None]:
sub.target_carbon_monoxide = pred1.Label
sub.target_benzene = pred2.Label
sub.target_nitrogen_oxides = pred3.Label
sub.to_csv('lightgbm_submission.csv',index=False)
sub

スコア : **0.30025** 