# データセットを手にしたら、Pythonでサクッと半自動EDA（探索的データ分析）をしよう

url: https://www.salesanalytics.co.jp/datascience/datascience014/

※  第331話｜探索的データ分析（EDA）の初手

url: https://www.salesanalytics.co.jp/column/no00331/

    データセット手にしたら、数理モデルを作ったりする前に、通常はEDA（探索的データ分析）を実施します。

    端的に言うと、データと仲良くなるための会話です。

    ざっくり次のような流れになります。
1. データコンディションチェック（欠測値や基本統計量など）
2. 単変量の分析（各変数の分布など）
3. 多変量の分析（変数間の関係性など）

    正直、EDA（探索的データ分析）はほぼ半分は似たような分析を実施します。

    そこで、EDA（探索的データ分析）の中で似たような分析は自動化しようということで幾つかのライブラリーがあります。

    今回は、「データセット手にしたら、Pythonでサクッと半自動EDA（探索的データ分析）をしよう」というお話しをします。

    Rに関しては「Rでシンプル半自動EDA（探索的データ分析）」で紹介しています。

url: https://www.salesanalytics.co.jp/datascience/datascience022/


## 半自動EDAライブラリー
    色々な半自動EDAライブラリーがあります。

    今回紹介するのは、以下の3つです。

    Pandas-Profiling
    D-Tale
    Sweetviz

    Pandas-Profilingは、3つの中で最もシンプルです。
    D-Taleは、逆に最も細部に渡ったEDAを実施することができ、自動というかD-Taleを使いEDAを実施する感じになります。
    Sweetvizも、Pandas-Profilingと同じぐらいシンプルですが、2つのデータセット間の比較をすることができます。

    ですので、先ずはPandas-Profilingを利用し、物足りないときにD-Taleを利用し、データセット間の比較が必要なときにSweetvizを利用するのがいいでしょう。
    
    この3つのライブラリーをインストールされていない方は、以下です。

In [1]:
!pip install pandas-profiling
!pip install dtale
!pip install sweetviz



## 今回利用するデータセット
    今回は、みんな大好きアヤメのデータとタイタニックのデータを使います。

    この2つのデータセットの概要説明は、以下の記事を参考にしていただければと思います。

    ■データセットの概要説明
    「予測モデルは機械学習パイプライン化しよう（Python）
    　https://www.salesanalytics.co.jp/datascience/datascience007/

    このサンプルデータはScikit-learn（sklearn）のものを利用するので、Scikit-learn（sklearn）をインストールされていない方は、インストールして頂ければと思います。

# ライブラリーの読み込み
    ライブラリーを読み込みます。

    では、コードです。

In [2]:
# 例で利用するデータセット
from sklearn.datasets import fetch_openml, load_iris

# データセット分割（学習データ・テストデータ）
from sklearn.model_selection import train_test_split

# EDAツール
# from pandas_profiling import ProfileReport
import dtale
import sweetviz as sv

# アヤメのデータに対し半自動EDA

    アヤメのサンプルデータを読み込みます。

    以下、コードです。

In [3]:
irisXy = load_iris(as_frame=True, return_X_y=False).frame

    どのようなデータセットを読み込んだのか、確認してみます。

    以下、コードです。

In [4]:
irisXy

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


    次に、読み込んだデータセットを、学習データとテストデータに分解します。

In [5]:
irisXy_train, irisXy_test = train_test_split(irisXy, test_size=0.5)

    irisXy_train：学習データ
    irisXy_test：テストデータ

    どのようなデータセットを読み込んだのか、確認してみます。

    以下、学習データを確認するコードです。

In [6]:
irisXy_train

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
8,4.4,2.9,1.4,0.2,0
88,5.6,3.0,4.1,1.3,1
33,5.5,4.2,1.4,0.2,0
111,6.4,2.7,5.3,1.9,2
66,5.6,3.0,4.5,1.5,1
...,...,...,...,...,...
85,6.0,3.4,4.5,1.6,1
62,6.0,2.2,4.0,1.0,1
133,6.3,2.8,5.1,1.5,2
71,6.1,2.8,4.0,1.3,1


    以下、テストデータを確認するコードです。

In [7]:
irisXy_test

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
49,5.0,3.3,1.4,0.2,0
125,7.2,3.2,6.0,1.8,2
130,7.4,2.8,6.1,1.9,2
73,6.1,2.8,4.7,1.2,1
17,5.1,3.5,1.4,0.3,0
...,...,...,...,...,...
116,6.5,3.0,5.5,1.8,2
141,6.9,3.1,5.1,2.3,2
50,7.0,3.2,4.7,1.4,1
7,5.0,3.4,1.5,0.2,0


    データセット「irisXy」がどのようなデータなのか、以下の3つの手段を通じて見ていきます。
    ・Pandas-Profiling
    ・D-Tale
    ・Sweetviz

    さらに、データセット「irisXy_train」（学習データ）とデータセット「irisXy_test」（テストデータ）がどのようなデータなのか、以下の手段を通じて比較しながら見ていきます。
    ・Sweetviz

## アヤメのデータをPandas-Profiling
    データセット「irisXy」をPandas-Profilingを使い、どのようなデータなのか確認します。

    以下、コードです。

In [8]:
# profile_iris = ProfileReport(irisXy, explorative=True)
# profile_iris.to_file("profile_iris.html")
# profile_iris

    基本、Jupyter Notebook などに実行結果が埋め込まれますが、生成されたHTMLから実行結果を見ることもできます。

## アヤメのデータをD-Tale
    データセット「irisXy」をD-Taleを使い、どのようなデータなのか確認します。

    以下、コードです。

    共変量Xの特定の値の因果効果であるCATE（Conditional Average Treatment Effect）を推定します。

    以下、コードです。

In [9]:
dtale.show(irisXy)

http://37c42fbe4208:40000/dtale/main/1

    D-Taleは、自動というかD-Taleを使いEDAを実施する感じになります。

## アヤメのデータをSweetviz
    データセット「irisXy」をSweetvizを使い、どのようなデータなのか確認します。

    以下、コードです。

In [10]:
sweet_iris = sv.analyze(irisXy)
sweet_iris.show_html("sweet_iris.html")

                                             |          | [  0%]   00:00 -> (? left)

Report sweet_iris.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## アヤメの学習データとテストデータをSweetvizで比較
    Sweetvizを使い、データセット「irisXy_train」（学習データ）とデータセット「irisXy_test」（テストデータ）がどのようなデータなのか確認します。

    以下、コードです。

In [11]:
sweet_iris_compare = sv.compare([irisXy_train, "Train"], [irisXy_test, "Test"])
sweet_iris_compare.show_html("sweet_iris_compare.html")

                                             |          | [  0%]   00:00 -> (? left)

Report sweet_iris_compare.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## タイタニックのデータに対し半自動EDA

    タイタニックのサンプルデータを読み込みます。

    以下、コードです。

In [12]:
titanicXy = fetch_openml("titanic", version=1, as_frame=True, return_X_y=False).frame





    どのようなデータセットを読み込んだのか、確認してみます。

    以下、コードです。

In [13]:
titanicXy

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0000,1.0,2.0,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1.0,2.0,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1.0,2.0,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3.0,0,"Zabour, Miss. Hileni",female,14.5000,1.0,0.0,2665,14.4542,,C,,328.0,
1305,3.0,0,"Zabour, Miss. Thamine",female,,1.0,0.0,2665,14.4542,,C,,,
1306,3.0,0,"Zakarian, Mr. Mapriededer",male,26.5000,0.0,0.0,2656,7.2250,,C,,304.0,
1307,3.0,0,"Zakarian, Mr. Ortin",male,27.0000,0.0,0.0,2670,7.2250,,C,,,


    次に、読み込んだデータセットを、学習データとテストデータに分解します。

In [14]:
titanicXy_train, titanicXy_test = train_test_split(titanicXy, test_size=0.5)

    titanicXy_train：学習データ
    titanicXy_test：テストデータ

どのようなデータセットを読み込んだのか、確認してみます。

以下、学習データを確認するコードです。

In [15]:
titanicXy_train

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
829,3.0,0,"Goodwin, Miss. Lillian Amy",female,16.0,5.0,2.0,CA 2144,46.9000,,S,,,"Wiltshire, England Niagara Falls, NY"
458,2.0,1,"Ilett, Miss. Bertha",female,17.0,0.0,0.0,SO/C 14885,10.5000,,S,,,Guernsey
1231,3.0,0,"Strom, Mrs. Wilhelm (Elna Matilda Persson)",female,29.0,1.0,1.0,347054,10.4625,G6,S,,,
1225,3.0,0,"Storey, Mr. Thomas",male,60.5,0.0,0.0,3701,,,S,,261.0,
771,3.0,1,"Devaney, Miss. Margaret Delia",female,19.0,0.0,0.0,330958,7.8792,,Q,C,,"Kilmacowen, Co Sligo, Ireland New York, NY"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
841,3.0,0,"Hagardon, Miss. Kate",female,17.0,0.0,0.0,AQ/3. 30631,7.7333,,Q,,,
152,1.0,1,"Hawksford, Mr. Walter James",male,,0.0,0.0,16988,30.0000,D45,S,3,,"Kingston, Surrey"
821,3.0,0,"Goldsmith, Mr. Frank John",male,33.0,1.0,1.0,363291,20.5250,,S,,,"Strood, Kent, England Detroit, MI"
1031,3.0,0,"Morley, Mr. William",male,34.0,0.0,0.0,364506,8.0500,,S,,,


以下、テストデータを確認するコードです。

In [16]:
titanicXy_test

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
268,1.0,0,"Smith, Mr. Lucien Philip",male,24.0,1.0,0.0,13695,60.0000,C31,S,,,"Huntington, WV"
1249,3.0,0,"Tobin, Mr. Roger",male,,0.0,0.0,383121,7.7500,F38,Q,,,
262,1.0,0,"Silvey, Mr. William Baird",male,50.0,1.0,0.0,13507,55.9000,E44,S,,,"Duluth, MN"
365,2.0,0,"Carter, Mrs. Ernest Courtenay (Lilian Hughes)",female,44.0,1.0,0.0,244252,26.0000,,S,,,London
567,2.0,0,"Stokes, Mr. Philip Joseph",male,25.0,0.0,0.0,F.C.C. 13540,10.5000,,S,,81.0,"Catford, Kent / Detroit, MI"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
833,3.0,0,"Green, Mr. George Henry",male,51.0,0.0,0.0,21440,8.0500,,S,,,"Dorking, Surrey, England"
939,3.0,0,"Klasen, Mrs. (Hulda Kristina Eugenia Lofqvist)",female,36.0,0.0,2.0,350405,12.1833,,S,,,
535,2.0,0,"Phillips, Mr. Escott Robert",male,43.0,0.0,1.0,S.O./P.P. 2,21.0000,,S,,,"Ilfracombe, Devon"
383,2.0,0,"Cotterill, Mr. Henry 'Harry'",male,21.0,0.0,0.0,29107,11.5000,,S,,,"Penzance, Cornwall / Akron, OH"


    データセット「titanicXy」がどのようなデータなのか、以下の3つの手段を通じて見ていきます。
    ・Pandas-Profiling
    ・D-Tale
    ・Sweetviz

    さらに、データセット「titanicXy_train」（学習データ）とデータセット「titanicXy_test」（テストデータ）がどのようなデータなのか、以下の手段を通じて比較しながら見ていきます。
    ・Sweetviz

## タイタニックのデータをPandas-Profiling
    データセット「titanicXy」をPandas-Profilingを使い、どのようなデータなのか確認します。

    以下、コードです。

In [17]:
# profile_titanic = ProfileReport(titanicXy, explorative=True)
# profile_titanic.to_file("profile_titanic.html")
# profile_titanic

    基本、Jupyter Notebook などに実行結果が埋め込まれますが、生成されたHTMLから実行結果を見ることもできます。

### タイタニックのデータをD-Tale
    データセット「titanicXy」をD-Taleを使い、どのようなデータなのか確認します。

    以下、コードです。

In [18]:
dtale.show(titanicXy)





http://37c42fbe4208:40000/dtale/main/2

    D-Taleは、自動というかD-Taleを使いEDAを実施する感じになります。

## タイタニックのデータをSweetviz
    データセット「titanicXy」をSweetvizを使い、どのようなデータなのか確認します。

    以下、コードです。

In [19]:
sweet_titanic = sv.analyze(titanicXy)
sweet_titanic.show_html("sweet_titanic.html")

                                             |          | [  0%]   00:00 -> (? left)

Report sweet_titanic.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## タイタニックの学習データとテストデータをSweetvizで比較
    Sweetvizを使い、データセット「titanicXy_train」（学習データ）とデータセット「titanicXy_test」（テストデータ）がどのようなデータなのか確認します。

    以下、コードです。

In [20]:
sweet_titanic_compare = sv.compare([titanicXy_train, "Train"], [titanicXy_test, "Test"])
sweet_titanic_compare.show_html("sweet_titanic_compare.html")

                                             |          | [  0%]   00:00 -> (? left)

Report sweet_titanic_compare.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## まとめ
    今回は、「データセット手にしたら、Pythonでサクッと自動EDA（探索的データ分析）をしよう」というお話しをしました。

    以下の3つのライブラリーを利用すると、サクッとEDA（探索的データ分析）を実施することができます。
    ・Pandas-Profiling
    ・D-Tale
    ・Sweetviz
    
    興味のある方は、試してみてください。