<a href="https://colab.research.google.com/github/zum-m/DEC-all-issues/blob/main/analytics_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 0.データの取り込み


In [1]:
# ライブラリをインポート
import os
import pandas as pd
from pandas import DataFrame
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline


## 0-0.inportの説明



```
# import os

```


これはOSライブラリをインポートするコマンドです。
OSライブラリによってOSに依存しているさまざまな機能を利用できます。
主にファイルやディレクトリ操作が可能で、ファイルの一覧やpathを取得できたり、新規にファイル・ディレクトリを作成できます。
後ほど説明しますが、取り込む対象であるデータセットの保存先ファイルのパスを指定する際に、OSライブラリを活用します。


```
# import pandas as pd

```

これはPandasライブラリをインポートするコマンドです。
Pandasを使うと、データの読み込みや欠損値の補完、正規化、統計量の表示、グラフ化といったデータ分析に関する作業を簡単に行うことができるようになります。
またas pdはインポートしたPandasをpdと名付ける命令文です。これによってPandasのメソッドを利用する際にpandas.メソッド名とタイピングが必要なところをpd.メソッド名とタイピングするだけでOKとなります。



```
# from pandas import DataFrame

```

これはPandasライブラリの中でも使用頻度が高いDataFrameライブラリを個別でインポートしています。これによってDataFrameのメソッドを利用する際にpd.DataFrameとタイピングが必要なところをDataFrameとタイピングするだけでOKとなります。


```
# import numpy as np
```
これはNumpyライブラリをインポートするコマンドです。データ分析の計算は複雑だったり、データ数が大きいので大きな負荷がかかってしまいます。Numpyを使うとその計算が高速になったり、より簡単なコマンドで計算処理を実行できます。


```
# import matplotlib.pyplot as plt
```
これはMatplotlibライブラリの中のpyplotをインポートしています。Pyplotによってグラフを作るための様々なメソッドが利用できます。


```
# import seaborn as sns
```
これはSeabornライブラリをインポートするコマンドです。Seabornはグラフを作るためのライブラリです。matplotlibで作れるグラフを更にかっこよくしてくれる機能もあります。matplotlibはカスタマイズ性が高く、Seabornは手軽に作成できるというそれぞれのメリットがあります。


```
# %matplotlib inline
```
MatplotlibやSeabornでグラフを作成する時、通常ですと画像ファイルが指定したフォルダに保管されます。%matplotlib inlineを実行することで、Google Colaboratory内に表示されます。
（このコマンドだけライブラリのインポートの処理ではありません。）

これらのライブラリは機能が非常に多いです。すべて理解するのは難しく、最初はそういうものがあるんだなぁという程度の理解度で構いません。



## 1-1データセットの取得

In [None]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


### データセットの説明

[Kickstarter Projects](https://www.kaggle.com/kemical/kickstarter-projects)より

**コンテクスト** 

私はクラウドファンディングの愛好家で、初期の頃からキックスターターを見ていました。今はただデータを集めているだけで、作ったアプリはプロジェクトがマイルストーンに到達したときにツイートするツイッターボットだけです。@bloomwatcher です。他にもたくさんのアイデアがありますが、残念ながら開発するには時間が足りません...でも、あなたならできるはずです 

**コンテンツ** 

プロジェクトの分析に最も役立つデータを見ることができます。コラムの内容は以下の通りです。

 usd_pledged:プレッド数の米ドル換算値（kickstarterで変換されます）。 
 
 usd pledge real: プレッジ欄の米ドル換算値(Fixer.io APIによる換算値) 
 
 usd goal real: 目標欄の米ドルでの換算値(Fixer.io APIからの換算値)


**謝辞**

 データはKickstarterのプラットフォームから収集しています。 米ドルへの換算（usdpledgedreal列とusdgoalreal列）は、tonyplaysguitar氏による「Convert ks pledges to usd」スクリプトから生成されました。

 

素晴らしいインスピレーションプロジェクトを期待しています。
プロジェクトが成功するかどうかをリリース前に予測するモデルがあってもいいのではないでしょうか？）""

## 1-2.パスの指定

In [None]:
os.chdir('/content/drive/Shareddrives/dec_phase03/02_assignment/23_三浦一眞/00mydataset/archive')

## 1-3.データの取り込み

### データの概要と解説

In [None]:
df = pd.read_csv('ks-projects-201801.csv')
df

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,0.0,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,100.0,2421.0,30000.00
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,220.0,45000.00
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.0,failed,1,US,1.0,1.0,5000.00
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.0,canceled,14,US,1283.0,1283.0,19500.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
378656,999976400,ChknTruk Nationwide Charity Drive 2014 (Canceled),Documentary,Film & Video,USD,2014-10-17,50000.0,2014-09-17 02:35:30,25.0,canceled,1,US,25.0,25.0,50000.00
378657,999977640,The Tribe,Narrative Film,Film & Video,USD,2011-07-19,1500.0,2011-06-22 03:35:14,155.0,failed,5,US,155.0,155.0,1500.00
378658,999986353,Walls of Remedy- New lesbian Romantic Comedy f...,Narrative Film,Film & Video,USD,2010-08-16,15000.0,2010-07-01 19:40:30,20.0,failed,1,US,20.0,20.0,15000.00
378659,999987933,BioDefense Education Kit,Technology,Technology,USD,2016-02-13,15000.0,2016-01-13 18:13:53,200.0,failed,6,US,200.0,200.0,15000.00


In [None]:
df.head()


In [None]:
df.describe()


Unnamed: 0,ID,goal,pledged,backers,usd pledged,usd_pledged_real,usd_goal_real
count,378661.0,378661.0,378661.0,378661.0,374864.0,378661.0,378661.0
mean,1074731000.0,49080.79,9682.979,105.617476,7036.729,9058.924,45454.4
std,619086200.0,1183391.0,95636.01,907.185035,78639.75,90973.34,1152950.0
min,5971.0,0.01,0.0,0.0,0.0,0.0,0.01
25%,538263500.0,2000.0,30.0,2.0,16.98,31.0,2000.0
50%,1075276000.0,5200.0,620.0,12.0,394.72,624.33,5500.0
75%,1610149000.0,16000.0,4076.0,56.0,3034.09,4050.0,15500.0
max,2147476000.0,100000000.0,20338990.0,219382.0,20338990.0,20338990.0,166361400.0



**解説**

各列のデータ数や平均、標準偏差、最小値、中央値、最高値とかを見たいときは、上記コマンドを実行

* count：その列のデータ数
* mean：その列の平均値
* std：その列の標準偏差
* min：その列の最小値
* 25%：その列の最小値からカウントして25%番目に小さいデータの値(統計用語では第1四分位数と呼ばれます)
* 50%：その列の最小値からカウントして50%番目に小さいデータの値(統計用語では中央値と呼ばれます)
* 75%：その列の最小値からカウントして75%番目に小さいデータの値(統計用語では第3四分位数と呼ばれます)
* max：その列の最大値

※e+nといったものは、10のn乗を意味しています。例えば3.786610e+05は378661を意味しています。



In [None]:
df.shape



378661行

１５列

の情報になっている


# 1(2-2-1).カラム名を理解する

In [None]:
df.info()

In [None]:
df.head()


## 1-(1~6).テーブル定義情報の確認
※講義の解説に沿って理解をしました。

**前提**

※ちょっと古いデータかも。🟡実際に現在のサイトを見た印象とだいぶ違うかも

**目標**

TEXT参考 項目(列)の意味を理解する


|物理名(カラム名)	|論理名|説明|
|:--|:--|:--|
|ID| 利用者ID?| KICKSTARTER上で管理するための番号|
|name| プロジェクト名| |
|category |	詳細分類　|第2カテゴリー(下記main_categoryで分けられた分類をさらに細分化するためのカテゴリー)|
|main_category|	分類 | 第1カテゴリー|
|currency | 通過種	|募集した通貨の単位|
|deadline| 支援締切	|支援金の公募期間の締切日|
|goal	| 目標金額　|目標公募金額|
|launched | 公開日 | 開始された日時 |
|pledged |　支援金額	|公募された金額|
|state | 達成状況	|プロジェクトの資金調達が目標額に到達したかどうかの成功可否|
|backers|	支援者数|　|
|country|　国	| どの国のプロジェクトか　表記はUS GBなどでカテゴリ|
|usd pledged| ドル変換支援金額(kickstarter)	|KICKSTARTER運営側がドル換算した、公募された金額|
|usd_pledged_real |　ドル変換支援金額(Fixer.io)	| Fixer.io APIを利用してドル換算した、公募された金額|
|usd_goal_real | ドル変換目標金額	|Fixer.io APIを利用してドル換算した、目標公募金額|

---



In [None]:
# 1-2 大きさ確認
df.shape

(378661, 15)

---

In [None]:
# １−3.データ型確認
df.info()
# print("または=======")
# df.dtypes

# 🟡確認した後どうする？？
# コンピュータが勝手に理解する部分の癖を把握。⇨idが計算可能なintになってないか？など
# objectは（１−４.６へ進む）カテゴリ軽データとして、ユニーク値を確認

---


In [None]:
# １−４,6　個数を集計　　objectを確認
# 🟡 何のために？？ ４と６の違いは？？

df['name'].value_counts()

KeyError: ignored

In [None]:
# df['category'].value_counts()

In [None]:
# df['main_category'].value_counts()

In [None]:
# df['currency'].value_counts()

In [None]:
df['deadline'].value_counts()

NameError: ignored

In [None]:
# df['launched'].value_counts()

In [None]:
# df['state'].value_counts()

In [None]:
df['country'].value_counts()

**わかったこと**

**1nameについて**

> 🟦375764/378661とほぼ一意のnameとなっている。🟡名前がダブっているのはどんなものなのか？🟡objectからstrに変えるべき？

2.**category**

> 🟦lengthが１５９。🟡main_categoryからの階層があるかタチにはできないか？

３.**main_category**

> 🟦１５個にカテゴライズされている

4.**currency**

> 🟦１５個にカテゴライズ

5.**deadline**

> 🟦length3164　日付までのデータ🟦期限の設定の上位３つが8月。タイミングからの推測できそう。なんのタイミングか？１、成功しやすいタイミング２、期限の設定が重なりやすい時期、盛り上がるタイミング？
※kickstarter本来の仕様の可能性あり？

7.**launched**
>🟦378089 デッドラインに比べ始める時期はバラバラ？

9.**state**    

|cate|int|
|:--|:--|
|failed |       197719|
|successful|    133956|
|canceled   |    38779|
|undefined   |    3562|
|live         |   2799|
|suspended     |  1846|

> キャンセル多い　　　undefinedとは？ 　　停止中もある。その理由にストーリーはあるか？

11.**country**
> length23 日本少ないの残念.。というかこれは日本のだけじゃないのか。※ちょっと古いデータかも。🟡実際に現在のサイトを見た印象とだいぶ違うかも

一つ一つ見ていったけどほほかの方法ないか？？一気に情報見れないか？
set_option??


----


In [None]:
# 5 欠損知有無

df.isnull().sum()

ID                     0
name                   4
category               0
main_category          0
currency               0
deadline               0
goal                   0
launched               0
pledged                0
state                  0
backers                0
country                0
usd pledged         3797
usd_pledged_real       0
usd_goal_real          0
dtype: int64


```
nameとuds pledgedで欠損あり。

🟦nameの欠損は４件と少ないため消してもいいかも

nameはobjectで与えられており、いくつか重なっているものがある。これと似たようなものか？

重なっているnameについては、とりあえずあげてみた。って感じで達成には結びついてないストーリーがありそう。

usd pledgedはドル変換を独自でやってるもの。ほとんどがAPIに任せて変換した値は欠損値なし。

独自で変換してるのは３７９７件あるが、これは修正したデータか？
🟡なぜ独自で変換したデータが必要なのか？

```

----

In [None]:
# 6 ユニーク値



## 1-7.テーブル定義情報のアップデート


In [None]:
df.info()

|物理名(カラム名)	|論理名|ユニーク値(カテゴライズ)|データ型|欠損|説明|
|:--|:--|:--|:--|:--|:--|
|ID|利用者ID?||int64||KICKSTARTER上で管理するための番号|
|name|プロジェクト名|len375764|object|4||
|category|詳細分類|len159|object|0|第2カテゴリー(下記main_categoryで分けられた分類をさらに細分化するためのカテゴリー)|
|main_category|分類|len15|object|0|第1カテゴリー|
|currency|通貨種|len15|object|0|募集した通貨の単位|
|deadline|支援締切|len3146|object|0|支援金の公募期間の締切日|
|goal|目標金額　||float64|0|目標公募金額|
|launched|公開日|len378089|object|0|開始された日時 |
|pledged|支援金額||float64|0|公募された金額|
|state|達成状況|'failed','successful','canceled','undefined','live','suspended'	|object|0|プロジェクトの資金調達が目標額に到達したかどうかの成功可否|
|backers|支援者数||int64|0||
|country|国|len23|object|0|どの国のプロジェクトか　表記はUS GBなどでカテゴリ|
|usd pledged|ドル変換支援金額(kickstarter)	||float64|3797|KICKSTARTER運営側がドル換算した、公募された金額|
|usd_pledged_real |ドル変換支援金額(Fixer.io)	||float64|0|[Fixer.io API](https://www.techpit.jp/courses/30/curriculums/31/sections/264/parts/906#:~:text=usd_pledged_real-,Fixer.io%20API,-%E3%82%92%E5%88%A9%E7%94%A8%E3%81%97) を利用してドル換算した、公募された金額|
|usd_goal_real | ドル変換目標金額	||float64|0|[Fixer.io API](https://www.techpit.jp/courses/30/curriculums/31/sections/264/parts/906#:~:text=usd_pledged_real-,Fixer.io%20API,-%E3%82%92%E5%88%A9%E7%94%A8%E3%81%97)を利用してドル換算した、目標公募金額|


# 2章-2 データクレンジング　カラムの名前変更、消去、欠損処理 pit-1-branch

## 2-2-2.不要なカラムを消去する


In [None]:
df.head(3)

Unnamed: 0,name,category,main_category,currency,deadline,launched,state,backers,country,usd_pledged_real,usd_goal_real
0,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,2015-08-11 12:12:28,failed,0,GB,0.0,1533.95
1,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,2017-09-02 04:43:57,failed,15,US,2421.0,30000.0
2,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,2013-01-12 00:20:50,failed,3,US,220.0,45000.0


In [None]:
df.drop(['ID','goal','pledged','usd pledged'],axis=1)

In [None]:
df

Unnamed: 0,name,category,main_category,currency,deadline,launched,state,backers,country,usd_pledged_real,usd_goal_real
0,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,2015-08-11 12:12:28,failed,0,GB,0.0,1533.95
1,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,2017-09-02 04:43:57,failed,15,US,2421.0,30000.00
2,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,2013-01-12 00:20:50,failed,3,US,220.0,45000.00
3,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,2012-03-17 03:24:11,failed,1,US,1.0,5000.00
4,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,2015-07-04 08:35:03,canceled,14,US,1283.0,19500.00
...,...,...,...,...,...,...,...,...,...,...,...
378656,ChknTruk Nationwide Charity Drive 2014 (Canceled),Documentary,Film & Video,USD,2014-10-17,2014-09-17 02:35:30,canceled,1,US,25.0,50000.00
378657,The Tribe,Narrative Film,Film & Video,USD,2011-07-19,2011-06-22 03:35:14,failed,5,US,155.0,1500.00
378658,Walls of Remedy- New lesbian Romantic Comedy f...,Narrative Film,Film & Video,USD,2010-08-16,2010-07-01 19:40:30,failed,1,US,20.0,15000.00
378659,BioDefense Education Kit,Technology,Technology,USD,2016-02-13,2016-01-13 18:13:53,failed,6,US,200.0,15000.00


* axis=とは？
* dropを使ったデータは表示が変わるだけで、データ自体に変更はない。変数に代入したときにdfの中身が変わる。第3引数にinplace=Trueを代入でもdfに再代入されたのと同じく、中身が更新される。




## 2-2-3-.カラム名の変更

**論理名を物理名に置き換え**

In [None]:
df = df.rename(columns = {'name': 'PJ名', 'category': '第2カテゴリー', 'main_category': '第1カテゴリー', 'currency': '通貨', 'deadline': '締切日', 'launched': '開始日', 'state': '成否', 'backers': '支援者数', 'country': '国', 'usd_pledged_real': '支援額', 'usd_goal_real': '目標額'})

In [None]:
df.head(5)

## 2-2-4.欠損データの確認

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 378661 entries, 0 to 378660
Data columns (total 11 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   PJ名      378657 non-null  object 
 1   第2カテゴリー  378661 non-null  object 
 2   第1カテゴリー  378661 non-null  object 
 3   通貨       378661 non-null  object 
 4   締切日      378661 non-null  object 
 5   開始日      378661 non-null  object 
 6   成否       378661 non-null  object 
 7   支援者数     378661 non-null  int64  
 8   国        378661 non-null  object 
 9   支援額      378661 non-null  float64
 10  目標額      378661 non-null  float64
dtypes: float64(2), int64(1), object(8)
memory usage: 31.8+ MB


In [None]:
df.shape

(378661, 11)

全体数がわかる。
もっっと簡易的に欠損値をみたい場合は以下

In [None]:
df.isnull().sum()

PJ名        4
第2カテゴリー    0
第1カテゴリー    0
通貨         0
締切日        0
開始日        0
成否         0
支援者数       0
国          0
支援額        0
目標額        0
dtype: int64

In [None]:
# 妥当性も考慮して、割合で見るなら
1-(df.isnull().sum()/378661)

#### 文法:カラムについて詳しく見る 欠損のみ表示する

In [None]:
df['PJ名'].isnull()
# この中で欠損していることを示すTrueの行のみを表示させたい場合、下記コードを実行します。

In [None]:
df[df['PJ名'].isnull()]

Unnamed: 0,PJ名,第2カテゴリー,第1カテゴリー,通貨,締切日,開始日,成否,支援者数,国,支援額,目標額
166851,,Narrative Film,Film & Video,USD,2012-02-29,2012-01-01 12:35:31,failed,1,US,100.0,200000.0
307234,,Video Games,Games,GBP,2013-01-06,2012-12-19 23:57:48,failed,12,GB,316.05,3224.97
309991,,Product Design,Design,USD,2016-07-18,2016-06-18 05:01:47,suspended,0,US,0.0,2500.0
338931,,Painting,Art,USD,2011-12-05,2011-11-06 23:55:55,failed,5,US,220.0,35000.0




```
🟡ここの考え方わからない
　　　かっこの意味は？それぞれの違いは？

```



## 2-2-5.欠損データをどう処理すべきか考える

現在、PJ名のカラムに欠損値がある
方法としては

1.   補う
2.   消去

判断の基準はについて

*データ分析者本人にゴールまでの道筋が駄ねられている*

**目標、ゴールを明確にすると**

> 「クラウドファンディングでの資金調達成功プロジェクトの特徴、もしくは資金調達失敗プロジェクトの特徴を掴む」


それを踏まえて、

```
df[df['PJ名'].isnull()]
```
でデータの中身を確認した。
名前自体に意味はなく、他のデータが目標に向けては十分使えるものとなっているため
**「補って使うべき」**。


---

```
補足、思ったこと
  あまり関係ないが、PJ名をちゃんと設定していない場合の達成率とかを分析したいなら、補うPJ名を「PJ名がないのはやる気ない？」など仮設をぶっこんどくと想起できていいかも

  そして今は四件しかないため、もっと集めて来るか、PJ名がかぶっているもので分析のできそう。
```




## 2-2-6.欠損部に値を代入

In [None]:
df['PJ名'].fillna('no_name')

# これは中身の変更を反映させられているかの確認ができるだけ。中身の変更はされない。

0                           The Songs of Adelaide & Abullah
1             Greeting From Earth: ZGAC Arts Capsule For ET
2                                            Where is Hank?
3         ToshiCapital Rekordz Needs Help to Complete Album
4         Community Film Project: The Art of Neighborhoo...
                                ...                        
378656    ChknTruk Nationwide Charity Drive 2014 (Canceled)
378657                                            The Tribe
378658    Walls of Remedy- New lesbian Romantic Comedy f...
378659                             BioDefense Education Kit
378660                    Nou Renmen Ayiti!  We Love Haiti!
Name: PJ名, Length: 378661, dtype: object

In [None]:
# 中身を確認
df.loc[[166851, 307234, 309991, 338931]]

Unnamed: 0,PJ名,第2カテゴリー,第1カテゴリー,通貨,締切日,開始日,成否,支援者数,国,支援額,目標額
166851,,Narrative Film,Film & Video,USD,2012-02-29,2012-01-01 12:35:31,failed,1,US,100.0,200000.0
307234,,Video Games,Games,GBP,2013-01-06,2012-12-19 23:57:48,failed,12,GB,316.05,3224.97
309991,,Product Design,Design,USD,2016-07-18,2016-06-18 05:01:47,suspended,0,US,0.0,2500.0
338931,,Painting,Art,USD,2011-12-05,2011-11-06 23:55:55,failed,5,US,220.0,35000.0


In [None]:
# 中身を変更
df['PJ名'] = df['PJ名'].fillna('no_name')

```
`df ＝　 `じゃダメなのか？
fillnaのメソッドの反映の動きがわからない



In [None]:
df.loc[[166851, 307234, 309991, 338931]]

Unnamed: 0,PJ名,第2カテゴリー,第1カテゴリー,通貨,締切日,開始日,成否,支援者数,国,支援額,目標額
166851,no_name,Narrative Film,Film & Video,USD,2012-02-29,2012-01-01 12:35:31,failed,1,US,100.0,200000.0
307234,no_name,Video Games,Games,GBP,2013-01-06,2012-12-19 23:57:48,failed,12,GB,316.05,3224.97
309991,no_name,Product Design,Design,USD,2016-07-18,2016-06-18 05:01:47,suspended,0,US,0.0,2500.0
338931,no_name,Painting,Art,USD,2011-12-05,2011-11-06 23:55:55,failed,5,US,220.0,35000.0


🟡[[]]になってるが、ここの捉え方よくわからん

In [None]:
# 中身の確認
# df.isnullではtrue faulsが帰ってくるだけのため以下で実行
df.isnull().sum()

PJ名        0
第2カテゴリー    0
第1カテゴリー    0
通貨         0
締切日        0
開始日        0
成否         0
支援者数       0
国          0
支援額        0
目標額        0
dtype: int64

# 2-3 データクレンジング 不要データの消去

## 2-3-1 第2カテゴリーカラムのデータクレンジング

In [None]:
df['第2カテゴリー']
# これは重複がある。１対１でデータが出てくる

0                  Poetry
1          Narrative Film
2          Narrative Film
3                   Music
4            Film & Video
               ...       
378656        Documentary
378657     Narrative Film
378658     Narrative Film
378659         Technology
378660    Performance Art
Name: 第2カテゴリー, Length: 378661, dtype: object

#### setメソッド

In [None]:
set(df['第2カテゴリー'])

{'3D Printing',
 'Academic',
 'Accessories',
 'Action',
 'Animals',
 'Animation',
 'Anthologies',
 'Apparel',
 'Apps',
 'Architecture',
 'Art',
 'Art Books',
 'Audio',
 'Bacon',
 'Blues',
 'Calendars',
 'Camera Equipment',
 'Candles',
 'Ceramics',
 "Children's Books",
 'Childrenswear',
 'Chiptune',
 'Civic Design',
 'Classical Music',
 'Comedy',
 'Comic Books',
 'Comics',
 'Community Gardens',
 'Conceptual Art',
 'Cookbooks',
 'Country & Folk',
 'Couture',
 'Crafts',
 'Crochet',
 'DIY',
 'DIY Electronics',
 'Dance',
 'Design',
 'Digital Art',
 'Documentary',
 'Drama',
 'Drinks',
 'Electronic Music',
 'Embroidery',
 'Events',
 'Experimental',
 'Fabrication Tools',
 'Faith',
 'Family',
 'Fantasy',
 "Farmer's Markets",
 'Farms',
 'Fashion',
 'Festivals',
 'Fiction',
 'Film & Video',
 'Fine Art',
 'Flight',
 'Food',
 'Food Trucks',
 'Footwear',
 'Gadgets',
 'Games',
 'Gaming Hardware',
 'Glass',
 'Graphic Design',
 'Graphic Novels',
 'Hardware',
 'Hip-Hop',
 'Horror',
 'Illustration',
 'Im

#### lenメソッド
カラムを配列としてみた時の長さがわかる。

infoとの違いは？

In [None]:
len(set(df['第2カテゴリー']))

159

In [None]:
df

## 2-3-2 第1カテゴリーカラムのデータクレンジング



## 2-3-3 通貨カラムのデータクレンジング
