# 第4回 | おすすめのDataFrame作成方法

今回の講義では、Pandas.DataFrame作成でおすすめの方法を紹介していきます。

<br>

というのも、前回の講義でDataFrameの作成方法は3つあると解説しました。それが以下の3つです。

- パターン① : 二次元リストから作成
- パターン② : 辞書から作成
- パターン③ : 辞書を格納したリストから作成

このように作成方法はたくさんあるのですが、**本当に使っていくべきパターンは1つに限定できます。**

もちろん自分の書きやすい方法を確立したり、会社のコードスタイルに合わせたりするのが第一優先です。

<br>

でも、これからPandasを勉強していくなら、学習教材側で決め打ちになっていた方が理解が進みやすくなります。

3つの方法を一気に習得しようとするより、1つの方法だけを「着実に」身につけた方が良いってことですね。

<br>

なので、今回はおすすめのDataFrame作成方法と、その方法を選ぶ理由について紹介していきます。

今回は「APIから取得したデータをDataFrameに変換する」という、実務に近い形式で学べるようになっています。

データ分析職に就きたいと考えているなら、ぜひ学習を進めていきましょう。(もちろんそうでなくても...！)

## ライブラリのインポート

まずは、Pythonライブラリをインポートしていきましょう。

前回使っていた`Pandas`と`Numpy`だけでなく、APIのアクセスで必要な`requests`ライブラリもインポートしていきます。

<br>

そのために、まずは`requests`ライブラリをインストールしていきましょう。

そのためにはターミナルを開いて...、と言いたいところですが、実はJupyterのセルからでもライブラリのインストールが可能です。

Jupyterのセルで`requests`ライブラリをインストールするには、以下のコマンドを実行してあげます。

In [None]:
# requestsライブラリをインストールする


これで`requests`ライブラリのインストールが完了しました。

それでは、このままライブラリをインポートしましょう！

In [None]:
# ライブラリのインポート


これでライブラリのインポートは完了しました。

それでは講義内容に入っていきます！

# Pandas.DataFrame : おすすめの作成方法

Pandas.DataFrameの作成方法は、以下の3つあります。

- パターン① : 二次元リストから作成
- パターン② : 辞書から作成
- パターン③ : 辞書を格納したリストから作成

このうち、おすすめのDataFrame作成方法は「**パターン③ : 辞書を格納したリストから作成**」です。

その理由は、2つほどあります。

- DataFrameの基になるリストを作成するとき、コードを見ただけでどのようなカラムが作成されるのか分かりやすい
- APIで取得したデータをDataFrameに変換するとき、取得したデータをブチ込むだけでDataFrameを作成できる

と理由を書いてみましたが、これだけだと何を言っているのか分かりません。それぞれを詳しく見ていきましょう！

## アクセス先のAPIについて

今回は技術情報がたくさん掲載されている[Qiita(キータ)](https://qiita.com/)のAPIで取得した記事情報を基に、DataFrameを作成してみたいと思います。

»[参考記事 : Qiita API v2ドキュメント - Qiita:Developer](https://qiita.com/api/v2/docs)

*※APIのアクセスは大事なスキルですが、Pandasと関係ないので理解できていなくても大丈夫です！*

<br>

Pythonを使ってAPIやWebサイトにアクセスするには、先ほどインポートしておいた`requests`ライブラリを使ってあげると簡単に実装できます。

Qiitaの記事情報を取得するには、以下のURLにアクセスします。

[https://qiita.com/api/v2/items](https://qiita.com/api/v2/items)

<br>

また、デフォルトではトップ20件の記事を取得するようになっています。

今回はもう少しデータを取得したいので、20件ではなく100件にパラメータ設定して、APIにアクセスしたいと思います。

コードに落とし込むなら、以下のようになります。

In [None]:
# 100件のデータを取得するようにパラメータ設定
params = {
    'per_page': 100
}

# APIにアクセスした結果を変数rに格納する
r = requests.get('https://qiita.com/api/v2/items', params=params)

これでQiita APIへのアクセスが完了しました。

あとは取得したデータを基に、DataFrameを作成していきたいと思います。

## おすすめポイント① : 分かりやすさ

パターン③の方法をおすすめする1つ目の理由が「分かりやすさ」です。

今回はQiita APIで取得した結果から、以下の項目でDataFrameを作成しましょう。

- 記事タイトル
- 記事URL
- 記事の作成日
- 記事に付いているタグ情報

そのためのコードは、以下のようになります。

In [None]:
# DataFrameの基になるリストを作成する

# DataFrameを作成して、変数dfに格納する


これでDataFrameを作成できました。

パターン③の方法だと、このようにリストを作成するコードを見るだけで、どのようなカラムを持ったDataFrameになるのか分かります。

<br>

念のため、いま作成したDataFrameの中身を確認してみましょう。

In [None]:
# DataFrameの中身を確認する


上記の出力結果を確認してみると、リストを作成していたときに見ていたKeyが、DataFrameのカラム名になっていますね！

## おすすめポイント② : APIの取得結果から簡単に作成できる

また、特定の情報からDataFrameを作成するのではなく、取得結果全体を使う場合であれば、より簡潔なコードで済みます。

具体的には、取得結果`r.json()`を`pd.Dataframe()`に突っ込むだけです。

In [None]:
# APIの取得結果を基にDataFrameを作成する


このように、取得結果をそのままDataFrameにしたいと思ったとき、パターン③の方法であればたった1行のコードでDataFrameを作成できます。

中身を確認してみると、しっかりDataFrameを作成できていることが分かりますね。

In [None]:
# DataFrameの中身を確認する


以上2つの理由により、パターン③のDataFrame作成方法をおすすめしています。

ただ分かりやすいだけでなく、データ取得の結果をそのままDataFrameに変換できるメリットもあるので、まずはこの方法をマスターしておけば問題ないと思います。

<br>

僕のYouTubeで紹介している[スクレイピング入門](https://www.youtube.com/playlist?list=PL4Y-mUWLK2t1LehwHVwAqxXTXw5xd-Yq8)でも、この方法でDataFrameを作成しています。

<br>

Pandasの扱いに慣れてきたら、他のDataFrame作成方法も習得して幅を広げていきましょう。

# まとめ

というわけで、今回はおすすめのDataFrame作成方法を紹介しました。

ネット上の記事を見ていると「DataFrameの作成はあまり使われない」と書かれていますが、決してそんなことはありません。

<br>

例えば株/為替のデータ分析をするとき、APIを使って金融データを取得したら、まずは加工しやすいようにDataFrameに落とし込みます。

今回のようにQiitaの記事情報を保存するにしても、DataFrameに落とし込んであげるのが吉です。

このように、DataFrameの作成もちゃんと使っていく文法なので、しっかりおさえておきましょう！

<br>

ただし、企業でおこなうデータ分析などは、CSVやExcelファイルからデータを読み込んだり、データベース/DWHからデータを抽出したりすることが大半です。

そのため、次回の講義ではCSVやExcelを読み込んで、DataFrameに落とし込む方法を紹介します。

<br>

文法としては難しいものではないので、この調子で頑張っていきましょう！


<hr>

また、講義の感想をメンションつけてツイートしていただけると嬉しいです！

Twitter : はやたす([@hayatasuuu](https://twitter.com/hayatasuuu) )