# ライブラリを使う

プログラムを作成するときは、様々なライブラリの機能を借りて目的のプログラムを完成させる。

## ライブラリとは

ライブラリは世界中の人が様々な目的を行うためのプログラムの機能をまとめ、公開している。

Pythonでは、ライブラリが簡単に使えるようにする機能が用意されており、インターネット上から簡単にダウンロードして自分のプログラムの中で利用できる。

## ライブラリのインストール

ライブラリのインストールは、`pip`というコマンドを使ってインストールすることができる。例えば、次のプログラムでは、`folium`というライブラリをインストールしている。

※ Google Colabでは初めからいくつかの有名なライブラリがインストールされており、foliumもインストールされている。そのため、下記のコマンドを実行すると`Requiement already satisfied`という表示が出る。

In [None]:
!pip install folium

インストールした`folium`というライブラリを使うと、地図を表示できる。

In [None]:
import folium

folium.Map(location=[35.681167, 139.767052])

## ライブラリの使い方

それぞれのライブラリは機能を使うための方法が、ドキュメントとしてまとめられている。

例えば、`folium`では、

https://python-visualization.github.io/folium/

にドキュメントがある。

多くのライブラリのドキュメントは、

1.   Installation
2.   Getting started
3.   Reference

という3つの情報が記載されている。

Installationはライブラリのインストール方法で、多くのライブラリは`pip install ***`というコマンドを使ってインストールを行うことができる。一部のライブラリは、これ以外に作業が必要なため、その方法が記載されている。

Getting startedには、ライブラリの最も簡単な使い方が書いてある。ライブラリの基本的な使い方を学ぶには、この部分を参照すると良い。

Referenceには、ライブラリにあるすべての機能について説明されている。各機能は、Pythonのメソッドとして提供されていることが多く、組み合わせて自分が目的とするプログラムを構築する。


どのようなライブラリもPythonの機能をベースに作られているため、基本的なプログラムの書き方はPythonの書き方である。

# 機械学習で使うライブラリ

機械学習を行うときによく用いるライブラリは以下である。

*   numpy
*   Pandas
*   matplotlib
*   seaborn
*   scikit-learn

また、深層学習を行うときに有名なものは次の物である。

*   tensorflow
*   PyTorch

この後の章で、機械学習を行うときに用いる5つのライブラリについて、基礎となる使い方を紹介する。

## ライブラリ同士の関係

ライブラリには、あるライブラリがあるライブラリの機能を使って作られているものがある。これを依存関係という。

例えば、Pandasはnumpyというライブラリの機能を拡張するように作られている。そのため、Pandasからはnumpyの機能にアクセスできたりする。

また、numpyはpandasのほかに、matplotlibやseaborn、scikit-learnを使うときにそれぞれのデータの連携方式として機能しており、機械学習分野におけるライブラリ間の基礎として機能している。

## それぞれの機能

これから、各ライブラリの基礎を学ぶにあたり、概要を紹介する。

### numpy

数値集合である行列を簡単に扱えるようにする機能を提供する。行列演算を高速に行うための工夫が数多くなされている。

様々な機械学習ライブラリのデータ表現として用いられている。

次のプログラムは、numpyを用いて、2つの行列の内積(ドット積)を求めている。

In [None]:
import numpy as np

aaa = np.random.randint(1, 10, (4, 5))
bbb = np.random.randint(1, 10, (5, 4))

np.dot(aaa, bbb)

### Pandas

Pandasはnumpyの機能を拡張し、統計データをより簡単に扱えるようにしたものである。Excelのように表形式のデータを取り扱ったり、観測データ･統計データを扱うときに必要な処理を簡単に行えるように作られている。

次のプログラムは、irisというデータセットをpandasのDataframeという機能で読み込んでいる。irisデータセットには、`sepal length`、`sepal width`、`petal length`、`petal width`という4項目についての観測値が含まれている。`dataframe`に用意されている`mean()`という関数で、各項目の平均値を求めている。

In [None]:
import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

df.mean()

### matplotlib

matplotlibはデータを可視化するためのライブラリである。様々なグラフや図を描くことができ、データを視覚的に理解しやすくなる。

次のプログラムでは、numpyを使って、サイン関数の値の変化について求めた後、matplotlibを使ってそれをグラフにしている。

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np

t = np.arange(0.0, 2.0, 0.01)
s = 1 + np.sin(2 * np.pi * t)

plt.plot(t, s)

### seaborn

seabornはmatplotlibと同様にデータの可視化を行える。matplotlibが一般的な数値データを可視化することができるのに対し、seabornは統計データの処理をよりうまく扱えるようになっている。matplotlbでも作成はできるが手間のかかる視覚化を簡単に行える。

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

iris = sns.load_dataset("iris")
g = sns.PairGrid(iris, hue="species")
g.map_diag(plt.hist)
g.map_offdiag(plt.scatter)
g.add_legend();

### scikit-learn

scikit-learnは様々な機械学習モデルを実際のデータに対して訓練し、訓練したモデルを実際の未知のデータに簡単に適用できるライブラリである。

例えば、次のプログラムでは、線形回帰モデルをデータに学習させ、学習データには含まれないデータがどのような値になるかを予測させている。

In [None]:
from sklearn import linear_model

reg = linear_model.LinearRegression()
reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])

reg.predict([[3.2, 2.8]])