# 1年情報基礎 - Pythonを使ったデータ解析の概要 -

## Pythonで出来ること
Pythonや、Jupyter Notebookを使えば、様々な計算やデータ解析が容易に行えます。もちろん計算はどんなプログラミング言語でも出来ますが、Pythonは、計算やデータ解析のためのライブラリが豊富に用意されているので、それらのライブラリを使えば、少ない労力でプログラミングやデータ解析が行えます。

また、可視化（グラフなどを作ること）のためのライブラリも多くありますので、Jupyter Notebookを使えば、コードを書きながら、同時にグラフも出力して確認することも出来ます。

まずは、Pythonを使ってどのようなデータ解析ができるようになるのか、**体験**してみましょう。
実際に、どうプログラミングすれば良いかの説明は追って行います。
ここでは、実行して、その結果を確かめておいてください。

## Pythonで出来ること
Pythonや、Jupyter Notebookを使えば、様々な計算やデータ解析が容易に行えます。もちろん計算はどんなプログラミング言語でも出来ますが、Pythonは、計算やデータ解析のためのライブラリが豊富に用意されているので、それらのライブラリを使えば、少ない労力でプログラミングやデータ解析が行えます。

また、可視化（グラフなどを作ること）のためのライブラリも多くありますので、Jupyter Notebookを使えば、コードを書きながら、同時にグラフも出力して確認することも出来ます。

まずは、Pythonを使ってどのようなデータ解析ができるようになるのか、**体験**してみましょう。
実際に、どうプログラミングすれば良いかの説明は追って行います。
ここでは、実行して、その結果を確かめておいてください。

### ライブラリの読み込み
ライブラリとは、プログラミングでよく使われる機能をひとまとめにしたものです。
Pythonには様々ライブラリが用意されています。これらのライブラリをうまく活用することが重要です。  
Pythonを使う際には次のようにライブラリを読み込む命令を書きます。

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
sns.set()
%matplotlib inline

### 表形式のデータの作成
Pythonでデータ解析などを行う際には、表形式のデータを扱うことも出来ます。（DataFrameという形式です）  
ここでは、x,yの二方向にランダムな点が打たれたようなデータを作成しています。


In [None]:
mean, cov = [0, 0], [(9, 4), (4, 3)]
data = np.random.multivariate_normal(mean, cov, 100)
df = pd.DataFrame(data, columns=["x", "y"])
df.head()

このように、作成されたデータ（の一部）が表形式で表示されています。  
次に、このデータを可視化してみましょう。

In [None]:
sns.jointplot(x="x", y="y", data=df)

x,yの2方向にランダムに打たれた点が可視化されました。また、x,yのどの位置にたくさん点が打たれているかを示す分布（ヒストグラム）も表示されています。

### データセットの読み込み
Pythonにはデータ分析の学習などに使うデータセットがライブラリとして提供されています。ここでは、irisと呼ばれるデータセットを使ってみましょう。
irisというのは花のアヤメのことで、アヤメの花の様々な部分の形状を数値化したものです。これをプロットして解析することで、アヤメの種ごとの違いを見いだしたり、新しいアヤメを分類したりすることができます。

In [None]:
iris = sns.load_dataset("iris")
sns.pairplot(iris, hue="species", size=3.0)

細かいことは、ここではわからなくても良いですが、アヤメの品種（青で示されたsetosa、緑で示されたversicolor、赤で示されたvirginica）ごとに、アヤメの花の形状が違うんだな、それを図にしたんだな、と思っておいてもらえれば構いません。