# Pandasの基礎
PandasはPythonでデータ分析を行うためのライブラリで、データの読み込みや編集、統計量の表示などを簡単に行うことができます。  
主要なコードはCythonまたはC言語で書かれており、高速に動作します。  
このため、PandasはPythonによるデータ分析や機械学習でよく使われます。  

## ●Pandasの導入

Pandasを使うためには、Pandasのモジュールをインポートする必要があります。  
NumPyもインポートしておきます。

In [None]:
import pandas as pd
import numpy as np

Pandasのデータ構造にはSeries（一次元）とDataFrame（二次元）があります。  

## ●Seriesの作成  
Seriesはラベル付きの一次元の配列で、整数や少数、文字列など様々な型のデータを格納することができます。  
以下は、リストからSeriesを作る例です。  
ラベルは`index`で指定します。

In [None]:
a = pd.Series([60, 80, 70, 50, 30], index=["Japanese", "English", "Math", "Science", "History"])
print(type(a))
print(a)

上記ではリストとしてデータとラベルを渡していますが、NumPyの配列を使っても構いません。

In [None]:
a = pd.Series(np.array([60, 80, 70, 50, 30]), index=np.array(["Japanese", "English", "Math", "Science", "History"]))
print(type(a))
print(a)

Seriesは、辞書から作ることもできます。

In [None]:
a = pd.Series({"Japanese":60, "English":80, "Math":70, "Science":50, "History":30})
print(type(a))
print(a)

## ●Seriesの操作  
インデックスやラベルを使って、Seriesのデータの操作を行うことができます。  
以下は、データにアクセスする例です。

In [None]:
a = pd.Series([60, 80, 70, 50, 30], index=["Japanese", "English", "Math", "Science", "History"])
print(a[2])  # インデックスを指定
print(a["Math"])  # ラベルを指定

`append`を使ってデータを追加することができます。

In [None]:
a = pd.Series([60, 80, 70, 50, 30], index=["Japanese", "English", "Math", "Science", "History"])
b = pd.Series([20], index=["Art"])
a = pd.concat([a, b])
print(a)

その他、データの変更や削除、Series同士の結合なども可能です。  
詳細については、公式ドキュメントなどを参考にしましょう。  
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

## ●DataFrameの作成
DataFrameはラベル付きの二次元の配列で、整数や少数、文字列など様々な型のデータを格納することができます。  
以下は、二次元のリストからDataFrameを作る例です。  

In [None]:
a = pd.DataFrame([[80, 60, 70, True],
                  [90, 80, 70, True],
                  [70, 60, 75, True],
                  [40, 60, 50, False],
                  [20, 30, 40, False],
                  [50, 20, 10, False]])
a  # ノートブックではprintを使わなくても表示が可能

DataFrameはSeriesや辞書、NumPyの配列から作ることも可能です。  
行と列には、ラベルをつけることができます。


In [None]:
a.index = ["Taro", "Hanako", "Jiro", "Sachiko", "Saburo", "Yoko"]
a.columns = ["Japanese", "English", "Math", "Result"]
a

## ●データの特徴

`shape`により、データの行数、列数を取得できます。  

In [None]:
a.shape  # 行数、列数

最初の5行を表示する際は、`head()`を、最後の5行のみを表示する際は`tail()`を使います。  
特に行数が多い場合に、データの概要を把握するのに便利です。  

In [None]:
a.head()  # 最初の5行

In [None]:
a.tail()  # 最後の5行

　基本的な統計量は、`describe()`で一度に表示することができます。

In [None]:
a.describe()  # 基本的な統計量

これらの値は、`mean()`や`max()`などのメソッドで個別に取得することもできます。

## ●DataFrameの操作  
インデックスやラベルを使って、DataFrameのデータの操作を行うことができます。  
以下のコードでは、`loc()`メソッドを使って範囲を指定し、Seriesデータを取り出しています。

In [None]:
tr = a.loc["Taro", :]  # 一行取り出す
print(type(tr))
tr

取り出した行の型がSeriesになっていることが確認できますね。  
同様にして、DataFrameから列を取り出すこともできます。

In [None]:
ma = a.loc[:, "English"]  # 一列取り出す
print(type(ma))
ma

こちらもSeries型ですね。  
`iloc`を使えばインデックスにより範囲を指定することも可能です。

In [None]:
r = a.iloc[1:4, :2]  # 行:1-3、列:0-1
print(type(r))
r

`loc()`メソッドにより、行を追加することができます。

In [None]:
a.loc["Shiro"] = pd.Series([70, 80, 70, True], index=["Japanese", "English", "Math", "Result"], name="Shiro")  # Seriesを行として追加
a

列のラベルを指定し、列を追加することができます。

In [None]:
a["Science"] = [80, 70, 60, 50, 60, 40, 80]  # 列をリストとして追加
a

`sort_values`メソッドにより、DataFrameをソートすることができます。

In [None]:
a.sort_values(by="Math",ascending=False)

他にも、DataFrameにはデータの削除や変更、DataFrame同士の結合など様々な機能があります。  
もちろん、条件を詳しく絞ってデータを抽出することも可能です。  
さらに詳しく知りたい方は、公式ドキュメントなどを参考にしましょう。  
https://pandas.pydata.org/pandas-docs/stable/index.html