<a href="https://colab.research.google.com/github/ykitaguchi77/Streamlit_Colab_Tutorial/blob/main/section_2/01_pandas_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandasの基礎
PandasはPythonでデータ分析を行うためのライブラリで、データの読み込みや編集、統計量の表示などを簡単に行うことができます。  
主要なコードはCythonまたはC言語で書かれており、高速に動作します。  

## ●Pandasの導入

Pandasを使うためには、Pandasのモジュールをインポートする必要があります。  
NumPyもインポートしておきます。

In [2]:
import pandas as pd
import numpy as np

In [None]:
# 練習用


Pandasのデータ構造にはSeries（一次元）とDataFrame（二次元）があります。  

## ●Seriesの作成  
Seriesはラベル付きの一次元の配列で、整数や小数、文字列など様々な型のデータを格納することができます。  
以下は、リストからSeriesを作る例です。  
ラベルは`index`で指定します。

In [3]:
a = pd.Series([60, 80, 70, 50, 30], index=["Japanese", "English", "Math", "Science", "History"])
print(type(a))
print(a)

<class 'pandas.core.series.Series'>
Japanese    60
English     80
Math        70
Science     50
History     30
dtype: int64


In [None]:
# 練習用


上記ではリストとしてデータとラベルを渡していますが、NumPyの配列を使っても構いません。

In [4]:
a = pd.Series(np.array([60, 80, 70, 50, 30]), index=np.array(["Japanese", "English", "Math", "Science", "History"]))
print(type(a))
print(a)

<class 'pandas.core.series.Series'>
Japanese    60
English     80
Math        70
Science     50
History     30
dtype: int64


In [None]:
# 練習用


Seriesは、辞書から作ることもできます。

In [5]:
a = pd.Series({"Japanese":60, "English":80, "Math":70, "Science":50, "History":30})
print(type(a))
print(a)

<class 'pandas.core.series.Series'>
Japanese    60
English     80
Math        70
Science     50
History     30
dtype: int64


In [None]:
# 練習用


## ●Seriesの操作  
インデックスやラベルを使って、Seriesのデータの操作を行うことができます。  
以下は、データにアクセスする例です。

In [6]:
a = pd.Series([60, 80, 70, 50, 30], index=["Japanese", "English", "Math", "Science", "History"])
print(a[2])  # インデックスを指定
print(a["Math"])  # ラベルを指定

70
70


In [None]:
# 練習用


`append`を使ってデータを追加することができます。

In [8]:
a = pd.Series([60, 80, 70, 50, 30], index=["Japanese", "English", "Math", "Science", "History"])
b = pd.Series([20], index=["Art"])
a = a.append(b)
print(a)

Japanese    60
English     80
Math        70
Science     50
History     30
Art         20
dtype: int64


In [None]:
# 練習用


その他、データの変更や削除、Series同士の結合なども可能です。  
詳細については、公式ドキュメントなどを参考にしましょう。  
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

## ●DataFrameの作成
DataFrameはラベル付きの二次元の配列で、整数や少数、文字列など様々な型のデータを格納することができます。  
以下は、二次元のリストからDataFrameを作る例です。  

In [9]:
a = pd.DataFrame([[80, 60, 70, True],
                  [90, 80, 70, True],
                  [70, 60, 75, True],
                  [40, 60, 50, False],
                  [20, 30, 40, False],
                  [50, 20, 10, False]])
a  # ノートブックではprintを使わなくても表示が可能

Unnamed: 0,0,1,2,3
0,80,60,70,True
1,90,80,70,True
2,70,60,75,True
3,40,60,50,False
4,20,30,40,False
5,50,20,10,False


In [None]:
# 練習用


DataFrameはSeriesや辞書、NumPyの配列から作ることも可能です。  
行と列には、ラベルをつけることができます。


In [10]:
a.index = ["Taro", "Hanako", "Jiro", "Sachiko", "Saburo", "Yoko"]
a.columns = ["Japanese", "English", "Math", "Result"]
a

Unnamed: 0,Japanese,English,Math,Result
Taro,80,60,70,True
Hanako,90,80,70,True
Jiro,70,60,75,True
Sachiko,40,60,50,False
Saburo,20,30,40,False
Yoko,50,20,10,False


In [None]:
# 練習用


## ●データの特徴

`shape`により、データの行数、列数を取得できます。  

In [11]:
a.shape  # 行数、列数

(6, 4)

In [None]:
# 練習用


最初の5行を表示する際は、`head()`を、最後の5行のみを表示する際は`tail()`を使います。  
特に行数が多い場合に、データの概要を把握するのに便利です。  

In [12]:
a.head()  # 最初の5行

Unnamed: 0,Japanese,English,Math,Result
Taro,80,60,70,True
Hanako,90,80,70,True
Jiro,70,60,75,True
Sachiko,40,60,50,False
Saburo,20,30,40,False


In [None]:
# 練習用


In [13]:
a.tail()  # 最後の5行

Unnamed: 0,Japanese,English,Math,Result
Hanako,90,80,70,True
Jiro,70,60,75,True
Sachiko,40,60,50,False
Saburo,20,30,40,False
Yoko,50,20,10,False


In [None]:
# 練習用


　基本的な統計量は、`describe()`で一度に表示することができます。

In [14]:
a.describe()  # 基本的な統計量

Unnamed: 0,Japanese,English,Math
count,6.0,6.0,6.0
mean,58.333333,51.666667,52.5
std,26.394444,22.28602,24.849547
min,20.0,20.0,10.0
25%,42.5,37.5,42.5
50%,60.0,60.0,60.0
75%,77.5,60.0,70.0
max,90.0,80.0,75.0


In [None]:
# 練習用


これらの値は、`mean()`や`max()`などのメソッドで個別に取得することもできます。

## ●DataFrameの操作  
インデックスやラベルを使って、DataFrameのデータの操作を行うことができます。  
以下のコードでは、`loc()`メソッドを使って範囲を指定し、Seriesデータを取り出しています。

In [15]:
tr = a.loc["Taro", :]  # 一行取り出す
print(type(tr))
tr

<class 'pandas.core.series.Series'>


Japanese      80
English       60
Math          70
Result      True
Name: Taro, dtype: object

In [None]:
# 練習用


取り出した行の型がSeriesになっていることが確認できますね。  
同様にして、DataFrameから列を取り出すこともできます。

In [16]:
ma = a.loc[:, "English"]  # 一列取り出す
print(type(ma))
ma

<class 'pandas.core.series.Series'>


Taro       60
Hanako     80
Jiro       60
Sachiko    60
Saburo     30
Yoko       20
Name: English, dtype: int64

In [None]:
# 練習用


こちらもSeries型ですね。  
`iloc`を使えばインデックスにより範囲を指定することも可能です。

In [17]:
r = a.iloc[1:4, :2]  # 行:1-3、列:0-1
print(type(r))
r

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Japanese,English
Hanako,90,80
Jiro,70,60
Sachiko,40,60


In [None]:
# 練習用


`loc()`メソッドにより、行を追加することができます。

In [18]:
a.loc["Shiro"] = pd.Series([70, 80, 70, True], index=["Japanese", "English", "Math", "Result"], name="Shiro")  # Seriesを行として追加
a

Unnamed: 0,Japanese,English,Math,Result
Taro,80,60,70,True
Hanako,90,80,70,True
Jiro,70,60,75,True
Sachiko,40,60,50,False
Saburo,20,30,40,False
Yoko,50,20,10,False
Shiro,70,80,70,True


In [None]:
# 練習用


列のラベルを指定し、列を追加することができます。

In [19]:
a["Science"] = [80, 70, 60, 50, 60, 40, 80]  # 列をリストとして追加
a

Unnamed: 0,Japanese,English,Math,Result,Science
Taro,80,60,70,True,80
Hanako,90,80,70,True,70
Jiro,70,60,75,True,60
Sachiko,40,60,50,False,50
Saburo,20,30,40,False,60
Yoko,50,20,10,False,40
Shiro,70,80,70,True,80


In [None]:
# 練習用


`sort_values`メソッドにより、DataFrameをソートすることができます。

In [20]:
a.sort_values(by="Math",ascending=False)

Unnamed: 0,Japanese,English,Math,Result,Science
Jiro,70,60,75,True,60
Taro,80,60,70,True,80
Hanako,90,80,70,True,70
Shiro,70,80,70,True,80
Sachiko,40,60,50,False,50
Saburo,20,30,40,False,60
Yoko,50,20,10,False,40


In [None]:
# 練習用


他にも、DataFrameにはデータの削除や変更、DataFrame同士の結合など様々な機能があります。  
もちろん、条件を詳しく絞ってデータを抽出することも可能です。  
さらに詳しく知りたい方は、公式ドキュメントなどを参考にしましょう。  
https://pandas.pydata.org/pandas-docs/stable/index.html