<a href="https://colab.research.google.com/github/SU-sumico/edsj/blob/main/3a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

###### Pandasの基礎1/Pandas basics 1
* Pandasは、Pythonでのデータ分析ライブラリとして最も活⽤されているライブラリのひとつです。
* PandasはNumpyを基盤に、シリーズ（Series）とデータフレーム（DataFrame）というデータ型を提供します。
---
* Pandas is one of the most popular data analysis libraries in Python.
* Pandas is based on Numpy and provides data types called Series and DataFrames.

* Pandasを利用するには、まず次のようにインポートを行います。
* To use Pandas, first import as follows

In [None]:
# Pandasライブラリを、pdという別名で使用できるように宣言する/Declare the Pandas library to be available under the alias pd
import pandas as pd

######pandas.Series/pandas.Series
* ここまで、Python標準のリスト型（list）と、NumPyライブラリのndarrayを扱いましたが、Pandasライブラリにも同様の機能を有するシリーズ（Series）というデータ型があります。
* So far we have dealt with the standard Python list type (list) and the NumPy library's ndarray, but the Pandas library also has a data type called series that has similar functionality.

In [None]:
srs = pd.Series([10, 20, 30, 40, 50])
srs

0    10
1    20
2    30
3    40
4    50
dtype: int64

######共通点/common feature

In [None]:
# list/ndarrayとの共通点: 指定して任意の要素を取り出せる/Common to list/ndarray: any element can be retrieved by specifying it
# ilocはindexを指定することで特定の値を抽出できます/iloc can extract specific values by specifying an index
# df.iloc[行, 列]/df.iloc[row, column]
srs.iloc[3]

40

In [None]:
# list/ndarrayとの共通点: スライシングが使える/Similarities with list/ndarray: Slicing can be used.
srs.iloc[ 1 : 3 ]

1    20
2    30
dtype: int64

######相違点/point of difference

In [None]:
# list/arrayと相違点: indexを指定できる/Differences from list/array: index can be specified
srs = pd.Series([10, 20, 30, 40, 50], index=["one", "two", "three", "four",
"five"])
srs

one      10
two      20
three    30
four     40
five     50
dtype: int64

In [None]:
# list/ndarrayと相違点: np.arrayよりも便利な機能（メソッド）が充実している/Differences from list/ndarray: more useful functions (methods) than np.array
# 要約統計量を出力する/Output summary statistics
srs.describe()

count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
dtype: float64

######pandas.DataFrame/pandas.DataFrame
* Pandasライブラリで最も使われるデータ型にデータフレーム（DataFrame）があります。
* Seriesは1次元のデータしか扱えませんが、DataFrameは行列のような多次元のデータも扱えます。
---
* The most used data type in the Pandas library is the data frame (DataFrame).
* While Series can handle only one-dimensional data, DataFrame can handle multi-dimensional data such as matrices.

###### DataFrameの生成/Generating DataFrame
* まずはサンプルデータを含んだ、DataFrameを生成してみます。
* First, let's generate a DataFrame containing the sample data.

In [None]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


#####indexとcolumnの指定/Specify index and column
* DataFrameはインデックス（index）やカラム（column）を指定することにより、Excelのシートのようにデータを扱うことができます。
* DataFrame can handle data like an Excel sheet by specifying an index (index) and column (column).

In [None]:
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index=["a", "b", "c"], columns=["A",
"B", "C"])
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


######indexとcolumn名の変更/Change index and column names
* pandas.DataFrame.renameを使うことで、行や列の名前を変更することが出来ます。
* You can rename rows and columns by using pandas.DataFrame.rename.

In [None]:
df.rename(columns={"A":"a"},index={"a":"A"})

Unnamed: 0,a,B,C
A,1,2,3
b,4,5,6
c,7,8,9


* 注釈: renameは、その場限りのもので、もう⼀度、dfの中身を表示すると、更新されてません。
* Note: rename is a temporary operation; if you view the contents of the df again, it will not be updated.

In [None]:
# 変更が反映されておらず、元に戻っている/Changes are not reflected and are reverted.
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


* それを解決するには、主に2つの方法があります。
* There are two main ways to solve it.

In [None]:
# inplaceオプションををtrueにする/Set the inplace option to true
df.rename(columns={"A": "a"},index={"a": "A"}, inplace=True)
df

Unnamed: 0,a,B,C
A,1,2,3
b,4,5,6
c,7,8,9


In [None]:
# イコール( = )で新しい内容を同じdfに代入する/Assign new content to the same df with equal ( = )
df = df.rename(columns={"C": "c"},index={"c": "C"} )
df

Unnamed: 0,a,B,c
A,1,2,3
b,4,5,6
C,7,8,9


######データの消去/Erase data
* pandas.Series.dropは、列と行の削除を行うことが出来ます。
* デフォルトでは、行の削除(axis=0)を指定しています。
---
* pandas.Series.drop can delete columns and rows.
* The default is to delete rows (axis=0).

In [None]:
df.drop('C')
df

Unnamed: 0,a,B,c
A,1,2,3
b,4,5,6
C,7,8,9


* 注釈: C行が削除されていません。
* inplace=Trueオプションを付ける必要があります。
---
* Remarks: The C line has not been removed.
* The option inplace=True must be added.

In [None]:
# inplaceオプションで削除を反映させる/The inplace option reflects the deletion.
df.drop('C' , inplace=True)
df

Unnamed: 0,a,B,c
A,1,2,3
b,4,5,6


In [None]:
# axis=1を指定することで、列を削除することが出来る。/A column can be deleted by specifying axis=1.
df.drop('c', axis=1, inplace=True)
df

Unnamed: 0,a,B
A,1,2
b,4,5


######データの取得
* pd.DataFrame.locとpd.DataFrame.ilocを使うことで、DataFrameの指定した行や指定した列を取得することができます。
* pd.DataFrame.loc and pd.DataFrame.iloc can be used to retrieve a given row or column of a DataFrame.

In [None]:
# データフレームを再度作成する/Re-create the data frame
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index=["a", "b", "c"], columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


* loc は 行、列をラベルで指定します。
* iloc は 行、列を番号で指定します。
---
* loc specifies rows and columns with labels
* iloc specifies rows and columns by number

In [None]:
# b行のデータを取得/Get data in row b
df.loc["b"]

A    4
B    5
C    6
Name: b, dtype: int64

In [None]:
# C列のデータを取得/Get data in column C
df.loc[ : , "C"]

a    3
b    6
c    9
Name: C, dtype: int64

In [None]:
# 0,1行目のデータを取得/Get data of rows 0,1
df.iloc[ [0, 1] ]

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [None]:
# 1列目のデータを取得/Get the data of the first column
df.iloc[ : , [1]]

Unnamed: 0,B
a,2
b,5
c,8


######データの表示/Data display
* Dataframeにはheadとtailというメソッドが用意されています。
* headは先頭から指定した数の行データを表示します。
* tailは末尾から指定した数の行データを表示します。
---
* Dataframe provides two methods: head and tail.
* head displays the specified number of rows of data from the beginning.
* tail displays the specified number of rows from the tail.

In [None]:
# head
df.head(2)

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [None]:
# tail
df.tail(2)

Unnamed: 0,A,B,C
b,4,5,6
c,7,8,9


#####条件に応じた行の抽出/Extract rows according to conditions
* Dataframeにはqueryというメソッドが用意されています。
* 文字列で条件を指定することで、条件を満たした行だけを取り出すことができます。
---
* Dataframe provides a method called query.
* By specifying a condition with a string, only rows that satisfy the condition can be retrieved.

In [None]:
# データフレームの中身を確認/Check the contents of the data frame
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [None]:
# B列が5の行を抽出/Extract rows where column B is 5
df.query('B == 5')

Unnamed: 0,A,B,C
b,4,5,6


In [None]:
# B列が5以上の行を抽出/Extract rows with column B greater than 5
df.query('B >= 5')

Unnamed: 0,A,B,C
b,4,5,6
c,7,8,9


In [None]:
# B列が5以上で、かつC列が7以上の行を抽出/Extract rows where column B is greater than or equal to 5 and column C is greater than or equal to 7
df.query('B >= 5 & C >=7')

Unnamed: 0,A,B,C
c,7,8,9


In [None]:
# A列が1、またはC列が9の行を抽出/Extract rows where column A is 1 or column C is 9
df.query('A == 1 | C ==9')

Unnamed: 0,A,B,C
a,1,2,3
c,7,8,9


#####Pythonの基本文法（選択・繰り返し・関数）/Basic Python grammar (selection, repetition, functions)
######Pythonでのifやforの述法
---
#####Basic Python grammar (selection, repetition, functions)
#####if and for predicates in Python

######選択（if文）/Selection (if statement)
if 条件:

   実行したい文
* ifの中の行は、必ずインデント（字下げ）が必要です。
* インテントは半角スペース4個が推奨されていますが、任意の個数やTabでも正しく動きます。
---
if Condition:

   The statement you want to execute
* Lines within if must be indented.
* Four single-byte spaces are recommended for the intent, but any number of spaces or Tab will work.

In [None]:
lang = "python"
if lang == "python":
    # インデントされた部分がifの中身として認識される/Indented parts are recognized as if contents.
    print("I love Python!")
    print("I love Programming!")

I love Python!
I love Programming!


#####else文の使い方/How to use the "else" statement
* else文は、if文の条件を満たさなかった場合に実行したい文を書くことができます。
* The else statement allows you to write the statement you want to execute if the condition of the if statement is not met.

In [None]:
lang = "ruby" #laung が "ruby"になったため、条件を満たしていない/Laung is "ruby" and does not meet the condition.
if lang == "python":
    print("I love python!")
else:
    print("I love other language!")

I love other language!


#####繰り返し(for文)/Repetition (for statement)
* 同じ処理を繰り返したい場合は、for文を使用します。
* If you want to repeat the same process, use a "for" statement.

* for 変数 in リスト型：
 
  繰り返したいしたい文 ※ifと同様に、for中の行は、必ずインデント（字下げ）が必要です。
* for variable in list type:
 
  The statement you want to repeat * As with if, the line in for must be indented.

In [None]:
# xを0から4まで増分させながら繰り返す/Repeat while incrementing x from 0 to 4
for x in [0, 1, 2, 3, 4]:
    print(x)

0
1
2
3
4


* 上記のような繰り返し条件の指定では、例えば0から100までの値を実行したいような場合に、リスト型で100まで定義するのは現実的ではありません。そのような際に使うのがrangeです。rangeの使い方は以下の通りです。
* In the above example of specifying a repeating condition, it is not realistic to define up to 100 values in a list type when, for example, you want to execute values from 0 to 100. In such a case, range is used.

In [None]:
# xを0から4まで増分させながら繰り返す/Repeat while incrementing x from 0 to 4
for x in range(5):
    print(x)

0
1
2
3
4


In [None]:
# xを2から4まで増分させながら繰り返す/Repeat with increments of x from 2 to 4
for x in range(2, 5):
    print(x)

2
3
4


In [None]:
# xを0から9まで2ずつ増分させながら繰り返す/Repeat while incrementing x by 2 from 0 to 9
for x in range(0, 9, 2):
    print(x)

0
2
4
6
8


######参考︓for文とDataFrame/Reference︓for statement and DataFrame
* for文で、DataFrameから1行ずつ行を取り出し、その1行に対して何か処理を行う。
* With a "for" statement, retrieve one row at a time from the DataFrame and perform some processing on that one row.

In [None]:
# データフレームを作成する/Create a data frame
# サンプルデータ︓気温(℃)とアイスクリームの売上(個)の関係/Sample data ︓ Relationship between temperature (°C) and ice cream sales (units)
df = pd.DataFrame([ [10,20],[15,30],[15,40],[25,70],[30,100] ], columns=["temperature","sales"])
df

Unnamed: 0,temperature,sales
0,10,20
1,15,30
2,15,40
3,25,70
4,30,100


In [None]:
# データフレームから一行ずつ取り出す/Retrieve row by row from the data frame
for index,row in df.iterrows():
    temp = row['temperature']
    sale = row['sales']
    print( temp )
    print( sale )

10
20
15
30
15
40
25
70
30
100


* '気温が{}℃の日は、アイスクリームの売上は{}個でした'

In [None]:
# おまけ︓上記のprintをformatメソッドで見やすくする/In addition ︓ make the above print easier to read with the format method.
for index,row in df.iterrows():
    temp = row['temperature']
    sale = row['sales']
    print( 'On a day when the temperature was {}°C, ice cream sales were {}'.format( temp , sale
) )

On a day when the temperature was 10°C, ice cream sales were 20
On a day when the temperature was 15°C, ice cream sales were 30
On a day when the temperature was 15°C, ice cream sales were 40
On a day when the temperature was 25°C, ice cream sales were 70
On a day when the temperature was 30°C, ice cream sales were 100


######関数の定義（def）/Function definition (def)
* Pythonでは、関数は「def文」を使って定義します。
* In Python, functions are defined using "def statements".

Pythonでの関数の定義の⽅法は以下の通りです。

def 関数名(仮引数):

  実行したい文1

  実行したい文2

  実行したい文3

  return出力したい値
  ---
The way to define a function in Python is as follows

def function name (temporary argument):

  Statement 1 to execute

  Statement 2 to execute

  statement 3 you want to execute

  return the value you want to output

In [None]:
# x * y を 計算する関数を定義する（関数名:calc）/Define a function to calculate x * y (function name: calc)
def calc( x , y ):
    result = x * y
    return result

**注釈:**上記のセルでは、関数を定義しただけですので、実行しても何も出力されません。関数を動作させるには、この関数に対して、xとyの値を渡して実行する必要があります。

**NOTES:** In the above cell, you have just defined a function, so executing it will not output anything. For the function to work, you must pass x and y values to this function and execute it.

In [None]:
# 関数calcを実行する（引数は4と5）/Execute function calc (arguments are 4 and 5)
calc(4,5)

20

* 関数からの出力（これを戻り値と呼びます。関数の最後でreturn文により指定された値です）は、変数に格納することもできます。
* The output from a function (this is called the return value. The value specified by the return statement at the end of the function) can also be stored in a variable.

In [None]:
# 戻り値を変数（multiplication1と2）に代入する/Assign the return value to variables (multiplication1 and 2)
multiplication1 = calc(5,5)
multiplication2 = calc(10,10)
print( multiplication1 + multiplication2 )

125
