# Basics of Pandas

[参考サイト：Pandas 基礎とよく使う機能メモ](https://qiita.com/ryo111/items/144446bedb9aa75b0acc)　コンパクトにまとまってる。<br>
[参考サイト：pandas 入門 - pandasによるデータ処理の基礎](https://www.yunabe.jp/docs/pandas_basics.html)　説明が丁寧。<br>

In [None]:
# まずはライブラリをインポート / Import the libraries.
import numpy as np
import numpy.random as random
import scipy as sp
from pandas import Series, DataFrame
import pandas as pd

# 可視化ライブラリ / Visualization libraries
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

# 機械学習ライブラリ (念のため)/ Machine learning library (may not be used, but just in case..)
import sklearn

# 小数第3位まで表示 / display up to the 3rd decimal place
%precision 3

## Series @ Pandas
[参考サイト：Pandasの基本的なデータ構造Seriesの基礎と活用方法](https://deepage.net/features/pandas-series.html)

In [None]:
a = pd.Series([1,2,3]) # 配列から生成

# Display a
a

# Please change the values as you like.

In [None]:
array = [1., 2., 3.]
b = pd.Series(array)

# Display b
b

# Please change the values as you like.

In [None]:
# NumPyの１次元配列から生成することもできます。 / You can create an array of Series from Numpy 1 dimensional array.
np_array = np.array([1,2,3])
np_array
c = pd.Series(np_array)

# Display c
c

In [None]:
# You can create an array of Series from dictionary object
dic = {"Tokyo": 100, "Osaka": 250, "Nagoya": 10} # 辞書オブジェクトの生成
d = pd.Series(dic)

# Display d
d

In [None]:
# 値だけを入れることもできます。/ You can simply store values.
e = pd.Series(1) # 1だけを入れる

# Display e
e

In [None]:
# 文字列も格納できます。/ You can store strings.
f = pd.Series(["A", "B", "C"])

# Display f
f

In [None]:
# You can store a mixture of integers, floats, strings.
g = pd.Series(['A', 1, 1.0, None])

# Display f
g

In [None]:
# インデックスの指定 / # You can specify the index.
series = pd.Series([5,4,3,2,1])
series.index # indexの表示 / Display the indices

In [None]:
# You can specify the index with arange function of Numpy.
series_2 = pd.Series([5,4,3,2,1], index=np.arange(5))
print(series_2)
series_2.index

In [None]:
# You can specify the index with strings.
series_3 = pd.Series([5,4,3,2,1], index=['a','b','c','d','e']) # a,b,c,d,eとインデックスをつける
print(series_3)
series_3.index

In [None]:
# You can rename the index.
series_2 = pd.Series([5,4,3,2,1], index=np.arange(5))
print(series_2)
series_2.index
series_2.index = ['a', 'b', 'c', 'd','e']
print(series_2)

In [None]:
# Seriesの要素の中で、特定の要素を指定できます。
# Extract a specific element
series_2 = pd.Series([5,4,3,2,1], index=np.arange(5))

# 1番目の要素を表示 / Display the first element of the array, series_2.
print(series_2[0])

In [None]:
# 3番目の要素を表示してください。 / Please display the third element of the array, series_2.



In [None]:
# コロンを使って、複数個の要素を指定できます。
# Extract multiple specific elements with slice
print(series_2[1:3])

# 3~5行目を表示してください。行番号は０から始まることに注意しましょう。
# Please display the 3-5th elements. Please note that the index number starts from 0.



In [None]:
# series_3 の全要素を表示します。 / Display all of the elements in series_3.
print(series_3)

# インデックス名で要素を指定できます。
# Extract a specific element by an index of a string.


# Specify the element in the row "a"
print(series_3['a'])

# You can simply specify it with ".a" instead of ['a'].
print(series_3.a)

In [None]:
# "d"行の要素をインデックス名で表示してください。
# Please display the element in the row "d" with the index.



In [None]:
series_3[['a','c']] # 複数抜き出す場合はリストにする必要あり

## Seriesの簡単な操作 / Simple operations of Series

In [None]:
# Display series
series

In [None]:
# addition
series + 1

In [None]:
# another Series array is added to the array, series.
series + pd.Series([1,1,2,2,2])

In [None]:
# multiplication of a Series array
series * 3

In [None]:
# you can apply a Series array to functions.
# sum up all of the elements in the array.
series.sum()

In [None]:
# Calculate standard deviation of the elements in the array.
series.std()

### NumPy関数の適用 / You can apply Numpy function to Series.

In [None]:
np.sum(series) # 合計を求める / sum up the elements of the array.

In [None]:
# apply the array to logarithmic function
np.log(series)

In [None]:
# You can add elements as follows.
series = pd.Series([0,0,0,0,0])
print(series)
# number of elements is 5.

series[7] = 10
print(series)
# number of elements became 6.

series['a'] = 11
print(series)
# number of elements became 7.

In [None]:
# You can change the value of a specific element.
series[2] = 10
print(series)

## 時系列データの取り扱い / TimeSeries data with Pandas

In [None]:
data = pd.date_range('2018/05/26', periods=10,freq='D') # 時系列データの作成
# Display the elements of 'data'.
data

In [None]:
date_series = pd.Series(data)
# Display the elements of 'data_series'.
print(date_series)

In [None]:
# dataをインデックスとして指定することも可能 / You can use the elements of a Series array as an index of an Series array, date_series_2.
date_series_2 = pd.Series(np.random.randn(10),index=data) 
print(date_series_2)

# Series配列 date_series_2 のインデックスに、Series配列 data の要素が入っているのが分かるでしょう。
# You will see the series, date_series_2, has indices that are given by a Series array, data.

## DataFrame @ Pandas
[参考サイト：Pandasのデータを格納するオブジェクトDataFrameを理解する](https://deepage.net/features/pandas-dataframe.html)


## DataFrame配列の作り方 / Create a DataFrame array

In [None]:
# Create a 2D array.
twod_array = [[0,1,2],[3,4,5]]
print(twod_array)
# Convert it to DataFrame type
pd.DataFrame(twod_array)

In [None]:
# You can create a DataFrame array as follows.
a = pd.DataFrame([[1,1,1,],[2,1,2],[3,2,3]],index=["one","two","three"], columns=["a","b","c"])
a

## 辞書データからDataFrame配列を作る / Craete a DataFrame array from dictionary data

In [None]:
# Create a dictionary.
dic_arr = {'a':[1,2,3],'b':[4,5,6]}
print(dic_arr)
# Convert it to DataFrame type
pd.DataFrame(dic_arr)

In [None]:
list_arr = {'a': ['Tokyo','Kanagawa','Chiba'],'b':['Saitama','Tochigi','Ibaraki']}
pd.DataFrame(list_arr)

In [None]:
tup_arr = {'a':(1,2,3),'b':(4,5,6)}
pd.DataFrame(tup_arr)

In [None]:
# You can create a DataFrame array from a numpy array.
df = pd.DataFrame(np.arange(100).reshape(20, 5))

In [None]:
# 1次元データを扱うSeriesを辞書形式でつなげてDataFrameを作ることもできます。このとき辞書のキーがカラム名になります。
# You can combine one dimensional array of Series in dictionary type. Then create a DataFrame with column names given from the dictionary keys.
state = pd.Series(["Tokyo", "Osaka", "Aichi", "Hiroshima", "Fukuoka"])
print(state)
population = pd.Series([13515, 8839, 7483, 2844, 5102])
print(population)
num_household = pd.Series([6691, 3918, 3060, 1209, 2197])
print(num_household)

statistic = pd.DataFrame({"state" : state, "population": population,"num_household":num_household })
print(statistic)

## 辞書データをインデックスに入れる / Set the indices from dictionary datat

In [None]:
state_data = pd.DataFrame({"population": population,"num_household":num_household })
state_data.index = state
print(state_data)

## 複数の辞書データからDataFrame配列を作る / You can create a DataFrame array with mutiple dictionary arrays.

In [None]:
# You can create a DataFrame array with mutiple dictionary arrays.
statistic_dict = {"population" : {"Tokyo": 13515, "Osaka": 8839, "Aichi": 7483, "Hiroshima": 2844, "Fukuoka": 5102 },
                  "num_household": {"Osaka":3918, "Aichi":3060,"Tokyo":6691, "Hiroshima":1209,"Fukuoka": 2197}}
statistic_2 = pd.DataFrame(statistic_dict)
print(statistic_2)

<a id="head"></a>

## 最初の5行を表示 / Display the first 5 lines

In [None]:
# Display the first 5 lines
df.head()

<a id="tail"></a>

## 最後の5行を表示 / Display the last 5 lines

In [None]:
# Display the last 5 lines
df.tail()

## 配列の転置 / Transpose an array

In [None]:
# 配列の転置 / Transpose an array
statistic_2t = statistic_2.T
print(statistic_2t)

<a id="shape"></a>

## DataFrameの行や列の数を数える。 / Check the numbers of lows and columns

In [None]:
# Check the numbers of lows and columns
df.shape

In [None]:
# Get the number of rows
len(df)

In [None]:
# Get the number of columns
df.columns

In [None]:
# Get the total number of elements
df.size

## Index
[参考サイト：PandasのIndexの理解と使い方まとめ](https://deepage.net/features/pandas-index.html)

In [None]:
a.index

In [None]:
a.columns

In [None]:
a.rename(index={"two":"eight"})

In [None]:
a

インデックスはコロン`:`を用いて、複数行指定することができる。スライスと呼びます。<br>
You can specify multiple lines / rows by using `:`, called slicing.

In [None]:
a.rename(index={"two":"eight"}, inplace=True)
a

In [None]:
a.index[:1]

In [None]:
a.index[1:]

In [None]:
# 始点と終点を同時に設定することも可能
# You can specify the start and end of the slice.
a.index[1:2] 

In [None]:
# TEST DATA
import pandas as pd
from pandas import DataFrame
 
df1=DataFrame([[1,2,3],[4,5,6],[7,8,9]],
              columns=['aa','bb','cc'],
              index=['AA','BB','CC'])
 
df2=DataFrame([[100,200],[400,500],[700,800]],
              columns=['dd','ee'],
              index=['AA','BB','CC'])
print(df1)
print(df2)

<a id="concat"></a>

## DataFrameの結合 / Combine arrays of DataFrame
[参考サイト：DataFrameを横方向に結合する concat、merge、join](http://ailaby.com/dataframe_merge/)

In [None]:
# concat, merge, join. All of them work in a same way...
# concat
print(pd.concat([df1, df2], axis=1))

# merge
print(pd.merge(df1, df2, right_index=True, left_index=True))
# add df2 from the left
print(pd.merge(df2, df1, right_index=True, left_index=True))

# join
print(df1.join([df2]))
# add df2 from the left
print(df2.join([df1]))

## DataFrameの抽出 / Extract a specific column or row
[参考サイト：Pandas でデータフレームから特定の行・列を取得する](https://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA)

In [None]:
df3 = df1.join([df2])
print(df3)

# aa の行を抽出 / Extract a column 'aa'
print(df3['aa'])
print(df3.aa) # This works as well.

## 特定の複数行を抽出 / Extract multiple specific columns or rows
`:` で行番号を指定することで、特定の区間の行を抽出できます。行番号は 0 行目から始まる点に注意しましょう。<br>
range関数などと同じで、df[始点：終点]で指定します。終点は含まれないことに気を付けましょう。<br>
[Week1: np.arange](Ex_Week1.ipynb#nparange)<br>
[Week1: range](Ex_Week1.ipynb#range)<br>
<br>
You can extract specific columns with colon, :, which is called slice. Please note that the index starts from 0.<br>
Same as range function, the range is specified with df[start:stop]. Please note that the stop is not included.<br>





In [None]:
# 特定の区間の行を抽出する / Extract specifig columns
# 1 行目から 3 行目を抽出
print(df3[1:3])

# 先頭から 3 行目までを抽出
print(df3[:3])


In [None]:
# 行名が "AA" の列を抽出
print(df3.loc["AA"])
 

In [None]:
# 列 "aa", "bb" の 2 列を抽出
print(df3.loc[:,['aa','bb']])


In [None]:
# 行名 = "BB" ～ "CC" の "bb" 列と "dd" 列を取得
print(df3.loc['BB':'CC',['bb','dd']])


In [None]:
# 行名 = "CC" の "A" 列と "B" 列を取得
print(df3.loc['CC',['cc','dd']])


## at, iat, loc, iloc
[参考サイト：pandasで任意の位置の値を取得・変更するat, iat, loc, iloc](https://note.nkmk.me/python-pandas-at-iat-loc-iloc/)

In [None]:
import pandas as pd

df = pd.read_csv('data/wx_sample_pandas_normal.csv', index_col=0)
print(df)

In [None]:
print(df.index.values)
# ['Alice' 'Bob' 'Charlie' 'Dave' 'Ellen' 'Frank']

print(df.columns.values)
# ['age' 'state' 'point']

In [None]:
# You can extract a specific element
print(df.at['Bob', 'age'])
print(df.at['Dave', 'state'])

# You can change the value of a specific element
df.at['Bob', 'age'] = 60
print(df.at['Bob', 'age'])

# you can specify an element with the index number
#print(df.at['Bob', 'age'])
print(df.iat[1, 0])

#print(df.at['Dave', 'state'])
print(df.iat[3, 1])

# You can change the value of a specific element
#df.at['Bob', 'age'] = 60
df.iat[1, 0] = 42
print(df.iat[1, 0])

In [None]:
# You can extract multiple columns or rows with loc.
print(df.loc['Bob':'Dave', 'age'])
print(type(df.loc['Bob':'Dave', 'age']))

# You can extract multiple columns or rows with iloc with index numbers.
print(df.iloc[1:4, 0])
print(type(df.iloc[1:4, 0]))


## 番号とラベルで位置を指定する / Specify a row or a column by the index number.
インデックス番号は０から始まることに注意しましょう。<br>
Please note that the index number starts from 0.

In [None]:
print(df)

# Specify an index of a row
print(df.index[2])
# Charlie

# Specify an index of a column
print(df.columns[1])
# state

これとatまたはlocを利用して、番号とラベルの組み合わせで位置を指定できる。<br>
You can specify an element with the functions above and the label.<br>

In [None]:
print(df.at[df.index[2], 'age'])
# Charlie's age is 18

print(df.loc[['Alice', 'Dave'], df.columns[1]])
# States of Alice and Dave are NY and TX.

## 条件を指定して抽出 / Extract columns or rows under a certain condition
[参考サイト：条件を指定して行・列を取得する](https://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA)

In [None]:
df[df.age > 30]

In [None]:
df[df.point > 65]

## `isin`関数を使うと、特定の要素を含む行を抽出できます。
## You can extract specific rows by using `isin` function

[Python pandas データ選択処理をちょっと詳しく<中編>](http://sinhrks.hatenablog.com/entry/2014/11/15/230705)<br>
[ISIN @ qiita](https://qiita.com/pandaLA/items/cdad58a1c58fde230de5)<br>
[isin @ Pandas documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html)

In [None]:
# データフレーム df2 を作成
df2 = df.copy()
print(df2)

# "state" 列に "CA" を値に持つ行を抽出
df2[df2['state'].isin(['CA'])]
print(df2[df2['state'].isin(['CA'])])

<a id="groupby"></a>

## 要素ごとにまとめる Groupby
[参考サイト：Pandasのgroupbyを使った要素をグループ化して処理をする方法](https://deepage.net/features/pandas-groupby.html)

In [None]:
# classify elements
df2_group = df2.groupby('state')

# display each elements of the groups
df2_group.groups

# Extract the rows which have "CA" in the column "state".
df2_group.get_group('CA')

In [None]:
# それぞれのグループごとに演算を行う。 / You can apply a function to each group.
df2.groupby('state')['age'].mean()

## よく使う関数: isnull (Pandas.Series)
## Useful function: isnull (Pandas.Series)

欠損値の取り扱いについては、第4週で扱う予定です。<br>
Pandasでまとまっていたほうがいいかな、と思って、載せてありますが、第4週の演習問題と一部重複しています。<br>
<br>
データを処理するときにデータのかけている項目がある場合があります。これをPandasで読み込むと、欠損値(NaN;Not a Number)として扱われます。<br>
欠損値のままだとデータ処理がしづらいので、欠損値を適切に処理する必要があります。<br>
<br>
We will learn how to deal with Not a Number (NaN) in Week 4.<br>
There are some overlap of the contents between this part and the exercise of Week 4.<br>
<br>
When you obtain a set of data, it often happens that there are some blanks (missing values).<br>
If you load a file with Pandas, these blanks will be interpreted as NaN (Not a Number).<br>
NaN causes some trouble to analyze data, so you need to carry out some data processing.<br>

* 補完 / Complement
* 置換 / Replace
* 抽出 / Extract 

[参考サイト：欠損値の確認 @ note.nkmk.me](https://note.nkmk.me/python-pandas-nan-judge-count/)<br>
[参考サイト：pandasで欠損値NaNを除外（削除）・置換（穴埋め）・抽出 @ note.nkmk.me](https://note.nkmk.me/python-pandas-nan-dropna-fillna/)<br>

まず、データファイルを読み込む。<br>
Load a data file.<br>

In [None]:
df = pd.read_csv('data/w4_sample_pandas_normal_nan.csv')
print(df)

### 欠損値かどうかをチェック
### Check if it is NaN or not

In [None]:
# The output is the same size of an array with elements of True or False
# True : zero, NaN
# False :  nonzero
print(df.isnull())

# You can judge by column
print(df.isnull().all())

<a id="countnan"></a>

### 欠損値の数を数える
### Count the number of NaN

In [None]:
# 列ごと / by column
print(df.isnull().sum())

# 行ごと / by row
print(df.isnull().sum(axis=1))

### 欠損値でない要素の数を数える
### Count the number of elements that is not NaN

In [None]:
# 列ごと / by column
print(df.count())

# 行ごと / by row
print(df.count(axis=1))

### すべての値が欠損値である行を削除する
### Remove columns in which all of the elements are NaN

In [None]:
print(df.dropna(how='all'))

### すべての値が欠損値である列を削除する
### Remove rows in which all of the elements are NaN

In [None]:
print(df.dropna(how='all', axis=1))

### 配列中のすべての欠損値の数を数える
### Count the total number of NaN in an array

In [None]:
print(df.isnull().sum().sum())

<a id="removenan"></a>

### 欠損値が一つでも含まれる列を削除する
### Remove rows which has more than one NaN

In [None]:
# すべての値が欠損値である行と、すべての値が欠損値である列を削除
df2 = df.dropna(how='all').dropna(how='all', axis=1)

# df2に対して、欠損値が一つでも含まれている列を削除
print(df2.dropna(how='any'))

### 欠損値が一つでも含まれる行を削除する
### Remove columns which has more than one NaN

In [None]:
print(df2.dropna(how='any', axis=1))

### 特定の行・列に欠損値がある列・行を削除する
### Remove specific columns or rows which has more than on NaN

In [None]:
print(df.dropna(subset=['age']))

### 欠損値の補間 / Interpolation of NaN
[参考サイト：pandasで欠損値NaNを前後の値から補間するinterpolate](https://note.nkmk.me/python-pandas-interpolate/)

In [None]:
# Original data
df = pd.DataFrame({'col1': [0, pd.np.nan, pd.np.nan, 3, 4],
                   'col2': [pd.np.nan, 1, 2, pd.np.nan, pd.np.nan],
                   'col3': [4, pd.np.nan, pd.np.nan, 7, 10]})

print(df)

In [None]:
# デフォルトでは各列に対して線形補間を行う。下端の欠損値には同じ値が繰り返される。上端の欠損値はそのまま。
# Interpolate NaN linearly as default
print(df.interpolate())

In [None]:
# 引数axis=1とすると各行に対して補間される。右端の欠損値には同じ値が繰り返される。左端の欠損値はそのまま。
print(df.interpolate(axis=1))

In [None]:
# 引数inplaceでオブジェクト自体を更新するかどうかを指定できる。 / You can specify whether you update the object with the interpolated array.
df_copy = df.copy()
df_copy.interpolate(inplace=True)
print(df_copy)

<a id="replace"></a>

### 欠損値の置換 / Replacement of NaN

#### 欠損値を０で置換
#### Replace NaN with 0

In [None]:
print(df.fillna(0))

#### 特定の行だけ欠損値を平均値で置換
#### Replace NaN with a mean value of the column specifically.

In [None]:
#print(df.fillna(df.mean().loc["age"]))
print(df.fillna({'name': 'XXX', 'age': df["age"].mean(), 'point': df["point"].mean()}))

### 欠損値の抽出 / Extraction of NaN
特定の列に欠損値が含まれている行を選択して確認したい場合、列のisnull()メソッドで欠損値がTrue、それ以外がFalseとなるpandas.Seriesを取得し、ブールインデックス参照で抽出する。


In [None]:
print(df)

print(df['point'].isnull())

print(df[df['point'].isnull()])


特定の行に欠損値が含まれている列を選択する場合も考え方は同じ。行名（行ラベル）で選択する場合は`loc[]`、位置で選択する場合は`iloc[]`を使う。

In [None]:
print(df.iloc[2].isnull())

print(df.loc[:, df.iloc[2].isnull()])


## DataFrame をCSVに書き込む / Output DataFrame to a CSC file
[PandasのデータフレームをCSVに書き込む](https://qiita.com/ryu19maki/items/e5a3b470795de883a09a)

In [None]:
suits = pd.DataFrame([[90, "a", 88],
                  [100, "b", 95],
                  [80, "a", 85],
                  [70, "c", 80]])
# you can name the index of each row.
suits.index=["Harvey", "Mike", "Louis", "Harold"]
suits.columns=["Math", "Phys", "Biology"]

suits.to_csv("data/suits_m.csv", index=False)

## CSVから、DataFrame形式でデータを読み込む / Load data as DataFrame from a CSV file
[CSVをDataFrameとして読み込む](https://note.nkmk.me/python-pandas-read-csv-tsv/)

In [None]:
suits = pd.read_csv("data/suits_m.csv")