## Pandasでよく使う操作

In [None]:
import numpy as np
import pandas as pd

### 辞書としてのSeries
pythonの辞書よりも遥かに効率的である。

順番を指定する場合

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

順番を指定しない場合

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

In [None]:
population['California']

In [None]:
#スライス機能も使える
population['California':'Illinois'] #numpyのスライス違ってスライスの最後は含まれる

当然python辞書と同じような事もできる

In [None]:
population.keys()

In [None]:
print("New York" in population)
print(38332521 in population)

In [None]:
list(population.items())

### 文字列操作の一部としてのSeries
生のPythonで操作するよりもpandasのほうが効率もいいしコードも短くすむ。Noneによるエラーも発生せずに済む。
Series.str.hoge()で呼び出せる。

In [None]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
names = pd.Series(data)
names

In [None]:
print("capitalize\n"+str(names.str.capitalize())) #表記の揺れを統一する（1文字目だけ大文字にする）
print()

print("lower\n"+str(names.str.lower())) #表記の揺れを統一する（1文字目だけ大文字にする）

メソッド一覧

Python組み込みと同様なもの

|　|　|　|　|
|:-----------:|:----------------:|:----------------:|:----------------:|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |





正規表現

In [None]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])
print(monte.str.extract('([A-Za-z]+)', expand=False)) #First nameの抽出
print()
print(monte.str.findall(r'^[^AEIOU].*[^aeiou]$')) #子音で始まり子音で終わる名前

正規表現を使うもの

| Method | Description |
|--------|-------------|
| ``match()`` | Call ``re.match()`` on each element, ブール値を返す. |
| ``extract()`` | Call ``re.match()`` on each element, マッチした文字列を返す.|
| ``findall()`` | Call ``re.findall()`` on each element |
| ``replace()`` | 指定したパターンを別の文字列で置き換える|
| ``contains()`` | Call ``re.search()`` on each element, ブール値を返す |
| ``count()`` | パターンの出現回数を返す|
| ``split()``   | Equivalent to ``str.split()``, but accepts regexps 正規表現を指定して分割できる|
| ``rsplit()`` | Equivalent to ``str.rsplit()``, but accepts regexps |


その他のメソッド

In [None]:
#文字数で切り出す
monte.str[:3]

In [None]:
#文字列からダミー変数化
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
full_monte

In [None]:
full_monte['info'].str.get_dummies('|')

その他のメソッド

| Method | Description |
|--------|-------------|
| ``get()`` | Index each element |
| ``slice()`` | Slice each element|
| ``slice_replace()`` | Replace slice in each element with passed value|
| ``cat()``      | Concatenate strings|
| ``repeat()`` | Repeat values |
| ``normalize()`` | Return Unicode form of string |
| ``pad()`` | Add whitespace to left, right, or both sides of strings|
| ``wrap()`` | Split long strings into lines with length less than a given width|
| ``join()`` | Join strings in each element of the Series with passed separator|
| ``get_dummies()`` | extract dummy variables as a dataframe |


### 順序付き集合としてのIndex
seriesもdataframeもIndexを持つが、順序付き集合としての機能を持つ。いちいちpython setに変換せずに済むので便利

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
print(indA & indB) #積集合
print(indA | indB) #和集合
print(indA ^ indB) #対称差

### DataFrameの作り方

ネットでよくやられてるやつ でも列の順番が入れ替わったりする

In [None]:
pd.DataFrame({
    "first":[5,2],
    "second":[3,4]
})

辞書のリストから作る　前者よりは賢そう

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
data

In [None]:
pd.DataFrame(data)

Numpy配列から作る deepの結果をpandasに変換するときとか便利そう

In [None]:
data = np.random.rand(3, 2)
print(data)
pd.DataFrame(data,
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

### データフレームに新しい行を作る

すでにあるデータから計算する場合

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
data['density'] = data['pop'] / data['area'] #なんと簡単
data

### 条件に合うデータに絞る
locはmaskとしても働く

In [None]:
data.density>100

In [None]:
data.loc[data.density>100]

In [None]:
data.loc[data.density>100,["area", "pop"]] #行も一緒に指定できる

### Pandasのデータに同じ加工をする
実はnumpyをにそのまま噛ませれば良い

In [None]:
np.sqrt(data) #返り値もpandasである

### 欠損値の扱い

null値の検出

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data

In [None]:
data.isnull(), data.notnull()

欠損値の除外

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

In [None]:
df.dropna()

オプションとして,howとaxisとthreshがある。`how="all"`ですべてnullの行(列)を削除。デフォでは`how="any"`。axisは、軸の指定。またthreshでnull以外がいくつ以上で残すか決めることもできる

In [None]:
df.dropna(axis='columns')

In [None]:
df.dropna(axis="rows", thresh=3) #非nullが3つ以上なのは1だけ

欠損値の埋め合わせ

In [None]:
df #データはこんな感じ

0で埋め合わせる

In [None]:
df.fillna(0) #他の数字で埋め合わせることも可能

前の数字で埋め合わせる

In [None]:
df.fillna(method="ffill") #後ろ向きのbfillもある

In [None]:
df.fillna(method="bfill", axis="columns")

### 階層型インデックス
今までpanelとかで操作してきたけど多分こっちのほうがめっちゃ便利

例えばこんなもの

In [None]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
index = pd.MultiIndex.from_tuples(index)
index #まじでインデックスだけを持っている

In [None]:
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations,index=index)
pop

In [None]:
pop.loc["New York":"Texas", 2000] #複数のindexで絞ることも可能

Seriesならばunstackとstackでdfに変換したりできる

In [None]:
pop.unstack()

In [None]:
pop.unstack().stack()

dfでの計算操作も今まで通り

In [None]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

In [None]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

MultiIndexの作り方

DataFrame作成時に暗黙的に作成するやり方。→indexにリストのリストを入れれば良し

In [None]:
np.arange(8).reshape(4,2)

In [None]:
df = pd.DataFrame(np.arange(8).reshape(4, 2),
                  index=[['a', 'a', 'b', 'b'], 
                         [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

辞書からも暗黙的に作れる。もうちょっとスマートである。ポイントは、keyにタプルを作ることである。

In [None]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

明示的にMultiIndexを作る
様々な作り方がある

In [None]:
#配列から作る
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], 
                           [1, 2, 1, 2]])

In [None]:
#タプルから作る
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

In [None]:
#デカルト積から作る
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

複数のindexに名前をふる

In [None]:
pop.index.names = ['state', 'year'] #リストで複数指定可能

In [None]:
pop

データフレームの行列両方にマルチインデクスにする

In [None]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), decimals=1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
# DFを作るときに
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

データの指定

In [None]:
health_data["Bob","HR"]

In [None]:
health_data.loc[:,"Bob":"Guido"]

In [None]:
health_data.loc[:,("Bob","Temp"):("Guido","HR")]

In [None]:
idx = pd.IndexSlice #idxスライスを使わないとエラーになる(pythonスライスはだめ)
health_data.loc[idx[:, 1], idx[:, 'HR']]

ソートする必要がある場合もある

In [None]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

In [None]:
#data.loc["a":"b"] 実行すると以下のようなエラーになります

# ---------------------------------------------------------------------------
# UnsortedIndexError                        Traceback (most recent call last)
# <ipython-input-103-2a5d331a3674> in <module>
# ----> 1 data.loc["a":"b"]
#中略
#UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [None]:
data = data.sort_index() #ソートしてやればエラーは出なくなる
print(data)
data.loc["a":"b"]

すでにあるdfからMultiIndex化する。
set_indexで複数の列を指定すればok。便利なので多用しそう。

In [None]:
pop_flat = pop.reset_index(name="population")
pop_flat

In [None]:
pop_flat.set_index(['state', 'year'])

MultiIndexのデータの集約
levelを指定してやれば良い

In [None]:
health_data

In [None]:
health_data.mean(level='year') #年より下のレベル visitが潰されて集約されている

MultiIndexとしてデータフレームを結合する
pd.concatにkeysを指定すれば良い

In [None]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

pd.concat([df1,df2])

In [None]:
pd.concat([df1,df2],keys=["x","y"])

### 集約とグループ化
代表的な統計量の計算などをすばやくやる

In [None]:
import seaborn as sns
planets = sns.load_dataset('planets')
print(planets.shape)
print(planets.isna().sum()) #欠損値がある
planets.head()

すべての特徴の概要

In [None]:
planets.dropna().describe()

グループごとに情報を統計量に集約する
groupbyを使う

In [None]:
planets.groupby("method").describe()

In [None]:
planets.groupby("method")["orbital_period"].median()

In [None]:
planets.groupby("method").aggregate(["min", np.median, max]) #任意の統計量を計算できる #aggreate()

### ピボットテーブルによる多次元集計
groupbyの多次元版。ぶっちゃけこれを知ってればgroupbyがなくても乗り切れる気がする。

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

"survive"についての平均値をindex="sex", colums="class"で見てみる。

In [None]:
titanic.pivot_table('survived', index='sex', columns='class')

In [None]:
titanic.pivot_table('survived', index='sex', columns='class', aggfunc=["mean","median"], margins=True) #多数の統計量について知ることもできる。
#marginで全体で計算した場合の行と列も表示

In [None]:
#辞書で引き渡せば、知りたい情報だけを表示してくれる
titanic.pivot_table(index='sex', columns='class', aggfunc={'survived':sum, 'fare':'mean'})
#survivedとfareについて計算するのが暗示されているので第一引数にわたすとエラーになることに注意

多重インデクスを用いたpivot table
今まで通りリストで受け渡せば良い

In [None]:
#準備のためにデータを加工
age = pd.cut(titanic['age'], [0, 18, 80])
age.head() #新たな特徴量の列だと思えばよい

In [None]:
titanic.pivot_table('survived', index=['sex', age], columns='class') #ageはすでにあるかのように処理できる

In [None]:
fare = pd.qcut(titanic['fare'], 2) #cutと異なり分位点で切る。4なら四分位点
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])