# Pandas

In [1]:
import pandas as pd

In [4]:
df = pd.read_csv('salaries.csv')

In [5]:
df

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27


In [7]:
df[['Salary', 'Name']]

Unnamed: 0,Salary,Name
0,50000,John
1,120000,Sally
2,80000,Alyssa


In [8]:
df['Salary'].max()

120000

In [9]:
df.describe()

Unnamed: 0,Salary,Age
count,3.0,3.0
mean,83333.333333,35.333333
std,35118.845843,9.073772
min,50000.0,27.0
25%,65000.0,30.5
50%,80000.0,34.0
75%,100000.0,39.5
max,120000.0,45.0


In [12]:
df[df['Salary'] > 60000]

Unnamed: 0,Name,Salary,Age
1,Sally,120000,45
2,Alyssa,80000,27


In [14]:
df.as_matrix()

  """Entry point for launching an IPython kernel.


array([['John', 50000, 34],
       ['Sally', 120000, 45],
       ['Alyssa', 80000, 27]], dtype=object)

# Pandas 応用

In [2]:
import pandas as pd
import numpy as np
df = pd.DataFrame({
        '名前' : ['田中', '山田', '高橋'],
        '役割' : ['営業部長', '広報部', '技術責任者'],
        '身長' : [178, 173, 169]
    })
print(df)

# このデータを名前によってグループ分けします
grouped = df.groupby('名前')
for name, group in grouped:
    print(name)
    print(group)
    print('')

"""
出力結果
    名前     役割   身長
0  田中   営業部長  178
1  山田    広報部  173
2  高橋  技術責任者  169

山田
   名前   役割   身長
1  山田  広報部  173

田中
   名前    役割   身長
0  田中  営業部長  178

高橋
   名前     役割   身長
2  高橋  技術責任者  169
"""

   名前     役割   身長
0  田中   営業部長  178
1  山田    広報部  173
2  高橋  技術責任者  169
山田
   名前   役割   身長
1  山田  広報部  173

田中
   名前    役割   身長
0  田中  営業部長  178

高橋
   名前     役割   身長
2  高橋  技術責任者  169



'\n出力結果\n    名前     役割   身長\n0  田中   営業部長  178\n1  山田    広報部  173\n2  高橋  技術責任者  169\n\n山田\n   名前   役割   身長\n1  山田  広報部  173\n\n田中\n   名前    役割   身長\n0  田中  営業部長  178\n\n高橋\n   名前     役割   身長\n2  高橋  技術責任者  169\n'

In [3]:
import pandas as pd

d = pd.Series([1,3,5,10], index=["A","B","C","D"])

d_plus2_apply = d.apply(lambda x: x + 2)
print(d_plus2_apply)

"""
出力結果
A     3
B     5
C     7
D    12
dtype: int64
"""

# またmapという関数も、applyと同じ挙動で使えます。

print(d.map(lambda x: x * 2))

"""
出力結果
A     2
B     6
C    10
D    20
dtype: int64
"""

# 更に、Seriesのデータ構造のものを、DataFrameにしたい場合には返り値をSeriesとすることで実装できます。

d_DataFrame = d.apply(lambda x: pd.Series([x, x * 2], index=['col1', 'col2']))
print(d_DataFrame)

"""
出力結果
   col1  col2
A     1     2
B     3     6
C     5    10
D    10    20
"""

A     3
B     5
C     7
D    12
dtype: int64
A     2
B     6
C    10
D    20
dtype: int64
   col1  col2
A     1     2
B     3     6
C     5    10
D    10    20


'\n出力結果\n   col1  col2\nA     1     2\nB     3     6\nC     5    10\nD    10    20\n'

In [4]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
        '役割' : ['営業', 'エンジニア', '営業', 'エンジニア'],
        '体重' : [65, 60, 55, 72],
        '身長' : [178, 173, 169, 183]
    })

#このデータを名前によってグループ分けします
grouped = df.groupby('役割')

#グループごとの平均値を求めます
print(grouped.apply(np.mean))

"""
出力結果
     体重     身長
役割
エンジニア  66.0  178.0
営業     60.0  173.5
"""

         体重     身長
役割                
エンジニア  66.0  178.0
営業     60.0  173.5


'\n出力結果\n     体重     身長\n役割\nエンジニア  66.0  178.0\n営業     60.0  173.5\n'

In [7]:
import pandas as pd
import numpy  as np
df1 = pd.read_csv('MultiIndex.csv')
print(df1)

"""
出力結果
           name  year product  expected  actual
0   Ojima-Caffe  2015  coffee       682     757
1   Ojima-Caffe  2015     tea       597     485
2   Ojima-Caffe  2016  coffee       692     379
3   Ojima-Caffe  2016     tea       575     308
4   Ojima-Caffe  2017  coffee       508     597
5   Ojima-Caffe  2017     tea       597     657
6     Song-cafe  2015  coffee       603     651
7     Song-cafe  2015     tea       391     483
8     Song-cafe  2016  coffee       533     530
9     Song-cafe  2016     tea       552     638
10    Song-cafe  2017  coffee       793     732
11    Song-cafe  2017     tea       642     407
"""

"""
これらのデータの選択は少し困難になります。
例えば2015年Ojima-caffeのコーヒーの売り上げを選択しようと思った場合、
下のように非常に長いコードを使わなければなりません。
"""
print(df1[(df1["name"] == "Ojima-Caffe")&(df1["year"] == 2015)&(df1["product"] == "coffee")].iloc[0])

"""
出力結果
name        Ojima-Caffe
year               2015
product          coffee
expected            682
actual              757
Name: 0, dtype: object
"""

"""
ここで、Multi Indexの出番です。このようなデータには、Multi Index（複数のインデックス）を指定してデータを読み込みます。
"""

Multi_df = pd.read_csv("MultiIndex.csv",index_col=["name","year","product"])
print(Multi_df)

"""
出力結果
                            expected  actual
name        year product
Ojima-Caffe 2015 coffee        682     757
                 tea           597     485
            2016 coffee        692     379
                 tea           575     308
            2017 coffee        508     597
                 tea           597     657
Song-cafe   2015 coffee        603     651
                 tea           391     483
            2016 coffee        533     530
                 tea           552     638
            2017 coffee        793     732
                 tea           642     407
"""

"""
見た目としては、あまり変わりませんが、このように読み込むことによって、
インデックスと実測値との関係が明白になりました。
実際に、タプルを渡すことのみで、簡単にデータの選択ができます。
"""

print(Multi_df.loc[("Ojima-Caffe",2015,"coffee")])

"""
出力結果
expected    682
actual      757
Name: (Ojima-Caffe, 2015, coffee), dtype: int64
"""

"""
階層型インデックスの構成を使うことによって、当然、処理速度も速くなります。
他にもより広範囲なインデックスのデータを参照したい時は、以下のようなコードを記述してください。
"""

print(Multi_df.loc[("Ojima-Caffe")])
print(Multi_df.loc[("Ojima-Caffe",2015)])

"""
出力結果
              expected  actual
year product
2015 coffee        682     757
     tea           597     485
2016 coffee        692     379
     tea           575     308
2017 coffee        508     597
     tea           597     657
         expected  actual
product
coffee        682     757
tea           597     485
"""

"""
さらに、このようなデータフレームをCSVファイルとして出力する便利なコードがあります。
これによってMultiIndexであってもきちんと全行フルに出力してくれます。
"""

Multi_df.to_csv("DataFrame.csv")

           name  year product  expected  actual
0   Ojima-Caffe  2015  coffee       682     757
1   Ojima-Caffe  2015     tea       597     485
2   Ojima-Caffe  2016  coffee       692     379
3   Ojima-Caffe  2016     tea       575     308
4   Ojima-Caffe  2017  coffee       508     597
5   Ojima-Caffe  2017     tea       597     657
6     Song-cafe  2015  coffee       603     651
7     Song-cafe  2015     tea       391     483
8     Song-cafe  2016  coffee       533     530
9     Song-cafe  2016     tea       552     638
10    Song-cafe  2017  coffee       793     732
11    Song-cafe  2017     tea       642     407
name        Ojima-Caffe
year               2015
product          coffee
expected            682
actual              757
Name: 0, dtype: object
                          expected  actual
name        year product                  
Ojima-Caffe 2015 coffee        682     757
                 tea           597     485
            2016 coffee        692     379
                 t

In [8]:
import numpy  as np
import pandas as pd
df2 = pd.read_csv("MultiIndex.csv",index_col=["name","year","product"])
df2['price'] = np.array([320, 210, 310, 180, 315, 170,
                        300, 240, 310, 220, 330, 220])
print(df2)

"""
出力結果
                          expected  actual  price
name        year product
Ojima-Caffe 2015 coffee        682     757    320
                 tea           597     485    210
            2016 coffee        692     379    310
                 tea           575     308    180
            2017 coffee        508     597    315
                 tea           597     657    170
Song-cafe   2015 coffee        603     651    300
                 tea           391     483    240
            2016 coffee        533     530    310
                 tea           552     638    220
            2017 coffee        793     732    330
                 tea           642     407    220
"""

"""
さらに、既存のデータフレームの列にある値を受け取り、apply関数を使うことで新しい列に値を格納することもできます。
例えば、’expected’と’actual’にある列の数量データからデータを取得し、値段と掛け合わせることによって、’total_expected’, ‘total_actual’を計算して、新しい列に追加するためには以下のようなコードで実装できます。
"""

def total_expected_def(series):
    return series['expected'] * series['price']

def total_actual_def(series):
    return series['actual'] * series['price']

df2['total_expected'] = df2.apply(total_expected_def,axis=1)
df2['total_actual'] = df2.apply(total_actual_def,axis=1)
print(df2)

                          expected  actual  price
name        year product                         
Ojima-Caffe 2015 coffee        682     757    320
                 tea           597     485    210
            2016 coffee        692     379    310
                 tea           575     308    180
            2017 coffee        508     597    315
                 tea           597     657    170
Song-cafe   2015 coffee        603     651    300
                 tea           391     483    240
            2016 coffee        533     530    310
                 tea           552     638    220
            2017 coffee        793     732    330
                 tea           642     407    220
                          expected  actual  price  total_expected  \
name        year product                                            
Ojima-Caffe 2015 coffee        682     757    320          218240   
                 tea           597     485    210          125370   
            2016 coffee 

In [10]:
import pandas as pd
df = pd.read_csv("MultiIndex.csv",index_col=["name","year","product"])
print(df.describe())

"""
出力結果
         expected      actual
count   12.000000   12.000000
mean   597.083333  552.000000
std    101.662953  142.986331
min    391.000000  308.000000
25%    547.250000  464.000000
50%    597.000000  563.500000
75%    652.000000  652.500000
max    793.000000  757.000000
"""

         expected      actual
count   12.000000   12.000000
mean   597.083333  552.000000
std    101.662953  142.986331
min    391.000000  308.000000
25%    547.250000  464.000000
50%    597.000000  563.500000
75%    652.000000  652.500000
max    793.000000  757.000000


'\n出力結果\n         expected      actual\ncount   12.000000   12.000000\nmean   597.083333  552.000000\nstd    101.662953  142.986331\nmin    391.000000  308.000000\n25%    547.250000  464.000000\n50%    597.000000  563.500000\n75%    652.000000  652.500000\nmax    793.000000  757.000000\n'

In [11]:
import pandas as np
df = pd.read_csv("MultiIndex.csv",index_col=["name","year","product"])
print(df.corr())

# 出力結果
"""
          expected    actual
expected  1.000000  0.271756
actual    0.271756  1.000000
"""

          expected    actual
expected  1.000000  0.271756
actual    0.271756  1.000000


'\n          expected    actual\nexpected  1.000000  0.271756\nactual    0.271756  1.000000\n'

In [12]:
import pandas as pd
from pandas import DataFrame, Series

df = DataFrame({
    '名前' :['田中','山田','高橋','金沢','加藤'],
    '役割' :['営業','エンジニア','広報','営業','エンジニア'],
    '身長' :[178, 173, 169, 165, 174]
    })

other = DataFrame({
        '名前' :['田中','金沢',],
        '体重' : [64, 58]
        })

print(df)
print(other)

"""
出力結果
   名前     役割   身長
0  田中     営業  178
1  山田  エンジニア  173
2  高橋     広報  169
3  金沢     営業  165
4  加藤  エンジニア  174

   体重  名前
0  64  田中
1  58  金沢
"""

"""
こういったデータフレームのデータの結合にはmerge関数を使います。
まず理論より先に実際の使い方を説明していきます。
"""

print(pd.merge(df, other, on='名前', how='inner'))

"""
出力結果
   名前  役割   身長  体重
0  田中  営業  178  64
1  金沢  営業  165  58
"""

"""
上記した「how=’inner’」によって、結合方法を明記しましたが、デフォルトでも’inner’なので指定はしなくても問題ありません。
Innerは「内部結合」という手法の結合方法で、両方のデータに含まれるキーだけを残します。
さらに、inner以外にもouterという結合方法があります。
Outerは、完全外部結合と呼ばれる結合方法で、すべてのキーを残します。
実際にouterの結合方法で結合を行うと、以下のような出力がされます。
"""

print(pd.merge(df, other, on='名前', how='outer'))

"""
   名前     役割   身長    体重
0  田中     営業  178  64.0
1  山田  エンジニア  173   NaN
2  高橋     広報  169   NaN
3  金沢     営業  165  58.0
4  加藤  エンジニア  174   NaN
"""

   名前     役割   身長
0  田中     営業  178
1  山田  エンジニア  173
2  高橋     広報  169
3  金沢     営業  165
4  加藤  エンジニア  174
   名前  体重
0  田中  64
1  金沢  58
   名前  役割   身長  体重
0  田中  営業  178  64
1  金沢  営業  165  58
   名前     役割   身長    体重
0  田中     営業  178  64.0
1  山田  エンジニア  173   NaN
2  高橋     広報  169   NaN
3  金沢     営業  165  58.0
4  加藤  エンジニア  174   NaN


'\n   名前     役割   身長    体重\n0  田中     営業  178  64.0\n1  山田  エンジニア  173   NaN\n2  高橋     広報  169   NaN\n3  金沢     営業  165  58.0\n4  加藤  エンジニア  174   NaN\n'

# まとめ
Pandasのデータ解析として
- データのイテレーション
- map, apply, applymap関数
- 階層型インデックス（Multi Index）
- データフレームの列追加
- 統計処理
- データの結合（マージ関数）