In [2]:
# -*- coding: utf-8 -*-
"""
Created on Wed Jun 27 11:03:07 2018

@author: Akitaka
"""
# https://pythondatascience.plavox.info/pandas/pandasでデータフレームを作ってみよう
import numpy as np
import pandas as pd

'''
Series (1 次元の値のリスト) を作成する
pd.Series() を用いて、1 次元のリスト (Series, シリーズと呼ばれます) を作成します。
'''
# 数値で構成される Series を作成
s = pd.Series([1,3,5,np.nan,6,8])
print(s)

# 日付の Series を作成
dates = pd.date_range('20130101', periods=6)
print(dates)


0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')


In [3]:
'''
データフレームを作成する
それでは、データフレームを作成してみましょう。本例では、A～Fの各列に数値、文字列、日付、Numpy の行列などを格納します。
'''
df = pd.DataFrame({ 'A' : 1.,
                        'B' : pd.Timestamp('20130102'),
                        'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                        'D' : np.array([3] * 4,dtype='int32'),
                        'E' : pd.Categorical(["test","train","test","train"]),
                        'F' : 'foo' })
print(df)


     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


In [4]:
'''
Numpy の 行列からデータフレームを作成する
Numpy で作成した行列をデータフレームに変換することもできます。
本例では、 6 x 4 の 2 次元の行列からデータフレームを作成し、
各列に A, B, C, D という名前を付与します。
'''
matrix = np.random.randn(6,4)
print(matrix)

df2 = pd.DataFrame(matrix, columns=list('ABCD'))
print(df2)



[[ 1.26590381  0.59159667  1.02701787 -1.52678619]
 [ 0.08575491 -0.53230876 -0.36857721 -0.21313114]
 [-0.99801369 -0.66634755  0.18160201 -0.30093307]
 [-0.78563869 -0.21854767  0.94111263  1.15333341]
 [-0.25010983  0.16883077 -0.76286458  1.53372015]
 [-0.71277759 -1.26265526  1.37286267 -1.45634474]]
          A         B         C         D
0  1.265904  0.591597  1.027018 -1.526786
1  0.085755 -0.532309 -0.368577 -0.213131
2 -0.998014 -0.666348  0.181602 -0.300933
3 -0.785639 -0.218548  0.941113  1.153333
4 -0.250110  0.168831 -0.762865  1.533720
5 -0.712778 -1.262655  1.372863 -1.456345


In [6]:
'''
ディクショナリからデータフレームを作成する
Python のディクショナリ (Python 以外のプログラミング言語では
ハッシュまたは連想配列とも呼ばれます) から
データフレームを作成には、from_dict() メソッドを利用します。
'''
import pandas as pd
import numpy as np
a_values = [1, 2, 3, 4, 5]
b_values = np.random.rand(5)
c_values = ["apple", "banana", "strawberry", "peach", "orange"]
my_dict = {"A": a_values, "B": b_values, "C":c_values}
print(my_dict)

my_df = pd.DataFrame.from_dict(my_dict)
print(my_df)

{'A': [1, 2, 3, 4, 5], 'B': array([0.94841994, 0.98067704, 0.69388111, 0.14448787, 0.51587574]), 'C': ['apple', 'banana', 'strawberry', 'peach', 'orange']}
   A         B           C
0  1  0.948420       apple
1  2  0.980677      banana
2  3  0.693881  strawberry
3  4  0.144488       peach
4  5  0.515876      orange
