# The Basics of DataFrame
pandasのDataFrameの操作の基礎をまとめる。

## リンクリスト
- [入門1 Qiita](http://qiita.com/hik0107/items/d991cc44c2d1778bb82e)
- [入門2 Qiita](http://qiita.com/airtoxin/items/d66a22c5c7074e23be17>)
- [公式document](https://pandas.pydata.org/pandas-docs/stable/index.html)

In [2]:
import pandas as pd

## DataFrameの生成、部分選択

 [SeriesやListからDataFrameを作る方法](https://hydrocul.github.io/wiki/numpy/pandas-dataframe-overview.html)  
注意点：Seriesにはindexがありそれが下り順についているとは限らない  
二つのSeriesからDataFrameをつくるとindexで揃えられるため見た目上の並び替えが起こる  
matplotlibのx,y等にSeriesを渡すとindexは無視されて見た目上の順番でx,yがペアになる
何らかのDataFrameから取得したSeriesから新たにDataFrameを再構成する場合はSeriesのindexをリセットしておいたほうが良い

In [2]:
#顕なデータフレームの作り方 行列に書き込むイメージ
dataFrame=pd.DataFrame([['a','b','c'],
                       [1,2,3]])
dataFrame

Unnamed: 0,0,1,2
0,a,b,c
1,1,2,3


In [3]:
#column名とindexを付ける
dataFrame.columns=['day1','day2','day3']
dataFrame.index=['student1','student2']
dataFrame

Unnamed: 0,day1,day2,day3
student1,a,b,c
student2,1,2,3


In [4]:
#column名とindexのrename
#上書き
dataFrame.columns=['month1','month2','month3']
dataFrame.index=['student3','student4']
dataFrame

Unnamed: 0,month1,month2,month3
student3,a,b,c
student4,1,2,3


In [5]:
#特定のindexの書き換えと転地 renameは元データのコピーを返す
dataFrame2=dataFrame.rename(columns={'month1':'year1'})
dataFrame2.T


Unnamed: 0,student3,student4
year1,a,1
month2,b,2
month3,c,3


In [6]:
dataFrame

Unnamed: 0,month1,month2,month3
student3,a,b,c
student4,1,2,3


In [12]:
#行、列へのアクセス 位置アクセスはiloc、ラベルアクセスはloc 
#複数列または複数行選択で返り値はDataFrame それ以外はSeries
#返り値は元オブジェクトの(一部)への参照となっていることに注意。つまり返り値の値を変更すると元オブジェクトに影響が出る
dataFrame.iloc[:,0:2]

Unnamed: 0,month1,month2
student3,a,b
student4,1,2


In [11]:
dataFrame.loc[:,["month1","month2"]]

Unnamed: 0,month1,month2
student3,a,b
student4,1,2


In [61]:
#csvファイルからの生成とへの書き出し
#一番左の列をindexとする
data=pd.read_csv('testData.csv',header=None,index_col=0,sep='\t')

data2=data.rename(columns={1:'col1',2:'col2',3:'col3'})
#0から始まるindexを1からにして出力
data2=data2.rename(index={0:1,1:2,2:3,3:4})
data2.to_csv('testData2.csv',header=None)

## 結合

In [22]:
c1=np.array([n**2 for n in range(10)])
c2=np.array([n**3 for n in range(10)])
c3=np.array([(-1)**n for n in range(10)])
c4=np.array([n for n in range(10)])
A=pd.DataFrame([c1,c2])
B=pd.DataFrame([c3,c4])

In [23]:
A

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,4,9,16,25,36,49,64,81
1,0,1,8,27,64,125,216,343,512,729


In [24]:
B

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,-1,1,-1,1,-1,1,-1,1,-1
1,0,1,2,3,4,5,6,7,8,9


In [25]:
#下から結合
C=pd.concat([A,B],axis=0)
C

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,4,9,16,25,36,49,64,81
1,0,1,8,27,64,125,216,343,512,729
0,1,-1,1,-1,1,-1,1,-1,1,-1
1,0,1,2,3,4,5,6,7,8,9


In [27]:
#右から結合
D=pd.concat([B,A],axis=1)
D

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,0.1,1.1,2.1,3.1,4.1,5.1,6.1,7.1,8.1,9.1
0,1,-1,1,-1,1,-1,1,-1,1,-1,0,1,4,9,16,25,36,49,64,81
1,0,1,2,3,4,5,6,7,8,9,0,1,8,27,64,125,216,343,512,729


## データ型の変換

In [35]:
#データ型を指定しないで作る
dataFrame=pd.DataFrame([[1,2,3],
                       [4,5,6]])
dataFrame

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [36]:
#データ型の確認方法 DataFrameは列毎に異なるデータ型を持つことができる
dataFrame.dtypes

0    int64
1    int64
2    int64
dtype: object

In [47]:
#第0列をfloatに変換 astypeメソッドは元オブジェクトを変更しない
dataFrame.loc[:,0] = dataFrame.loc[:,0].astype(float)

In [48]:
dataFrame.dtypes

0    float64
1      int64
2      int64
dtype: object

## 整列

In [3]:
df1 = pd.DataFrame([[1,2,3,4], [6,7,8,9]], columns=['D', 'B', 'E', 'A'], index=[1,2])
df2 = pd.DataFrame([[10,20,30,40], [60,70,80,90], [600,700,800,900]], columns=['A', 'B', 'C', 'D'], index=[2,3,4])
print(df1)
print(df2)

   D  B  E  A
1  1  2  3  4
2  6  7  8  9
     A    B    C    D
2   10   20   30   40
3   60   70   80   90
4  600  700  800  900


In [4]:
# 列の和集合を取って整列
a1,a2 = df1.align(df2, join="outer", axis=1)
print(a1)
print(a2)

   A  B   C  D  E
1  4  2 NaN  1  3
2  9  7 NaN  6  8
     A    B    C    D   E
2   10   20   30   40 NaN
3   60   70   80   90 NaN
4  600  700  800  900 NaN


In [5]:
# 列の積集合を取って整列
a1, a2 = df1.align(df2, join="inner", axis=1)
print(a1)
print(a2)

   D  B  A
1  1  2  4
2  6  7  9
     D    B    A
2   40   20   10
3   90   70   60
4  900  700  600


In [6]:
# 元オブジェクトに合わせて整列
a1, a2 = df1.align(df2, join="left", axis=1)
print(a1)
print(a2)

   D  B  E  A
1  1  2  3  4
2  6  7  8  9
     D    B   E    A
2   40   20 NaN   10
3   90   70 NaN   60
4  900  700 NaN  600


In [7]:
# 指定オブジェクトに合わせて整列
a1, a2 = df1.align(df2, join="right", axis=1)
print(a1)
print(a2)

   A  B   C  D
1  4  2 NaN  1
2  9  7 NaN  6
     A    B    C    D
2   10   20   30   40
3   60   70   80   90
4  600  700  800  900


## 統計量の抽出

In [2]:
import numpy as np

In [17]:
#n**2,**n3,(-1)**nの列からなるデータフレームを作る
c1=np.array([n**2 for n in range(100)])
c2=np.array([n**3 for n in range(100)])
c3=np.array([(-1)**n for n in range(100)])
data=pd.DataFrame([c1,c2,c3])
data=data.T
data.columns=['n^2','n^3','(-1)^n']

In [21]:
#列に沿って和を取ってSeriesにする
data.sum()

n^2         328350
n^3       24502500
(-1)^n           0
dtype: int64

## csvファイルへの書き出し

In [67]:
dataFrame=pd.DataFrame([['a','b','c'],
                       [1,2,3]])
dataFrame

Unnamed: 0,0,1,2
0,a,b,c
1,1,2,3


In [72]:
#index（行のラベル）を付けない
dataFrame.to_csv('test.csv',index=False)

In [69]:
!dir

 ドライブ C のボリューム ラベルは OS です
 ボリューム シリアル番号は 6275-B2AF です

 C:\Users\Yuki\Desktop\Dropbox\python\PythonHack のディレクトリ

2018/04/24  22:37    <DIR>          .
2018/04/24  22:37    <DIR>          ..
2018/01/29  23:53    <DIR>          .ipynb_checkpoints
2017/12/14  13:13                99 a.dump
2018/02/06  18:46            19,374 ClassTest.ipynb
2018/02/07  17:33             6,871 exec.ipynb
2018/01/24  17:57             4,287 File.ipynb
2018/01/30  12:23             7,637 matplotlib.ipynb
2018/04/18  21:02             7,933 numpy.ipynb
2018/04/24  22:37            42,991 Pandas.ipynb
2017/07/06  16:29         4,475,421 plotly.ipynb
2017/10/22  18:24               946 signal.ipynb
2017/05/08  00:39            79,686 SymPy.ipynb
2018/01/30  15:36             4,536 Untitled.ipynb
2017/12/12  22:21    <DIR>          __pycache__
              11 個のファイル           4,649,781 バイト
               4 個のディレクトリ  26,296,422,400 バイトの空き領域


### column名だけの書き出し

In [63]:
df=pd.DataFrame(columns=['day1','day2','day3'])

In [64]:
df

Unnamed: 0,day1,day2,day3


In [None]:
df.to_csv(f,sep='\t',index=False)

## 編集
### 行の追加

In [25]:
df=pd.DataFrame(columns=['day1','day2','day3'])
mydict={'day2':22,'day3':33,'day1':11}

In [26]:
result=df.append(mydict,True)

In [27]:
result

Unnamed: 0,day1,day2,day3
0,11,22,33


In [28]:
result.astype(int)

Unnamed: 0,day1,day2,day3
0,11,22,33


### 欠損値の穴埋め

In [29]:
df=pd.DataFrame(columns=['day1','day2','day3'])

In [30]:
df

Unnamed: 0,day1,day2,day3


In [31]:
newdata={'day1':1,'day3':3}
df=df.append(newdata,True)

In [32]:
df

Unnamed: 0,day1,day2,day3
0,1.0,,3.0


In [33]:
df.fillna(100)

Unnamed: 0,day1,day2,day3
0,1.0,100.0,3.0


In [34]:
df

Unnamed: 0,day1,day2,day3
0,1.0,,3.0


### masking

In [19]:
df==1

Unnamed: 0,day1,day2,day3
0,True,False,False


In [20]:
df[df==1]=2

In [21]:
df

Unnamed: 0,day1,day2,day3
0,2.0,,3.0
