# Cheat Sheet for Pandas

In [1]:
import pandas as pd

[入門1 Qiita](http://qiita.com/hik0107/items/d991cc44c2d1778bb82e) [入門2 Qiita](http://qiita.com/airtoxin/items/d66a22c5c7074e23be17>)


## DataFrameの生成、操作

 [SeriesやListからDataFrameを作る方法](https://hydrocul.github.io/wiki/numpy/pandas-dataframe-overview.html)  
注意点：Seriesにはindexがありそれが下り順についているとは限らない  
二つのSeriesからDataFrameをつくるとindexで揃えられるため見た目上の並び替えが起こる  
matplotlibのx,y等にSeriesを渡すとindexは無視されて見た目上の順番でx,yがペアになる
何らかのDataFrameから取得したSeriesから新たにDataFrameを再構成する場合はSeriesのindexをリセットしておいたほうが良い

In [15]:
#顕なデータフレームの作り方 行列に書き込むイメージ
dataFrame=pd.DataFrame([['a','b','c'],
                       [1,2,3]])
dataFrame

Unnamed: 0,0,1,2
0,a,b,c
1,1,2,3


In [16]:
#column名とindexを付ける
dataFrame.columns=['day1','day2','day3']
dataFrame.index=['student1','student2']
dataFrame

Unnamed: 0,day1,day2,day3
student1,a,b,c
student2,1,2,3


In [9]:
#column名とindexのrename
#上書き
dataFrame.columns=['month1','month2','month3']
dataFrame.index=['student3','student4']
dataFrame

Unnamed: 0,month1,month2,month3
student3,a,b,c
student4,1,2,3


In [14]:
#特定のindexの書き換えと転地 renameは元データのコピーを返す
dataFrame2=dataFrame.rename(columns={'month1':'year1'})
dataFrame2.T


Unnamed: 0,student3,student4
year1,a,1
month2,b,2
month3,c,3


In [17]:
dataFrame

Unnamed: 0,month1,month2,month3
student3,a,b,c
student4,1,2,3


In [33]:
#行、列へのアクセス 基本的に.ilocを使えば良し　位置と名前両方使える 
#複数列または複数行選択で返り値はDataFrame それ以外はSeries
dataFrame.iloc[:,0:2]

Unnamed: 0,month1,month2
student3,a,b
student4,1,2


In [61]:
#一番左の列をindexとする
data=pd.read_csv('testData.csv',header=None,index_col=0,sep='\t')

data2=data.rename(columns={1:'col1',2:'col2',3:'col3'})
#0から始まるindexを1からにして出力
data2=data2.rename(index={0:1,1:2,2:3,3:4})
data2.to_csv('testData2.csv',header=None)

## 結合

In [22]:
c1=np.array([n**2 for n in range(10)])
c2=np.array([n**3 for n in range(10)])
c3=np.array([(-1)**n for n in range(10)])
c4=np.array([n for n in range(10)])
A=pd.DataFrame([c1,c2])
B=pd.DataFrame([c3,c4])

In [23]:
A

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,4,9,16,25,36,49,64,81
1,0,1,8,27,64,125,216,343,512,729


In [24]:
B

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,-1,1,-1,1,-1,1,-1,1,-1
1,0,1,2,3,4,5,6,7,8,9


In [25]:
#下から結合
C=pd.concat([A,B],axis=0)
C

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,4,9,16,25,36,49,64,81
1,0,1,8,27,64,125,216,343,512,729
0,1,-1,1,-1,1,-1,1,-1,1,-1
1,0,1,2,3,4,5,6,7,8,9


In [27]:
#右から結合
D=pd.concat([B,A],axis=1)
D

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,0.1,1.1,2.1,3.1,4.1,5.1,6.1,7.1,8.1,9.1
0,1,-1,1,-1,1,-1,1,-1,1,-1,0,1,4,9,16,25,36,49,64,81
1,0,1,2,3,4,5,6,7,8,9,0,1,8,27,64,125,216,343,512,729


## データ型の変換

In [16]:
#データ型を指定しないで作る
dataFrame=pd.DataFrame([[1,2,3],
                       [4,5,6]])
dataFrame

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [5]:
#データ型はint
dataFrame.iloc[:,0]

0    1
1    4
Name: 0, dtype: int64

In [18]:
#第0列をfloatに変換
dataFrame['day1'].astype(float)

student1    1.0
student2    4.0
Name: day1, dtype: float64

In [13]:
dataFrame.iloc[:,0]

student1    1
student2    4
Name: day1, dtype: int64

In [19]:
dataFrame

Unnamed: 0,day1,day2,day3
student1,1,2,3
student2,4,5,6


In [17]:
dataFrame.columns=['day1','day2','day3']
dataFrame.index=['student1','student2']
dataFrame

Unnamed: 0,day1,day2,day3
student1,1,2,3
student2,4,5,6


## 情報の抽出

In [2]:
import numpy as np

In [17]:
#n**2,**n3,(-1)**nの列からなるデータフレームを作る
c1=np.array([n**2 for n in range(100)])
c2=np.array([n**3 for n in range(100)])
c3=np.array([(-1)**n for n in range(100)])
data=pd.DataFrame([c1,c2,c3])
data=data.T
data.columns=['n^2','n^3','(-1)^n']

In [21]:
#列に沿って和を取ってSeriesにする
data.sum()

n^2         328350
n^3       24502500
(-1)^n           0
dtype: int64

## csvファイルへの書き出し

In [67]:
dataFrame=pd.DataFrame([['a','b','c'],
                       [1,2,3]])
dataFrame

Unnamed: 0,0,1,2
0,a,b,c
1,1,2,3


In [72]:
#index（行のラベル）を付けない
dataFrame.to_csv('test.csv',index=False)

In [69]:
!dir

 ドライブ C のボリューム ラベルは OS です
 ボリューム シリアル番号は 6275-B2AF です

 C:\Users\Yuki\Desktop\Dropbox\python\PythonHack のディレクトリ

2018/04/24  22:37    <DIR>          .
2018/04/24  22:37    <DIR>          ..
2018/01/29  23:53    <DIR>          .ipynb_checkpoints
2017/12/14  13:13                99 a.dump
2018/02/06  18:46            19,374 ClassTest.ipynb
2018/02/07  17:33             6,871 exec.ipynb
2018/01/24  17:57             4,287 File.ipynb
2018/01/30  12:23             7,637 matplotlib.ipynb
2018/04/18  21:02             7,933 numpy.ipynb
2018/04/24  22:37            42,991 Pandas.ipynb
2017/07/06  16:29         4,475,421 plotly.ipynb
2017/10/22  18:24               946 signal.ipynb
2017/05/08  00:39            79,686 SymPy.ipynb
2018/01/30  15:36             4,536 Untitled.ipynb
2017/12/12  22:21    <DIR>          __pycache__
              11 個のファイル           4,649,781 バイト
               4 個のディレクトリ  26,296,422,400 バイトの空き領域


### column名だけの書き出し

In [63]:
df=pd.DataFrame(columns=['day1','day2','day3'])

In [64]:
df

Unnamed: 0,day1,day2,day3


In [None]:
df.to_csv(f,sep='\t',index=False)

### 行の追加

In [59]:
mydict={'day2':22,'day3':33,'day1':11}

In [60]:
result=df.append(mydict,True)

In [62]:
result

Unnamed: 0,day1,day2,day3
0,11.0,22.0,33.0


In [65]:
result.astype(int)

Unnamed: 0,day1,day2,day3
0,11,22,33


In [57]:
result.to_csv(f,sep='\t',index=False,header=False)

## 欠損値の穴埋め

In [57]:
df=pd.DataFrame(columns=['day1','day2','day3'])

In [58]:
df

Unnamed: 0,day1,day2,day3


In [59]:
newdata={'day1':1,'day3':3}
df=df.append(newdata,True)

In [60]:
df

Unnamed: 0,day1,day2,day3
0,1.0,,3.0


In [61]:
df.fillna(100)

Unnamed: 0,day1,day2,day3
0,1.0,100.0,3.0


In [62]:
df

Unnamed: 0,day1,day2,day3
0,1.0,,3.0


## masking

In [63]:
df==1

Unnamed: 0,day1,day2,day3
0,True,False,False


In [64]:
df[df==1]=2

In [65]:
df

Unnamed: 0,day1,day2,day3
0,2.0,,3.0


## 部分列の取り出し

In [66]:
df[['day1','day3']]

Unnamed: 0,day1,day3
0,2.0,3.0
