# Verifications: Pandas

- Purpose: To understand difference between Series and DataFrame
- Keywords: Pandas, Data Format

In [1]:
import pandas as pd

## 1) Series

In [2]:
s = pd.Series([3,-5,7,4], index = ['a','b','c','d'])

In [3]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [4]:
s['b']

-5

In [5]:
s[(s>1)]

a    3
c    7
d    4
dtype: int64

In [6]:
s[(s>1) & (s<5)]

a    3
d    4
dtype: int64

## 2) DataFrame

In [7]:
data ={'Cuisine Type':['Chinese', 'Indian','Malay'],
      'Food':['Chicken Rice','Rojak','Satay'],
      'Price':[4,5,6]}

In [8]:
data

{'Cuisine Type': ['Chinese', 'Indian', 'Malay'],
 'Food': ['Chicken Rice', 'Rojak', 'Satay'],
 'Price': [4, 5, 6]}

In [9]:
df = pd.DataFrame(data)

In [10]:
df

Unnamed: 0,Cuisine Type,Food,Price
0,Chinese,Chicken Rice,4
1,Indian,Rojak,5
2,Malay,Satay,6


In [11]:
data =[['Chinese', 'Indian','Malay'],
      ['Chicken Rice','Rojak','Satay'],
      [4,5,6]]

In [12]:
df

Unnamed: 0,Cuisine Type,Food,Price
0,Chinese,Chicken Rice,4
1,Indian,Rojak,5
2,Malay,Satay,6


In [13]:
import numpy as np
df = pd.DataFrame(np.asarray(data).T.tolist(),columns=['Cuisine Type','Food','Price'])

In [14]:
df

Unnamed: 0,Cuisine Type,Food,Price
0,Chinese,Chicken Rice,4
1,Indian,Rojak,5
2,Malay,Satay,6


### DataFrameからの一部データ抽出（フィルタリング）

In [15]:
df[1:]

Unnamed: 0,Cuisine Type,Food,Price
1,Indian,Rojak,5
2,Malay,Satay,6


loc、iloc、ix の 3 つは、行、列 を指定してデータを参照するという、基本的に同じ目的で使われる。
行、列の指定方法に関し、次のような違いがある。

 
- loc　　行ラベル、 列ラベル
- iloc　行の番号(0 ~ )、列の番号(0 ~ )
- ix　行ラベル、列ラベル または 行の番号(0 ~ )、列の番号(0 ~ )

最近ixが使われなくなっていることから、locやilocのみによる行＆列指定の方法も調べる

In [16]:
# 行番号指定（１）
df.iloc()[0]

Cuisine Type         Chinese
Food            Chicken Rice
Price                      4
Name: 0, dtype: object

In [17]:
# 行番号指定（１）
df.iloc()[1]

Cuisine Type    Indian
Food             Rojak
Price                5
Name: 1, dtype: object

In [18]:
# 行&列番号指定
df.iloc()[1][0]

'Indian'

In [19]:
# ラベル指定
df.loc()[1,'Cuisine Type']

'Indian'

In [21]:
df.shape

(3, 3)

In [22]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [23]:
df.columns

Index(['Cuisine Type', 'Food', 'Price'], dtype='object')

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
Cuisine Type    3 non-null object
Food            3 non-null object
Price           3 non-null object
dtypes: object(3)
memory usage: 152.0+ bytes


In [25]:
df.count()

Cuisine Type    3
Food            3
Price           3
dtype: int64

In [26]:
df.sum()

Cuisine Type        ChineseIndianMalay
Food            Chicken RiceRojakSatay
Price                              456
dtype: object

Reference http://pandas.pydata.org/