**Data Selection in Series**

In [191]:
import pandas as pd

In [192]:
obj=pd.Series([3,5,-2,-8])
print(obj)

0    3
1    5
2   -2
3   -8
dtype: int64


In [193]:
data=pd.Series([0.25,0.5,0.75,1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Python expressions และ methods ของตัวแปร dictionary สามารถนำมาใช้กับ key/indices และ values ของ Series ได้


In [194]:
data['b']

np.float64(0.5)

In [195]:
'a' in data

True

In [196]:
data.keys() # index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [197]:
data.items()

<zip at 0x131e37740>

In [198]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

ขณะเดียวกัน เราสามารถเพิ่มจำนวนข้อมูลโดยกำหนด new key และ new index value ได้

In [199]:
data['e']=1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Series as one-dimensional array

In [200]:
data['a':'c'] #slicing by explicit index

a    0.25
b    0.50
c    0.75
dtype: float64

In [201]:
data[0:2] #slicing by implicit integer index

a    0.25
b    0.50
dtype: float64

In [202]:
data[(data>0.3)&(data<0.8)] #masking

b    0.50
c    0.75
dtype: float64

In [203]:
data[['a','e']] #fancy indexing  เลือกข้อมูลของ key 'a' กับ 'e' เท่านั้น

a    0.25
e    1.25
dtype: float64

Indexers: loc, iloc
การใช้ slicing และ indexing อาจเกิดความสับสนกันได้ โดยถ้าใช้ indexing operation เช่น data[1] จะเป็นการใช้ explicit indices  แต่ถ้า slicing operation เช่น data[1:3] จะเป็นการใช้ implicit Python-style index

In [204]:
data=pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [205]:
data[1] # explicit index when indexing

'a'

In [206]:
data[1:3] #implicit index when slicing


3    b
5    c
dtype: object

In [207]:
data.loc[1] #loc เป็นตัวกำหนดว่า explicit เสมอ

'a'

In [208]:
data.loc[1:3] #loc เป็นตัวกำหนดว่า explicit เสมอ

1    a
3    b
dtype: object

In [209]:
data.iloc[1] #iloc เป็นตัวกำหนดว่า implicit เสมอ

'b'

In [210]:
data.iloc[1:3] #iloc เป็นตัวกำหนดว่า implicit เสมอ

3    b
5    c
dtype: object

**Data Selection in DataFrame**

In [211]:
area=pd.Series({'California':423967,'Texas':695662,'New York':141297,'Florida':170312,'Illinois':149995})
pop=pd.Series({'California':38332521,'Texas':26448193,'New York':19651127,'Florida':19552860,'Illinois':12882135})
data=pd.DataFrame({'area':area,'pop':pop})
data


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Column access via dictionary-style index of the column name.

In [212]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

ขณะเดียวกัน เราสามารถใช้ attribute-style กับ column name ที่เป็น string

In [213]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [214]:
data.area is data['area']

True

This attribute-style column access actually accesses the exact same object as the dictionary-style access.
Though this is a useful shorthand, but it doesn’t work for all.

In [215]:
data.pop is data['pop']

False

If  the column names are not strings or the names conflict with method of the DataFrame, this attribute-style access is not possible. เช่น DataFrame มี pop( ) method ดังนั้น data.pop จะเป็นการทำงานตาม method มากกว่าการดึงค่าที่ pop column

การเพิ่มข้อมูลคอลัมน์ใหม่ เราสามารถใช้ syntax แบบ Series Object ได้

In [216]:
data['density']=data['pop']/data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


DataFrame as two-dimensional array

จากข้อมูล DataFrame เราสามารถเข้าถึง raw data โดยใช้ values attribute

In [217]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

และใช้คำสั่ง .T สำหรับ transpose ข้อมูลใน DataFrame

In [218]:
data_T = data.T;data_T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [222]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


ในการใช้งาน dictionary-style indexing of columns เราสามารถใช้การทำงานในแบบของ Numpy array เช่น การเข้าถึง row โดยใช้ single index

In [219]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

และใช้ a single “index” เพื่อเข้าถึง column

In [223]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

การใช้ loc, iloc สำหรับ DataFrame

In [224]:
data_T["California"]

area       4.239670e+05
pop        3.833252e+07
density    9.041393e+01
Name: California, dtype: float64

In [None]:
data.iloc[:3,:2]  #เอาแถว 0 1 2  เอาคอลัมน์ 0 1

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


ส่วน ix indexer ใช้สำหรับ hybrid การใช้งาน  iloc กับ loc

In [None]:
# data.ix[:3,:'pop'] #เอาแถว 0 1 2 เอาคอลัมน์แรก ถึง pop

# 'DataFrame' object has no attribute 'ix'

loc สามารถนำมาใช้ร่วมกับเงื่อนไขในการจัดดำเนินการข้อมูล หรือนำมาใช้ในการกำหนดค่าข้อมูลเช่นเดียวกับ การใช้ Numpy

In [None]:
data.loc[data.density>100,['pop','density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [None]:
data.iloc[0,2]=90  #อ้างอิงแบบ implicit  เปลี่ยนค่าใน row 0,col 2 ให้เป็น 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Additional indexing conventions
First, indexing refers to columns, slicing refers to rows

In [None]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Such slices can also refer to rows by number rather than by index.

In [None]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


Similarly, direct masking operations are also interpreted row-wise rather than column-wise:

In [None]:
data[data.density>100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


Reindexing

In [None]:
obj=pd.Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [None]:
obj2=obj.reindex(['a','b','c','d','e']) # เรียง index ใหม่
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [None]:
obj3=pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [None]:
obj3.reindex(range(6),method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

With DataFrame, reindex can alter either the (row) index, columns, or both. When passed only a sequence, it reindexes the rows in the result:

In [None]:
import numpy as np
frame=pd.DataFrame(np.arange(9).reshape((3,3)),
                  index=['a','c','d'],
                  columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [None]:
frame2=frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


The columns can be reindexed with the columns keyword:

In [None]:
states=['Texas','Ohio','California'] #เป็นการ reindex ตามแนว colomns
frame3 = frame.reindex(columns=states)  #reindex ไม่ใช่การเปลี่ยนชื่อ  แต่เป็นการใช้ชื่อเดิม เพียงแค่สลับลำดับเท่านั้น ดังนั้นหากมีการใช้ index ชื่อใหม่ แล้วชื่อใหม่ไม่มีค่า มันก็จะเป็น Nan
frame3

Unnamed: 0,Texas,Ohio,California
a,1,0,2
c,4,3,5
d,7,6,8


We can reindex more succinctly by label-indexing with loc

In [None]:
frame4 = frame2.loc[['a','b','c','d'], states]
frame4

Unnamed: 0,Texas,Ohio,California
a,1.0,0.0,2.0
b,,,
c,4.0,3.0,5.0
d,7.0,6.0,8.0


In [None]:
frame5 = frame2.loc[['a','b','c','d'],['California','Texas']];frame5

Unnamed: 0,California,Texas
a,2.0,1.0
b,,
c,5.0,4.0
d,8.0,7.0


In [None]:
frame6 = frame5.rename(columns={"California":"Bankok", "Texas":"Chiangmai"});frame6

Unnamed: 0,Bankok,Chiangmai
a,2.0,1.0
b,,
c,5.0,4.0
d,8.0,7.0
