# Pandas的資料結構
    series
    dataframe
    index物件

## 1. Series
        。像一維陣列的物件，含有一個值的序列+一個資料標籤index的陣列
        。可當成一種特殊化的字典，其為固定長度且有序。
        。建立series的語法：
            pd.Series(data,index=index)

In [1]:
import pandas as pd

ser=pd.Series([4,7,-5,3])
ser
    # 印出後左邊是index, 右邊是值
    # 可用Series的value和index屬性分別取用值和index的陣列

0    4
1    7
2   -5
3    3
dtype: int64

In [2]:
ser.values

array([ 4,  7, -5,  3], dtype=int64)

In [3]:
ser.index
    # by default是0~N-1的數字

RangeIndex(start=0, stop=4, step=1)

In [4]:
# 自行設定index

import pandas as pd

ser2=pd.Series([4,7,-5,3],index=['d','b','a','c'])
ser2

d    4
b    7
a   -5
c    3
dtype: int64

In [5]:
ser2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [6]:
# 以index取值
ser2['a']

-5

In [7]:
# 指定index對應的值
ser2['d']=6
ser2

'''
d    4
b    7
a   -5
c    3
'''

d    6
b    7
a   -5
c    3
dtype: int64

In [8]:
# 取用資料
ser2[ser2>2]

d    6
b    7
c    3
dtype: int64

In [16]:
# 以字典建立Series
population_dict={'California':38332521,
                 'Texas':26448193,
                 'New York':19651127,
                 'Florida':19552860,
                 'Illonis':12882135}
population=pd.Series(population_dict)

population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illonis       12882135
dtype: int64

In [22]:
# pd.Series(data,index=index)
# data 可為list or nd-array, 若為純量則會重複填入指定的index
# index by default是一序列的整數

s=pd.Series([2,3,4])
print(s)
'''
    0    2
    1    3
    2    4
'''

s.index=[100,200,300]
print(s)
'''
    100    2
    200    3
    300    4
'''

s=pd.Series(5,index=[100,200,300])
print(s)
'''
    100    5
    200    5
    300    5
'''


0    2
1    3
2    4
dtype: int64
100    2
200    3
300    4
dtype: int64
100    5
200    5
300    5
dtype: int64


## 在Series中選擇資料
    。把Series當成字典
    。把Series當成一維陣列
    。loc & iloc

In [27]:
# 把Series當成字典：使用key來找值
import pandas as pd

data=pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
print('data:\n',data,sep='')

data['b']


data:
a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


0.5

In [28]:
'a' in data

True

In [30]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [31]:
data.items()

<zip at 0x1c6baab21c8>

In [32]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

## 把Series當成一維陣列
    。可操作切片，遮罩，fancy indexing等
    。fancy index 是傳遞陣列作為index，可一次存取多個陣列元素。

In [33]:
# slicing by index: 注意會return包含最後一個index的部份
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [34]:
# slicing by number： 不會包含最後的那個index, 本例為2
data[0:2]

a    0.25
b    0.50
dtype: float64

In [35]:
# mask
data[(data>0.3) & (data<0.8)]

b    0.50
c    0.75
dtype: float64

In [37]:
# fancy index
data[['a','d']]

a    0.25
d    1.00
dtype: float64

## Series的loc, iloc

In [45]:
# loc: 允許index參考到明確的index, Purely label-location based indexer for selection by label.
# iloc: Purely integer-location based indexing for selection by position.

import pandas as pd
data=pd.Series(['a', 'b', 'c', 'd'],index=[1,2,3,7])
print(data)

print(data[1:3])
    # 當index是數字時，會有「index第1~2列」 or 「找index=1到3的列」的疑慮

print(data.loc[1:3])
    # loc會找出index=1到index=3的部份

print(data.iloc[1:3])
    # 第1列到第3列

1    a
2    b
3    c
7    d
dtype: object
2    b
3    c
dtype: object
1    a
2    b
3    c
dtype: object
2    b
3    c
dtype: object
