In [24]:
import numpy as np
import pandas as pd
# Series
data = pd.Series([1,2,5,7])
data

0    1
1    2
2    5
3    7
dtype: int64

In [25]:
data.values

array([1, 2, 5, 7], dtype=int64)

In [26]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [27]:
data[1]

2

In [28]:
data[1:3]
# Bỏ biên bên phải nếu index là số

1    2
2    5
dtype: int64

In [31]:
print(data.count())

4


In [34]:
# Index có thể rời rạc, thứ tự lộn xộn
data = pd.Series([1,2,5,7], index=['a','b','c','d'])
data

a    1
b    2
c    5
d    7
dtype: int64

In [39]:
# Tạo series từ Dictionary
pop_dic = {'Hà Nội':387,'Sài Gòn':210,'Hải Phòng':310}
pop = pd.Series(pop_dic)
pop

Hà Nội       387
Sài Gòn      210
Hải Phòng    310
dtype: int64

In [40]:
pop['Hà Nội']

387

In [41]:
pop['Hà Nội':'Sài Gòn']
# Lấy cả biên bên phải nếu index là string

Hà Nội     387
Sài Gòn    210
dtype: int64

In [42]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [43]:
pd.Series(5,index=[100,200,300])
# Tạo ra nhiều giá trị giống nhau theo index

100    5
200    5
300    5
dtype: int64

In [44]:
# Tạo ra từ dic nhưng có index=>Chỉ tạo theo index. Nếu có index không có giá trị thì NaN
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

In [50]:
pop_area = {'Hà Nội':110,'Sài Gòn':200,'Hải Phòng':110}
area = pd.Series(pop_area)
area

Hà Nội       110
Sài Gòn      200
Hải Phòng    110
dtype: int64

In [51]:
# Tạo từ dic, key là tên cột
state = pd.DataFrame({'pop':pop,'area':area})
state

Unnamed: 0,pop,area
Hà Nội,387,110
Sài Gòn,210,200
Hải Phòng,310,110


In [52]:
state.index

Index(['Hà Nội', 'Sài Gòn', 'Hải Phòng'], dtype='object')

In [53]:
# Truy cập dữ liệu của cột thông qua tên cột
state['area']

Hà Nội       110
Sài Gòn      200
Hải Phòng    110
Name: area, dtype: int64

In [54]:
# Khởi tạo từ 1 series
pd.DataFrame(area,columns=['area'])

Unnamed: 0,area
Hà Nội,110
Sài Gòn,200
Hải Phòng,110


In [55]:
# Tạo từ list dict
data = [{'a':i,'b':2*i} for i in range(3)]
data
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [57]:
# pandas with NaN values
pd.DataFrame([{'a':1,'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [58]:
# Tạo từ array numpy, theo kích thước array nếu sai thì lỗi
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.222147,0.886967
b,0.349489,0.075629
c,0.773712,0.498502


# From a Numpy structured array

In [62]:
A=np.zeros(3,dtype=[('A','i8'),('B','f8')])

In [63]:
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [64]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# The Pandas index Object

In [72]:
# Không chỉnh sửa đc
ind = pd.Index([2,3,4,5,7,11])
ind

Int64Index([2, 3, 4, 5, 7, 11], dtype='int64')

In [73]:
ind[1]

3

In [74]:
ind[::2]

Int64Index([2, 4, 7], dtype='int64')

In [75]:
print(ind.size, ind.shape,ind.ndim, ind.dtype)
# shape là vecto
# ndim là số chiều

6 (6,) 1 int64


In [76]:
# Thao tác với index
# intersection => &
# union => |
# symmetric_difference => ^

ind2 = pd.Index([1,3,4,5,7,15])

In [77]:
ind & ind2

  ind & ind2


Int64Index([3, 4, 5, 7], dtype='int64')

In [79]:
ind.intersection(ind2)

Int64Index([3, 4, 5, 7], dtype='int64')

In [80]:
ind | ind2

  ind | ind2


Int64Index([1, 2, 3, 4, 5, 7, 11, 15], dtype='int64')

In [81]:
ind.union(ind2)

Int64Index([1, 2, 3, 4, 5, 7, 11, 15], dtype='int64')

In [82]:
ind ^ ind2

  ind ^ ind2


Int64Index([1, 2, 11, 15], dtype='int64')

In [84]:
ind.symmetric_difference(ind2)

Int64Index([1, 2, 11, 15], dtype='int64')

# 4 Data indexing and selection

## Data Selection in Series

In [85]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [86]:
# Chỉ số tường minh
data['b']

0.5

In [87]:
# Chỉ số ngầm định
data[1]

0.5

In [88]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [89]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [91]:
# Extend
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [92]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [93]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [94]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [95]:
#fancy indexing: truyền vào 1 list index
data[['a','e']]

a    0.25
e    1.25
dtype: float64

## indexers: loc, iloc

In [96]:
data = pd.Series(['a','b','c'],index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [100]:
# Chỉ số tuowngf minh
data[1]

'a'

In [101]:
# Chỉ số ngầm định khi slicing
data[1:3]

3    b
5    c
dtype: object

In [102]:
data.loc[1]

'a'

In [103]:
data.iloc[1]

'b'

## data Select in dataframe