**Import pandas library**

In [1]:
import pandas as pd
import numpy as np

# Introduction to Pandas Object

Object là một phiên bản nâng cấp của cấu trúc numpy array. 

## The pandas Series Object

**Series:** is a one-demension array containing an array of data and an associatedd of data labels, called its index.

In [2]:
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Như chúng ta thấy. Series sẽ bao gồm index và values. rất giống với numpy array.
Như numpy array, dữ liệu có thể truy cập bằng index

In [3]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [4]:
data[1:]

1    0.50
2    0.75
3    1.00
dtype: float64

Ngoài ra index có thể thay đổi. Không chỉ là dãy số từ 1 tới n mà còn có thể là dãy chữ,... Chúng ta có thể set index dễ dàng thông qua code dưới đây. Ngoài ra không nhất thiết index phải tăng dần có thể random số cũng được luôn. Thằng Series is quite flexible to use hơn là thằng Numpy

In [5]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

**Series as specialized dictionary** Thằng này như một dictionary đặc biệt. Chúng ta có thể construct a Series object directly from a python dictionary

In [6]:
population_dict = {'California': 38332521,
                   'Texas':26448193,
                   'New York': 19651127, 
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Thằng Series khác thằng dict 1 chỗ là thằng Series có thể **slicing** như thằng array

In [7]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Constructing Series Objects

Như ở trên thì thằng Series có thể construct từ 1 list hoặc 1 numpy array. Nếu không có index trong câu lệnh -> nó sẽ tự xuất hiện index default. Ngoài ra có thể tạo data trùng cho nhiều index. 

In [8]:
pd.Series(5,index=[100,300,400])

100    5
300    5
400    5
dtype: int64

In [9]:
pd.Series({2:'a',1:'b',3:'c'},index =[3,2])

3    c
2    a
dtype: object

## The pandas DataFrame Object

Nếu **Series** là mảng 1 chiều thì thằng **DataFrame** là mảng 2 chiều, m có thể xem đó là 1 sequence của **Series**

In [10]:
areas_dict = {'California': 12321,
                   'Texas':2345,
                   'New York': 2365, 
                   'Florida': 7654,
                   'Illinois': 34567}
area = pd.Series(areas_dict)

In [11]:
states = pd.DataFrame({'population': population,'area': area})
states

Unnamed: 0,population,area
California,38332521,12321
Texas,26448193,2345
New York,19651127,2365
Florida,19552860,7654
Illinois,12882135,34567


Như thằng Series thì thằng DataFrame cũng có index và index có thể slicing như nói ở trên.
Additionally, thằng DataFrame có thuộc tính cột nên việc truy xuất sẽ như mảng 2 chiều

In [12]:
states.columns

Index(['population', 'area'], dtype='object')

In [13]:
states['area']['California']

12321

### Constructing DataFrame Objects

- **Từ một thằng Series objects**

In [14]:
pd.DataFrame(population,columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


- **Từ một dictionaries**

In [15]:
data = [{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Nếu một vài keys nó bị missing dữ liệu thì Pandas tự thêm **NaN** vào values (NaN is not a value)

In [16]:
data = [{'a':1,'b':2},{'b':3,'c':4}]
pd.DataFrame(data)

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


- **Từ 1 dictionary của Series Objects**

In [17]:
states = pd.DataFrame({'population': population,'area': area})
states

Unnamed: 0,population,area
California,38332521,12321
Texas,26448193,2345
New York,19651127,2365
Florida,19552860,7654
Illinois,12882135,34567


- **Từ mảng 2 chiều Numpy array**

In [18]:
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index = [0,1,2])

Unnamed: 0,foo,bar
0,0.274662,0.195822
1,0.526551,0.128634
2,0.926183,0.997397


- **Từ 1 cái mảng numpy cấu trúc**

In [19]:
A = np.zeros(3)
pd.DataFrame(A,columns=['CCA'])

Unnamed: 0,CCA
0,0.0
1,0.0
2,0.0


## The pandas INDEX Object

In [20]:
ind = pd.Index([2,7,3,5,11])
ind

Index([2, 7, 3, 5, 11], dtype='int64')

In [21]:
print(ind.size,ind.shape,ind.ndim,ind.dtype)

5 (5,) 1 int64


Index như một cái mảng z. Chúng ta có thể truy cập nó dễ dàng và có thể get szie, shape, ndim, dtype. **NHƯNG INDEX không thể bị thay đổi giá trị trực tiếp bằng câu lệnh**

In [22]:
ind[1] = 0

TypeError: Index does not support mutable operations

Ngoài ra thằng Index cũng có thể giao hợp và nhiều thuật toán kết hợp khác.

In [None]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
indA.intersection(indB)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [None]:
indA.union(indB)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [None]:
indA.symmetric_difference(indB)

Int64Index([1, 2, 9, 11], dtype='int64')

# Data Indexing and Selection

## Data Indexing in SERIES

Như chúng ta biết thì **Series** nó acts như mảng 1 chiều và cũng như là dictionaries. Nên hãy nhớ thằng **Series** này là sự giao thoa giữa 2 thằng mảng và dictionaries. Nó sẽ giúp hiểu hơn vầ data indexing và selection

- ### Series as dictionary

In [None]:
data = pd.Series([0.25,0.5,0.75,1.0],index =['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Chúng ta có thể sử dụng các **expressions và methods như thằng DICTS** để examine keys và values

In [None]:
'a' in data

True

In [None]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Hơn thế nữa thì thằng Series này có thể thêm dữ liệu hoặc sửa dữ liệu dễ dàng. Như ví dụ ở dưới thì index e không có trong Series nên nó auto tự thêm vào. Bá quá bá

In [None]:
data['e']=1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [None]:
data