# Table of Contents

In [1]:
import pandas as pd
import numpy as np

# 5.1 Intro to pandas Data Structures

+ Pandas có 2 kiểu dữ liệu:
    - Series ~ giống một list của các datapoints
    - DataFrame ~ 

## Series
+ Kiểu dữ liệu 1-d (giống như array):
    - Gồm 1 chuỗi các giá trị
    - Mỗi giá trị lại có 1 index tương ứng (data labels) *index*
    - Index có thể tự khởi tạo, nếu k sẽ được đánh tự động bắt đầu từ 0 ->

In [2]:
#   Kiểu series đơn giản nhất
obj = pd.Series([1, 2, 3, 4])
obj

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
#   Cac gia tri cua Series
obj.values

array([1, 2, 3, 4], dtype=int64)

In [4]:
#   Show index cua Series
obj.index

RangeIndex(start=0, stop=4, step=1)

#### Cách tạo 1 series với giá trị & index tương ứng

In [5]:
obj1 = pd.Series([2, 3, 4, 5],
                 index=['a', 'b', 'c', 1])
obj1

a    2
b    3
c    4
1    5
dtype: int64

In [6]:
#   Show index
obj1.index

Index(['a', 'b', 'c', 1], dtype='object')

#### So với numpy, series co the su dung index de truy cap den gia tri


In [7]:
obj1['a']

2

In [8]:
obj1[[1, 'a']]

1    5
a    2
dtype: int64

#### Có thể sử dụng các hàm hoặc phép toán tương tự như numpy:
    - Output sẽ là cặp index-value

In [9]:
obj1[obj1 != 0]

a    2
b    3
c    4
1    5
dtype: int64

In [10]:
obj1*2

a     4
b     6
c     8
1    10
dtype: int64

In [11]:
np.exp(obj1)

a      7.389056
b     20.085537
c     54.598150
1    148.413159
dtype: float64

In [12]:
20 in obj1

False

#### Tạo series từ dictionary

In [13]:
dict1 = {"HaNoi": "Rainning", "Dallas": "Sunny", "Alatic": None}

In [14]:
obj2 = pd.Series(dict1)
obj2

HaNoi     Rainning
Dallas       Sunny
Alatic        None
dtype: object

#### Notes:
+ Khi chỉ đưa vào dict, các index (~ keys) sẽ được sắp xếp theo thứ tự trong dict.
+ Nếu bạn cố ý gán các lại các giá trị index, các index đã có sẽ được giữ kèm value. Với các index mới, giá trị tương ứng sẽ bị gán NaN

In [17]:
new_idx = ["HaNoi", "SaiGon"]
obj3 = pd.Series(dict1, index=new_idx)
#
obj3

HaNoi     Rainning
SaiGon         NaN
dtype: object

#### Check null/not null 

In [18]:
pd.isnull(obj3)

HaNoi     False
SaiGon     True
dtype: bool

In [19]:
pd.notnull(obj3)

HaNoi      True
SaiGon    False
dtype: bool

#### Series tự động thực hiện các phép toán cùng labels

+ Đối với các label không chung, giá trị sẽ được gán NaN

In [20]:
obj4 = pd.Series([1, 2, 3, 4, 5],
                 index=["A", "B", "C", "D", "E"])
#
obj4

A    1
B    2
C    3
D    4
E    5
dtype: int64

In [21]:
obj5 = pd.Series([2, 3, 4, 5],
                 index=["B", "C", "D", "E"])

In [22]:
obj4 + obj5

A     NaN
B     4.0
C     6.0
D     8.0
E    10.0
dtype: float64

#### Cả Series & index của nó đều có thể đặt tên:

In [23]:
obj6 = pd.Series([1, 2, 3],
                 index=['a', 'b', 'c'])
obj6

a    1
b    2
c    3
dtype: int64

In [24]:
obj6.name = "Object 6"
obj6.index.name = "Index"
#
obj6

Index
a    1
b    2
c    3
Name: Object 6, dtype: int64

## DataFrame

+ DF có thể coi như 1 bảng dữ liệu. Nó bao gồm nhiểu cột thông tin, được sắp xếp theo 1 thứ tự. Mỗi cột chứa nhiều kiểu dữ liệu khác nhau.
+ DF có cả chỉ số hàng & chỉ số cột. Từ đó, ta có thể truy cập đến địa chỉ cụ thể.

+ Có nhiều cách để định nghĩa một DataFrame. Trong đó, cách thông dụng nhất là sử dụng 1 dict:
    - Các keys ~ columns
    - list values ~ rows

+ Các chỉ số index cũng được tạo tự động như Series

In [25]:
data = {"Car": ["Vinfast", "BMW", "Honda", "Toyota", "Ford", "Mazda"],
        "Cost": [1.2, 2.0, 1.5, 1.3, 1.6, 1.8]}
df = pd.DataFrame(data)
#
df

Unnamed: 0,Car,Cost
0,Vinfast,1.2
1,BMW,2.0
2,Honda,1.5
3,Toyota,1.3
4,Ford,1.6
5,Mazda,1.8


In [26]:
#    Show 5 dòng đầu tiên
df.head()

Unnamed: 0,Car,Cost
0,Vinfast,1.2
1,BMW,2.0
2,Honda,1.5
3,Toyota,1.3
4,Ford,1.6


#### Bạn có thể sắp xếp lại thứ tự các cột bằng tên

In [27]:
pd.DataFrame(df, columns=['Cost', 'Car'])

Unnamed: 0,Cost,Car
0,1.2,Vinfast
1,2.0,BMW
2,1.5,Honda
3,1.3,Toyota
4,1.6,Ford
5,1.8,Mazda


#### Nếu truyền vào 1 column không tồn tại trong dict thì cột tương ứng với columns name đó sẽ chứa các giá trị NaN

In [28]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002, 2003],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

In [29]:
frame1 = pd.DataFrame(data, columns=['year', 'pop', 'state', 'cost'])
frame1

Unnamed: 0,year,pop,state,cost
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


#### Một column trong df có thể lấy lại như 1 Series bằng 2 cách

+ Cách 1: Tương tự như sử dụng key trong dict

In [30]:
frame1['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

+ Cách 2: Coi column như 1 attribute

In [31]:
frame1.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

#### Các hàng có thể lấy bởi vị trí hoặc tên với attribute *.loc*

+ df.loc[[index_row1, index_row2 ...]]

In [32]:
frame1.loc[[1, 2]]

Unnamed: 0,year,pop,state,cost
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,


#### Columns có thể được modified bởi việc gán giá trị cụ thể.

```
df[col_name] = values
```

In [33]:
frame1

Unnamed: 0,year,pop,state,cost
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


In [34]:
frame1['Temp'] = 23
frame1

Unnamed: 0,year,pop,state,cost,Temp
0,2000,1.5,Ohio,,23
1,2001,1.7,Ohio,,23
2,2002,3.6,Ohio,,23
3,2001,2.4,Nevada,,23
4,2002,2.9,Nevada,,23
5,2003,3.2,Nevada,,23


In [35]:
frame1["Temp"] = [23, 30, 31, 29, 20, 20]
frame1

Unnamed: 0,year,pop,state,cost,Temp
0,2000,1.5,Ohio,,23
1,2001,1.7,Ohio,,30
2,2002,3.6,Ohio,,31
3,2001,2.4,Nevada,,29
4,2002,2.9,Nevada,,20
5,2003,3.2,Nevada,,20


#### Notes: 

+ Khi gán list/array cho 1 column, cần đảm bảo độ dài list/arr = độ dài cột trong dataframe

+ Nếu k, pandas sẽ tự gán giá trị NaN

In [36]:
ser_test = pd.Series([23, 30, 31, 29, 25], index=[0, 1, 2, 3, 4])
frame1["Temp"] = ser_test
frame1

Unnamed: 0,year,pop,state,cost,Temp
0,2000,1.5,Ohio,,23.0
1,2001,1.7,Ohio,,30.0
2,2002,3.6,Ohio,,31.0
3,2001,2.4,Nevada,,29.0
4,2002,2.9,Nevada,,25.0
5,2003,3.2,Nevada,,


#### Có thể xóa 1 cột dữ liệu

```
del df['column_name']
```

In [39]:
del frame1['Temp']
frame1

Unnamed: 0,year,pop,state,cost
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


## Index Objects

+ Các chỉ số trong Pandas được xác định bởi các nhãn trục & các thông tin khác như (tên trục)


In [40]:
obj = pd.Series([1, 2, 3], 
                index=['a', 'b', 'c'])
obj.index

Index(['a', 'b', 'c'], dtype='object')

In [41]:
obj.index[:1]

Index(['a'], dtype='object')

+ Tính bất biến của df values giúp đảm bảo kính thước của index tương ứng.

In [42]:
labels = pd.Index(np.arange(3))
#
labels

Int64Index([0, 1, 2], dtype='int64')

In [43]:
obj1 = pd.Series([1, 2, 3], index=labels)
obj1

0    1
1    2
2    3
dtype: int64

In [44]:
obj1.index is labels

True

In [45]:
3 in obj1.index

False

#### Không như set trong python, trong pandas các index có thể giống nhau.

In [46]:
obj2 = pd.Series([1, 2, 3, 4],
                 index=['a', 'b', 'c', 'c'])
#
obj2

a    1
b    2
c    3
c    4
dtype: int64

# 5.2 Essential Functionality

+ Phần này sẽ làm quen với các phương pháp/cách thức cơ bản để tương tác với kiểu dữ liệu như Series/DataFrame đã nêu phần trên.

## Reindexing

+ *reindex()*: tạo một object mới với dữ liệu phù hợp thứ tự index mới.



In [47]:
obj = pd.Series([1, 2, 3, 4, 5],
                index=['a', 'b', 'c', 'd', 'e'])
#
obj

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### Cách 1

In [48]:
obj1 = obj.reindex(['b', 'c', 'd', 'e', 'a'])
obj1

b    2
c    3
d    4
e    5
a    1
dtype: int64

#### Cách 2

In [49]:
obj2 = pd.DataFrame(obj1, 
                    index=['b', 'c', 'd', 'e', 'a'])
obj2

Unnamed: 0,0
b,2
c,3
d,4
e,5
a,1


#### Muốn fill dữ liệu cho đầy vào các index

In [50]:
obj3 = pd.Series(['blue', 'yellow', 'black'], 
                 index=[1, 4, 7])
obj3

1      blue
4    yellow
7     black
dtype: object

In [51]:
obj3.reindex(range(8), method='ffill')

0       NaN
1      blue
2      blue
3      blue
4    yellow
5    yellow
6    yellow
7     black
dtype: object

In [52]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'b', 'c'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [53]:
frame1 = frame.reindex(['a', 'b', 'c', 'd'])
frame1

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


#### Hàm *reindex(columns=[col1, col2, col3, ...])*: sẽ thay thế danh sách columns cũ bằng danh sách columns mới vừa được gán.

+ df.reindex() -> new dataframe

In [54]:
new_cols = ['Ohio', 'Texas', 'California', 'New Yord']
new_df = frame.reindex(columns=new_cols)
new_df

Unnamed: 0,Ohio,Texas,California,New Yord
a,0,1,2,
b,3,4,5,
c,6,7,8,


#### Xóa các mục trong 1 cột ~ Dropping entries from an axis

+ Việc xóa 1 hay nhiều mục trong một cột khi có danh sách chuỗi/list các mục cần giữ.
    - drop([entrie_1, entrie_2, ...]) : trả về một object mới với các mục còn 

In [56]:
obj = pd.Series(np.arange(5.), 
                index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [57]:
new_obj = obj.drop(['c', 'e'])
new_obj

a    0.0
b    1.0
d    3.0
dtype: float64

+ Ngoài sử dụng tên mục trong cột, Pandas có thể xóa các mục bởi chỉ số index *index values*
    - Xóa các giá trị của các cột khi sử dụng *axis=1* or *axis='columns'*:


```
obj.drop([column_name1, column_name2, ...], axis=1)
```

In [58]:
data = pd.DataFrame(np.arange(16).reshape(4, 4),
                    index=['HaNoi', "DaNang", "HCM", "CanTho"],
                    columns=[1, 2, 3, 4])
data

Unnamed: 0,1,2,3,4
HaNoi,0,1,2,3
DaNang,4,5,6,7
HCM,8,9,10,11
CanTho,12,13,14,15


In [60]:
new_data = data.drop([1, 4], axis='columns')
new_data

Unnamed: 0,2,3
HaNoi,1,2
DaNang,5,6
HCM,9,10
CanTho,13,14
