# DEEP LEARNING

## WEEK 3: Numpy, Pandas, Matplotlib

Pandas là một thư viện tương đối mới, được xây dựng dựa trên NumPy, và cung cấp một cách cài đặt hiệu quả cho cấu trúc dữ liệu DataFrame.

DataFrame về bản chất là các mảng đa chiều (multidimensional arrays) có gắn nhãn hàng (row labels) và nhãn cột (column labels), đồng thời thường chứa dữ liệu không đồng nhất về kiểu (heterogeneous types) và/hoặc giá trị bị thiếu (missing data).

Bằng việc cung cấp một giao diện lưu trữ thuận tiện cho dữ liệu có nhãn (labeled data), Pandas triển khai nhiều phép toán xử lý dữ liệu mạnh mẽ, quen thuộc với người dùng các hệ quản trị cơ sở dữ liệu (database frameworks) cũng như các chương trình bảng tính (spreadsheet programs).

Mặc dù cấu trúc dữ liệu ndarray của NumPy cung cấp các tính năng nền tảng quan trọng, nhưng những hạn chế của nó trở nên rõ ràng khi cần sự linh hoạt cao hơn, chẳng hạn như gắn nhãn cho dữ liệu, xử lý dữ liệu bị thiếu, v.v.

Pandas cung cấp khả năng truy cập và xử lý hiệu quả các tác vụ “data munging” (tiền xử lý, làm sạch và biến đổi dữ liệu) — những công việc chiếm phần lớn thời gian làm việc.

In [3]:
import pandas as pd

pd.__version__

'2.3.1'

## Series

Pandas Series là một mảng một chiều (one-dimensional array) có chỉ mục (index).

Series có thể được khởi tạo từ một danh sách (list) hoặc một mảng (array) như sau:

Tạo Series từ list

Tạo series từ list

In [4]:
data_pd = pd.Series([0.5, 0.3, 1.0, 2.5])
data_pd

0    0.5
1    0.3
2    1.0
3    2.5
dtype: float64

Tạo series từ Numpy array

In [5]:
import numpy as np
numpy_arr = np.arange(5)
data_pd = pd.Series(numpy_arr)
data_pd

0    0
1    1
2    2
3    3
4    4
dtype: int64

Attributes

In [6]:
data_pd.values

array([0, 1, 2, 3, 4])

In [7]:
data_pd.index

RangeIndex(start=0, stop=5, step=1)

indexing

In [8]:
data_pd[1]

np.int64(1)

In [9]:
data_pd[-2:]

3    3
4    4
dtype: int64

In [10]:
data_pd[-1] # không có chỉ số index là -1

KeyError: -1

Letter indexing

In [None]:
# chỉ số nguyên khó dùng -> thử đổi sang chữ cái

data_pd = pd.Series([1.25, 2.0, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])

In [44]:
data_pd[-1]

  data_pd[-1]


np.float64(1.0)

## BTVN 1:
Giải thích hiện tượng trên (2 cái data_pd[-1])



Ở ví dụ 1: Series với index là số nguyên:  
- Khi tạo một series mà không chỉ định index thì pandas sẽ mặc định tạo ra các số nguyên (0, 1, 2, 3, 4).
- Khi index là các số nguyên, pandas sẽ ưu tiên hiểu các con số trong [] là Label-based indexing.
- Pandas sẽ tìm kiếm label có tên là -1. Vì trong các số nguyên không có số -1 nên nó sẽ báo lỗi.

Ở ví dụ 2: Series với index là kí tự  
- Khi index của series không phải là số nguyên ('a', 'b', 'c', 'd'), pandas sẽ linh hoạt hơn.
- Nếu label không phải là số, pandas sẽ hiểu sử dụng position-based indexing.
- Trong các số, -1 là đại diện cho số cuối, nên nó trả về kết quả là 1.

Combined indexing

In [13]:
index = ['a', 'b', 'c', 'd', 3]
data_pd = pd.Series(numpy_arr, index = index)

In [14]:
data_pd['a']

np.int64(0)

In [15]:
data_pd[3]

np.int64(4)

pandas and dictionary

Hệ thống chỉ mục của pandas có cấu trúc tương tự dictionary 

Việc tạo một đối tượng pandas từ dictionary là điều hoàn toàn dễ hiểu

In [16]:
some_population_dict = {'SaiGon' : 59,
                        'DongNai' : 60,
                        'BinhThuan' : 86,
                        'HaNoi' : 29}
data_pd = pd.Series(some_population_dict)
data_pd['SaiGon']

np.int64(59)

pandas cũng hỗ trợ slising 

lưu ý: slising theo index label là "bao gồm cả điểm kết thúc"





In [17]:
data_pd['SaiGon':'HaNoi']

SaiGon       59
DongNai      60
BinhThuan    86
HaNoi        29
dtype: int64

pandas and Scalar

Dữ liệu có thể là một giá trị vô hướng Scalar và giá trị này sẽ được lặp lại để điền vào toàn bộ index đã chỉ định

In [18]:
data_pd = pd.Series(5, index=[2, 3, 8])
data_pd

2    5
3    5
8    5
dtype: int64

DataFrame

DataFrame tương tự mảng 2 chiều, với index hàng và tên cột linh hoạt; về bản chất là tập hợp các Series được căn chỉnh theo index.

Tạo DataFrame với 2 dict

In [19]:
some_population_dict = {'SaiGon' : 59,
                        'DongNai' : 60,
                        'BinhThuan' : 86,
                        'HaNoi' : 29}
some_area_dict = {'SaiGon' : 51,
                        'DongNai' : 600,
                        'BinhThuan' : 8686,
                        'HaNoi' : 33,
                        'VungTau' : 72}
state = pd.DataFrame({'population': some_population_dict, 'area': some_area_dict})
state

Unnamed: 0,population,area
SaiGon,59.0,51
DongNai,60.0,600
BinhThuan,86.0,8686
HaNoi,29.0,33
VungTau,,72


indexing

In [20]:
state['SaiGon':'HaNoi']

Unnamed: 0,population,area
SaiGon,59.0,51
DongNai,60.0,600
BinhThuan,86.0,8686
HaNoi,29.0,33


In [21]:
state['SaiGon':'HaNoi']['population']

SaiGon       59.0
DongNai      60.0
BinhThuan    86.0
HaNoi        29.0
Name: population, dtype: float64

In [22]:
state['population']['SaiGon':'HaNoi'] # không quan trọng thứ tự

SaiGon       59.0
DongNai      60.0
BinhThuan    86.0
HaNoi        29.0
Name: population, dtype: float64

In [23]:
state['population']['SaiGon':'HaNoi']['area'] # cột area không tồn tại

KeyError: 'area'

In [24]:
state['area']

SaiGon         51
DongNai       600
BinhThuan    8686
HaNoi          33
VungTau        72
Name: area, dtype: int64

In [25]:
state[:]['area']

SaiGon         51
DongNai       600
BinhThuan    8686
HaNoi          33
VungTau        72
Name: area, dtype: int64

attributes

In [26]:
state.index

Index(['SaiGon', 'DongNai', 'BinhThuan', 'HaNoi', 'VungTau'], dtype='object')

In [27]:
state.index[-1]

'VungTau'

In [28]:
state.columns

Index(['population', 'area'], dtype='object')

In [29]:
state.columns[0:1]

Index(['population'], dtype='object')

series indexing/slicing/fancy indexing 

In [30]:
import pandas as pd

data = pd.Series([0.75, 0.5, 1.0, 2.0], index = ['a', 'b', 'c', 'd'])
data

a    0.75
b    0.50
c    1.00
d    2.00
dtype: float64

explicit and implicit index

In [31]:
data['b']

np.float64(0.5)

In [32]:
data[-1]

  data[-1]


np.float64(2.0)

In [33]:
data['a': 'c']

a    0.75
b    0.50
c    1.00
dtype: float64

In [34]:
data[0:2]

a    0.75
b    0.50
dtype: float64

adding values

In [35]:
data['e'] = 10
data

a     0.75
b     0.50
c     1.00
d     2.00
e    10.00
dtype: float64

In [36]:
'a' in data

True

In [37]:
'f' in data

False

keys()

In [38]:
data.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

items()

In [39]:
list(data.items())

[('a', 0.75), ('b', 0.5), ('c', 1.0), ('d', 2.0), ('e', 10.0)]

values()

In [40]:
data.values

array([ 0.75,  0.5 ,  1.  ,  2.  , 10.  ])

masking

In [41]:
data[(data > 0.5) & (data < 10)]

a    0.75
c    1.00
d    2.00
dtype: float64

fancy indexing

In [42]:
data[['a', 'e']]

a     0.75
e    10.00
dtype: float64