# DEEP LEARNING
## TUẦN 3: NUMPY, PANDAS, MATHPLOTLIB

Pandas là một thư viện tương đối mới, được xây dựng dựa trên NumPy, và cung cấp một cách cài đặt hiệu quả cho cấu trúc dữ liệu DataFrame.

DataFrame về bản chất là các mảng đa chiều (multidimensional arrays) có gắn nhãn hàng (row labels) và nhãn cột (column labels), đồng thời thường chứa dữ liệu không đồng nhất về kiểu (heterogeneous types) và/hoặc giá trị bị thiếu (missing data).

Bằng việc cung cấp một giao diện lưu trữ thuận tiện cho dữ liệu có nhãn (labeled data), Pandas triển khai nhiều phép toán xử lý dữ liệu mạnh mẽ, quen thuộc với người dùng các hệ quản trị cơ sở dữ liệu (database frameworks) cũng như các chương trình bảng tính (spreadsheet programs).

Mặc dù cấu trúc dữ liệu ndarray của NumPy cung cấp các tính năng nền tảng quan trọng, nhưng những hạn chế của nó trở nên rõ ràng khi cần sự linh hoạt cao hơn, chẳng hạn như gắn nhãn cho dữ liệu, xử lý dữ liệu bị thiếu, v.v.

Pandas cung cấp khả năng truy cập và xử lý hiệu quả các tác vụ “data munging” (tiền xử lý, làm sạch và biến đổi dữ liệu) — những công việc chiếm phần lớn thời gian làm việc.

In [1]:
import pandas as pd

pd.__version__

'2.3.3'

## Series
---

Pandas Series là một mảng một chiều (one-dimensional array) có chỉ mục (index).

Series có thể được khởi tạo từ một danh sách (list) hoặc một mảng (array) như sau:

Tạo Series từ list

In [2]:
data_pd = pd.Series([0.5,0.3,1.0,2.5])
data_pd

0    0.5
1    0.3
2    1.0
3    2.5
dtype: float64

Tạo Series từ Numpy array

In [4]:
import numpy as np
numpy_arr = np.arange(5)
data_pd = pd.Series(numpy_arr)
data_pd

0    0
1    1
2    2
3    3
4    4
dtype: int64

Attributes

In [5]:
data_pd.values

array([0, 1, 2, 3, 4])

In [6]:
data_pd.index

RangeIndex(start=0, stop=5, step=1)

indexing

In [7]:
data_pd[1]

np.int64(1)

In [8]:
data_pd[-2:]

3    3
4    4
dtype: int64

In [None]:
data_pd[-1] # không có chỉ số index là -1

KeyError: -1

Letter indexing

In [15]:
# chỉ số nguyên khó dùng => thử đổi sang chữ cái

data_pd = pd.Series([1.25,2.0,0.75,1.0],index = ['a','b','c','d'])

In [18]:
data_pd[-1]

  data_pd[-1]


np.float64(1.0)

In [17]:
data_pd['b']

np.float64(2.0)

### BTVN 1
Giải thích hiện tượng trên

Combined indexing

In [20]:
index = ['a', 'b', 'c', 'd', 3]
data_pd = pd.Series(numpy_arr, index=index)

In [21]:
data_pd['a']

np.int64(0)

In [22]:
data_pd[3]

np.int64(4)

pandas and dictionary

In [24]:
# Hệ thống chỉ mục của Pandas có cấu trúc tương tự dictionary
# => Việc tạo 1 đối tượng pandas từ Dictionary là điều hoàn toàn dễ hiểu

some_population_dict = {'SaiGon': 59,
                        'Dong Nai': 60,
                        'Binh Thuan': 86,
                        'Ha Noi': 29 }
data_pd = pd.Series(some_population_dict)
data_pd['SaiGon']

np.int64(59)

In [25]:
# Pandas cũng hỗ trợ slising
# lưu ý: slising theo index label là " bao gồm cả điểm kết thúc"
data_pd['SaiGon': 'Ha Noi']

SaiGon        59
Dong Nai      60
Binh Thuan    86
Ha Noi        29
dtype: int64

pandas and Scalar

In [27]:
# Dữ liệu có thể là một giá trị vô hướng(scalar)
# và giá trị này sẽ được lập lại để điền vào toàn bộ index đã chỉ định

data_pd = pd.Series(5, index=[2,3,8])
data_pd

2    5
3    5
8    5
dtype: int64

## Dataframe

DataFrame tương tự mảng 2 chiều, với index hàng và tên cột linh hoạt; về bản chất là tập hợp các Series được căn chỉnh theo index.

---

Tạo data frame với 2 dict

In [31]:
some_population_dict = {'SaiGon': 59,
                        'Dong Nai': 60,
                        'Binh Thuan': 86,
                        'Ha Noi': 29 }
some_area_dict = {'SaiGon': 59,
                        'Dong Nai': 600,
                        'Binh Thuan': 8686,
                        'Ha Noi': 33,
                        'Vung Tau': 72}

state = pd.DataFrame({'population' : some_population_dict,
                     'area' : some_area_dict})
state

Unnamed: 0,population,area
SaiGon,59.0,59
Dong Nai,60.0,600
Binh Thuan,86.0,8686
Ha Noi,29.0,33
Vung Tau,,72


indexing

In [32]:
state['SaiGon' : 'Ha Noi']

Unnamed: 0,population,area
SaiGon,59.0,59
Dong Nai,60.0,600
Binh Thuan,86.0,8686
Ha Noi,29.0,33


In [33]:
state['SaiGon' : 'Ha Noi']['population']

SaiGon        59.0
Dong Nai      60.0
Binh Thuan    86.0
Ha Noi        29.0
Name: population, dtype: float64

In [None]:
state['population']['SaiGon' : 'Ha Noi'] # thứ tự không quan trọng

SaiGon        59.0
Dong Nai      60.0
Binh Thuan    86.0
Ha Noi        29.0
Name: population, dtype: float64

In [None]:
state['population']['SaiGon' : 'Ha Noi']['area'] # cột area không tồn tại

KeyError: 'area'

In [36]:
state['area']

SaiGon          59
Dong Nai       600
Binh Thuan    8686
Ha Noi          33
Vung Tau        72
Name: area, dtype: int64

In [37]:
state[:]['area']

SaiGon          59
Dong Nai       600
Binh Thuan    8686
Ha Noi          33
Vung Tau        72
Name: area, dtype: int64

Attributes

In [38]:
state.index

Index(['SaiGon', 'Dong Nai', 'Binh Thuan', 'Ha Noi', 'Vung Tau'], dtype='object')

In [39]:
state.index[-1]

'Vung Tau'

In [40]:
state.columns

Index(['population', 'area'], dtype='object')

In [41]:
state.columns[0:1]

Index(['population'], dtype='object')

Series indexing/slising/fancy indexing

In [43]:
import pandas as pd

data = pd.Series([0.75,0.5,1.0,2.0],
                 index=['a','b','c','d'])
data

a    0.75
b    0.50
c    1.00
d    2.00
dtype: float64

In [44]:
data['b']

np.float64(0.5)

In [45]:
data[-1]

  data[-1]


np.float64(2.0)

In [46]:
data['a':'c']

a    0.75
b    0.50
c    1.00
dtype: float64

In [47]:
data[0:2]

a    0.75
b    0.50
dtype: float64

adding values

In [48]:
data['e'] = 10
data

a     0.75
b     0.50
c     1.00
d     2.00
e    10.00
dtype: float64

in

In [49]:
'a' in data

True

In [50]:
'f' in data

False

keys()

In [51]:
data.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

items()

In [52]:
list(data.items())

[('a', 0.75), ('b', 0.5), ('c', 1.0), ('d', 2.0), ('e', 10.0)]

values()

In [53]:
data.values

array([ 0.75,  0.5 ,  1.  ,  2.  , 10.  ])

masking

In [55]:
data[(data > 0.5) & (data < 10)]

a    0.75
c    1.00
d    2.00
dtype: float64

fancy indexing

In [56]:
data[['a', 'e']]

a     0.75
e    10.00
dtype: float64