# DEEP LEARNING
# TUẦN 3: NUMPY, PANDAS, MATPLOLIB
---
Pandas là một thư viện tương đối mới, được xây dựng dựa trên NumPy, và cung cấp một cách cài đặt hiệu quả cho cấu trúc dữ liệu DataFrame.

DataFrame về bản chất là các mảng đa chiều (multidimensional arrays) có gắn nhãn hàng (row labels) và nhãn cột (column labels), đồng thời thường chứa dữ liệu không đồng nhất về kiểu (heterogeneous types) và/hoặc giá trị bị thiếu (missing data).

Bằng việc cung cấp một giao diện lưu trữ thuận tiện cho dữ liệu có nhãn (labeled data), Pandas triển khai nhiều phép toán xử lý dữ liệu mạnh mẽ, quen thuộc với người dùng các hệ quản trị cơ sở dữ liệu (database frameworks) cũng như các chương trình bảng tính (spreadsheet programs).

Mặc dù cấu trúc dữ liệu ndarray của NumPy cung cấp các tính năng nền tảng quan trọng, nhưng những hạn chế của nó trở nên rõ ràng khi cần sự linh hoạt cao hơn, chẳng hạn như gắn nhãn cho dữ liệu, xử lý dữ liệu bị thiếu, v.v.

Pandas cung cấp khả năng truy cập và xử lý hiệu quả các tác vụ “data munging” (tiền xử lý, làm sạch và biến đổi dữ liệu) — những công việc chiếm phần lớn thời gian làm việc.


In [75]:
import pandas as pd
pd.__version__

'2.3.3'

-----
Series

Pandas Series là một mảng một chiều (one-dimensional array) có chỉ mục (index).

Series có thể được khởi tạo từ một danh sách (list) hoặc một mảng (array) như sau:

Tạo Series từ list

In [76]:
data_pd = pd.Series([0.5,0.3,1.0,2.5])
data_pd

0    0.5
1    0.3
2    1.0
3    2.5
dtype: float64

Tạo Series từ Numpy array

In [77]:
import numpy as np
numpy_arr = np.arange(5)
data_pd = pd.Series(numpy_arr)
data_pd

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [78]:
data_pd.values

array([0, 1, 2, 3, 4])

In [79]:
data_pd.index

RangeIndex(start=0, stop=5, step=1)

## indexing

In [80]:

data_pd[1]

np.int64(1)

In [81]:
data_pd[-2:]

3    3
4    4
dtype: int64

In [82]:
data_pd[-1]# ✓ Hoạt động! Với index số nguyên [0,1,2,3,4], -1 truy cập vị trí cuối cùng = 4

KeyError: -1

## Letter Indexing

In [None]:
# Chỉ sổ nguyên khó dùng => thử đổi sang chữ cái 
data_pd = pd.Series([1.25,2.0,0.75,1.0], 
index=['a','b','c','d'])
data_pd

a    1.25
b    2.00
c    0.75
d    1.00
dtype: float64

In [None]:
data_pd[-1]

  data_pd[-1]


np.float64(1.0)

In [None]:
data_pd['b']

np.float64(2.0)

## BTVN 1
giải thích hiện tượng trên , vì sao 
data_pd[-1]
và
data_pd['b']
là cho ra kết quả 
còn data_pd[-1] lại bị lỗi
# Lỗi: do không có chỉ số index là -1

### Giải thích:

**Lý do `data_pd['b']` cho ra kết quả:**
- `data_pd['b']` truy cập trực tiếp bằng **nhãn (label)** 'b'
- Vì 'b' là một nhãn hợp lệ trong chỉ số, nên nó trả về giá trị tương ứng (2.0)

**Lý do `data_pd[-1]` bị lỗi:**
- Khi Series có chỉ số **nhãn chuỗi** (['a','b','c','d']), Pandas tìm kiếm một **nhãn** có tên là -1
- Nhưng -1 không tồn tại trong danh sách nhãn, nên ném ra `KeyError: -1`
- Pandas **không tự động** xem -1 là "phần tử cuối cùng" khi chỉ số là string

**So sánh với chỉ số số nguyên:**
- Khi `data_pd = pd.Series([0,1,2,3,4])` với chỉ số (0,1,2,3,4):
  - `data_pd[-1]` ✓ hoạt động → trả về phần tử cuối cùng
  - Đây là hành vi **slice/positional indexing** của NumPy

**Giải pháp nếu muốn lấy phần tử cuối cùng với chỉ số string:**
```python
data_pd.iloc[-1]   # Dùng .iloc để truy cập theo vị trí (position)
data_pd['d']       # Hoặc dùng nhãn trực tiếp
```

In [None]:
# Ví dụ 1: data_pd['b'] hoạt động tốt
print("✓ data_pd['b'] hoạt động:")
print(data_pd['b'])
print(f"Kiểu truy cập: Nhãn (label-based indexing)")

In [None]:
# Ví dụ 2: data_pd[-1] gây lỗi vì -1 không phải là nhãn hợp lệ
print("✗ data_pd[-1] gây lỗi:")
print("Pandas tìm kiếm nhãn '-1' trong index ['a','b','c','d']")
print("Nhưng '-1' không tồn tại → KeyError")
# data_pd[-1]  # Nếu bỏ comment, sẽ hiển thị lỗi

In [None]:
# Ví dụ 3: Giải pháp - dùng .iloc[-1] để truy cập theo vị trí
print("✓ Giải pháp: data_pd.iloc[-1]")
print(data_pd.iloc[-1])
print(f"Kiểu truy cập: Vị trí/Position (iloc = integer location)")
print("\nHoặc dùng nhãn trực tiếp:")
print(data_pd['d'])

## Combined indexing

In [None]:
index = ['a','b','c','d',3]
data_pd = pd.Series(numpy_arr, index=index)
data_pd

a    0
b    1
c    2
d    3
3    4
dtype: int64

In [None]:
data_pd['a']

np.int64(0)

In [None]:
data_pd[3]

np.int64(4)

## pandas and dictionary

In [None]:
# Hệ thống chỉ mục của pandas có cấu trúc tương tự dictionary
# => việc tạo 1 đối tượng pandas từ dictionary là điều hoàn toàn dễ hiểu
some_pupulation_dict= {'Sài Gòn' : 59,
                       'Đồng Nai' : 60,
                       'Bình Thuận' : 86,
                       'Hà Nội' : 29 }
data_pd = pd.Series(some_pupulation_dict)
data_pd['Sài Gòn']
data_pd['Đồng Nai':'Hà Nội']

In [None]:
#pd cũng hỗ trợ slising
# lưu ý : slising theo label là "bao gồm cả điểm kết thúc"
data_pd['Đồng Nai':'Hà Nội']

Đồng Nai      60
Bình Thuận    86
Hà Nội        29
dtype: int64

In [None]:
# dữ liệu có thể là một giá trị vô hướng(scalar)
# và giá trị này sẽ được lặp lại để điền vào toàn bộ index
data_pd = pd.Series(5, index=[2,3,8])
data_pd

2    5
3    5
8    5
dtype: int64

---
DataFrame tương tự mảng 2 chiều, với index hàng và tên cột linh hoạt; về bản chất là tập hợp các Series được căn chỉnh theo index.


In [None]:
#tạo dataframe với 2 dict
some_pupulation_dict = {'Sài Gòn' : 59,
                        'Đồng Nai' : 60,
                        'Bình Thuận' : 86,
                        'Hà Nội' : 29}    

some_area_dict = {'Sài Gòn' : 51,
                  'Đồng Nai' : 600,
                  'Bình Thuận' : 8686,
                  'Hà Nội' : 33,
                  'Vũng Tàu' : 72}
state = pd.DataFrame({'Population': some_pupulation_dict,
                      'Area': some_area_dict})
state

Unnamed: 0,Population,Area
Sài Gòn,59.0,51
Đồng Nai,60.0,600
Bình Thuận,86.0,8686
Hà Nội,29.0,33
Vũng Tàu,,72


## Indexing

In [None]:
state['Sài Gòn':'Hà Nội']

Unnamed: 0,Population,Area
Sài Gòn,59.0,51
Đồng Nai,60.0,600
Bình Thuận,86.0,8686
Hà Nội,29.0,33


In [None]:
state['Sài Gòn':'Hà Nội']['Population']

Sài Gòn       59.0
Đồng Nai      60.0
Bình Thuận    86.0
Hà Nội        29.0
Name: Population, dtype: float64

In [None]:
state['Sài Gòn':'Hà Nội']['Population']['Area'] # > vì cột Area không tồn tại 

KeyError: 'Area'

In [None]:
state["Area"]

Sài Gòn         51
Đồng Nai       600
Bình Thuận    8686
Hà Nội          33
Vũng Tàu        72
Name: Area, dtype: int64

In [None]:
state[:]["Area"]

Sài Gòn         51
Đồng Nai       600
Bình Thuận    8686
Hà Nội          33
Vũng Tàu        72
Name: Area, dtype: int64

In [None]:
state.index

Index(['Sài Gòn', 'Đồng Nai', 'Bình Thuận', 'Hà Nội', 'Vũng Tàu'], dtype='object')

In [None]:
state.index[-1]

'Vũng Tàu'

In [None]:
state.columns

Index(['Population', 'Area'], dtype='object')

In [None]:
state.columns[0:1]

Index(['Population'], dtype='object')

## series indexing/ silcing/ fancy indexing


In [None]:
import pandas as pd
data = pd.Series([0.75,0.5,1.0,2.0], index=['a','b','c','d'])
data

a    0.75
b    0.50
c    1.00
d    2.00
dtype: float64

In [None]:
data['a':'c']

a    0.75
b    0.50
c    1.00
dtype: float64

In [None]:
data[0:2]

a    0.75
b    0.50
dtype: float64

## adding values

In [None]:
data['e'] = 10
data

a     0.75
b     0.50
c     1.00
d     2.00
e    10.00
dtype: float64

IN

In [None]:
'e' in data

True

In [None]:
'f' in data

False

key()

In [83]:
data.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

Items

In [84]:
list(data.items())

[('a', 0.75), ('b', 0.5), ('c', 1.0), ('d', 2.0), ('e', 10.0)]

In [85]:
data.values

array([ 0.75,  0.5 ,  1.  ,  2.  , 10.  ])

Masking

In [86]:
data[(data>0.5) & (data <10) ]

a    0.75
c    1.00
d    2.00
dtype: float64

Fancy indexing

In [87]:
data[['a','e']]

a     0.75
e    10.00
dtype: float64