# Các cấu trúc cơ bản trong Python

Trong chương này, chúng ta sẽ giới thiệu và làm quen với các kiểu dữ liệu và đối tượng cơ bản trong python, bao gồm 5 nhóm lớn:

- Biến (variable)
- Các định dạng dữ liệu cơ bản
- Các toán tử
- Vòng lặp
- Hàm

## Các cấu trúc dữ liệu cơ bản

Để gán biến trong Python, chúng ta sử dụng `=`, mỗi đối tượng được gán sẽ chiếm 1 lượng bộ nhớ nhất định. Biến trong Python sẽ tương tự như object trong R

In [1]:
x = 20
x

20

Đặt tên biến phải tuân thủ một số nguyên tắc cơ bản sau:
- Sử dụng chữ, số, `_` và ko được sử dụng `'`, `-`, khoảng trắng
- Bắt đầu bằng chữ

Bên cạnh đó, python cho phép cùng lúc gán nhiều đối tượng đơn giản như sau

In [2]:
x, y = 1, 2
print(x, y)

1 2


Các biến hay đối tượng được lưu trữ trong các kiểu dữ liệu khác nhau. Đối với hoạt động phân tích dữ liệu, các định dạng dữ liệu thông dụng nhất bao gồm:
    
- Định dạng logic - `Boolean`
- Định dạng số - `Numbers`
- Định dạng chuỗi - `Strings`
- Định dạng list - `Lists`
- Định dạng từ điển - `Dictionaries`    
- Định dạng `tuples` 
- Định dạng `Sets`


### Boolean

Boolean là định dạng logic, bao gồm 2 giá trị `True` và `False`

In [3]:
x = True
x

True

In [4]:
x = 100 < 2
x

False

Hàm type là hàm trả về kiểu dữ liệu của đối tượng

In [5]:
type(x)

bool

Khi tính toán số học `True` được tính là 1, `False` là 0

In [6]:
True + False

1

In [7]:
y = [False, False, True, True] # List boolean value
sum(y)

2

### Numbers

Giống như các ngôn ngữ khác, 2 kiểu dữ liệu số phổ biến là `integer` và `float` 

In [8]:
a, b = 1, 2
c, d = 2.5, 10.0
type(a)

int

In [9]:
type(d)

float

### String

Chuỗi (`string`) là định dạng ký tự chứa text. Định dạng chuỗi được lưu trữ trong dấu nháy đơn hoặc dấu nháy kép

In [10]:
# Có thể nhập bằng single quote hoặc double quote
a = 'single quotes'
b = "single quotes"
a == b

True

In [11]:
#hoặc cả 2
c = "i'm a man"
c

"i'm a man"

In [12]:
word = "hello"
word[0]

'h'

Chuỗi bao gồm một tập hợp các ký tự sắp xếp tuần tự, mỗi ký tự đều có một **chỉ mục (`index`)** riêng. 

Chỉ mục được đánh 2 chiều từ trái qua phải và từ phải qua trái. Bên dưới là cách truy cập vào từng ký tự của chuỗi thông qua chỉ mục: `word[index]` 

**Lưu ý**: Khác với các ngôn ngữ khác, các chỉ mục (index) trong python được đánh dấu từ vị trí số 0.

In [13]:
word = "hello"
# Chiều từ trái qua phải - ký tự đầu tiên
word[0]

'h'

In [14]:
# Vị trí thứ 2 - chữ e
word[1]

'e'

In [15]:
# Chiều từ phải qua trái, sd khi ko biết chính xác độ dài chuỗi
word[-1]

'o'

**Chiết xuất chuỗi**

`string[begin:end:step]` - cắt chuỗi từ phần tử **begin** cho đến phần tử **trước** phần tử **end**, khoảng cách giữa các ký tự là **step**

In [16]:
word[1:3]

'el'

In [17]:
word[2:]

'llo'

In [18]:
# Lấy cả chuỗi, cách 2 đơn vị
word[::2]

'hlo'

**String methods**

Khác với R, các đối tượng trong Python có thể có 1 hoặc nhiều hàm được *gán* sẵn vào trong 1 đối tượng. Các hàm được gán sẵn này được gọi là `method`. 

Với định dạng chuỗi - có rất nhiều method có sẵn

In [19]:
dept = 'Trung tâm phân tích kinh doanh'

In [20]:
# trả về dạng chữ thường
dept.lower()

'trung tâm phân tích kinh doanh'

**Giải thích**: `lower` ở đây là 1 `method` - tức là 1 hàm được gán sẵn vào một đối tượng - ở đây là đối tượng `dept`.

In [21]:
# trả về dạng chữ hoa
dept.upper()

'TRUNG TÂM PHÂN TÍCH KINH DOANH'

In [22]:
# Trả về một list các phần tử được tách bởi một dấu phân cách(delimiter) cho trước
dept.split()

['Trung', 'tâm', 'phân', 'tích', 'kinh', 'doanh']

In [23]:
# Trả về một chuỗi được ghép bởi các phần tử từ một list, theo một dấu phân cách cho trước
'- xyz -'.join(['a', 'b', 'c'])

'a- xyz -b- xyz -c'

In [24]:
#tìm kiếm ký tự - trả về vị trí của ký tự đầu tiên tìm được trong chuỗi
# trả ra -1 nếu k tìm thấy
dept.find('phân tích')

10

In [25]:
# Kiểm tra lại
dept[10]

'p'

In [26]:
# Check xem chuỗi có bắt đầu bằng ký tự cho trước không
dept.startswith('w')

False

In [27]:
# tương tự là endwith
dept.endswith('doanh')

True

---

**Lưu ý**: Bên cạnh định dạng dữ liệu `string` thông thường, python có định dạng dữ liệu tương tự như `factor` của R là `category`. Kiểu dữ liệu này nằm trong package `pandas`, sẽ nói kỹ hơn trong chương xử lý dữ liệu

### List


Là kiểu dữ liệu linh hoạt nhất trong Python, là 1 tập hợp các phần tử - có thể cùng kiểu dữ liệu hoặc không, trong list các phần từ được **sắp xếp** và **có thể thay đổi (mutable)**. 

**Khởi tạo list**

Để khởi tạo list, chúng ta dùng `[]`

In [28]:
x = [10, 'foo', False, 2.5] #các phần tử có kiểu dữ liệu không đồng nhất
type(x)

list

hoặc hàm list():

In [29]:
color = list(['xanh', 'đỏ', 'vàng'])
color

['xanh', 'đỏ', 'vàng']

Index của `list` được đánh theo nguyên tắc tương tự như `string` đã nêu ở trên

In [30]:
x[1]

'foo'

In [31]:
x[-2]

False

**Trích xuất giá trị của list**

**Cú pháp**: `list[begin:end:step]`

- `begin`: Chỉ mục của phần tử đầu tiên
- `end`: Chỉ mục của phần tử **sau** phần tử cuối cùng
- `step`: Khoảng cách chỉ mục của các phần tử sẽ được lấy ra

In [32]:
x[1:3]

['foo', False]

In [33]:
numbers = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [34]:
numbers[1:9:3] # cắt từ 1 đến trước 9, khoảng khách là 3

[1, 4, 7]

In [35]:
numbers[::2] # lấy từ đầu đến cuối, khoảng cách là 2

[0, 2, 4, 6, 8]

In [36]:
numbers[:2] # lấy 2 giá trị đầu

[0, 1]

In [37]:
numbers[-3:] # lấy 3 giá trị cuối

[7, 8, 9]

In [38]:
numbers[::-1] # đảo ngược giá trị của list

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

**Thay đổi phần tử trong list**

In [39]:
skill_sets = ['sql', 'r', 'excel', 'python']

In [40]:
# Thay đổi từ chỉ mục 2 đến hết
skill_sets[2:] = ['spss']
skill_sets

['sql', 'r', 'spss']

In [41]:
# chỉ mục 1 thay bằng 'vba'
skill_sets[1] = 'vba'
skill_sets

['sql', 'vba', 'spss']

**List methods**

`append()`: Thêm một phần tử vào list

In [42]:
numbers.append(15)
numbers

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 15]

`pop`: xóa phần tử trong list

In [43]:
numbers.pop(3) #xóa phần từ thứ 3
numbers

[0, 1, 2, 4, 5, 6, 7, 8, 9, 15]

`extend(list2)`: Ghép một list mới vào list hiện tại

In [44]:
numbers.extend(['a', 'b', 'c'])
numbers

[0, 1, 2, 4, 5, 6, 7, 8, 9, 15, 'a', 'b', 'c']

**Lưu ý**: Ghép list với `extend` là để ghép tất cả các phần tử từ list mới ào list cũ. Việc này rất khác với việc dùng method `append`. Xem ví dụ sau

In [45]:
x = [1, 2, 3, 4]
x.append(['a', 'b', 'c'])
x

[1, 2, 3, 4, ['a', 'b', 'c']]

`sort`: sắp xếp các phần tử theo thứ tự, reverse = True nếu muốn sort kiểu descending

In [46]:
numbers2 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
numbers2.sort(reverse=True)
numbers2

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

Chi tiết hơn về `method` của list, chúng ta có thể xem [tại đây](https://docs.python.org/3/tutorial/datastructures.html#more-on-lists)

### Tuple

Khác với R, tất cả các kiểu dữ liệu đề có thể điều chỉnh và thay đổi sau khi đã khai báo. Python có định dạng dữ liệu không cho phép thay đổi sau khi đã khai báo, gọi là `tupple`. 

- Các định dạng dữ liệu có thể thay đổi gọi là dữ liệu khả biến (`mutable`) - list là dữ liệu khả biến
- Các định dạng dữ liệu không thể thay đổi gọi là dữ liệu bất biến (`immutable`)

Để khởi tạo tuple, chúng ta dùng () thay vì []

In [47]:
tuple1 = ("Hanoi", "Hai Phong", "Tay Ninh", "Lam Dong")
type(tuple1)

tuple

In [48]:
tuple2 = "Hanoi", "Hai Phong", "Tay Ninh", "Lam Dong"
type(tuple2)

tuple

In [49]:
# Khời tạo tuple rỗng
tpl = ()
#hoặc
tpl2 = tuple()
print(type(tpl), type(tpl2))

<class 'tuple'> <class 'tuple'>


Vì Tuple là bất biến nên chúng ta sẽ không có những hàm thay đổi cấu trúc như append(), pop(),.. như của List

In [50]:
list1 = [1, 2, 3]
tuple1 = ('a', 'b', 'c')

In [51]:
list1[2] = "a"
list1

[1, 2, 'a']

Câu lệnh dưới đây sẽ báo lỗi vì tuple ko cho phép thay đổi 1 phần tử trong nó

In [52]:
tuple1[1] = 1
tuple1

TypeError: 'tuple' object does not support item assignment

### Dictionaries

**Dictionary** là định dạng dữ liệu từ điển trong Python. Cấu trúc này tương ứng với  điển ngoài đời thực, cũng bao gồm các cặp key - value (từ vựng - ý nghĩa). Key và Value được phân cách nhau bởi dấu hai chấm (:), các cặp key-value được phân cách nhau bởi dấu phẩy (,).

Giống như list, dictionary là dữ liệu khả biến trong python

In [53]:
d = {'one':'một',
    'two':'hai',
    'three':'ba'}
type(d)

dict

Trong ví dụ trên:

- `one`, `two`, `three` là *key* 
- `một`, `hai`, `ba` là *value*

`value` trong dictionary có thể là bất kỳ kiểu dữ liệu nào: string, numbers, list...

In [54]:
d2 = {'one': 0.5,
    'two': [1, 2, 3],
    'three': False}
type(d2)

dict

Truy vấn 1 phần tử trong dictionary

In [55]:
d2['two']

[1, 2, 3]

Thay đổi 1 phần tử trong dictionary

In [56]:
d2['three'] = 3
d2

{'one': 0.5, 'two': [1, 2, 3], 'three': 3}

Thêm một phần tử

In [57]:
d2['four'] = 4
d2

{'one': 0.5, 'two': [1, 2, 3], 'three': 3, 'four': 4}

Xóa 1 phần tử 

In [58]:
del d2['two']
d2

{'one': 0.5, 'three': 3, 'four': 4}

**Dictionary methods:**

In [59]:
d.items()

dict_items([('one', 'một'), ('two', 'hai'), ('three', 'ba')])

In [60]:
d.values()

dict_values(['một', 'hai', 'ba'])

### Set

**Set** là 1 tập hợp các phần tử không duplicate

In [61]:
s1 = {'a', 'b', 3}
type(s1)

set

In [62]:
s2 = {1, 1, 2, 2, 2, 3, 3, 3}
s2

{1, 2, 3}

Set có thể hứa nhiều kiểu dữ liệu khác nhau tuy nhiên các kiểu dữ liệu này phải immutable như Integer, Float, Boolean hay Tuple

In [63]:
mix_set = { "dbs_aad", 34, (4, 5, 6) }

Python sẽ báo lỗi nếu bạn đặt một biến khả biến trong Set, vd list

In [64]:
mix_mutable_set = { "Hải Phòng", "Hà Nội", [ 2, 4 ] }

TypeError: unhashable type: 'list'

**set methods**

`add()` Thêm mới phần tử vào set

In [65]:
s1.add('4')
s1

{3, '4', 'a', 'b'}

`remove`: Xóa 1 phần tử

In [66]:
s1.remove('4')
s1

{3, 'a', 'b'}

In [67]:
# Kiểm tra s1 có phải tập con của s2 ko 
s1.issubset(s2)

False

In [68]:
# Kiểm tra tập giao giữa 2 tập con
s1.intersection(s2)

{3}

## Toán tử - Operators

Các toán tử liên quan đến số học như `+` `-` `*` `/` khá đơn giản nên chúng ta sẽ ko nhắc tới ở đây

### Toán tử so sánh - Comparison operators

In [69]:
x, y = 1, 2
x < y

True

In [70]:
x > y

False

Chúng ta có thể so sánh 1 chuỗi các giá trị

In [71]:
1 < 2 < 3

True

In [72]:
# hoặc 
1 <= 2 <= 3

True

Gán biến bằng `=` và so sánh 2 giá trị bằng `==`

In [73]:
x = 1  #assignment
x == 2 #comparison

False

So sánh không bằng

In [74]:
x != 2

True

### Toán tử xác định - Identity operators

In [75]:
ta = "Nguyen Tuan Anh"
ha = ta
ta is ha

True

In [76]:
ta is not ha

False

**Lưu ý**: sự khác nhau giữa `==` và `is`, 2 toán tử này lần lượt kiểm tra độ `equality` và `identical` và cơ bản là ko giống nhau, check ví dụ dưới

In [77]:
x = [1, 2, 3]
y = [1, 2, 3]
x == y # toán tử == kiểm tra tính ngang bằng - equality

True

In [78]:
x is y # toán tử is kiểm tra tính đồng nhất - identical

False

Toán tử `is` sẽ trả ra True nếu một biến được gán từ 1 biến khác, ví dụ

In [79]:
z = x
z is x

True

### Toán tử logic - Logical operators

Bao gồm 3 loại `and`, `or`, `not`

In [80]:
True and False

False

In [81]:
not False and True

True

In [82]:
1 > 2 and 3 == 3

False

**Toán tử `in`, `not in`**

In [83]:
'x' in 'hanoi'

False

**not in**

In [1]:
'x' not in 'hanoi'

True

## Điều kiện

**if**

In [85]:
if 1 < 2:
    print('Yep!')

Yep!


**If else**

In [86]:
if 1 > 2:
    print('first')
else:
    print('last')

last


**if else elif**

In [87]:
if 1 == 2:
    print('first')
elif 3 == 3:
    print('middle')
else:
    print('Last')

middle




## Vòng lặp

![Loop](https://lh3.googleusercontent.com/Gsy3gvhT5OUjqobdPrCDaNL7B7G8I57KfjTD-cvwZNKjhm0dcHQ1VTZESRnyR3SrbOHhJUrX8UBZ_EO1uJxq3Ddlnxkn6W7F6Nxe7xjqgcqOLfuSN50PSm2vWVIiXxc9z-f_950-cI-NSp5Jd7j592c1yJ9qJySifchPwTPmdzbW2pcQfq5ZE-y3b30pmK1sZGd1U_hh9CjiiFowARUopdY7cz9xkhFg5TGusIxYChZHRmiFqf8eOgZpEDLH-aPNTygyQnArbE61YmUPjzj5-XA2yiXfqfbtS7lzPkMnQOuE5HImeaXnOzEKuJnGGBLi66k22PslajI-_RjyCh_YKsohjThxT-ocK6cw4v6mdDb3qq4etGdRePkhB3a1rlI-7NT62yWphsmbi4OHP2WSOJjpGfblOB-Ezi5irhofUIQJbUHSBDiMQ-fCzZGeJt_6xCXlg-AulJD51CuTHDd4F-sf9QCigiTfFKy0bYriXIhwq_l1MwhUGqWZ5UAamrf1H_HsVVK3UTUfwJN41s40gaH8vMI9fFr2cDlcivRFk43WaK9Ik9Nri1vYr7OeB8_tIMjp6Br2AP_2xbkCXRlyrR_5vsjgkAjuc3dgbiLYLJ37rneo2FTs1R5V48mi85oQjTN3x_Gc_mjExIGoq3tjmMI1hHLRaBWehEb-1QlGsMYo9qa1hQr9LcHcqg=w450-h300-no)



### Vòng lặp While


**while + print**

In [88]:
a = 1
while a < 10:
    print(a)
    a += 2 # += tương đương với a = a + 2

1
3
5
7
9


**while + if**

In [89]:
a = 0
while a < 20:
    if a % 5 == 0:
        print('{x} chia hết cho 5'.format(x=a))
    a += 1

0 chia hết cho 5
5 chia hết cho 5
10 chia hết cho 5
15 chia hết cho 5


**while + break**

VD: print số từ 1 - 9 cho đến khi gặp số chia hết cho 5

In [90]:
a = list(range(1, 10))
i = 1
while i < max(a):
    print(i)
    if i % 5 == 0:
        break
    i += 1

1
2
3
4
5


**while + else**

Hàm else sẽ được thực hiện khi a không còn nhỏ hơn 10

In [91]:
a = 1
while a < 10:
    print(a)
    a += 2
else:
    print ('End while')

1
3
5
7
9
End while


### Vòng lặp for

In [92]:
animals = ['dog', 'cat', 'bird']
for animal in animals:
    print("The plural of " + animal + " is " + animal + "s")

The plural of dog is dogs
The plural of cat is cats
The plural of bird is birds


**for + else**

In [93]:
animals = ['dog', 'cat', 'bird']
for animal in animals:
    print('The plural of ' + animal + ' is ' + animal + 's')
else:
    print('End for loop')

The plural of dog is dogs
The plural of cat is cats
The plural of bird is birds
End for loop


### List comprehension

`List comprehension` là cách tạo list đơn giản và nhẹ nhàng hơn sử dụng vòng lặp thông thường rất nhiều.

Cú pháp:
>**[ expression for item in list if conditional ]**

Ví dụ:

In [94]:
x = list(range(10))
x

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Chúng ta đang cần tạo 1 list y bằng cách lấy mỗi phần tử của list x nhân với 2

Cách làm thông thường - sử dụng vòng lặp:

In [95]:
y = []
for i in x:    
    y.append(i * 2)
y    

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

Thay vì sử dụng vòng lặp như trên có thể dùng 1 câu lệnh

In [96]:
y = [i * 2 for i in x]
y

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

Để lọc thêm điều kiện chúng ta có thể sử dụng kết hợp với `if` ở cuối câu, vd như ở dưới ta chỉ lấy các phần tử của list chia hết cho 2

In [97]:
y = [i * 2 for i in x if i % 2 == 0]
y

[0, 4, 8, 12, 16]

## Hàm trong Python

### Các hàm mặc định

Python cung cấp 1 số hàm cơ bản mà không cần phải `import` từ library nào, chúng ta sẽ tìm hiểu 1 số hàm cơ bản và thường xuyên sử dụng

#### print

In [98]:
print ("Tôi muốn học Python trong 1 tuần")

Tôi muốn học Python trong 1 tuần


Print có tham số 

In [99]:
# Cách 1 
print('Tên tôi là %s và tôi %d tuổi' % ('Minh', 35)) # %s là để nhập string, #d để nhập decimal

Tên tôi là Minh và tôi 35 tuổi


In [100]:
# Cách 2
print ('Tên tôi là {x} và tôi {y} tuổi'.format(x = 'Hoàng', y = 29))

Tên tôi là Hoàng và tôi 29 tuổi


**Lưu ý:** `format` là 1 *string method* để insert dữ liệu vào đối tượng dạng string.


#### type


**type()**: trả về kiểu dữ liệu của 1 object

In [101]:
x = 3
type(x)

int

In [102]:
person = {"name": "Nguyen Tuan Anh", "title": "Xam King"}
type(person)

dict

#### Các hàm tính toán

**len()**: trả về chiều dài hoặc số lượng phần tử của một đối tượng.

In [103]:
# Trả về chiều dài của chuỗi
dept = "Hello"
len(dept)

5

In [104]:
# Trả về số phần tử trong một List
languages = ["Vietnamese", "English"]
len(languages)

2

**max()**: trả về giá trị lớn nhất, tương tự là **min()**

In [105]:
# Trả về giá trị lớn nhất của một dãy số
max(1,2,4)

4

In [106]:
# Trả về giá trị của phần tử lớn nhất trong một List
max([1, 20, 18])

20

**sum():** hàm tính tổng

In [107]:
sum([1, 2, 3])

6

#### range

**range()**: kết hợp với list hoặc tuple để tạo dãy số tự nhiên

In [108]:
list(range(0, 10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### zip

`zip` cho phép ghép từng thành phần của 2 đối tượng theo thứ tự và trả ra kiểu dữ liệu là `zip object`, sau đó gọi lại kết quả bằng hàm `list`.

In [109]:
x = 'abc'
y = [1, 2, 3]
z = zip(x,y)
list(z)

[('a', 1), ('b', 2), ('c', 3)]

Ví dụ khác về `zip`

In [110]:
countries = ('Japan', 'Korea', 'China')
cities = ('Tokyo', 'Seoul', 'Beijing')
for country, city in zip(countries, cities):
    print(f'The capital of {country} is {city}')

The capital of Japan is Tokyo
The capital of Korea is Seoul
The capital of China is Beijing


Có thể sử dụng `zip` để tạo dictionary

In [111]:
names = ['Tom', 'John']
marks = ['E', 'F']
dict(zip(names, marks))

{'Tom': 'E', 'John': 'F'}

#### any & all

Hai hàm khác cũng thường xuyên sử dụng: `any` và `all`:

- `any` kiểm tra nếu có 1 phần tử là TRUE
- `all` kiểm tra nếu tất cả các phần tử đều là TRUE

In [112]:
list2 = [False, False, True]
any(list2)

True

In [113]:
all(list2)

False

### Hàm do người dùng tự tạo

Viết hàm để tái sử dụng code trong quá trình xử lý vấn đề nhiều lần. Để viết hàm trong Python chúng ta sử dụng cấu trúc `def`

Ví dụ - viết 1 hàm kiểm tra giá trị là âm hay dương

In [114]:
def check_num(x):
    if x < 0:
        return 'negative'
    return 'positive'

check_num(2)

'positive'

---

Thành phần của hàm trên bao gồm các phần chính: 

- Tên hàm: `check_num`. Phần `check_num(x)` là khai báo tên function và tên của biến đầu vào sử dụng trong function, 1 function có thể có biến đầu vào hoặc không. Tên function tự tạo ko nên trùng với các hàm mặc định nếu ko sẽ gây lỗi
- Nội dung của hàm:
    - Phần *indented` là phần function body - nội dung chính của function
    - Phần `return` - cho phép hàm trả kết quả sau khi thực hiện xong, phần này có thể có hoặc không

VD hàm dưới không có `return` nên khi thực hiện xong ko trả kết quả

In [115]:
def plus(x, y):
    a = x + y    
plus(3, 4)  # không có gì 

Trong quá trình chạy, khi gặp keyword return, function sẽ trả về giá trị và dừng thực hiện, dòng lệnh phía dưới return sẽ không được thực hiên

In [116]:
def divide(x, y):
    print ("Dividing...")
    return x/y
    print ("Done")

divide(6, 3)

Dividing...


2.0

**Lưu ý:** Biến khai báo trong function là **local variable** và chỉ có thể truy cập được tại bên trong hàm đó mà thôi.

---

Bên cạnh các thành phần cơ bản của hàm, còn có phần document trong hàm gọi là **docstring**

Python cho phép chúng ta add comment vào function, module... thông qua *`docstring`*

In [117]:
def square(x):
    """
    Tính bình phương của 1 giá trị
    """
    y = x**2
    return y

square(-1)

1

- Có thể gọi help trong hàm 

In [118]:
?square

[1;31mSignature:[0m [0msquare[0m[1;33m([0m[0mx[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m Tính bình phương của 1 giá trị
[1;31mFile:[0m      c:\users\hoang duc anh\appdata\local\temp\ipykernel_24372\1221979200.py
[1;31mType:[0m      function

### `Lambda` expression

**Lambda expression** cho phép chúng ta tạo 1 function đơn giản chỉ trong 1 dòng mà ko cần khai báo theo cấu trúc `def`. Cấu trúc này tương tự như hàm `lambda` trong R cũng như các ngôn ngữ khác

Ví dụ 2 hàm

In [119]:
# function 1 
def minus(x, y):
    a = x - y
    return a
# func2
minus2 = lambda x, y: x-y # Dấu : tương đương với return

In [120]:
minus(3, 4)

-1

In [121]:
minus2(3, 4)

-1

Đặc biệt, `lambda` sẽ được sử dụng rất nhiều trong các câu lệnh `map`, `filter`, `reduce` như giới thiệu ở phần tiếp theo

In [122]:
# Hàm xây dựng chuỗi n Fibonacci
def fib_n(n):
    if n == 1:
        my_list = list([0])
    elif n == 2:
        my_list = list([0, 1])
    else: 
        my_list = list([0])
        f0 = 0
        f1 = 1
        my_range = range(n-1)
        for i in my_range:
            f2 = f1 + f0
            f0 = f1
            f1 = f2
            my_list.append(f2)
    return(my_list)

In [123]:
fib_n(10)

[0, 1, 2, 3, 5, 8, 13, 21, 34, 55]

### map và filter

Khi làm việc với kiểu dữ liệu mảng, vd như list, tuple...khi chúng ta cần áp dụng hàm lên cho từng phần tử của mảng này thì có thể sử dụng các hàm như `map`, `filter`. Nhóm hàm này tương tự nhự họ `apply` hoặc `map` trong R

---

**map()**

`map(func, seq)` map sẽ áp dụng hàm func cho mỗi phần tử của mảng và trả về kết quả.

In [124]:
seq = [1, 2, 3, 4, 5]
# sử dụng hàm square được định nghĩa ở trên 
square(seq)

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Câu lệnh trên sẽ báo lỗi vì ko thể sử dụng function 1 cách thông thường cho những object như list, tuple...Thay vì vậy ta có thể sử dụng như ở dưới

In [125]:
seq2 = map(square, seq)
list(seq2) # hàm map sẽ trả ra map object, để trả kết quả ra list ta dùng hàm list

[1, 4, 9, 16, 25]

Thay vì định nghĩa hàm *square* trước đó, chúng ta có thể kết hợp `lambda expression` luôn vào câu lệnh map ở trên

In [126]:
seq3 = map(lambda x: x*x, seq)
list(seq3)

[1, 4, 9, 16, 25]

**filter()**

- 1filter(func, seq)1 gọi hàm với từng phần tử của mảng và trả về danh sách các phần tử mà hàm trả về True
- Hàm trong filter chỉ có thể trả về True hoặc False

Ví dụ, ta lấy danh sách các phần tử là số chẵn trong list ở dưới

In [127]:
def check_even(x):
    if x % 2 == 0:
        return True
    else:
        return False

In [128]:
list(filter(check_even, seq))

[2, 4]

**map** vs **list comprehension** ?

Chúng ta có thể thấy sự tương đồng rất lớn giữa `map` vừa nêu và `list comprehension` ở phần trên, vd như câu lệnh map ở trên có thể viết lại theo phong cách `list comprehension` như ở dưới

In [129]:
seq4 = [x * x for x in seq]
seq4

[1, 4, 9, 16, 25]

In [130]:
# sử dụng map
seq3 = map(lambda x: x*x, seq)
list(seq3)

[1, 4, 9, 16, 25]

**Khi nào nên dùng `map` hay `list comprehension`**

Thực tế không có phương án cố định nhưng có thể tham khảo cách sử dụng như sau:

- Với những hàm đã được định nghĩa trước đó, sử dụng map thông thường sẽ nhanh hơn (và rõ ràng hơn)
- Khi sử dụng expression, vd so sánh các phần tử với 1 giá trị, thông thường sử dụng `list comprehension` sẽ nhanh và rõ ràng hơn

Test thử với hàm `%timeit` - hàm để check thời gian execution của 1 câu lệnh

In [131]:
%timeit L = map(square, seq)

64.3 ns ± 1.55 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


In [132]:
%timeit L = [x * x for x in seq]

250 ns ± 4.21 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


## Lưu trữ file

Để ghi file, ta phải tạo object và lưu trữ kết quả vào file mới được tạo, đi qua 2 bước lớn:

- **Bước 1**: Tạo file & đối tượng cho phép đọc/ghi vào file
- **Bước 2**: Ghi dữ liệu vào file

Ví dụ tạo 1 file txt đơn giản

In [133]:
# Bước 1: Tạo file .txt và cho phép ghi dữ liệu
my_file = open('output.txt', 'w') # w is write

In [134]:
# Bước 2: Ghi nội dung
lines = 'This is my first example'
my_file.write(lines)

24

Ngoài ra, Python cho phép sử dụng library `pickle` để lưu trữ bất kỳ loại file nào

In [135]:
import pickle

In [136]:
t = [1,2,3]
s = pickle.dumps(t) # dumps: dump string

In [137]:
my_load = pickle.loads(s) #loads: loads string

## Các vấn đề khác

### White space

Python sử dụng `white space` - khoảng trắng, tab, để gia tăng khả năng `readability` trong lập trình. Các ngôn ngữ khác như R lại dùng dấu ngoặc nhọn `{}` để phân tách các block.

**Lưu ý về code block & Indentation trong python**

Trong Python, tất cả code block (đoạn code nằm trong câu lệnh if, vòng lặp, hàm...) đều được lùi vào 1 khoảng, dòng trước code block sẽ được kết thúc bằng dấu `:` <br>
VD câu lệnh dưới sẽ báo lỗi
if 1 < 2:
print('x')
* Các câu lệnh trong cùng 1 block phải có cùng indentation
* Indentation theo chuẩn của Python là 4 dấu cách - hoặc tương đương 1 dấu Tab

Tuân thủ nguyên tắc này sẽ khiến code của chúng ta clean và rành mạch hơn nhất nhiều

### Attribute & Method

Bất kỳ thành phần nào trong Python cũng là 1 object. Mỗi đối tượng (object) có 2 nhóm thành phần lớn đi kèm.

- `attribute`: thuộc tính - là các biến, hay object có sẵn có đi kèm đối tượng
- `method`: hàm tính toán đi kèm cùng đối tượng sẵn có

Ví dụ về thuộc tính trong đối tượng

In [138]:
import pandas as pd
df = pd.DataFrame({
    'x' : [1, 2, 3],
    'y': ['a', 'b', 'c']
})
# Thuộc tính về tính chất dữ liệu
df.dtypes

x     int64
y    object
dtype: object

In [139]:
# Thuộc tính shape
df.shape

(3, 2)

Method có sẵn trong 1 `dataframe`

In [140]:
df.describe()

Unnamed: 0,x
count,3.0
mean,2.0
std,1.0
min,1.0
25%,1.5
50%,2.0
75%,2.5
max,3.0


**Lưu ý**: Các đối tượng có sẵn các `method` thường dùng là 1 tính năng rất hay, cho phép thuận tiện trong việc xử lý dữ liệu. Tuy nhiên, trong giai đoạn mới chuyển từ R sang có thể sẽ gặp khó khăn về thói quen

### Module & import

Một module trong python đơn giản chỉ là 1 file `.py` có chứa biến hoặc các function được khai báo. Ví dụ ta có file `some_module.py` chứa code như sau:

```python
# script: some_module.py
PI = 3.14159
def f(x):
  return x + 2

def g(a, b):
  return a + b
```

```python
import some_module
pi = some_module.PI
result = some_module.f(5) + pi

from some_module import f, g, PI
result = g(5, PI)
```

---

Một package trong python có chứa nhiều module. Mỗi module có thể có chứa 1 hoặc nhiều hàm. Do đó, cấu trúc câu lệnh của python khi gọi package ra như sau:

`packages_name.module_name.function_name`

In [144]:
# Ví dụ với numpy
import numpy as np
# Từ numpy >> module random generator >> normal distribution
np.random.normal(2, 1, 4)

array([3.03022049, 2.09110685, 1.51406189, 3.26094249])

### Pipe object

Bất kỳ phần mềm nào có thể khởi động từ terminal đều có thể khởi động từ Python sử dụng pipe object

In [145]:
import os
cmd = 'dir'
os.popen(cmd)

<os._wrap_close at 0x1a086a4a0d0>

### Các câu lệnh hay dùng

In [146]:
# Kiểm tra thư mục làm việc
import os as os

In [147]:
os.getcwd()

'd:\\01-github\\ds-book-python\\_source'

```python
# Kiểm tra các biến trong môi trường làm việc
globals()
```

```python
#Set working directory
import os as os
os.chdir("D:")
```

```python
#List file trong directory
os.listdir()
```

## Tài liệu tham khảo

- [https://aeturrell.github.io/python4DS]()
- Python for Data analysis