## Built-In Data Structures, Functions, and Files

### Tuples (Bộ dữ liệu)
- Tuple là một cấu trúc dữ liệu bất biến (immutable) trong Python, có thể chứa nhiều phần tử khác nhau.

In [None]:
# Cách 1: Sử dụng dấu ngoặc đơn
tup = (4, 5, 6)
print(tup)  # Output: (4, 5, 6)


(4, 5, 6)

In [None]:
# Cách 2: Không cần dấu ngoặc đơn (tuple packing)
tup = 4, 5, 6
print(tup)  # Output: (4, 5, 6)

(4, 5, 6)

In [None]:
# Cách 3: Sử dụng constructor tuple()
tuple([4, 0, 2])  # Chuyển list thành tuple
tup = tuple('string')  # Chuyển string thành tuple các ký tự
print(tup)  # Output: ('s', 't', 'r', 'i', 'n', 'g')

('s', 't', 'r', 'i', 'n', 'g')

#### Truy cập phần tử

In [None]:
# Truy cập phần tử đầu tiên
print(tup[0])  # Output: 's'

's'

#### Nested Tuples (Tuple lồng nhau)

In [None]:
# Tạo tuple chứa các tuple khác
nested_tup = (4, 5, 6), (7, 8)
print(nested_tup)        # Output: ((4, 5, 6), (7, 8))
print(nested_tup[0])     # Output: (4, 5, 6) - tuple đầu tiên
print(nested_tup[1])     # Output: (7, 8) - tuple thứ hai

(7, 8)

#### Tính bất biến của Tuple

In [None]:
# Tuple bất biến - không thể thay đổi phần tử
tup = tuple(['foo', [1, 2], True])
# tup[2] = False  # Lỗi! Không thể gán lại

TypeError: 'tuple' object does not support item assignment

In [None]:
# Nhưng có thể thay đổi object bên trong nếu nó mutable
tup[1].append(3)  # List bên trong vẫn có thể thay đổi
print(tup)  # Output: ('foo', [1, 2, 3], True)

#### Phép toán với Tuple

In [None]:
# Nối tuple
result = (4, None, 'foo') + (6, 0) + ('bar',)
print(result)  # Output: (4, None, 'foo', 6, 0, 'bar')

In [None]:
# Nhân tuple
repeated = ('foo', 'bar') * 4
print(repeated)  # Output: ('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### Tuple Unpacking (Giải nén tuple)

In [None]:
# Gán nhiều biến cùng lúc
tup = (4, 5, 6)
a, b, c = tup
print(b)  # Output: 5

In [None]:
# Unpacking tuple lồng nhau
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
print(d)  # Output: 7

In [None]:
# Hoán đổi giá trị biến
a, b = 1, 2
print(a, b)  # Output: 1 2
b, a = a, b  # Hoán đổi
print(a, b)  # Output: 2 1

#### Unpacking trong vòng lặp

In [None]:
# Unpacking trong for loop
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print(f'a={a}, b={b}, c={c}')
# Output:
# a=1, b=2, c=3
# a=4, b=5, c=6  
# a=7, b=8, c=9

#### Variable-length unpacking với *rest

In [None]:
# Sử dụng *rest để lấy phần còn lại
values = 1, 2, 3, 4, 5
a, b, *rest = values
print(a)     # Output: 1
print(b)     # Output: 2  
print(rest)  # Output: [3, 4, 5]

In [None]:
# Bỏ qua phần còn lại với *_
a, b, *_ = values  # _ là convention để chỉ biến không sử dụng

#### Phương thức của Tuple

In [None]:
# count(): đếm số lần xuất hiện của một giá trị
a = (1, 2, 2, 2, 3, 4, 2)
count = a.count(2)
print(count)  # Output: 4

### Lists (Danh sách)
- List là cấu trúc dữ liệu có thể thay đổi (mutable) và có thứ tự.

#### Chuyển đổi giữa List và Tuple

In [None]:
# Chuyển tuple thành list
a_list = [2, 3, 7, None]
tup = ("foo", "bar", "baz")
b_list = list(tup)
print(b_list)  # Output: ['foo', 'bar', 'baz']

['foo', 'bar', 'baz']


In [None]:
# Thay đổi phần tử trong list
b_list[1] = "peekaboo"
print(b_list)  # Output: ['foo', 'peekaboo', 'baz']

['foo', 'peekaboo', 'baz']


#### Thêm và xóa phần tử

In [None]:
# append(): thêm phần tử vào cuối
b_list.append("dwarf")
print(b_list)  # Output: ['foo', 'peekaboo', 'baz', 'dwarf']

['foo', 'peekaboo', 'baz', 'dwarf']


In [None]:
# Chèn phần tử vào vị trí cụ thể
b_list.insert(1, "red")
print(b_list)  # Output: ['foo', 'red', 'peekaboo', 'baz', 'dwarf']

['foo', 'red', 'peekaboo', 'baz', 'dwarf']


In [None]:
# pop(): xóa và trả về phần tử tại vị trí chỉ định
b_list.pop(2)
print(b_list)  # Output: ['foo', 'red', 'baz', 'dwarf']

['foo', 'red', 'baz', 'dwarf']


In [None]:
# Thêm phần tử vào list
b_list.append("foo")
print(b_list)  # Output: ['foo', 'red', 'baz', 'dwarf', 'foo']

# Xóa phần tử theo giá trị
b_list.remove("foo")  # Chỉ xóa 'foo' đầu tiên
print(b_list)  # Output: ['red', 'baz', 'dwarf', 'foo']

['foo', 'red', 'baz', 'dwarf', 'foo']
['red', 'baz', 'dwarf', 'foo']


#### Kiểm tra sự tồn tại

In [None]:
print("dwarf" in b_list)      # Output: True

True


In [None]:
print("dwarf" not in b_list)  # Output: False

False


#### Nối list

In [None]:
# Phép cộng tạo list mới
result = [4, None, "foo"] + [7, 8, (2, 3)]
print(result)  # Output: [4, None, 'foo', 7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]


In [None]:
# extend(): thêm phần tử từ list khác (in-place)
x = [4, None, "foo"]
x.extend([7, 8, (2, 3)])
print(x)  # Output: [4, None, 'foo', 7, 8, (2, 3)]

#### Sắp xếp 

In [None]:
# sort(): sắp xếp in-place
a = [7, 2, 5, 1, 3]
a.sort()
print(a)  # Output: [1, 2, 3, 5, 7]

In [None]:
# Sắp xếp theo độ dài string
b = ["saw", "small", "He", "foxes", "six"]
b.sort(key=len)  # key=len nghĩa là sắp xếp theo độ dài
print(b)  # Output: ['He', 'saw', 'six', 'small', 'foxes']

#### Slicing (Cắt list)

In [None]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]

In [None]:
# Cắt từ index 1 đến 5 (không bao gồm 5)
print(seq[1:5])  # Output: [2, 3, 7, 5]

# Gán slice với list mới
seq[3:5] = [6, 3]
print(seq)  # Output: [7, 2, 3, 6, 3, 6, 0, 1]

# Slice từ đầu đến index 5
print(seq[:5])   # Output: [7, 2, 3, 6, 3]
# Slice từ index 3 đến cuối
print(seq[3:])   # Output: [6, 3, 6, 0, 1]

# Negative indexing
print(seq[-4:])   # Output: [3, 6, 0, 1] - 4 phần tử cuối
print(seq[-6:-2]) # Output: [6, 3, 6, 0] - từ index -6 đến -2

# Step slicing
print(seq[::2])   # Output: [7, 3, 3, 0] - lấy mỗi phần tử thứ 2
print(seq[::-1])  # Output: [1, 0, 6, 3, 6, 3, 2, 7] - đảo ngược list

[2, 3, 7, 5]
[7, 2, 3, 6, 3, 6, 0, 1]
[7, 2, 3, 6, 3]
[6, 3, 6, 0, 1]
[3, 6, 0, 1]
[3, 6, 3, 6]
[7, 3, 3, 0]
[1, 0, 6, 3, 6, 3, 2, 7]


### Dictionaries (Từ điển)
- Dictionary là cấu trúc dữ liệu key-value có thể thay đổi.

#### Tạo Dictionary

In [None]:
# Dictionary rỗng
empty_dict = {}

# Dictionary với dữ liệu
d1 = {"a": "some value", "b": [1, 2, 3, 4]}
print(d1)  # Output: {'a': 'some value', 'b': [1, 2, 3, 4]}

{'a': 'some value', 'b': [1, 2, 3, 4]}


In [None]:
# Thêm key-value mới
d1[7] = "an integer"  # Key có thể là số
print(d1)       # Output: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}
print(d1["b"])  # Output: [1, 2, 3, 4]

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}
[1, 2, 3, 4]


#### Kiểm tra key

In [None]:
# Kiểm tra key có tồn tại không
print("b" in d1)  # Output: True

True


#### Thao tác với Dictionary

In [None]:
# Thêm nhiều key-value
d1[5] = "some value"
d1["dummy"] = "another value"
print(d1)

# Xóa key bằng del
del d1[5]
print(d1)

# pop(): xóa và trả về value
ret = d1.pop("dummy")
print(ret)  # Output: 'another value'
print(d1)

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value', 'dummy': 'another value'}
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'dummy': 'another value'}
another value
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}


#### Lấy keys, values, items

In [None]:
# keys(): lấy tất cả keys
print(list(d1.keys()))    # Output: ['a', 'b', 7]

# values(): lấy tất cả values  
print(list(d1.values()))  # Output: ['some value', [1, 2, 3, 4], 'an integer']

# items(): lấy các cặp key-value
print(list(d1.items()))   # Output: [('a', 'some value'), ('b', [1, 2, 3, 4]), (7, 'an integer')]

['a', 'b', 7]
['some value', [1, 2, 3, 4], 'an integer']
[('a', 'some value'), ('b', [1, 2, 3, 4]), (7, 'an integer')]


In [None]:
# update(): cập nhật từ dict khác
d1.update({"b": "foo", "c": 12})
print(d1)  # Output: {'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

#### Tạo Dictionary từ sequences

In [None]:
# Tạo dict từ zip object
tuples = zip(range(5), reversed(range(5)))
print(tuples)  # zip object
mapping = dict(tuples)
print(mapping)  # Output: {0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

#### Nhóm dữ liệu theo key

In [None]:
words = ["apple", "bat", "bar", "atom", "book"]

# Cách thủ công
by_letter = {}
for word in words:
    letter = word[0]  # Lấy chữ cái đầu
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)
print(by_letter)  # Output: {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}


In [None]:
# Sử dụng setdefault()
by_letter = {}
for word in words:
    letter = word[0]
    # setdefault() trả về value nếu key tồn tại, nếu không thì set value mặc định
    by_letter.setdefault(letter, []).append(word)
print(by_letter)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}


In [None]:
# Sử dụng defaultdict
from collections import defaultdict
by_letter = defaultdict(list)  # Tự động tạo list nếu key chưa tồn tại
for word in words:
    by_letter[word[0]].append(word)
print(by_letter)

defaultdict(<class 'list'>, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})


#### Valid Dictionary Keys

In [None]:
# Key phải là hashable (immutable)
print(hash("string"))        # String có thể hash
print(hash((1, 2, (2, 3))))  # Tuple có thể hash
# hash((1, 2, [2, 3]))       # Lỗi! List không thể hash vì mutable

7525051258838487376
-9209053662355515447


In [None]:
# Sử dụng tuple làm key
d = {}
d[tuple([1, 2, 3])] = 5
print(d)  # Output: {(1, 2, 3): 5}

{(1, 2, 3): 5}


### Sets (Tập hợp)
- Set là collection không có thứ tự và không có phần tử trùng lặp.

#### Tạo Set

In [None]:
# Từ list (loại bỏ duplicate)
print(set([2, 2, 2, 1, 3, 3]))  # Output: {1, 2, 3}

# Set literal
print({2, 2, 2, 1, 3, 3})       # Output: {1, 2, 3}

#### Phép toán Set

In [None]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [None]:
# Union (hợp): tất cả phần tử của cả hai set
print(a.union(b))    # Output: {1, 2, 3, 4, 5, 6, 7, 8}
print(a | b)         # Toán tử | cũng là union

{1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


In [None]:
# Intersection (giao): phần tử chung
print(a.intersection(b))  # Output: {3, 4, 5}
print(a & b)             # Toán tử & cũng là intersection

{3, 4, 5}
{3, 4, 5}


In [None]:
# In-place operations
c = a.copy()
c |= b  # Equivalent to c = c.union(b)
print(c)  # Output: {1, 2, 3, 4, 5, 6, 7, 8}

d = a.copy()  
d &= b  # Equivalent to d = d.intersection(b)
print(d)  # Output: {3, 4, 5}

{1, 2, 3, 4, 5, 6, 7, 8}
{3, 4, 5}


#### Set từ dữ liệu phức tạp

In [None]:
# Chỉ có thể chứa immutable objects
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}  # Convert list to tuple first
print(my_set)  # Output: {(1, 2, 3, 4)}

{(1, 2, 3, 4)}


#### Subset và Superset

In [None]:
a_set = {1, 2, 3, 4, 5}

# issubset(): kiểm tra subset
print({1, 2, 3}.issubset(a_set))    # Output: True

# issuperset(): kiểm tra superset  
print(a_set.issuperset({1, 2, 3}))  # Output: True

# So sánh set
print({1, 2, 3} == {3, 2, 1})       # Output: True (thứ tự không quan trọng)

True
True
True


### Built-in Functions

#### Sorted

In [None]:
# sorted(): trả về list đã sắp xếp (không thay đổi original)
print(sorted([7, 1, 2, 6, 0, 3, 2]))  # Output: [0, 1, 2, 2, 3, 6, 7]
print(sorted("horse race"))            
# Output: [' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### Zip

In [None]:
# zip(): ghép các sequence lại với nhau
seq1 = ["foo", "bar", "baz"]
seq2 = ["one", "two", "three"]
zipped = zip(seq1, seq2)
print(list(zipped))  # Output: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

# Zip nhiều sequences
seq3 = [False, True]
print(list(zip(seq1, seq2, seq3)))  # Output: [('foo', 'one', False), ('bar', 'two', True)]
# Chú ý: zip dừng khi sequence ngắn nhất hết phần tử

#### Enumerate

In [None]:
# enumerate(): tạo index cho vòng lặp
for index, (a, b) in enumerate(zip(seq1, seq2)):
    print(f"{index}: {a}, {b}")

#### Reversed

In [None]:
# reversed(): đảo ngược sequence
print(list(reversed(range(10)))) 

### List/Dict/Set Comprehensions

#### List Comprehension

In [None]:
strings = ["a", "as", "bat", "car", "dove", "python"]

# Basic list comprehension với điều kiện
result = [x.upper() for x in strings if len(x) > 2]
print(result)  # Output: ['BAT', 'CAR', 'DOVE', 'PYTHON']

['BAT', 'CAR', 'DOVE', 'PYTHON']


#### Set Comprehension

In [None]:
# Set comprehension: loại bỏ duplicate
unique_lengths = {len(x) for x in strings}
print(unique_lengths)  # Output: {1, 2, 3, 4, 6}

# Equivalent với map()
print(set(map(len, strings)))  # Same result

#### Dict Comprehension

In [None]:
# Dict comprehension
loc_mapping = {value: index for index, value in enumerate(strings)}
print(loc_mapping)  # Output: {'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

#### Nested List Comprehension

In [None]:
all_data = [["John", "Emily", "Michael", "Mary", "Steven"],
            ["Maria", "Juan", "Javier", "Natalia", "Pilar"]]

In [None]:
# Cách thủ công
names_of_interest = []
for names in all_data:
    enough_as = [name for name in names if name.count("a") >= 2]
    names_of_interest.extend(enough_as)
print(names_of_interest)  # Output: ['Maria', 'Natalia']

In [None]:
# Nested comprehension
result = [name for names in all_data for name in names
          if name.count("a") >= 2]
print(result)  # Output: ['Maria', 'Natalia']

#### Flattening với Comprehension

In [None]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

# Flatten tuple thành list
flattened = [x for tup in some_tuples for x in tup]
print(flattened)  # Output: [1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# Equivalent manual approach:
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)

# List of lists comprehension
print([[x for x in tup] for tup in some_tuples])
# Output: [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

### Functions (Hàm)

#### Định nghĩa Function cơ bản

In [None]:
def my_function(x, y):
    return x + y

In [None]:
# Gọi function
result = my_function(1, 2)
print(result)  # Output: 3

#### Function không return

In [None]:
def function_without_return(x):
    """Function chỉ print, không return"""
    print(x)

# Function không return sẽ return None
result = function_without_return("hello!")  # Print: hello!
print(result)  # Output: None

#### Default Parameters

In [None]:
def my_function2(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

In [None]:
# Các cách gọi function
print(my_function2(5, 6, z=0.7))  # Output: 0.06363636363636364
print(my_function2(3.14, 7, 3.5)) # Output: 35.49
print(my_function2(10, 20))       # Output: 45.0 (sử dụng z=1.5 mặc định)

#### Variable Scope

In [None]:
# Global variable
a = []

def func():
    """Function modify global variable"""
    # Truy cập global variable (mutable object)
    for i in range(5):
        a.append(i)

In [None]:
func()
print(a)  # Output: [0, 1, 2, 3, 4]
func()    # Gọi lại function
print(a)  # Output: [0, 1, 2, 3, 4, 0, 1, 2, 3, 4]

In [None]:
# Sử dụng global keyword để rebind global variable
a = None
def bind_a_variable():
    global a  # Khai báo sử dụng global variable
    a = []

bind_a_variable()
print(a)  # Output: []

#### Functions as Objects

In [None]:
states = ["   Alabama ", "Georgia!", "Georgia", "georgia", "FlOrIda",
          "south   carolina##", "West virginia?"]

In [None]:
# Function xử lý string
import re

def clean_strings(strings):
    """Function để clean list of strings"""
    result = []
    for value in strings:
        value = value.strip()                    # Loại bỏ whitespace
        value = re.sub("[!#?]", "", value)      # Loại bỏ punctuation
        value = value.title()                   # Capitalize từng từ
        result.append(value)
    return result

In [None]:
clean_strings(states)

In [None]:
# Refactor: sử dụng list of functions
def remove_punctuation(value):
    return re.sub("[!#?]", "", value)

# List các function để apply
clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    """Function nhận list of operations"""
    result = []
    for value in strings:
        for func in ops:  # Apply từng function
            value = func(value)
        result.append(value)
    return result

In [None]:
clean_strings(states, clean_ops)

In [None]:
# Sử dụng map() để apply function
for x in map(remove_punctuation, states):
    print(x)

#### Lambda Functions

In [None]:
# Function thông thường
def short_function(x):
    return x * 2

# Lambda function (anonymous function)
equiv_anon = lambda x: x * 2

In [None]:
# Sử dụng lambda với higher-order function
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
result = apply_to_list(ints, lambda x: x * 2)
print(result)  # Output: [8, 0, 2, 10, 12]

In [None]:
# Lambda trong sorting
strings = ["foo", "card", "bar", "aaaa", "abab"]
strings.sort(key=lambda x: len(set(x)))  # Sort theo số ký tự unique
print(strings)  # Output: ['aaaa', 'foo', 'bar', 'card', 'abab']

### Generators (Bộ sinh)

#### Generator Functions

In [None]:
def squares(n=10):
    """Generator function tạo bình phương các số"""
    print(f"Generating squares from 1 to {n ** 2}")
    for i in range(1, n + 1):
        yield i ** 2  # yield thay vì return

In [None]:
# Tạo generator object
gen = squares()
print(gen)  # Output: <generator object squares at 0x...>

<generator object squares at 0x000001EDDF4E7E60>


In [None]:
# Iterate qua generator
for x in gen:
    print(x, end=" ")  # Output: 1 4 9 16 25 36 49 64 81 100

#### Generator Expressions

In [None]:
# Generator expression
gen = (x ** 2 for x in range(100))
print(gen)  # Output: <generator object <genexpr> at 0x...>

In [None]:
# Sử dụng trong function calls
print(sum(x ** 2 for x in range(100)))  # Output: 328350
print(dict((i, i ** 2) for i in range(5)))  # Output: {0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

#### itertools.groupby

In [None]:
import itertools

def first_letter(x):
    return x[0]

names = ["Alan", "Adam", "Wes", "Will", "Albert", "Steven"]

# groupby(): nhóm các phần tử liên tiếp có cùng key
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))  # names là generator nên cần list()
# Output:
# A ['Alan', 'Adam']
# W ['Wes', 'Will']  
# A ['Albert']
# S ['Steven']

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


### Exception Handling 

#### Basic Exception Handling

In [None]:
# Function có thể raise exception
print(float("1.2345"))  # Output: 1.2345
# float("something")    # ValueError!

In [None]:
def attempt_float(x):
    """Safely convert to float"""
    try:
        return float(x)
    except:
        return x  # Trả về original value nếu không convert được

In [None]:
print(attempt_float("1.2345"))   # Output: 1.2345
print(attempt_float("something")) # Output: something

1.2345
something


#### Specific Exception Types

In [None]:
float((1, 2)) # float((1, 2))  # TypeError!

In [None]:
# Handle multiple exception types
def attempt_float(x):
    """Handle multiple exception types"""
    try:
        return float(x)
    except (TypeError, ValueError):  # Tuple of exception types
        return x

print(attempt_float((1, 2)))  # Output: (1, 2)

### File Operations

#### Basic File Reading

In [None]:
# Mở file (cần đóng sau khi sử dụng)
path = "examples/segismundo.txt"
f = open(path, encoding="utf-8")

In [None]:
# Đọc file thành list of lines
lines = [x.rstrip() for x in open(path, encoding="utf-8")]
print(lines)

In [None]:
f.close()  # Quan trọng: phải đóng file

In [None]:
# Sử dụng with để mỏ file (tự động đóng file)
with open(path, encoding="utf-8") as f:
    lines = [x.rstrip() for x in f]

In [None]:
# Mở file ở chế độ mặc định (text mode)
f1 = open(path)

# Đọc 10 ký tự đầu tiên từ file (theo kiểu text, chuỗi str)
f1.read(10)

# Mở file ở chế độ nhị phân (binary mode)
# mode="rb" nghĩa là: read + binary
f2 = open(path, mode="rb")

# Đọc 10 byte đầu tiên từ file (theo kiểu bytes, không phải chuỗi str)
f2.read(10)

# Kiểm tra vị trí con trỏ đọc trong file text (tính theo ký tự)
f1.tell()

# Kiểm tra vị trí con trỏ đọc trong file nhị phân (tính theo byte)
f2.tell()

In [None]:
import sys
# Kiểm tra encoding mặc định của Python
# Thường sẽ trả về "utf-8"
sys.getdefaultencoding()

'utf-8'

In [None]:
# Di chuyển con trỏ đọc của file text (f1) đến vị trí thứ 3 (theo ký tự)
f1.seek(3)

# Đọc 1 ký tự tại vị trí con trỏ
f1.read(1)

# Kiểm tra vị trí con trỏ hiện tại sau khi đọc
f1.tell()

In [None]:
f1.close()
f2.close()

In [None]:
path  # Đường dẫn đến file gốc (file cần đọc dữ liệu)

# Ghi dữ liệu vào file "tmp.txt" bằng context manager (with)
with open("tmp.txt", mode="w") as handle:
    # Duyệt qua từng dòng trong file gốc (open(path))
    # Điều kiện: chỉ lấy những dòng có độ dài > 1 (loại bỏ dòng trống hoặc chỉ có ký tự xuống dòng "\n")
    # writelines() sẽ ghi tất cả các dòng thỏa điều kiện vào "tmp.txt"
    handle.writelines(x for x in open(path) if len(x) > 1)

# Mở lại file "tmp.txt" ở chế độ mặc định (read, text mode)
with open("tmp.txt") as f:
    # Đọc toàn bộ nội dung file và trả về dạng list,
    # trong đó mỗi phần tử là một dòng (bao gồm cả ký tự xuống dòng "\n")
    lines = f.readlines()

# Hiển thị danh sách các dòng trong "tmp.txt"
lines


In [None]:
import os
# Xóa file tạm "tmp.txt" sau khi sử dụng xong
os.remove("tmp.txt")

In [None]:
# Đọc 10 ký tự đầu tiên từ file gốc (theo kiểu text, chuỗi str)
with open(path) as f:
    chars = f.read(10)

chars
len(chars)

In [None]:
# Đọc 10 byte đầu tiên từ file gốc (theo kiểu bytes, không phải chuỗi str)
with open(path, mode="rb") as f:
    data = f.read(10)

data

In [None]:
# Giải mã bytes thành chuỗi str (theo chuẩn UTF-8)
data.decode("utf-8")
data[:4].decode("utf-8")

In [None]:
# Đặt tên file đích (nơi sẽ ghi nội dung)
sink_path = "sink.txt"

# Mở file nguồn (path) ở chế độ mặc định (read text, UTF-8)
with open(path) as source:
    # Mở file đích ở chế độ "x" (exclusive creation)
    # - Tạo mới file, nếu file đã tồn tại thì sẽ báo lỗi
    # - encoding="iso-8859-1" nghĩa là ghi dữ liệu với bảng mã Latin-1
    with open(sink_path, "x", encoding="iso-8859-1") as sink:
        # Đọc toàn bộ nội dung từ file nguồn và ghi vào file đích
        sink.write(source.read())

# Mở lại file đích ở chế độ đọc text, với encoding ISO-8859-1
with open(sink_path, encoding="iso-8859-1") as f:
    # Đọc 10 ký tự đầu tiên từ file đích và in ra màn hình
    print(f.read(10))


In [None]:
os.remove(sink_path)

In [None]:
# Mở file ở chế độ đọc text, UTF-8
f = open(path, encoding='utf-8')
# Đọc 5 ký tự đầu tiên
f.read(5)
# Di chuyển con trỏ đọc đến vị trí thứ 4 (theo ký tự)
f.seek(4)
# Đọc 1 ký tự tại vị trí con trỏ
f.read(1)
# Đóng file sau khi sử dụng
f.close()