# Bài 16: Files

## 1. Setup
Chuẩn bị 2 files sau đặt ở thư mục chứa notebook.


`info.csv`
```
NAME,ADDRESS,EMAIL
ABC,CITY A,abc@xyz.com
LMN,CITY B,lmn@xyz.com
PQR,CITY C,pqr@xyz.com
```

`info.txt`
```
NAME||ADDRESS||EMAIL
ABC||CITY A||abc@xyz.com
LMN||CITY B||lmn@xyz.com
PQR||CITY C||pqr@xyz.com
```

## 2. Giới thiệu về files
### 2.1. File
- Một file là một tập hợp các bytes liên tiếp lưu trữ dữ liệu. Dữ liệu này được tổ chức theo một format nhất định vd csv, txt, png, jpg, mp3, mp4, ...
- Files gồm 3 phần chính: 
    - Header: metadata về nội dung file (name, size, type, ...)
    - Data: contents of the file.
    - End of file (EOF): ký tự đặc biệt cho biết kết thúc file.
    
### 2.2. File path
- Để truy cập một file trên một hệ điều hành, ta cần biết file path (địa chỉ của file)
- File part gồm 3 phần chính:
    - Folder path: đường dẫn đến thư mục chứa file.
    - File name: tên file.
    - Extension: phần mở rộng (vd: `.csv`, `.txt`, `.json`, ...)
    
- Ví dụ:
```
/
│
├── path/
|   │
│   ├── to/
│   │   └── songs.csv
│   │
│   └── picture.png
|
└── list.txt
```

- Trong VD trên, để truy cập đến `songs.csv`
    - Folder name: `path/to/`
    - File name: `songs`
    - Extension: `.csv`

## 3. Thao tác với files

### 3.1. Mở / đóng file

| Character | Function                                                     |
| --------- | ------------------------------------------------------------ |
| r         | Open file for reading only. Starts reading from beginning of file. This default mode. |
| rb        | Open a file for reading only in binary format. Starts reading from beginning of file. |
| r+        | Open file for reading and writing. File pointer placed at beginning of the file. |
| w         | Open file for writing only. File pointer placed at beginning of the file. Overwrites existing file and creates a new one if it does not exists. |
| wb        | Same as **w** but opens in binary mode.                      |
| w+        | Same as **w** but also alows to read from file.              |
| wb+       | Same as **wb** but also alows to read from file.             |
| a         | Open a file for appending. Starts writing at the end of file. Creates a new file if file does not exist. |
| ab        | Same as **a** but in binary format. Creates a new file if file does not exist. |
| a+        | Same a **a** but also open for reading.                      |
| ab+       | Same a **ab** but also open for reading.                     |

### 3.2. Mở file dùng đường dẫn tương đối (relative path)

In [None]:
# Print working directory
!pwd

In [None]:
# View content file (for small-medium file)
!cat info.csv

In [None]:
# Open connection
f = open("info.csv", "r")

In [None]:
# Load contents
contents = f.readlines()

In [None]:
# Close file
f.close() 

In [None]:
# Print loaded contents
contents

### 3.3. Mở file dùng đường dẫn tuyệt đối (absolute path)

In [None]:
# Import
import os

In [None]:
# Current directory
current_dir = os.getcwd()
current_dir

In [None]:
# Absolute path
abs_path = os.path.join(current_dir, "info.csv")

In [None]:
# Mở read-only file connection
f = open(abs_path)

# Read all lines
contents = f.readlines()

# Print contents
print(contents)

# Close files
f.close()

In [None]:
# Check if file is closed
f.closed

### 3.4. Mở và tự động đóng file với context manager

In [None]:
# Dùng context manager để đọc files
with open("info.csv", "r") as f:
    contents = f.readlines()

In [None]:
# Print contents
contents

In [None]:
# Kiểm tra xem connection đã đóng chưa
f.closed

### 3.5. Đọc file
- Có 3 methods để đọc file từ một file connection (lưu ý: `n` là số bytes to read, thông thường 1 ký tự là 1 byte):
    - `.read(n)`
    - `.readline(n)`
    - `.readlines()`
    
- Thông thường dùng `.readlines()` và lưu kết quả ra list nếu file không quá lớn.
- Nếu file quá lớn thì có thể dùng `.readline()` để đọc từng dòng và làm với từng dòng.
- Hiếm khi dùng `.read()`

VD1: Đọc data bằng readlines

In [None]:
with open("info.csv", "r") as f:
    lines = f.readlines()

In [None]:
lines

VD2: Đọc files lớn, đếm tổng số ký tự

In [None]:
# Open file
f = open("info.csv", "r")

# Initiate counting variable
num_chars = 0

while True:
    line = f.readline()
    
    if line == "":
        break
        
    num_chars += len(line) - 1 # Why - 1???
    print(num_chars) # Print cumulative count at each step (line)

# Close file
f.close()

### 3.6. Duyệt qua từng dòng của file

In [None]:
# Cách 1:
with open("info.csv", "r") as f:
    while True:
        l = f.readline()
        if l == "":
            break
            
        print(l)

In [None]:
# Cách 2
with open("info.csv", "r") as f:
    for l in f.readlines():
        print(l)

In [None]:
# Cách 3: (pythonic, clean, fast, and memory efficient)
# In Python for over f means iterate over each line
with open("info.csv", "r") as f:
    for l in f:
        print(l)

### 3.7. Ghi file
- `.write(s)` # Write từng dòng
- `.writelines(s)` # Write một lần nhiều dòng

#### Write mỗi lần 1 dòng: `.write(l)`

In [None]:
# Đọc nội dung file info.csv
# lưu ra list
with open("info.csv") as f:
    contents = f.readlines()
    
contents

In [None]:
for x in reversed(contents):
    print(x)

In [None]:
# Lưu contents the thứ tự dòng đảo ngược
with open("info_reversed.csv", "w") as f:
    for l in reversed(contents):
        line = l.strip() + "\n"
        f.write(line)

In [None]:
# Đọc lại nội dung file vừa ghi (double check)
with open("info_reversed.csv", "r") as f:
    print(f.readlines())

#### Write một lần một list các dòng: `.writelines(l)`

In [None]:
# Ghi
with open("info_reversed.csv", "w") as f:
    contents2 = [x.strip() + "\n" for x in contents]
    f.writelines(reversed(contents2))

In [None]:
# Double check
with open("info_reversed.csv", "r") as f:
    print(f.readlines())

#### Append lines 

In [None]:
data1 = [
    "First sentence\n",
    "Second sentence\n"
]

data2 = [
    "Third sentence\n",
    "Fourth sentence\n"
]

In [None]:
# Mở file ở mode append
# Vì chưa có file tên new_file.csv, một file mới sẽ được tạo
with open("new_file.csv", "a") as f:
    f.writelines(data1)

In [None]:
# Mở và append new data
with open("new_file.csv", "a") as f:
    f.writelines(data2)