# Files

*Instructor: Tue Nguyen*

## 1. Setup
Chuẩn bị 3 files sau đặt ở thư mục chứa notebook.


`info.csv`
```
NAME,ADDRESS,EMAIL
ABC,CITY A,abc@xyz.com
LMN,CITY B,lmn@xyz.com
PQR,CITY C,pqr@xyz.com
```

`info.txt`
```
NAME||ADDRESS||EMAIL
ABC||CITY A||abc@xyz.com
LMN||CITY B||lmn@xyz.com
PQR||CITY C||pqr@xyz.com
```

## 2. Giới thiệu về files
### 2.1. File
- Một file là một tập hợp các bytes liên tiếp lưu trữ dữ liệu. Dữ liệu này được tổ chức theo một format nhất định vd csv, txt, png, jpg, mp3, mp4, ...
- Files gồm 3 phần chính: 
    - Header: metadata về nội dung file (name, size, type, ...)
    - Data: contents of the file.
    - End of file (EOF): ký tự đặc biệt cho biết kết thúc file.
    
### 2.2. File path
- Để truy cập một file trên một hệ điều hành, ta cần biết file path (địa chỉ của file)
- File part gồm 3 phần chính:
    - Folder path: đường dẫn đến thư mục chứa file.
    - File name: tên file.
    - Extension: phần mở rộng (vd: `.csv`, `.txt`, `.json`, ...)
    
- Ví dụ:
```
/
│
├── path/
|   │
│   ├── to/
│   │   └── songs.csv
│   │
│   └── picture.png
|
└── list.txt
```

- Trong VD trên, để truy cập đến `songs.csv`
    - Folder name: `path/to/`
    - File name: `songs`
    - Extension: `.csv`

## 3. Thao tác với files

### 3.1. Mở / đóng file

| Character | Function                                                     |
| --------- | ------------------------------------------------------------ |
| r         | Open file for reading only. Starts reading from beginning of file. This default mode. |
| rb        | Open a file for reading only in binary format. Starts reading from beginning of file. |
| r+        | Open file for reading and writing. File pointer placed at beginning of the file. |
| w         | Open file for writing only. File pointer placed at beginning of the file. Overwrites existing file and creates a new one if it does not exists. |
| wb        | Same as **w** but opens in binary mode.                      |
| w+        | Same as **w** but also alows to read from file.              |
| wb+       | Same as **wb** but also alows to read from file.             |
| a         | Open a file for appending. Starts writing at the end of file. Creates a new file if file does not exist. |
| ab        | Same as **a** but in binary format. Creates a new file if file does not exist. |
| a+        | Same a **a** but also open for reading.                      |
| ab+       | Same a **ab** but also open for reading.                     |

#### Mở file dùng đường dẫn tương đối (relative path)

In [13]:
!pwd

/d/projects/nordic/01_python_course/teaching_draft


In [12]:
!cat info.csv

NAME,ADDRESS,EMAIL
ABC,CITY A,abc@xyz.com
LMN,CITY B,lmn@xyz.com
PQR,CITY C,pqr@xyz.com


In [10]:
# Open connection
f = open("info.csv", "r")

In [14]:
contents = f.readlines()

In [21]:
# Close
f.close() # IO

In [20]:
a

[]

In [23]:
# Open connection
f = open("info.csv", "r")

# Read all lines
contents = f.readlines()

# Close file (important)
f.close()

In [22]:
# View contents
contents

['NAME,ADDRESS,EMAIL\n',
 'ABC,CITY A,abc@xyz.com\n',
 'LMN,CITY B,lmn@xyz.com\n',
 'PQR,CITY C,pqr@xyz.com']

#### Mở file dùng đường dẫn tuyệt đối (absolute path)

In [24]:
import os

In [29]:
current_dir = os.getcwd()
current_dir

'D:\\projects\\nordic\\01_python_course\\teaching_draft'

In [31]:
abs_path = os.path.join(current_dir, "info.csv")

In [32]:
import os
current_dir = os.getcwd()
abs_path = os.path.join(current_dir, "info.csv")

print(abs_path)

D:\projects\nordic\01_python_course\teaching_draft\info.csv


In [33]:
# Mở read-only file connection
f = open(abs_path)

# Read all lines
contents = f.readlines()

# Print contents
print(contents)

# Close files
f.close()

['NAME,ADDRESS,EMAIL\n', 'ABC,CITY A,abc@xyz.com\n', 'LMN,CITY B,lmn@xyz.com\n', 'PQR,CITY C,pqr@xyz.com']


In [36]:
contents

['NAME,ADDRESS,EMAIL\n',
 'ABC,CITY A,abc@xyz.com\n',
 'LMN,CITY B,lmn@xyz.com\n',
 'PQR,CITY C,pqr@xyz.com']

#### Kiểm tra xem file đã đóng chưa

True

#### Mở và tự động đóng file với context manager

In [39]:
with open("info.csv", "r") as f:
    contents = f.readlines()
    
# dsdsdsdsdsds

In [40]:
f.closed

True

In [19]:
# Dùng context manager để đọc files
with open("info.csv", "r") as f:
    contents = f.readlines()

In [21]:
# Print contents
contents

['NAME,ADDRESS,EMAIL\n',
 'ABC,CITY A,abc@xyz.com\n',
 'LMN,CITY B,lmn@xyz.com\n',
 'PQR,CITY C,pqr@xyz.com']

In [20]:
# Kiểm tra xem connection đã đóng chưa
f.closed

True

### 3.2. Đọc file
- Có 3 methods để đọc file từ một file connection (lưu ý: `n` là số bytes to read, thông thường 1 ký tự là 1 byte):
    - `.read(n)`
    - `.readline(n)`
    - `.readlines()`

#### Phương thức 1: `.read(n)`
- Đọc n bytes từ vị trí con trỏ hiện tại. Dịch con trỏ sẽ trỏ n bytes.
- Nếu không chỉ định n, đọc hết nội dung từ con trỏ hiện tại đến hết file. Dịch con trỏ sẽ trỏ đến EOF.

VD 1

In [41]:
# Open file
f = open("info.csv", "r")

In [42]:
# Ko chỉ định N, đọc hết
# Để ý ký tự \n ở kết quả
x = f.read()

In [45]:
y = f.read()

In [47]:
# Đóng file
f.close()

VD 2

In [58]:
# Open file
f = open("info.csv", "r")

In [50]:
print(f.read(3)) # Đọc 3 ký tự

NAM


In [99]:
f.read(3)

''

In [54]:
print(f.read(3)) # Đọc 3 ký tự
print(f.read(3)) # Đọc 3 ký tự tiếp
print(f.read(3)) # Đọc 3 ký tự tiếp

,EM
AIL

AB


In [57]:
# Đóng file
f.close()

VD 3

In [100]:
# Mở file 
f = open("info.csv", "r")

In [101]:
# Đọc hết nội dung file
print(f.read())

NAME,ADDRESS,EMAIL
ABC,CITY A,abc@xyz.com
LMN,CITY B,lmn@xyz.com
PQR,CITY C,pqr@xyz.com


In [102]:
# Nếu gọi f.read() lần nữa sẽ chỉ trả về chuỗi rỗng
print(f.read())




In [103]:
# Check
print(f.read() == "")

True


In [104]:
# Đóng file
f.close()

#### Phương thức 2: `.readline(n)`
- Đọc tối đa n bytes từ vị trí con trỏ hiện tại. Dịch con trỏ n bytes.
- Nếu không chỉ định n, đọc toàn nội dung từ vị trí con trỏ hiện tại đến hết dòng. Dịch con trỏ đến EOL.

VD 1

Dùng `.readline(n)`

In [105]:
# Mở file 
f = open("info.csv", "r")

In [106]:
print(1, f.readline(3)) # Đọc 3 ký tự dòng 1

1 NAM


In [111]:
f.readline()

''

In [64]:
# Mở file 
f = open("info.csv", "r")

# .readline(3) x 3 lần
print(1, f.readline(3)) # Đọc 3 ký tự dòng 1
print(2, f.readline()) # Đọc từ ký tự thứ 3 của dòng 1 đến hết dòng 1
print(3, f.readline()) # Đọc hết dòng thứ 2

# Đóng file
f.close()

1 NAM
2 E,ADDRESS,EMAIL

3 ABC,CITY A,abc@xyz.com



So sánh với dùng `.read(n)`

In [112]:
# Mở file 
f = open("info.csv", "r")

# .readline(3) x 3 lần
print(1, f.read(3)) # Đọc 3 ký tự dòng 1
print(2, f.read()) # Đọc từ ký tự thứ 3 của dòng 1 hết file
print(3, f.read()) # Ko còn gì để đọc

# Đóng file
f.close()

1 NAM
2 E,ADDRESS,EMAIL
ABC,CITY A,abc@xyz.com
LMN,CITY B,lmn@xyz.com
PQR,CITY C,pqr@xyz.com
3 


#### Phương thức 2: `.readlines()`
- Đọc hết nội dung từ con trỏ hiện tại đến EOF. 
- Trả về kết quả là một list với mỗi dòng là một phần tử của list.

In [113]:
# Mở file 
f = open("info.csv", "r")

In [115]:
f.readlines()

[]

In [10]:
# Mở file 
f = open("info.csv", "r")

print(f.readlines()) # Đọc hết nội file, trả về 1 list các lines
print(f.readlines()) # Không còn gì để đọc, trả về list rỗng

# Đóng file
f.close()

['NAME,ADDRESS,EMAIL\n', 'ABC,CITY A,abc@xyz.com\n', 'LMN,CITY B,lmn@xyz.com\n', 'PQR,CITY C,pqr@xyz.com']
[]


In [125]:
with open("info.csv") as f:
    contents = f.readlines()

In [128]:
contents

['NAME,ADDRESS,EMAIL\n',
 'ABC,CITY A,abc@xyz.com\n',
 'LMN,CITY B,lmn@xyz.com\n',
 'PQR,CITY C,pqr@xyz.com']

In [116]:
import pandas as pd

In [117]:
df = pd.read_csv("info.csv")

### Take away
- Thông thường dùng `.readlines()` và lưu kết quả ra list nếu file không quá lớn.
- Nếu file quá lớn thì có thể dùng `.readline()` để đọc từng dòng và làm với từng dòng.
- Hiếm khi dùng `.read()`

VD: Đọc files lớn, đếm tổng số ký tự

In [7]:
# Open file
f = open("info.csv", "r")

# Initiate counting variable
num_chars = 0

while True:
    line = f.readline()
    
    if line == "":
        break
        
    num_chars += len(line) - 1 # Why - 1???
    print(num_chars) # Print cumulative count at each step (line)

# Close file
f.close()

18
40
62
83


### 3.3. Duyệt qua từng dòng của file

In [154]:
num_chars = 0

with open("info.csv") as f: # Context manager
    while True:
        line = f.readline().strip()
        
        if line == "":
            break
        
        num_chars += len(line)
        print(num_chars)

18
40
62
84


In [12]:
# Cách 1:
with open("info.csv", "r") as f:
    while True:
        l = f.readline()
        if l == "":
            break
            
        print(l)

NAME,ADDRESS,EMAIL

ABC,CITY A,abc@xyz.com

LMN,CITY B,lmn@xyz.com

PQR,CITY C,pqr@xyz.com


In [13]:
# Cách 2
with open("info.csv", "r") as f:
    for l in f.readlines():
        print(l)

NAME,ADDRESS,EMAIL

ABC,CITY A,abc@xyz.com

LMN,CITY B,lmn@xyz.com

PQR,CITY C,pqr@xyz.com


In [15]:
# Cách 3: (pythonic, clean, fast, and memory efficient)
# In Python for over f means iterate over each line
with open("info.csv", "r") as f:
    for l in f:
        print(l)

NAME,ADDRESS,EMAIL

ABC,CITY A,abc@xyz.com

LMN,CITY B,lmn@xyz.com

PQR,CITY C,pqr@xyz.com


### 3.4. Ghi file
- `.write(s)` # Write từng dòng
- `.writelines(s)` # Write một lần nhiều dòng

#### Write mỗi lần 1 dòng: `.write(l)`

In [155]:
# Đọc nội dung file info.csv
# lưu ra list
with open("info.csv") as f:
    contents = f.readlines()
    
contents

['NAME,ADDRESS,EMAIL\n',
 'ABC,CITY A,abc@xyz.com\n',
 'LMN,CITY B,lmn@xyz.com\n',
 'PQR,CITY C,pqr@xyz.com']

In [157]:
for x in reversed(contents):
    print(x)

PQR,CITY C,pqr@xyz.com
LMN,CITY B,lmn@xyz.com

ABC,CITY A,abc@xyz.com

NAME,ADDRESS,EMAIL



In [159]:
# Lưu contents the thứ tự dòng đảo ngược
with open("info_reversed.csv", "w") as f:
    for l in reversed(contents):
        line = l.strip() + "\n"
        f.write(line)

In [160]:
# Đọc lại nội dung file vừa ghi (double check)
with open("info_reversed.csv", "r") as f:
    print(f.readlines())

['PQR,CITY C,pqr@xyz.com\n', 'LMN,CITY B,lmn@xyz.com\n', 'ABC,CITY A,abc@xyz.com\n', 'NAME,ADDRESS,EMAIL\n']


#### Write một lần một list các dòng: `.writelines(l)`

In [163]:
# Ghi
with open("info_reversed.csv", "w") as f:
    contents2 = [x.strip() + "\n" for x in contents]
    f.writelines(reversed(contents2))

In [24]:
# Double check
with open("info_reversed.csv", "r") as f:
    print(f.readlines())

['PQR,CITY C,pqr@xyz.comLMN,CITY B,lmn@xyz.com\n', 'ABC,CITY A,abc@xyz.com\n', 'NAME,ADDRESS,EMAIL\n']


#### Append lines 

In [165]:
data1 = [
    "First sentence\n",
    "Second sentence\n"
]

data2 = [
    "Third sentence\n",
    "Fourth sentence\n"
]

In [166]:
# Mở file ở mode append
# Vì chưa có file tên new_file.csv, một file mới sẽ được tạo
with open("new_file.csv", "a") as f:
    f.writelines(data1)

In [169]:
# Mở và append new data
with open("new_file.csv", "a") as f:
    f.writelines(data2)

### 3.5. Làm việc với 2 files cùng một lúc

In [171]:
input_path = "info.csv"
output_path = "info_reversed.csv"

with open(input_path, "r") as reader, open(output_path, "w") as writer:
    contents = reader.readlines()
    writer.writelines(reversed(contents))


In [172]:
# Kiểm tra
with open(output_path, "r") as f:
    print(f.readlines())

['PQR,CITY C,pqr@xyz.comLMN,CITY B,lmn@xyz.com\n', 'ABC,CITY A,abc@xyz.com\n', 'NAME,ADDRESS,EMAIL\n']
