# Chương 5: Loading and Saving Data

In [1]:
import os              # nhập thư viện os để làm việc với hệ điều hành

cwd = os.getcwd()      # lấy đường dẫn thư mục hiện tại (current working directory)

print(cwd)             # in đường dẫn thư mục hiện tại ra màn hình


/workspaces/ueh25-ktlt-eco


# Loading Data

In [4]:
# open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None)

# file: tên file hoặc đường dẫn file cần mở (ví dụ: "data.txt")
# mode: chế độ mở file
#   'r'  : đọc (read) – mặc định
#   'w'  : ghi (write) – xóa nội dung cũ nếu file tồn tại
#   'a'  : ghi thêm (append) – không xóa nội dung cũ
#   'b'  : nhị phân (binary), ví dụ 'rb', 'wb'
#   't'  : văn bản (text), mặc định
#   '+'  : đọc và ghi (read & write), ví dụ 'r+', 'w+'
#
# buffering: bộ đệm (buffering)
#   -1 : dùng mặc định của hệ thống
#    0 : không dùng buffer (chỉ cho mode binary)
#    1 : dùng buffer dòng (line buffering)
#   >1 : kích thước buffer cụ thể (tính theo byte)
#
# encoding: mã hóa file (chỉ dùng khi mở file text)
#   ví dụ 'utf-8', 'latin-1'
#
# errors: xử lý lỗi mã hóa
#   'strict'  : báo lỗi khi có ký tự không hợp lệ (mặc định)
#   'ignore'  : bỏ qua ký tự lỗi
#   'replace' : thay ký tự lỗi bằng ký tự thay thế
#
# newline: quy định cách xử lý ký tự xuống dòng
#   None    : giữ nguyên (mặc định)
#   ''      : giữ tất cả kiểu xuống dòng (\n, \r, \r\n)
#   '\n'    : chuẩn hóa về \n
#   '\r'    : chuẩn hóa về \r
#   '\r\n'  : chuẩn hóa về \r\n


In [6]:
import locale
locale.locale_alias




{'a3': 'az_AZ.KOI8-C',
 'a3_az': 'az_AZ.KOI8-C',
 'a3_az.koic': 'az_AZ.KOI8-C',
 'aa_dj': 'aa_DJ.ISO8859-1',
 'aa_er': 'aa_ER.UTF-8',
 'aa_et': 'aa_ET.UTF-8',
 'af': 'af_ZA.ISO8859-1',
 'af_za': 'af_ZA.ISO8859-1',
 'agr_pe': 'agr_PE.UTF-8',
 'ak_gh': 'ak_GH.UTF-8',
 'am': 'am_ET.UTF-8',
 'am_et': 'am_ET.UTF-8',
 'american': 'en_US.ISO8859-1',
 'an_es': 'an_ES.ISO8859-15',
 'anp_in': 'anp_IN.UTF-8',
 'ar': 'ar_AA.ISO8859-6',
 'ar_aa': 'ar_AA.ISO8859-6',
 'ar_ae': 'ar_AE.ISO8859-6',
 'ar_bh': 'ar_BH.ISO8859-6',
 'ar_dz': 'ar_DZ.ISO8859-6',
 'ar_eg': 'ar_EG.ISO8859-6',
 'ar_in': 'ar_IN.UTF-8',
 'ar_iq': 'ar_IQ.ISO8859-6',
 'ar_jo': 'ar_JO.ISO8859-6',
 'ar_kw': 'ar_KW.ISO8859-6',
 'ar_lb': 'ar_LB.ISO8859-6',
 'ar_ly': 'ar_LY.ISO8859-6',
 'ar_ma': 'ar_MA.ISO8859-6',
 'ar_om': 'ar_OM.ISO8859-6',
 'ar_qa': 'ar_QA.ISO8859-6',
 'ar_sa': 'ar_SA.ISO8859-6',
 'ar_sd': 'ar_SD.ISO8859-6',
 'ar_ss': 'ar_SS.UTF-8',
 'ar_sy': 'ar_SY.ISO8859-6',
 'ar_tn': 'ar_TN.ISO8859-6',
 'ar_ye': 'ar_YE.ISO8859-6',


In [14]:
import csv

# tạo file CSV mẫu
with open("fichier_csv.csv", "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow(["Name", "Age"])
    writer.writerow(["Alice", 25])
    writer.writerow(["Bob", 30])

# đọc lại file vừa tạo
with open("fichier_csv.csv") as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)





['Name', 'Age']
['Alice', '25']
['Bob', '30']


# JSON Files

In [1]:
import json
import os

# tạo thư mục nếu chưa có
os.makedirs("fichiers_exemples", exist_ok=True)

# tạo file JSON mẫu
sample_data = [
    {"user": "Alice", "tweet": "Hello World!"},
    {"user": "Bob", "tweet": "Python is great!"}
]

with open("fichiers_exemples/tweets.json", "w", encoding="utf-8") as f:
    json.dump(sample_data, f, ensure_ascii=False, indent=4)

# đọc lại file
with open("fichiers_exemples/tweets.json", "r", encoding="utf-8") as f:
    data = json.load(f)
    print(data)



[{'user': 'Alice', 'tweet': 'Hello World!'}, {'user': 'Bob', 'tweet': 'Python is great!'}]


# Import from the Internet

In [2]:
import urllib.request
import json
from pprint import pprint

url = "http://egallic.fr/Enseignement/Python/fichiers_exemples/tweets.json"

# mở URL và đọc dữ liệu JSON
with urllib.request.urlopen(url) as my_file:
    data = json.load(my_file)   # đọc JSON trực tiếp

# in dữ liệu đẹp hơn
pprint(data)


{'created_at': 'Wed Sep 26 07:38:05 +0000 2018',
 'id': 11,
 'loc': [{'long': 5.3698}, {'lat': 43.2965}],
 'text': 'Un tweet !',
 'user_mentions': [{'id': 111, 'screen_name': 'nom_twittos1'},
                   {'id': 112, 'screen_name': 'nom_twittos2'}]}


# Text Files

In [4]:
x = ["pomme", 1, 3]    # x là một list gồm 3 phần tử: chuỗi "pomme", số nguyên 1, và số nguyên 3

str(x)                 # hàm str() sẽ chuyển đối tượng list x thành chuỗi (string) theo định dạng Python
                       # kết quả: "['pomme', 1, 3]"
                       # chú ý: nó vẫn giữ dấu ngoặc vuông [ ], dấu phẩy, và dấu nháy đơn quanh chuỗi


"['pomme', 1, 3]"

In [5]:
y = "Fromage, tu veux du fromage ?\n"
repr(y)



"'Fromage, tu veux du fromage ?\\n'"

In [9]:
z = { "name": "Kyrie",
"surname": "Irving",
"date_of_birth": 1992,
"teams": ["Cleveland", "Boston", "Nets"]}


# CSV Files

In [11]:
import csv   # nhập thư viện csv để làm việc với file CSV

path = "./fichiers_exemples/ffile_export.csv"   # đường dẫn tới file CSV muốn tạo/ghi

# mở file theo chế độ 'w' (write - ghi mới, nếu file có sẵn thì ghi đè)
with open(path, mode='w') as my_file:  
    
    # tạo đối tượng writer để ghi dữ liệu vào file CSV
    # delimiter=',' nghĩa là các giá trị cách nhau bằng dấu phẩy
    # quotechar='"' nghĩa là nếu có chuỗi chứa dấu phẩy thì sẽ đặt trong dấu ngoặc kép
    # quoting=csv.QUOTE_MINIMAL nghĩa là chỉ thêm ngoặc kép khi cần thiết
    my_file_write = csv.writer(my_file, delimiter=',',
                               quotechar='"',
                               quoting=csv.QUOTE_MINIMAL)
    
    # ghi dòng tiêu đề (header) gồm các cột
    my_file_write.writerow(['Country', 'Year', 'Quarter', 'GR_PIB'])
    
    # ghi dòng dữ liệu 1
    my_file_write.writerow(['France', '2017', 'Q4', 0.7])
    
    # ghi dòng dữ liệu 2
    my_file_write.writerow(['France', '2018', 'Q1', 0.2])


# JSON Files

In [13]:
import json   # nhập thư viện json để làm việc với dữ liệu JSON

# x là 1 list Python, chứa số nguyên, chuỗi và 1 list con
x = [1, "apple", ["seed", "red"]]  

# y là 1 dict Python, với các cặp key-value: tên, họ, năm sinh và danh sách các đội
y = { 
    "name": "Kyrie",
    "surname": "John",
    "year_of_birth": 1992,
    "teams": ["Cleveland", "Boston", "Nets"]
}

# dùng json.dumps() để chuyển đổi list Python thành chuỗi JSON
x_json = json.dumps(x)  

# dùng json.dumps() để chuyển đổi dict Python thành chuỗi JSON
y_json = json.dumps(y)  

# in ra chuỗi JSON của list x
print("x_json: ", x_json)  
print("y_json: ", y_json)



x_json:  [1, "apple", ["seed", "red"]]
y_json:  {"name": "Kyrie", "surname": "John", "year_of_birth": 1992, "teams": ["Cleveland", "Boston", "Nets"]}


In [14]:
x_json = json.dumps(x, ensure_ascii=False)
y_json = json.dumps(y, ensure_ascii=False)
print("x_json: ", x_json)


x_json:  [1, "apple", ["seed", "red"]]


In [16]:
import json
import os

# đảm bảo thư mục tồn tại
os.makedirs("fichiers_exemples", exist_ok=True)

path = "./fichiers_exemples/export_json.json"

# Ghi dữ liệu xuống file (mỗi object một dòng)
with open(path, 'w', encoding="utf-8") as f:
    json.dump(x, f, ensure_ascii=False)
    f.write('\n')
    json.dump(y, f, ensure_ascii=False)

# Đọc lại dữ liệu từ file
with open(path, "r", encoding="utf-8") as f:
    data = []
    for line in f:
        data.append(json.loads(line))   # parse từng dòng JSON
    print(data)



[[1, 'apple', ['seed', 'red']], {'name': 'Kyrie', 'surname': 'John', 'year_of_birth': 1992, 'teams': ['Cleveland', 'Boston', 'Nets']}]


# Exercise

In [17]:
a = [2018, 2, 9.1]
import csv

# Tạo file CSV
with open("unemployment.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f, delimiter=";")
    
    # Header
    writer.writerow(["Year", "Quarter", "UnemploymentRate"])
    
    # Dữ liệu
    writer.writerow(a)
    # Đọc lại file
with open("unemployment.csv", "r", encoding="utf-8") as f:
    reader = csv.DictReader(f, delimiter=";")
    data = list(reader)

print(data)




[{'Year': '2018', 'Quarter': '2', 'UnemploymentRate': '9.1'}]


# Kết thúc