# Đọc dữ liệu

Điểm xuất phát của mọi dự án Data Science là data. Để bắt đầu, hãy xem 1 vài phương pháp đọc data phổ thông trong Python.

## Đọc file bằng Python cơ bản

Sử dụng hàm `open` để lấy 1 stream object và `next` để đọc từng dòng một

In [None]:
csv_file = open('data/titanic.csv')
first_line = next(csv_file)
print(first_line)

Dùng vòng lặp để đọc cả file

In [None]:
for line in csv_file:
    pass

In [None]:
print('Last line:', line)

Đọc hết rồi thì cần đóng file để giải phóng tài nguyên

In [None]:
csv_file.close()

Để tránh quên đóng file, tốt nhất nên sử dụng _context manager_ để tự động giải phóng file khi xong việc

In [None]:
with open('data/titanic.csv') as csv_file:
    for line in csv_file:
        pass

### Exercise

Viết code để đọc file `data/titanic.csv` __2 lần__ và đếm số ký tự trong file, chỉ dùng 1 lần đóng/mở file.

In [None]:
# Code vào đây

In [None]:
%load solutions/read_twice.py

## Đọc CSV

Thay vì đọc thủ công từng line, Python có thư viện hỗ trợ đọc csv:

In [None]:
import csv

csv_file = open('data/titanic.csv')
reader = csv.reader(csv_file)
headers = next(reader)
print(headers)
line = next(reader)
print(line)

Thay vì lấy ra được 1 string dài như trước, module `csv` hỗ trợ tự động phân cách bằng dấu phẩy. Ta có thể tùy biến dựa vào parameter `dialect` khi khởi tạo object `reader`

In [None]:
csv.reader?

Dialect mặc định được sử dụng là `excel`

In [None]:
from pprint import pprint
pprint({key: value for key, value in csv.excel.__dict__.items() if not key.startswith("_")})

Ngoài `csv.reader` thì `csv.DictReader` cũng là 1 object đáng chú ý

In [None]:
csv_file.seek(0)
reader = csv.DictReader(csv_file)
pprint(next(reader))
pprint(next(reader))

In [None]:
csv_file.close()

Ta có thể dùng `Sniffer` để tự động đoán dialect của file

In [None]:
filename = 'data/titanic.csv'

with open(filename) as csv_file:
    try:
        dialect = csv.Sniffer().sniff(csv_file.read(1024))
    except csv.Error as error:
        print(f'Cannot detect the format of {filename}')
    else:
        print(f'Detected the format of {filename}')
        csv_file.seek(0)
        data = csv.reader(csv_file, dialect=dialect)

## Đọc JSON

Ngoài CSV thì JSON cũng là format phổ biến. Python cũng có hỗ trợ module đọc json

In [None]:
import json

with open('data/titanic.json') as json_file:
    data = json.load(json_file)
    pprint(data[0])

In [None]:
json.load?

### Exercise

Ta có thể dùng parameter `object_hook` để điều khiển quá trình parse JSON. Hãy thử tìm cách dùng `object_hook` để xóa bỏ trường `Ticket` trong tất cả các entry.

In [None]:
# Code vào đây

In [None]:
%load solutions/remove_attribute.py

## Đọc data bằng pandas

[pandas](https://pypi.python.org/pypi/pandas) là thư viện open-source được yêu thích nhất khi tương tác với data dạng bảng trên Python. Nó cung cấp hầu hết các chức năng cần thiết để đọc, xử lý, làm sạch và visualize dữ liệu.

In [None]:
import pandas as pd

# Tùy chọn hiển thị
pd.set_option('max.rows', 6)

In [None]:
# Đọc csv bằng pandas
data = pd.read_csv('data/titanic.csv')
data

In [None]:
# Đọc json
data = pd.read_json('data/titanic.json')
data

2 hàm `read_csv` và `read_json` làm đủ mọi công việc khi đọc data: mở file, đọc file, parse data thành `DataFrame`, đóng file. Thậm chí nếu truyền 1 URL vào thì nó cũng tự đọc data từ URL luôn.

In [None]:
pd.read_csv?