## 6.1 Reading And Wwriting Data In Text Format

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [1]:
!cat ../examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [6]:
df = pd.read_csv('../examples/ex1.csv')

In [7]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


“We could also have used read_table and specified the delimiter:”


In [10]:
pd.read_table('../examples/ex1.csv',sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
pd.read_csv('../examples/ex2.csv',header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [13]:
pd.read_csv('../examples/ex2.csv',names=['a','b','c','d','message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Giả sử bạn muốn cột thông báo là chỉ mục của DataFrame được trả về. Bạn có thể cho biết bạn muốn cột ở chỉ mục 4 hoặc được đặt tên là 'thông báo' bằng cách sử dụng đối số `index_col`:

In [15]:
names = ['a','b','c','d','message']
pd.read_csv('../examples/ex2.csv',names=names,index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


“Trong trường hợp bạn muốn tạo chỉ mục phân cấp từ nhiều cột, hãy chuyển danh sách các số hoặc tên cột”

In [16]:
!cat ../examples/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [17]:
parsed = pd.read_csv('../examples/csv_mindex.csv',
                    index_col = ['key1','key2'])

In [18]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [19]:
list(open('../examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

Loaị bỏ các \n khi sử dụng `read_csv` thì sử dụng 1 options `sep='\s+'`

In [21]:
result = pd.read_table('../examples/ex3.txt',sep='\s+')

In [22]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


Vì có ít tên cột hơn số hàng dữ liệu, `read_table` suy luận rằng cột đầu tiên phải là chỉ mục của DataFrame trong trường hợp đặc biệt này.


Các hàm phân tích cú pháp có nhiều đối số bổ sung để giúp bạn xử lý nhiều định dạng tệp ngoại lệ xảy ra (xem danh sách một phần trong Bảng 6-2). Ví dụ: bạn có thể bỏ qua các hàng đầu tiên, thứ ba và thứ tư của tệp với các dấu gạch ngang

In [23]:
!cat ../examples/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [24]:
pd.read_csv('../examples/ex4.csv',skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Xử lý các giá trị bị thiếu là một phần quan trọng và thường xuyên mang nhiều sắc thái của quá trình phân tích cú pháp tệp. Dữ liệu bị thiếu thường không có (chuỗi trống) hoặc được đánh dấu bằng một số giá trị sentinel. Theo mặc định, gấu trúc sử dụng một tập hợp các lính canh thường xuất hiện, chẳng hạn như `NA` và `NULL`:

In [25]:
!cat ../examples/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [26]:
result = pd.read_csv('../examples/ex5.csv')

In [27]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [28]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


“The `na_values` option can take either a **list or set** of strings to consider missing values:”


In [29]:
result = pd.read_csv('../examples/ex5.csv',na_values = ['world'])

In [31]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,
2,three,9,10,11.0,12,foo


"Different NA sentinels can be specified for each column in a dict"

In [35]:
sentinels = {'message': ['foo','NA'],'something':['two']}

In [36]:
pd.read_csv('../examples/ex5.csv',na_values = sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


## Reading Text Files in pieces 


“Khi xử lý các tệp rất lớn hoặc tìm ra tập hợp các đối số phù hợp để xử lý chính xác một tệp lớn, bạn có thể chỉ muốn đọc trong một phần nhỏ của tệp hoặc lặp qua các phần nhỏ hơn của tệp.
Trước khi xem một tệp lớn, chúng tôi làm cho cài đặt hiển thị của gấu trúc nhỏ gọn hơn: ”

In [37]:
pd.options.display.max_rows = 10

In [38]:
result = pd.read_csv('../examples/ex6.csv')

In [39]:
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


Nếu bạn chỉ muốn đọc 1 số nhưng dòng , để tránh đọc toàn bộ file, chúng ta sử dung `nrows`

In [40]:
pd.read_csv('../examples/ex6.csv',nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


## Writing Data to Text Format
Dữ liệu cũng có thể được xuất sang định dạng phân tách. Hãy xem xét một trong các tệp CSV đã đọc trước đây: ”

In [41]:
data = pd.read_csv('../examples/ex5.csv')

In [42]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [43]:
data.to_csv('../examples/out.csv')

In [44]:
!cat ../examples/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [46]:
import sys
data.to_csv(sys.stdout,sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [48]:
## Missing values appear as empty strings inthe output.
## Chỉnh missing values to Null
data.to_csv(sys.stdout,na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


## Working with Delimited Formats


## JSON Data

In [50]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
""" 

In [51]:
import json
result = json.loads(obj)

In [52]:
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [54]:
json.dumps(result) ## Convert hands on

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

In [55]:
siblings = pd.DataFrame(result['siblings'],columns=['name','age'])

In [56]:
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


Pandas.read_json can automartically convert JSON datasets in specific arrangements into a Series or DataFrame

In [58]:
!cat ../examples/example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [59]:
data = pd.read_json('../examples/example.json')

In [60]:
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [61]:
import sys
!conda install --yes --prefix {sys.prefix} lxml
!{sys.executable} -m pip3 install beautifulsoup4 html5lib

Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 4.9.2
  latest version: 4.10.0

Please update conda by running

    $ conda update -n base -c defaults conda



## Package Plan ##

  environment location: /Users/thuongle/opt/miniconda3/envs/data-for-analyst

  added / updated specs:
    - lxml


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    libxml2-2.9.10             |       h7cdb67c_3         1.1 MB
    libxslt-1.1.34             |       h83b36ba_0         395 KB
    lxml-4.6.3                 |   py39h26b266a_0         1.2 MB
    openssl-1.1.1k             |       h9ed2024_0         2.2 MB
    ------------------------------------------------------------
                                           Total:         4.9 MB

The following NEW packages will be INSTALLED:

  libiconv           pkgs/main/osx-64::libiconv-1.16-h1de35cc_0
 

In [62]:
!{sys.executable} -m pip install beautifulsoup4 html5lib

Collecting beautifulsoup4
  Using cached beautifulsoup4-4.9.3-py3-none-any.whl (115 kB)
Collecting html5lib
  Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
[K     |████████████████████████████████| 112 kB 794 kB/s eta 0:00:01
[?25hCollecting soupsieve>1.2
  Using cached soupsieve-2.2.1-py3-none-any.whl (33 kB)
Installing collected packages: soupsieve, html5lib, beautifulsoup4
Successfully installed beautifulsoup4-4.9.3 html5lib-1.1 soupsieve-2.2.1


In [63]:
tables = pd.read_html('../examples/fdic_failed_bank_list.html')

In [64]:
tables

[                             Bank Name             City  ST   CERT  \
 0                          Allied Bank         Mulberry  AR     91   
 1         The Woodbury Banking Company         Woodbury  GA  11297   
 2               First CornerStone Bank  King of Prussia  PA  35312   
 3                   Trust Company Bank          Memphis  TN   9956   
 4           North Milwaukee State Bank        Milwaukee  WI  20364   
 ..                                 ...              ...  ..    ...   
 542                 Superior Bank, FSB         Hinsdale  IL  32646   
 543                Malta National Bank            Malta  OH   6629   
 544    First Alliance Bank & Trust Co.       Manchester  NH  34264   
 545  National State Bank of Metropolis       Metropolis  IL   3815   
 546                   Bank of Honolulu         Honolulu  HI  21029   
 
                    Acquiring Institution        Closing Date  \
 0                           Today's Bank  September 23, 2016   
 1              

failures = tables[0]

Hàm`pandas.read_html` có một số tùy chọn, nhưng theo mặc định, nó tìm kiếm và cố gắng phân tích cú pháp tất cả dữ liệu dạng bảng có trong thẻ `<table>`. Kết quả là danh sách các đối tượng DataFrame:

In [66]:
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [68]:
close_timestamps = pd.to_datetime(failures['Closing Date'])

In [70]:
close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2001      4
2004      4
2003      3
2007      3
2000      2
Name: Closing Date, Length: 15, dtype: int64