In [None]:
# 读写文本格式的数据
    # pandas中的解析函数
'''
read_csv 从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为逗号
read_table 从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为制表符（“|t”）
read_fwf 读取定宽列格式数据（也就是说，没有分隔符）
read_clipboard 读取剪贴板中的数据，可以看作read_table的剪贴版。在将网页转换为表格时很有用

'''

# DataFrame时所用到一些技术
'''
索引： 将一个或多个列当作返回的DataFrame处理，以及是否从文件，用户获取列名。
类型推断和数据转换：包括用户定义值的转换，缺失值标记列表等。
日期解析：包括组合功能，比如将分散在多个列中的日期时间信息组合成结果中的单个列。
迭代：支持对大文件进行逐块迭代。
不规整数据问题：跳过一些行，页脚，注释或其他一些不重要的东西（比如由成千上万个逗号隔离开的数值数据）
'''

In [None]:
df = pd.read_csv('ch06/ex1.csv')

# 没有列名的数据可以分配默认的列名，也可以自己定义列名
pd.read_csv('ch06/ex2.csv', header=None)
pd.read_csv('ch06/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

# 也可以
names = ['a', 'b', 'c', 'd', 'mesage']
pd.read_csv('ch06/ex2.csv', names=names, index_col='message')

parsed = pd.read_csv('ch06/csv_mindex.csv', index_col=['key1', 'key2'])
result = pd.read_table('ch06/ex3.txt', sep='\s+')
pd.read_csv('ch06/ex4.csv', skiprows=[0, 2, 3])

result = pd.read_csv('ch06/ex5.csv')

In [None]:
# read_csv/read_table函数的参数
'''
path 表示文件系统位置，url，文件型对象的字符串
sep或delimiter 用于对行中各字段进行拆分的字符序列或正则表达式
header 用作列名的行好。默认为0，如果没有header行就应该设置为None
index_col  用做列名的行好。默认为0第一行，如果没有header行就应该设置为None
names 用于救国的列名列表，结合header=None
skiprows 需要或略的行数从文件开始算，或需要跳过的行号列表
na_values 一组用于替换NA的值
comment 用于将注视信息从行尾拆分出去的字符（一个或多个）
parse_dates 尝试将数据解析为日期，默认为False。如果为True，尝试解析所有列。此外，还可以指定需要解析的一组列号或列名。如果列表的元素为列表或元组，就会将多个列组合到一起再进行日期解析工作
keep_data_col 如果链接多列解析日期，则保持参与链接的列。默认为False。
converters 由列号/列名跟函数之间的映射关系组成的字典。
dayfirst 当解析有歧义的日期时，将其看作国际格式。默认为False
date_parser 用于解析日期的函数
nrows 需要读取的行数
iterator 返回一个TextParser以便逐块读取文件
chunksize 文件块的大小（用于迭代）
skip_footer 需要忽略的行数（从文件末尾出算起）
verbose 打印各种解析器输出信息，比如“非数值列中缺失值的数量”等
encoding 用于unicode的文本编码格式。例如，“utf-8”表示用UTF-8表示用UTF-8编码的文本
squeeze 如果数据经解析后仅含一列，则返回Series
thousands 千分位分隔符，如“，”或“.”
'''

In [None]:
# 逐块读取文本文件
    # 在处理大文件时，或找出大文件的参数集以便于后续处理时，你可能指向读取文件的一小部分或逐块对文件尽行迭代
result = pd.read_csv('ch06/ex6.csv')
pd.read_read_csv('ch06/ex6.csv', nrow=5)

chunker = pd.read_csv('ch06/ex6.csv', chunksize=10000)
tot = Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)
tot = tot.order(ascending=False)

In [None]:
# 将数据写出到文本格式
data = pd.read_csv('ch06/ex5.csv')

# 利用DataFrame的to_csv方法，我们可以将数据写到一个逗号分隔的文件中
data.to_csv('ch06/out.csv')
data.to_csv(sys.stdout, sep='|')

data.to_csv(sys.stdout, index=False, header=False)

# 写出一部分的列，并以你指定的书序排列
data.to_csv(sys.stdout, index=False, cols=['a', 'b', 'c'])

dates = pd.date_range('1/1/2000', periods=7)
ts = Series(np.arange(7), index=dates)
ts.to_csv('ch06/tseries.csv')

Series.from_csv('ch06/tseries.csv', parse_dates=True)

In [None]:
# 手工处理分隔符格式
import csv
f = open('ch06/ex7.csv')
reader = csv.reader(f)

for line in reader:
    print line
    
lines = list(csv.reader(open('ch06/ex7.csv')))
header, values = lines[0], lines[1:]
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    
reader = csv.reader(f, diaect=my_dialect)

# CSV语支选项
'''
delimiter 用于分隔字段的单子符字符串。默认为“，”
lineterminator 用于写作操作的行结束符，默认为“\r\n”。读操作将忽略此选项，它能认出跨平台的行结束符
quotechar 用于带有特殊字符（如分隔符）的字段的引用符号。默认为““”
quoting 引用约定。可选值包括csv.QUOTE_ALL(引用所有字段)，csv,QUOTE_MINIMAL(只引用带有诸如分隔符之类特殊字符的字段)
skipinitialspace 忽略分隔符后面的空白符。默认为False
doublequote 如何处理字段内的引用符号。如果True，则双写。
escapechar 用于对分隔符进行转义的字符串。
'''

with open('mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))

In [None]:
# JSON数据

In [None]:
# XML和HTML：Web信息收集
from lxml.html import parse
from urllib2 import urlopen
parsed = parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+Options'))
doc = parsed.getroot()

lnk = links[28]
lnk.get('href')
lnk.text_content()

tables = doc.findall('.//table')
calls = tables[9]
puts = tables[13]
rows = calls.findall('.//tr')

def _unpack(row, kind='td'):
    elts = row.findall('.//%s' % kind)
    return [val.text_content() for val in elts]

from pandas.io.parsers import TextParser
def parse_options_data(table):
    rows = table.findall('.//tr')
    header = _unpack(rows[0], kind='th')
    data = [_unpack(r) for r in rows[1:]]
    return TexParser(data, names=header).get_chunk()

call_data = parse_options_data(calls)
put_data = parse_options_data(puts)
call_data[:10]

In [None]:
# 利用lxml.objectify解析xml

In [None]:
# 二进制数据格式

In [None]:
# 使用HDF5格式
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']

In [None]:
# 读取Microsoft Excel文件

In [None]:
# 使用HTML和Web API
import requests
url = 'http://search.twitter.com/search.json?q=python%2Opandas'
resp = requests.get(url)

In [1]:
# 使用数据库
import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER
);"""

con = sqlite3.connect(':memory:')
con.execute(query)
con.commit()

data = [('Atlanta', 'Georgia', 1.25, 6),
       ('Tallahassee', 'Florida', 2.6, 3),
       ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

cursor.description
DataFrame(rows, columns=zip(*cursor.description)[0])

import pandas.io.sql as sql
sql.read_frame('select * from test', con)

In [None]:
# 存取MongoDB中的数据
import pymongo
con = pymongo.Connection('localhost', port=27017)
tweets = con.db.tweets

import requests, json
url = 'http...'
data = json.loads(requests.get(url).text)
cursor = tweets.find({'from_user': 'wesmckinn'})

tweet_fields = ['created_at', 'from_user', 'id', 'text']
result = DataFrame(list(cursor), columns=tweet_fields)