## 1. 读写CSV数据

In [1]:
# 对于大多数的CSV格式的数据读写问题，都可以使用csv库
import csv

with open('stocks.csv') as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    for row in f_csv:
        print(row)

['AA', '39.48', '6/11/2007', '9:36am', '-0.18', '181800']
['AIG', '71.38', '6/11/2007', '9:36am', '-0.15', '195500']
['AXP', '62.58', '6/11/2007', '9:36am', '-0.46', '935000']
['BA', '98.31', '6/11/2007', '9:36am', '+0.12', '104800']
['C', '53.08', '6/11/2007', '9:36am', '-0.25', '360900']
['CAT', '78.29', '6/11/2007', '9:36am', '-0.23', '225400']


>> 在上面的代码中，row会是一个列表。因此，为了访问某个字段，你需要使用下标，如row[0]访问Symbol,row[4]访问Change。

In [2]:
# 由于这种下标访问通常会引起混淆，你可以考虑使用命名元组
from collections import namedtuple

with open('stocks.csv') as f:
    f_csv = csv.reader(f)
    headings = next(f_csv)
    Row = namedtuple('Row',headings)
    for r in f_csv:
        row = Row(*r)
        print(row)

Row(Symbol='AA', Price='39.48', Date='6/11/2007', Time='9:36am', Change='-0.18', Volume='181800')
Row(Symbol='AIG', Price='71.38', Date='6/11/2007', Time='9:36am', Change='-0.15', Volume='195500')
Row(Symbol='AXP', Price='62.58', Date='6/11/2007', Time='9:36am', Change='-0.46', Volume='935000')
Row(Symbol='BA', Price='98.31', Date='6/11/2007', Time='9:36am', Change='+0.12', Volume='104800')
Row(Symbol='C', Price='53.08', Date='6/11/2007', Time='9:36am', Change='-0.25', Volume='360900')
Row(Symbol='CAT', Price='78.29', Date='6/11/2007', Time='9:36am', Change='-0.23', Volume='225400')


>> 它允许你使用列名如row.Symbola和row.Change代替下标访问。需要注意的是这个只有在列名是合法的Python标识符的时候才生效。

In [4]:
# 另外一个选择就是将数据读取到一个字典序列中去。
import csv

with open('stocks.csv') as f:
    f_csv = csv.DictReader(f)
    for row in f_csv:
        # process row
        print(row['Symbol'])

AA
AIG
AXP
BA
C
CAT


>> 在这个版本中，你可以使用列名去访问每一行的数据，比如：row['Symbol']或者row['change']

In [5]:
# 为了写入CSV数据，你仍然可以使用csv模块，不过这时候先创建一个writer对象。
headers = ['Symbol','Price','Date','Time','Change','Volume']
rows = [('AA','39.38','6/11/2007','9:36am',-0.18,181800),
       ('AIG',71.38,'6/11/2007','9:36am',-0.15,195500),
       ('AXP',62.58,'6/11/2007','9:36am',-0.46,935000)]

In [6]:
with open('Stocks.csv','w') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(headers)
    f_csv.writerows(rows)

In [7]:
# 你应该总是优先选择csv模块分割或解析csv数据。例如，你可能会像编写类似下面这样的代码：
with open('stocks.csv') as f:
    for line in f:
        row = line.split(',')
        # process row
        print(row)

['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume\n']
['AA', '39.38', '6/11/2007', '9:36am', '-0.18', '181800\n']
['AIG', '71.38', '6/11/2007', '9:36am', '-0.15', '195500\n']
['AXP', '62.58', '6/11/2007', '9:36am', '-0.46', '935000\n']


使用这种方式的一个缺点就是你仍然需要去处理一些棘手的细节问题。 比如，如果某些字段值被引号包围，你不得不去除这些引号。 另外，如果一个被引号包围的字段碰巧含有一个逗号，那么程序就会因为产生一个错误大小的行而出错。

默认情况下，csv 库可识别Microsoft Excel所使用的CSV编码规则。 这或许也是最常见的形式，并且也会给你带来最好的兼容性。 然而，如果你查看csv的文档，就会发现有很多种方法将它应用到其他编码格式上(如修改分割字符等)。 例如，如果你想读取以tab分割的数据，可以这样做：



In [8]:
# Example of reading tab-separeted values
with open('stocks.tsv') as f:
    f_tsv = csv.reader(f,delimiter='\t')
    for row in f_tsv:
        # process row
        print(row)

['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
['AA', '39.48', '6/11/2007', '9:36am', '-0.18', '181800']
['AIG', '71.38', '6/11/2007', '9:36am', '-0.15', '195500']
['AXP', '62.58', '6/11/2007', '9:36am', '-0.46', '935000']
['BA', '98.31', '6/11/2007', '9:36am', '+0.12', '104800']
['C', '53.08', '6/11/2007', '9:36am', '-0.25', '360900']
['CAT', '78.29', '6/11/2007', '9:36am', '-0.23', '225400']


>> 最后，如果你读取CSV数据的目的是做数据分析和统计的话， 你可能需要看一看 Pandas 包。Pandas 包含了一个非常方便的函数叫 pandas.read_csv() ， 它可以加载CSV数据到一个 DataFrame 对象中去。 然后利用这个对象你就可以生成各种形式的统计、过滤数据以及执行其他高级操作了。 在6.13小节中会有这样一个例子。

## 2. 读写JSON数据

In [9]:
# json模块提供了一种很简单的方式来编码和解码JSON数据。其中两个主要的函数是json.dumps()
# 和 json.loads(),要比其它序列化函数库如pickle的接口少很多。
import json

data = {
    'name':'ACME',
    'shares':100,
    'price':542.3
}

json_str = json.dumps(data)

In [10]:
# 下面演示如何将一个JSON编码的字符串转换回一个Python数据结构
data = json.loads(json_str)
data

{'name': 'ACME', 'shares': 100, 'price': 542.3}

>> 如果你要处理的是文件而不是字符串，你可以使用json.dump()和json.load()来编码和解码JSON数据。

In [12]:
# Writing JSON data
with open('data.json','w') as f:
    json.dump(data,f)

In [16]:
# Reading data back
with open('data.json','r') as f:
    data = json.load(f)
    print(data)

{'name': 'ACME', 'shares': 100, 'price': 542.3}


JSON编码支持的基本数据类型为 None ， bool ， int ， float 和 str ， 以及包含这些类型数据的lists，tuples和dictionaries。 对于dictionaries，keys需要是字符串类型(字典中任何非字符串类型的key在编码时会先转换为字符串)。 为了遵循JSON规范，你应该只编码Python的lists和dictionaries。 而且，在web应用程序中，顶层对象被编码为一个字典是一个标准做法。

JSON编码的格式对于Python语法而已几乎是完全一样的，除了一些小的差异之外。 比如，True会被映射为true，False被映射为false，而None会被映射为null。 下面是一个例子，演示了编码后的字符串效果

In [18]:
json.dumps(False)

'false'

In [19]:
d = {
    'a':True,
    'b':'Hello',
    'c':None
}

In [20]:
json.dumps(d)

'{"a": true, "b": "Hello", "c": null}'

如果你试着去检查JSON解码后的数据，你通常很难通过简单的打印来确定它的结构， 特别是当数据的嵌套结构层次很深或者包含大量的字段时。 为了解决这个问题，可以考虑使用pprint模块的 pprint() 函数来代替普通的 print() 函数。 它会按照key的字母顺序并以一种更加美观的方式输出。 下面是一个演示如何漂亮的打印输出Twitter上搜索结果的例子：

In [21]:
from urllib.request import urlopen

In [22]:
import json

In [30]:
u = urlopen('http://search.twitter.com/search.json?q=python&rpp=5')

HTTPError: HTTP Error 410: Gone

一般来讲，JSON解码会根据提供的数据创建dicts或lists。 如果你想要创建其他类型的对象，可以给 json.loads() 传递object_pairs_hook或object_hook参数。 例如，下面是演示如何解码JSON数据并在一个OrderedDict中保留其顺序的例子：

In [31]:
s = '{"name":"ACME","shares":50,"price":490.1}'

In [32]:
from collections import OrderedDict

In [33]:
data = json.loads(s,object_pairs_hook=OrderedDict)

In [34]:
data

OrderedDict([('name', 'ACME'), ('shares', 50), ('price', 490.1)])

In [35]:
# 下面是如何将一个JSON字典转换为一个Python对象例子
class JSONObject:
    def __init__(self,d):
        self.__dict__ = d

In [36]:
data = json.loads(s,object_hook=JSONObject)

In [37]:
data.name

'ACME'

In [38]:
data.shares

50

In [39]:
data.price

490.1

In [41]:
# 在编码json的时候，还有一些选项很有用。如果你想获得漂亮的格式化字符串后输出，
# 可以使用json.dumps()的indent参数。
data = {
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23
}
print(json.dumps(data))

{"name": "ACME", "shares": 100, "price": 542.23}


In [42]:
print(json.dumps(data,indent=4))

{
    "name": "ACME",
    "shares": 100,
    "price": 542.23
}


## 3. 解析简单的XML数据

In [43]:
# 可以使用xml.etree.ElementTree模块从简单的XML文档中提取数据
from urllib.request import urlopen
from xml.etree.ElementTree import parse

# Download the RSS feed and parse it
u = urlopen('http://planet.python.org/rss20.xml')


In [44]:
doc = parse(u)

In [45]:
# Ectract and output tags of interset
for item in doc.iterfind('channel/item'):
    title = item.findtext('title')
    date = item.findtext('pubDate')
    link = item.findtext('link')
    
    print(title)
    print(date)
    print(link)
    print()

ListenData: Create Dummy Data in Python
Sat, 27 Apr 2019 13:38:35 +0000
https://www.listendata.com/2019/04/create-dummy-data-in-python.html

A. Jesse Jiryu Davis: PyCon Canada Video: API Evolution the Right Way
Sat, 27 Apr 2019 12:07:22 +0000
https://emptysqua.re/blog/api-evolution-pycon-canada-video/

Weekly Python StackOverflow Report: (clxxv) stackoverflow python report
Sat, 27 Apr 2019 06:30:00 +0000
http://python-weekly.blogspot.com/2019/04/clxxv-stackoverflow-python-report.html

Codementor: Deploy your distributed system efficiently with fabric
Sat, 27 Apr 2019 02:18:58 +0000
https://www.codementor.io/tonywang/deploy-your-distributed-system-efficiently-with-fabric-uf00dvvwk

Catalin George Festila: Django REST framework - part 001.
Sat, 27 Apr 2019 00:27:10 +0000
http://python-catalin.blogspot.com/2019/04/django-rest-framework-part-001.html

Catalin George Festila: Python 3.7.3 and Django REST framework.
Sat, 27 Apr 2019 00:23:12 +0000
http://python-catalin.blogspot.com/2019/04/p

In [46]:
doc

<xml.etree.ElementTree.ElementTree at 0x10ea92e80>

In [47]:
e = doc.find('channel/title')

In [48]:
e

<Element 'title' at 0x10cab28b8>

In [49]:
e.tag

'title'

In [50]:
e.text

'Planet Python'

In [51]:
e.get('some_attribute')

有一点要强调的是 xml.etree.ElementTree 并不是XML解析的唯一方法。 对于更高级的应用程序，你需要考虑使用 lxml 。 它使用了和ElementTree同样的编程接口，因此上面的例子同样也适用于lxml。 你只需要将刚开始的import语句换成 from lxml.etree import parse 就行了。 lxml 完全遵循XML标准，并且速度也非常快，同时还支持验证，XSLT，和XPath等特性。

## 4. 增量式解析大型XML文件

In [60]:
# 任何时候只要你遇到增量式的数据处理时，第一时间就应该想到迭代器和生成器。下面是一个很简单
# 的函数，只使用很少的内存就能增量式的处理一个大型XML文件
from xml.etree.ElementTree import iterparse

def parse_and_remove(filename,path):
    path_parts = path.split('/')
    doc = iterparse(filename,('start','end'))
    # skip the root element
    next(doc)
    
    tag_stack = []
    elem_stack =[]
    for event,elem in doc:
        if event == 'start':
            tag_stack.append(elem.tag)
            elem_stack.append(elem)
        elif event == 'end':
            if tag_stack == path_parts:
                yield elem
                elem_stack[-2].remove(elem)
            try:
                tag_stack.pop()
                elem_stack.pop()
            except IndexError:
                pass

In [61]:
from xml.etree.ElementTree import parse
from collections import Counter

potholes_by_zip = Counter()

doc = parse('potholes.xml')
for pothole in doc.iterfind('row/row'):
    potholes_by_zip[pothole.findtext('zip')] += 1
for zipcode,num in potholes_by_zip.most_common():
    print(zipcode,num)

60617 13
60626 8
60651 7
60647 6
60623 6
60613 4
60636 4
60625 4
60628 4
60609 4
60622 3
60657 3
60619 3
60629 3
60641 3
60618 2
60644 2
60654 2
60649 2
60638 2
60656 2
60660 1
60643 1
60634 1
60632 1
60639 1
60630 1
60612 1
60616 1
60614 1
60652 1
60707 1
60631 1
60637 1


这个脚本唯一的问题是它会先将整个XML文件加载到内存中然后解析。 在我的机器上，为了运行这个程序需要用到450MB左右的内存空间。 如果使用如下代码，程序只需要修改一点点：

In [62]:
from collections import Counter

potholes_by_zip = Counter()

data = parse_and_remove('potholes.xml','row/row')
for pothole in data:
    potholes_by_zip[pothole.findtext('zip')] += 1
for zipcode,num in potholes_by_zip.most_common():
    print(zipcode,num)

60617 13
60626 8
60651 7
60647 6
60623 6
60613 4
60636 4
60625 4
60628 4
60609 4
60622 3
60657 3
60619 3
60629 3
60641 3
60618 2
60644 2
60654 2
60649 2
60638 2
60656 2
60660 1
60643 1
60634 1
60632 1
60639 1
60630 1
60612 1
60616 1
60614 1
60652 1
60707 1
60631 1
60637 1


这一节的技术会依赖 ElementTree 模块中的两个核心功能。 第一，iterparse() 方法允许对XML文档进行增量操作。 使用时，你需要提供文件名和一个包含下面一种或多种类型的事件列表： start , end, start-ns 和 end-ns 。 由 iterparse() 创建的迭代器会产生形如 (event, elem) 的元组， 其中 event 是上述事件列表中的某一个，而 elem 是相应的XML元素。例如：

In [63]:
data = iterparse('potholes.xml',('start','end'))

In [64]:
next(data)

('start', <Element 'response' at 0x10c74fb38>)

In [65]:
next(data)

('start', <Element 'row' at 0x10c74f908>)

In [66]:
next(data)

('start', <Element 'row' at 0x10c7587c8>)

In [67]:
next(data)

('start', <Element 'creation_date' at 0x10c758a48>)

In [69]:
next(data)

('end', <Element 'creation_date' at 0x10c758a48>)

start 事件在某个元素第一次被创建并且还没有被插入其他数据(如子元素)时被创建。 而 end 事件在某个元素已经完成时被创建。 尽管没有在例子中演示， start-ns 和 end-ns 事件被用来处理XML文档命名空间的声明。

## 5. 将字典转换为XML

In [73]:
# 尽管xml.etree.ElementTree库通常用来解析工作，其实它也可以创建XML文档
from xml.etree.ElementTree import Element

def dict_to_xml(tag,d):
    '''
    Turn a simple dict of key/value pairs into XML
    '''
    elem = Element(tag)
    for key,val in d.items():
        child = Element(key)
        child.text = str(val)
        elem.append(child)
    return elem

In [74]:
s = {'name':"GOOG",'shares':100,'price':490.1}

In [75]:
e = dict_to_xml('stock',s)
e

<Element 'stock' at 0x10ecfccc8>

In [76]:
from xml.etree.ElementTree import tostring

In [77]:
tostring(e)

b'<stock><name>GOOG</name><shares>100</shares><price>490.1</price></stock>'

In [78]:
# 如果你想给某个元素添加属性，可以使用set()
e.set('_id','1234')

In [79]:
tostring(e)

b'<stock _id="1234"><name>GOOG</name><shares>100</shares><price>490.1</price></stock>'

## 6. 解析和修改XML

使用xml.etree.ElementTree模块可以很容易的处理这些任务。第一步是以通常的方式来解析这个文档。例如，假设你有一个名为pred.xml的文档。

```
<?xml version="1.0"?>
<stop>
    <id>14791</id>
    <nm>Clark &amp; Balmoral</nm>
    <sri>
        <rt>22</rt>
        <d>North Bound</d>
        <dd>North Bound</dd>
    </sri>
    <cr>22</cr>
    <pre>
        <pt>5 MIN</pt>
        <fd>Howard</fd>
        <v>1378</v>
        <rn>22</rn>
    </pre>
    <pre>
        <pt>15 MIN</pt>
        <fd>Howard</fd>
        <v>1867</v>
        <rn>22</rn>
    </pre>
</stop>

```

In [80]:
# 下面是一个利用ElementTree来读取这个文档并对它做一些修改的例子
from xml.etree.ElementTree import parse,Element

doc = parse('pred.xml')
root = doc.getroot()
root

<Element 'stop' at 0x1108110e8>

In [81]:
# remove a few elements
root.remove(root.find('sri'))
root.remove(root.find('cr'))

In [82]:
# Insert a new element after <nm>...</nm>
root.getchildren().index(root.find('nm'))

  


1

In [83]:
e = Element('spam')

In [84]:
e.text = 'This is a test'

In [85]:
root.insert(2,e)

In [87]:
# Write back to a file
doc.write('newpred.xml',xml_declaration=True)

>> 修改一个XML文档结构是很容易的，但是你必须牢记的是所有的修改都是针对父节点元素， 将它作为一个列表来处理。例如，如果你删除某个元素，通过调用父节点的 remove() 方法从它的直接父节点中删除。 如果你插入或增加新的元素，你同样使用父节点元素的 insert() 和 append() 方法。 还能对元素使用索引和切片操作，比如 element[i] 或 element[i:j]

## 7. 利用命名空间解析XML文档

考虑下面这个使用了命名空间的文档：

```

<?xml version="1.0" encoding="utf-8"?>
<top>
    <author>David Beazley</author>
    <content>
        <html xmlns="http://www.w3.org/1999/xhtml">
            <head>
                <title>Hello World</title>
            </head>
            <body>
                <h1>Hello World!</h1>
            </body>
        </html>
    </content>
</top>

```

In [88]:
# 通过将命名空间处理逻辑包装为一个工具类来简化这个过程
class XMLNamespaces:
    def __init__(self,**kwargs):
        self.namespaces = {}
        for name,uri in kwargs.items():
            self.register(name,uri)
    def register(self,name,uri):
        self.namespaces[name] = '{'+uri+'}'
    def __call__(self,path):
        return path.format_map(self.namespaces)

In [93]:
ns = XMLNamespaces(html='http://www.w3.org/1999/xhtml')

In [94]:
doc.find(ns('content/{html}html'))

In [95]:
doc.findtext(ns('content/{html}html/{html}head/{html}title'))

最后一点，如果你要处理的XML文本除了要使用到其他高级XML特性外，还要使用到命名空间， 建议你最好是使用 lxml 函数库来代替 ElementTree 。 例如，lxml 对利用DTD验证文档、更好的XPath支持和一些其他高级XML特性等都提供了更好的支持。 这一小节其实只是教你如何让XML解析稍微简单一点。

## 8. 与关系型数据库的交互

In [100]:
# 第一步是连接到数据库。通常你要执行 connect() 函数， 给它提供一些数据库名、主机、用户
# 名、密码和其他必要的一些参数。例如：
import sqlite3

db = sqlite3.connect('database.db')

In [101]:
c = db.cursor()

c.execute('create table portfolio (symbol text, shares integer, price real)')

<sqlite3.Cursor at 0x11080c030>

In [102]:
db.commit()

In [104]:
# 为了向数据库表中插入多条记录，使用类似下面这样的语句：
stocks =  [
    ('GOOG', 100, 490.1),
    ('AAPL', 50, 545.75),
    ('FB', 150, 7.45),
    ('HPQ', 75, 33.2),
]

c.executemany('insert into portfolio values (?,?,?)',stocks)

<sqlite3.Cursor at 0x11080c030>

In [105]:
db.commit()

In [106]:
# 为了执行某个查询，使用像下面这样的语句
for row in db.execute('select * from portfolio'):
    print(row)

('GOOG', 100, 490.1)
('AAPL', 50, 545.75)
('FB', 150, 7.45)
('HPQ', 75, 33.2)


In [110]:
# 如果你想接受用户输入作为参数来执行查询操作，必须确保你使用下面这样的占位符''?''来进行引用参数
min_price =100

In [112]:
for row in db.execute('select * from portfolio where price >= ?',(min_price,)):
    print(row)

('GOOG', 100, 490.1)
('AAPL', 50, 545.75)


## 9. 编码和解码十六进制数

In [113]:
# 如果你只是简单的解码或编码一个十六进制的原始字符串，可以使用binascii模块。
# Initial byte string
s = b'hello'

In [114]:
# Encode as hex
import binascii

h = binascii.b2a_hex(s)
h

b'68656c6c6f'

In [115]:
# Decode back to bytes
binascii.a2b_hex(h)

b'hello'

In [116]:
# 类似的功能可以在base64模块中找到。
import base64

h = base64.b16encode(s)
h

b'68656C6C6F'

In [117]:
base64.b16decode(h)

b'hello'

大部分情况下，通过使用上述的函数来转换十六进制是很简单的。 上面两种技术的主要不同在于大小写的处理。 函数 base64.b16decode() 和 base64.b16encode() 只能操作大写形式的十六进制字母， 而 binascii 模块中的函数大小写都能处理。

## 10. 编码解码Base64数据

In [118]:
# base64模块中有两个函数b64encode()和b64decode()可以帮你解决这个问题
# some byte data 
s = b'hello'

In [119]:
import base64

a = base64.b64encode(s)
a

b'aGVsbG8='

In [120]:
# Decode from Base64
base64.b64decode(a)

b'hello'

Base64编码仅仅用于面向字节的数据比如字节字符串和字节数组。 此外，编码处理的输出结果总是一个字节字符串。 如果你想混合使用Base64编码的数据和Unicode文本，你必须添加一个额外的解码步骤。

In [121]:
a = base64.b64encode(s).decode('ascii')
a

'aGVsbG8='

## 11. 读写二进制数组数据

In [123]:
# 使用struct模块处理二进制数据
from struct import Struct

def write_records(records,format,f):
    '''
    Write a sequence of tuples to a binary file of structures
    '''
    record_struct = Struct(format)
    for r in records:
        f.write(record_struct.pack(*r))
        
# Example 
if __name__ == '__main__':
    records = [
        (1,2.3,4.5),
        (6,7.8,9.0),
        (12,13.4,56.7)
    ]
    with open('data.b','wb') as f:
        write_records(records,'<idd',f)

## 12. 读取嵌套和可变长的二进制数据

In [124]:
# struct模块可被用来编码/解码几乎所有类型的二进制数据结构。
import struct
import itertools

def write_polys(filename, polys):
    # Determine bounding box
    flattened = list(itertools.chain(*polys))
    min_x = min(x for x, y in flattened)
    max_x = max(x for x, y in flattened)
    min_y = min(y for x, y in flattened)
    max_y = max(y for x, y in flattened)
    with open(filename, 'wb') as f:
        f.write(struct.pack('<iddddi', 0x1234,
                            min_x, min_y,
                            max_x, max_y,
                            len(polys)))
        for poly in polys:
            size = len(poly) * struct.calcsize('<dd')
            f.write(struct.pack('<i', size + 4))
            for pt in poly:
                f.write(struct.pack('<dd', *pt))

In [125]:
# 将数据读取回来的时候，可以利用函数 struct.unpack() ，代码很相似，基本就是上面写操作的逆序。如下：
def read_polys(filename):
    with open(filename, 'rb') as f:
        # Read the header
        header = f.read(40)
        file_code, min_x, min_y, max_x, max_y, num_polys = \
            struct.unpack('<iddddi', header)
        polys = []
        for n in range(num_polys):
            pbytes, = struct.unpack('<i', f.read(4))
            poly = []
            for m in range(pbytes // 16):
                pt = struct.unpack('<dd', f.read(16))
                poly.append(pt)
            polys.append(poly)
    return polys

## 13. 数据的累加与统计操作

In [126]:
# 对于任何涉及统计、时间序列以及其它相关技术的数据分析问题，都可以考虑使用Pandas库。
import pandas

rats = pandas.read_csv('311_Service_Requests_-_Rodent_Baiting_-_Historical.csv',skipfooter=1)
rats.head()

  after removing the cwd from sys.path.


Unnamed: 0,Creation Date,Status,Completion Date,Service Request Number,Type of Service Request,Number of Premises Baited,Number of Premises with Garbage,Number of Premises with Rats,Current Activity,Most Recent Action,...,Police District,Community Area,Latitude,Longitude,Location,Historical Wards 2003-2015,Zip Codes,Community Areas,Census Tracts,Wards
0,12/18/2018,Open,,18-03388501,Rodent Baiting/Rat Complaint,,,,,,...,10.0,30.0,41.84908,-87.714923,"(41.849080332575, -87.714922751048)",14.0,21569.0,32.0,755.0,28.0
1,12/18/2018,Open,,18-03386546,Rodent Baiting/Rat Complaint,,,,,,...,19.0,7.0,41.928771,-87.668625,"(41.928771396163, -87.668625093921)",16.0,21190.0,68.0,743.0,40.0
2,12/18/2018,Open,,18-03388055,Rodent Baiting/Rat Complaint,,,,,,...,17.0,14.0,41.963051,-87.727885,"(41.963051420227, -87.727885158144)",28.0,21869.0,14.0,257.0,12.0
3,12/18/2018,Open,,18-03388235,Rodent Baiting/Rat Complaint,,,,,,...,19.0,6.0,41.952819,-87.667465,"(41.952819075577, -87.667464758026)",13.0,21186.0,57.0,724.0,18.0
4,12/18/2018,Open,,18-03388510,Rodent Baiting/Rat Complaint,,,,,,...,8.0,56.0,41.791652,-87.79898,"(41.791652100128, -87.798980091442)",35.0,22268.0,53.0,589.0,6.0


In [127]:
rats.shape

(319186, 25)

In [129]:
rats['Current Activity'].unique()

array([nan, 'Dispatch Crew', 'Request Sanitation Inspector',
       'FVI - Outcome', 'Inspect for Violation'], dtype=object)

In [130]:
# Filter the data
crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']

In [131]:
len(crew_dispatched)

297375

In [137]:
crew_dispatched['ZIP Code'].value_counts()

60618.0    17023
60647.0    16153
60629.0    12497
60614.0    12061
60657.0    10608
60641.0     9803
60636.0     9105
60623.0     8896
60609.0     8760
60645.0     8673
60634.0     8597
60651.0     8573
60638.0     8440
60625.0     8246
60622.0     8239
60632.0     7972
60620.0     7827
60659.0     7578
60639.0     7527
60630.0     7146
60608.0     6624
60612.0     6602
60624.0     6295
60613.0     5973
60621.0     5570
60628.0     5538
60640.0     5174
60644.0     5078
60619.0     4846
60652.0     4223
           ...  
60660.0     4072
60617.0     3862
60643.0     3018
60642.0     2853
60616.0     2849
60637.0     2722
60610.0     2662
60655.0     2328
60646.0     2158
60615.0     2085
60607.0     1983
60653.0     1831
60649.0     1761
60707.0     1664
60631.0     1592
60656.0     1355
60605.0     1023
60611.0      738
60654.0      601
60601.0      276
60606.0      218
60633.0      207
60602.0      178
60604.0      166
60661.0      140
60603.0      138
60827.0       80
60666.0       

In [138]:
dates = crew_dispatched.groupby('Completion Date')

In [139]:
len(dates)

1985

In [140]:
date_counts = dates.size()

In [141]:
date_counts[0:10]

Completion Date
01/01/2014      7
01/02/2013     20
01/02/2014     96
01/02/2015      5
01/02/2018     71
01/03/2011      4
01/03/2012    125
01/03/2013     46
01/03/2014     59
01/03/2017    212
dtype: int64

In [143]:
# sort the counts
date_counts.sort_values()

Completion Date
02/18/2013      1
09/19/2011      1
08/11/2018      1
07/24/2016      1
03/31/2014      1
01/07/2011      1
01/27/2015      1
02/19/2014      1
02/14/2014      1
02/01/2011      1
02/13/2017      1
07/24/2012      2
01/14/2011      2
01/21/2013      2
12/22/2015      3
02/27/2014      3
01/03/2011      4
01/21/2015      4
02/09/2018      4
12/09/2011      4
01/26/2015      5
03/09/2015      5
02/24/2016      5
01/27/2011      5
03/30/2015      5
01/02/2015      5
10/02/2014      6
04/07/2015      7
01/01/2014      7
12/13/2011      7
             ... 
09/16/2016    339
07/18/2017    341
08/18/2017    346
10/03/2016    346
09/29/2016    348
09/05/2017    348
09/26/2016    349
12/09/2013    357
09/08/2016    358
11/08/2017    359
06/16/2016    360
08/08/2017    361
11/18/2013    362
11/13/2013    365
09/15/2016    365
11/07/2017    366
11/06/2017    371
08/16/2017    373
10/13/2011    378
11/28/2014    384
06/07/2016    384
10/14/2011    391
08/17/2017    392
10/11/2017  

In [144]:
date_counts[-10:]

Completion Date
12/29/2017     40
12/30/2011    150
12/30/2013    107
12/30/2014    168
12/30/2015     31
12/30/2016    142
12/31/2012     59
12/31/2013    104
12/31/2014    105
12/31/2015     53
dtype: int64

>> Pandas是一个拥有很多特性的大型函数库，我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话，这个函数库真的值得你去看一看。