In [None]:
# The usual preamble
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Make the graphs a bit prettier, and bigger
pd.set_option('display.mpl_style', 'default')
plt.rcParams['figure.figsize'] = (15, 5)


# This is necessary to show lots of columns in pandas 0.12. 
# Not necessary in pandas 0.13.
pd.set_option('display.width', 5000) 
pd.set_option('display.max_columns', 60)

接着用NYC的那311条数据

In [None]:
complaints = pd.read_csv('../data/311-service-requests.csv')

# 3.1 只选取噪声类的投诉

现在我想知道哪个区的噪声投诉最多。首先来看下数据长什么样：

In [None]:
complaints[:5]

为了得到噪声投诉的数据，首先可以看到”Complaint Type“列中关于噪声的第一行数据是”Noise - Street/Sidewalk“，接下来告诉你怎么获取这样的数据。

In [None]:
noise_complaints = complaints[complaints['Complaint Type'] == "Noise - Street/Sidewalk"]
noise_complaints[:3]

如果你把`noise_complaints`列全部打印出来一一查看的话，就可以看到上面这个方法的结果没有问题。那么，pandas是怎么工作的呢？下面分两部来解释：

In [None]:
complaints['Complaint Type'] == "Noise - Street/Sidewalk"

首先，通过比较操作，得到了一列布尔值，其长度和整个数据集的行数是一样的。如果我们用这个布尔类型的值作为DataFrame的索引的话，得到的就是布尔值中为True的部分行数据。实际上就是做了一个Mask（掩码）操作。需要注意的是，保持布尔值的长度和DataFrame的行数一致。

此外，还可以融合一系列的布尔操作（`&`）来得到更复杂的条件：

In [None]:
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
in_brooklyn = complaints['Borough'] == "BROOKLYN"
complaints[is_noise & in_brooklyn][:5]

简洁点，只显示感兴趣的几列数据：

In [None]:
complaints[is_noise & in_brooklyn][['Complaint Type', 'Borough', 'Created Date', 'Descriptor']][:10]

# 3.2 插点关于numpy的题外话

DataFrame中的每一列实际上是`pd.Series`类型的数据。

In [None]:
pd.Series([1,2,3])

pandas中Series类型的数据实际上是numpy arrays类型的数据，如果你对任何`Series`类型的数据使用`.values`方法的话可以得到内部的numpy array

In [None]:
np.array([1,2,3])

In [None]:
pd.Series([1,2,3]).values

因此，一些二值化的操作对numpy 的array来说都是没问题的：

In [None]:
arr = np.array([1,2,3])

In [None]:
arr != 2

In [None]:
arr[arr != 2]

# 3.3 那么，哪个区的噪声投诉最多呢？

In [None]:
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
noise_complaints = complaints[is_noise]
noise_complaints['Borough'].value_counts()

是曼哈顿！等等，如果我们要按照每个区噪声投诉所占的比例来比较呢？这个相当简单，我们可以使用numpy提供的向量化运算来代替循环。

注：Python2版本中，除法可能会直接整除，得到全0的结果，需要将转成float类型。

In [None]:
noise_complaint_counts = noise_complaints['Borough'].value_counts()
complaint_counts = complaints['Borough'].value_counts()

In [None]:
noise_complaint_counts / complaint_counts

# 思考：如何转化为百分数显示？请练习使用搜索引擎独立解决该问题。

In [None]:
_ = (noise_complaint_counts / complaint_counts.astype(float)).plot(kind='bar')

看来，曼哈顿确实比其他区的噪声投诉更多，多直观！

<style>
    @font-face {
        font-family: "Computer Modern";
        src: url('http://mirrors.ctan.org/fonts/cm-unicode/fonts/otf/cmunss.otf');
    }
    div.cell{
        width:800px;
        margin-left:16% !important;
        margin-right:auto;
    }
    h1 {
        font-family: Helvetica, serif;
    }
    h4{
        margin-top:12px;
        margin-bottom: 3px;
       }
    div.text_cell_render{
        font-family: Computer Modern, "Helvetica Neue", Arial, Helvetica, Geneva, sans-serif;
        line-height: 145%;
        font-size: 130%;
        width:800px;
        margin-left:auto;
        margin-right:auto;
    }
    .CodeMirror{
            font-family: "Source Code Pro", source-code-pro,Consolas, monospace;
    }
    .text_cell_render h5 {
        font-weight: 300;
        font-size: 22pt;
        color: #4057A1;
        font-style: italic;
        margin-bottom: .5em;
        margin-top: 0.5em;
        display: block;
    }
    
    .warning{
        color: rgb( 240, 20, 20 )
        }  