In [1]:
%%HTML
<style type='text/css'>
    h1{
        color:#1976d2;
    }
    h2{
        color:#f57c00;
    }
    h3{
        color:#ba37ff;
    }
    table{
        border:1px solid black !important;
        border-collapse:collapse !important;
    }
    th{
        background-color:blueviolet !important;
        text-align:center;
        color:white;
    }
    th,td{
        border:0.1px solid black !important;
        transition:0.2s all liner;
        
    }
    td:hover{
        transform:scale(1.1);
        background-color:orange;
        color:blueviolet;
    }
</style>

<h1>第二章 numpy入门</h1>

<p>本章和第 3 章将介绍通过 Python 有效导入、存储和操作内存数据的主
要技巧。这个主题非常广泛，因为数据集的来源与格式都十分丰富，比
如文档集合、图像集合、声音片段集合、数值数据集合，等等。这些数
据虽然存在明显的异构性，但是将所有数据简单地看作数字数组非常有
助于我们理解和处理数据。</p>

<p>例如，可以将图像（尤其是数字图像）简单地看作二维数字数组，这些
数字数组代表各区域的像素值；声音片段可以看作时间和强度的一维数
组；文本也可以通过各种方式转换成数值表示，一种可能的转换是用二
进制数表示特定单词或单词对出现的频率。不管数据是何种形式，第一
步都是将这些数据转换成数值数组形式的可分析数据（5.4 节将更详细
地介绍一些实现这种数据转换的示例）。</p>

<p>正因如此，有效地存储和操作数值数组是数据科学中绝对的基础过程。
我们将介绍 Python 中专门用来处理这些数值数组的工具：NumPy 包和
Pandas 包（将在第 3 章介绍）。</p>

<p>本章将详细介绍 NumPy。NumPy（Numerical Python 数字化python的简称）提供了高
效存储和操作密集数据缓存的接口。在某些方面，NumPy 数组与
Python 内置的列表类型非常相似。但是随着数组在维度上变大，NumPy
数组提供了更加高效的存储和数据操作。NumPy 数组几乎是整个
Python 数据科学工具生态系统的核心。因此，不管你对数据科学的哪个
方面感兴趣，花点时间学习如何有效地使用 NumPy 都是非常值得的。</p>

<p>如果你听从前言给出的建议安装了 Anaconda，那么你已经安装好
NumPy，并可以使用它了。如果你是个体验派，则可以到 <a href='http://www.numpy.org/'>NumPy 网站</a>
（http://www.numpy.org/）按照其安装指导进行安装。安装好后，你可
以导入 NumPy 并再次核实你的 NumPy 版本：</p>

In [4]:
import numpy as np

In [3]:
numpy.__version__

'2.0.1'

<p>针对本章中介绍的 NumPy 功能，我建议你使用 NumPy 1.8 及之后的版
本。遵循传统，你将发现 SciPy / PyData 社区中的大多数人都用 np 作为
别名导入 NumPy：</p>


<p> import numpy as np </p>

当你阅读本章时，不要忘记 IPython 提供了快速探索包的内容的方
法（用 Tab 键自动补全），以及各种函数的文档（用 ? 符号）。如
果你还需要回顾一下，可以翻回 1.2 节。

例如，要显示 numpy 命名空间的所有内容，可以用如下方式：

<p> np.&lt;TAB&gt;</p>

In [5]:
np?

[1;31mType:[0m        module
[1;31mString form:[0m <module 'numpy' from 'D:\\virtualenvs\\ai\\lib\\site-packages\\numpy\\__init__.py'>
[1;31mFile:[0m        d:\virtualenvs\ai\lib\site-packages\numpy\__init__.py
[1;31mDocstring:[0m  
NumPy
=====

Provides
  1. An array object of arbitrary homogeneous items
  2. Fast mathematical operations over arrays
  3. Linear Algebra, Fourier Transforms, Random Number Generation

How to use the documentation
----------------------------
Documentation is available in two forms: docstrings provided
with the code, and a loose standing reference guide, available from
`the NumPy homepage <https://numpy.org>`_.

We recommend exploring the docstrings using
`IPython <https://ipython.org>`_, an advanced Python shell with
TAB-completion and introspection capabilities.  See below for further
instructions.

The docstring examples assume that `numpy` has been imported as ``np``::

  >>> import numpy as np

Code snippets are indicated by three greater-tha

<p>要获取更详细的文档以及教程和其他资源，可以访问
<a href='http://www.numpy.org'>http://www.numpy.org。</a></p>

<h2>2.1 理解Python中的数据类型</h2>

<p>
    要实现高效的数据驱动科学和计算，需要理解数据是如何被存储和操作
的。本节将介绍在 Python 语言中数据数组是如何被处理的，并对比
NumPy 所做的改进。理解这个不同之处是理解本书其他内容的基础。<br>
Python 的用户往往被其易用性所吸引，其中一个易用之处就在于动态输
入。静态类型的语言（如 C 或 Java）往往需要每一个变量都明确地声
明，而动态类型的语言（例如 Python）可以跳过这个特殊规定。例如在
C 语言中，你可能会按照如下方式指定一个特殊的操作：
</p>

<p>注意这里最大的不同之处：在 C 语言中，每个变量的数据类型被明确地
声明；而在 Python 中，类型是动态推断的。这意味着可以将任何类型
的数据指定给任何变量：
</p>

<h3>2.1.1 Python整型不仅仅是一个整型
</h3>

<p>标准的 Python 实现是用 C 语言编写的。这意味着每一个 Python 对象都
是一个聪明的伪 C 语言结构体，该结构体不仅包含其值，还有其他信
息。例如，当我们在 Python 中定义一个整型，例如 x = 10000 时，x
并不是一个“原生”整型，而是一个指针，指向一个 C 语言的复合结构
体，结构体里包含了一些值。查看 Python 3.4 的源代码，可以发现整型
（长整型）的定义，如下所示（C 语言的宏经过扩展之后）：
</p>

<p>Python 3.4 中的一个整型实际上包括 4 个部分。</p>
<ul>
    <li>ob_refcnt 是一个引用计数，它帮助 Python 默默地处理内存的分
配和回收。</li>
    <li>ob_type 将变量的类型编码。
</li>
    <li>ob_size 指定接下来的数据成员的大小。</li>
    <li>ob_digit 包含我们希望 Python 变量表示的实际整型值。</li>
</ul>


<p>这意味着与 C 语言这样的编译语言中的整型相比，在 Python 中存储一
个整型会有一些开销，正如图 2-1 所示。</p>

<img src='../imgs/2.1.png'>

<h3>2.1.2 Python列表不仅仅是一个列表</h3>

<p>设想如果使用一个包含很多 Python 对象的 Python 数据结构，会发生什
么？ Python 中的标准可变多元素容器是列表。可以用如下方式创建一
个整型值列表：</p>

In [8]:
L = list(i for i in range(10))

In [9]:
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [10]:
type(L)

list

In [11]:
L2 = [str(c) for c in L]

In [12]:
L2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [13]:
type(L2[0])

str

In [14]:
L3 = [True,"2",3.0,4]

In [15]:
[type(item) for item in L3]

[bool, str, float, int]

<img src='../imgs/2.2.png'>

<h3>2.1.3 Python中的固定类型数组</h3>

In [16]:
L = list(range(10))
A = array.array('i',L)
A

ModuleNotFoundError: No module named 'arry'