# Pandas的6个高效操作
[加速数据分析，这12种高效Numpy和Pandas函数为你保驾护航](https://mp.weixin.qq.com/s/Cg2U9s0uwlv4_4xR10-M0w)
[原文链接：](https://towardsdatascience.com/12-amazing-pandas-numpy-functions-22e5671a45b8)

Pandas 也是一个 Python 包，它提供了快速、灵活以及具有显著表达能力的数据结构，旨在使处理结构化 (表格化、多维、异构) 和时间序列数据变得既简单又直观。

Pandas 适用于以下各类数据:

- 具有异构类型列的表格数据，如 SQL 表或 Excel 表；
- 有序和无序 (不一定是固定频率) 的时间序列数据；
- 带有行/列标签的任意矩阵数据（同构类型或者是异构类型）；
- 其他任意形式的统计数据集。事实上，数据根本不需要标记就可以放入 Pandas 结构中。

Pandas 擅长处理的类型如下所示：

- 容易处理浮点数据和非浮点数据中的 缺失数据（用 NaN 表示）；
- 大小可调整性: 可以从 DataFrame 或者更高维度的对象中插入或者是删除列；
- 显式数据可自动对齐: 对象可以显式地对齐至一组标签内，或者用户可以简单地选择忽略标签，使 Series、 DataFrame 等自动对齐数据；
- 灵活的分组功能，对数据集执行拆分-应用-合并等操作，对数据进行聚合和转换；
- 简化将数据转换为 DataFrame 对象的过程，而这些数据基本是 Python 和 NumPy 数据结构中不规则、不同索引的数据；
- 基于标签的智能切片、索引以及面向大型数据集的子设定；
- 更加直观地合并以及连接数据集；
- 更加灵活地重塑、转置（pivot）数据集；
- 轴的分级标记 (可能包含多个标记)；
- 具有鲁棒性的 IO 工具，用于从平面文件 (CSV 和 delimited)、 Excel 文件、数据库中加在数据，以及从 HDF5 格式中保存 / 加载数据；
- 时间序列的特定功能: 数据范围的生成以及频率转换、移动窗口统计、数据移动和滞后等。

## read_csv(nrows=n)

大多数人都会犯的一个错误是，在不需要.csv 文件的情况下仍会完整地读取它。如果一个未知的.csv 文件有 10GB，那么读取整个.csv 文件将会非常不明智，不仅要占用大量内存，还会花很多时间。我们需要做的只是从.csv 文件中导入几行，之后根据需要继续导入。

In [14]:
import pandas as pd
import numpy as np
import io
import requests

In [3]:
# I am using this online data set just to make things easier for you guys
url = "https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/datasets/AirPassengers.csv"
s = requests.get(url).content

In [6]:
print(s.decode('utf-8'))

"","time","value"
"1",1949,112
"2",1949.08333333333,118
"3",1949.16666666667,132
"4",1949.25,129
"5",1949.33333333333,121
"6",1949.41666666667,135
"7",1949.5,148
"8",1949.58333333333,148
"9",1949.66666666667,136
"10",1949.75,119
"11",1949.83333333333,104
"12",1949.91666666667,118
"13",1950,115
"14",1950.08333333333,126
"15",1950.16666666667,141
"16",1950.25,135
"17",1950.33333333333,125
"18",1950.41666666667,149
"19",1950.5,170
"20",1950.58333333333,170
"21",1950.66666666667,158
"22",1950.75,133
"23",1950.83333333333,114
"24",1950.91666666667,140
"25",1951,145
"26",1951.08333333333,150
"27",1951.16666666667,178
"28",1951.25,163
"29",1951.33333333333,172
"30",1951.41666666667,178
"31",1951.5,199
"32",1951.58333333333,199
"33",1951.66666666667,184
"34",1951.75,162
"35",1951.83333333333,146
"36",1951.91666666667,166
"37",1952,171
"38",1952.08333333333,180
"39",1952.16666666667,193
"40",1952.25,181
"41",1952.33333333333,183
"42",1952.41666666667,218
"43",1952.5,230
"44",1952.58333333333,24

In [8]:
data = io.StringIO(s.decode('utf-8'))

In [9]:
data.readlines()

['"","time","value"\n',
 '"1",1949,112\n',
 '"2",1949.08333333333,118\n',
 '"3",1949.16666666667,132\n',
 '"4",1949.25,129\n',
 '"5",1949.33333333333,121\n',
 '"6",1949.41666666667,135\n',
 '"7",1949.5,148\n',
 '"8",1949.58333333333,148\n',
 '"9",1949.66666666667,136\n',
 '"10",1949.75,119\n',
 '"11",1949.83333333333,104\n',
 '"12",1949.91666666667,118\n',
 '"13",1950,115\n',
 '"14",1950.08333333333,126\n',
 '"15",1950.16666666667,141\n',
 '"16",1950.25,135\n',
 '"17",1950.33333333333,125\n',
 '"18",1950.41666666667,149\n',
 '"19",1950.5,170\n',
 '"20",1950.58333333333,170\n',
 '"21",1950.66666666667,158\n',
 '"22",1950.75,133\n',
 '"23",1950.83333333333,114\n',
 '"24",1950.91666666667,140\n',
 '"25",1951,145\n',
 '"26",1951.08333333333,150\n',
 '"27",1951.16666666667,178\n',
 '"28",1951.25,163\n',
 '"29",1951.33333333333,172\n',
 '"30",1951.41666666667,178\n',
 '"31",1951.5,199\n',
 '"32",1951.58333333333,199\n',
 '"33",1951.66666666667,184\n',
 '"34",1951.75,162\n',
 '"35",1951.83333

In [10]:
# read only first 10 rows
df = pd.read_csv(io.StringIO(s.decode('utf-8')), nrows=10 , index_col=0)

In [12]:
df

Unnamed: 0,time,value
1,1949.0,112
2,1949.083333,118
3,1949.166667,132
4,1949.25,129
5,1949.333333,121
6,1949.416667,135
7,1949.5,148
8,1949.583333,148
9,1949.666667,136
10,1949.75,119


## map()

map( ) 函数根据相应的输入来映射 Series 的值。用于将一个 Series 中的每个值替换为另一个值，该值可能来自一个函数、也可能来自于一个 dict 或 Series。

In [23]:
# create a dataframe
dframe = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['India', 'USA', 'China', 'Russia'])

In [24]:
#compute a formatted string from each floating point value in frame
changefn = lambda x: '%.2f' % x

In [25]:
dframe['d'].map(changefn)

India      0.60
USA        0.88
China     -1.00
Russia     1.88
Name: d, dtype: object

In [26]:
dframe

Unnamed: 0,b,d,e
India,-0.016921,0.602678,-0.598748
USA,0.068681,0.880483,-0.33634
China,-0.65872,-1.003563,-0.314892
Russia,0.897613,1.881295,-1.408342


In [27]:
dframe.dtypes

b    float64
d    float64
e    float64
dtype: object

## apply()

apply() 允许用户传递函数，并将其应用于 Pandas 序列中的每个值。

In [28]:
# max minus mix lambda fn
fn = lambda x: x.max() - x.min()
# Apply this on dframe that we've just created above
dframe.apply(fn)

b    1.556333
d    2.884858
e    1.093450
dtype: float64

## isin()

isin () 用于过滤数据帧。isin () 有助于选择特定列中具有特定（或多个）值的行。

In [31]:
# Using the dataframe we created for read_csv
filter1 = df["value"].isin([112, 118]) 
filter2 = df["time"].isin([1949.000000])
df[filter1 | filter2]

Unnamed: 0,time,value
1,1949.0,112
2,1949.083333,118


## copy()

Copy () 函数用于复制 Pandas 对象。当一个数据帧分配给另一个数据帧时，如果对其中一个数据帧进行更改，另一个数据帧的值也将发生更改。为了防止这类问题，可以使用 copy () 函数。

In [32]:
# creating sample series 
data = pd.Series(['India', 'Pakistan', 'China', 'Mongolia'])
# Assigning issue that we face
data1= data
# Change a value
data1[0]='USA'
# Also changes value in old dataframe
data

0         USA
1    Pakistan
2       China
3    Mongolia
dtype: object

In [34]:
# creating sample series 
data = pd.Series(['India', 'Pakistan', 'China', 'Mongolia'])
# To prevent that, we use creating copy of series 
new = data.copy()
# assigning new values 
new[1]='Changed value'
# printing data 
print(new) 
print(data)

0            India
1    Changed value
2            China
3         Mongolia
dtype: object
0       India
1    Pakistan
2       China
3    Mongolia
dtype: object


## select_dtypes()

select_dtypes() 的作用是，基于 dtypes 的列返回数据帧列的一个子集。这个函数的参数可设置为包含所有拥有特定数据类型的列，亦或者设置为排除具有特定数据类型的列。

In [35]:
# We'll use the same dataframe that we used for read_csv
framex =  df.select_dtypes(include="float64")
# Returns only time column

In [36]:
framex

Unnamed: 0,time
1,1949.0
2,1949.083333
3,1949.166667
4,1949.25
5,1949.333333
6,1949.416667
7,1949.5
8,1949.583333
9,1949.666667
10,1949.75


最后，pivot_table() 也是 Pandas 中一个非常有用的函数。如果对 pivot_table() 在 excel 中的使用有所了解，那么就非常容易上手了。

In [37]:
# Create a sample dataframe
school = pd.DataFrame({'A': ['Jay', 'Usher', 'Nicky', 'Romero', 'Will'], 
      'B': ['Masters', 'Graduate', 'Graduate', 'Masters', 'Graduate'], 
      'C': [26, 22, 20, 23, 24]})

# Lets create a pivot table to segregate students based on age and course
table = pd.pivot_table(school, values ='A', index =['B', 'C'], 
                         columns =['B'], aggfunc = np.sum, fill_value="Not Available") 

table

Unnamed: 0_level_0,B,Graduate,Masters
B,C,Unnamed: 2_level_1,Unnamed: 3_level_1
Graduate,20,Nicky,Not Available
Graduate,22,Usher,Not Available
Graduate,24,Will,Not Available
Masters,23,Not Available,Romero
Masters,26,Not Available,Jay
