## 布尔索引
如果需要以其它列数据值为条件过滤某一列的数据，您会怎么处理？例如建立一个列表，列表中全部为未能毕业但曾获得贷款的女性。这里可以使用布尔索引，代码如下：
```python
data.loc[(data["Gender"]=="Female") & (data["Education"]=="Not Graduate") & (data["Loan_Status"]=="Y"), 
["Gender","Education","Loan_Status"]]
```

## loc、iloc操作多行rows，多列columns
loc方法
```python
dataframe.loc[ index,  columns]
dataframe.loc[ [index1, index2],  :]
dataframe.loc[ :,  columns]
```

iloc方法
```python
dataframe.loc[ pos,  columns]
dataframe.loc[ [1,2,3],  :]
```

## apply、applymap、map方法
在pandas中， apply() 方法使用是非常灵活的，他比 agg() 方法使用更自由。数据分析师日常使用最多的就是 apply() 方法了，而与之类似的还有 applymap() 和 map() 方法，因此本文将详细介绍下这三种方法的使用和区别：

* apply：应用在DataFrame的行或列中；  
* applymap：应用在DataFrame的每个元素中；  
* map：应用在单独一列（Series）的每个元素中。

Apply 函数是处理数据和建立新变量的常用函数之一。在向数据框的每一行或每一列传递指定函数后，Apply 函数会返回相应的值。这个由 Apply 传入的函数可以是系统默认的或者用户自定义的。例如，在下面的例子中它可以用于查找每一行和每一列中的缺失值
```python
#Create a new function:
def num_missing(x):
  return sum(x.isnull())
 
#Applying per column:
print "Missing values per column:"
print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column
 
#Applying per row:
print "nMissing values per row:"
print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row
```

## 如何处理缺失数据
主要方法有：

* isnull()和isna()  
* notnull()和notna()  
* dropna()  
* fillna()  

### 判断数据是否缺失
使用isnull()函数，返回bool类型数据
```
dataframe.isnull()
```
使用notnull()函数，同样返回bool类型数据
```
dataframe.notnull()
```
使用sum()函数，统计缺失数据
```
dataframe.isnull().sum()
```

### 过滤缺失数据
```
dataframe[dataframe.colname.isnull()]
dataframe[dataframe.colname.notnull()]
```

### 丢弃缺失数据
how按行row判断
```
dataframe.dropna(how='any')
dataframe.dropna(how='any', inplace=True)
dataframe.dropna(how='all')
dataframe.dropna(how='all', inplace=True)
```

对特定列操作
```
dataframe.dropna(subset=["col1",  "col2"], how='any')
dataframe.dropna(subset=["col1",  "col2"], how='all')
```

### 填充缺失数据
fillna()函数

## 对dataframe缺失值和被除数是0的操作
```python
#nan缺失值
df.fillna(0, inplace=True)    # 将df的nan用0代替
#在df中进行除法操作时，被除数是0的话，值是inf
#替换inf的值
import numpy as np
df = df.replace(np.inf, 0)
```

## Pivot Table
Pandas可以用来创建MS Excel样式数据透视表（Pivot Table）。

## Crosstab
Pivot Table的特殊形式。

## merge合并DataFrame

## DataFrame排序sort_values和sort_index
Pandas 允许基于多列数据进行简单排列。具体实现如下：
```python
data_sorted = data.sort_values(['ApplicantIncome','CoapplicantIncome'], ascending=False)
data_sorted[['ApplicantIncome','CoapplicantIncome']].head(10)
```

## set_index(列转索引)reset_index(索引转列)reindex(修改索引)
**set_index和reset_index使用的较多，重点理解**

### set_index建立索引　　列---->索引
```python
import pandas as pd

#DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
　　#key:标签或者数组（Series, Index,np.ndarray）,复合索引则把标签或数组放在list中
　　#drop：删除作为新索引的列
　　#append ：将列附加到现有的索引
　　#inplace ：是否修改Dataframe

df = pd.DataFrame({'month': [1, 4, 7, 10],
                   'year': [2012, 2014, 2013, 2014],
                   'sale': [55, 40, 84, 31]})
#列转索引
df.set_index('month')

#多列转复合索引
df.set_index(['year', 'month'])

#设置列与另一索引为复合索引
df.set_index([pd.Index([1, 2, 3, 4]), 'year'])

#使用Series建立索引
s = pd.Series([1, 2, 3, 4])
df.set_index([s, s**2])
```

### reset_index重建/删除索引    索引---->列
```python
#原索引转列，重建递增索引
df.reset_index()

#删除原索引、重建默认递增索引
df.reset_index(drop=True)

#行多索引子索引转列多索引的某一层级的列，默认为最高级，若插入其他等级，col_fill为指定最高级索引，若不存在，则创建
df.reset_index(level='class', col_level=1, col_fill='genus')
```

### reset_index修改索引
```python
import pandas as pd
import numpy as np

#DataFrame.reindex(labels = None，index = None，columns = None，axis = None，method = None，copy = True，level = None，
　　　　　　　　　　　 fill_value = nan，limit = None，tolerance = None) 
    #reindex相当于对DataFrame的架构（index或者column）筛选或者补充，即如果原df存在相应的
    ##索引或列，就保留，没有则为NAN，函数有一系列填充NAN的方法（不止固定填充某值,非操作原始数据NAN）


index = ['Firefox', 'Chrome', 'Safari', 'IE10', 'Konqueror']
df = pd.DataFrame({
      'http_status': [200,200,404,404,301],
      'response_time': [0.04, 0.02, 0.07, 0.08, 1.0]},
       index=index)

#重新索引行
new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10','Chrome']
df.reindex(new_index, fill_value='missing')

#重新索引列
df.reindex(columns=['http_status', 'user_agent'])    

#展示对索引中产生的NAN的填充功能
date_index = pd.date_range('1/1/2010', periods=6, freq='D')
df2 = pd.DataFrame({"prices": [100, 101, np.nan, 100, 89, 88]},index=date_index)
date_index2 = pd.date_range('12/29/2009', periods=10, freq='D')
df2.reindex(date_index2)
#第一个有效值以填充之前的NaN值
df2.reindex(date_index2, method='bfill')

#.reindex_like
#等价于.reindex(index=other.index, columns=other.columns,...)
```

## 使用 Cut 函数进行分箱
有时将数值数据聚合在一起会更有意义。例如，如果我们要根据一天中的某个时间段（单位：分钟）建立交通流量模型模型（以路上的汽车为统计目标）。与具体的分钟数相比，对于交通流量预测而言一天中的具体时间段则更为重要，如“早上”、 “下午”、“傍晚”、“夜晚”、“深夜（Late Night）”。以这种方式建立交通流量模型则更为直观且避免了过拟合情况的发生。

下面的例子中定义了一个简单的可重用函数，该函数可以非常轻松地实现任意变量的分箱功能。
```python
#Binning:
def binning(col, cut_points, labels=None):
  #Define min and max values:
  minval = col.min()
  maxval = col.max()
 
  #create list by adding min and max to cut_points
  break_points = [minval] + cut_points + [maxval]
 
  #if no labels provided, use default labels 0 ... (n-1)
  if not labels:
    labels = range(len(cut_points)+1)
 
  #Binning using cut function of pandas
  colBin = pd.cut(col,bins=break_points,labels=labels,include_lowest=True)
  return colBin
 
#Binning age:
cut_points = [90,140,190]
labels = ["low","medium","high","very high"]
data["LoanAmount_Bin"] = binning(data["LoanAmount"], cut_points, labels)
print pd.value_counts(data["LoanAmount_Bin"], sort=False)
```

Read More: Pandas Reference (cut)

## 为名称变量编码
通常我们会遇到需要对名称变量进行分类的情况。可能的原因如下：

* 1. 一些算法（如逻辑回归算法）要求输入参数全部为数字。因此名义变量多需要编码为0, 1….(n-1)。

* 2. 有时同一种分类可以表示为两种形式。如温度可能被记录为“高（High）”、“中（Medium）”、“低（Low）”、“高（H）”、“低（low）”。在这里，“高（High）”和“高（H）”都表示同一种分类。类似地在“低（Low）”和“低（low）”的表示方法中仅存在大小写的区别。但 python 将会将它们视为不同的温度水平。

* 3.一些分类的出现频率可能较低，因此将这些分类归为一类不失为一个好主意。

下面的例子中定义了一个通用函数，该函数使用字典作为输入，并利用 Pandas 模块的‘replace’函数对字典值进行编码。
```python
#Define a generic function using Pandas replace function
def coding(col, codeDict):
  colCoded = pd.Series(col, copy=True)
  for key, value in codeDict.items():
    colCoded.replace(key, value, inplace=True)
  return colCoded
 
#Coding LoanStatus as Y=1, N=0:
print 'Before Coding:'
print pd.value_counts(data["Loan_Status"])
data["Loan_Status_Coded"] = coding(data["Loan_Status"], {'N':0,'Y':1})
print 'nAfter Coding:'
print pd.value_counts(data["Loan_Status_Coded"])
```

**ps:高版本已经有了分类类型，无需自己实现**

## DataFrame重命名列
* **部分重命名**

columns = dict，使用字典类型的数据对列进行重命名。
```python
dataframe.rename(columns = {"old_name": "new_name"})
dataframe.rename(columns = {"old1": "new1", "old2":"new2"},  inplace=True)
```

* **全部重命名**

columns = new_columns，新列名的长度必须与旧列名一致。
```python
new_col = ['new1', 'new2',... , 'newn']
dataframe.columns = new_col
```

* **读取文件的时候重命名**

names = new_col，可以在读取文件的时候，给出新列名。
```python
pd.read_csv('data', names = new_col, header=0)
```

* **使用str**

```python
dataframe.columns = dataframe.columns.str.replace('' '', ''_'')
```

## 读入和写出表单数据
### 读入数据
* pandas.read_csv()  
从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为'',"  
* pandas.read_table()  
从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为"\t"  

**参数：** 


* **分隔符参数**：sep=
read_csv和read_table的区别在于separator分隔符。csv是逗号分隔值(Comma-Separated Values)，仅能正确读入以 "," 分割的数据。

`pd.read_table("ex1.csv",  sep=",")`

* **是否读取文本数据的header**：header=
headers = None表示使用默认分配的列名，一般用在读取没有header的数据文件。

`pd.read_table("ex1.csv",  header=None)`

* **为文本的数据加上列名**： names=
names = user_cols ，自定义列名为user_cols。

`pd.read_table("ex1.csv",  names = user_cols)`

* **明确索引值**： index_col=
index_col = user_col，明确表示要将user_col放入索引位置。

`pd.read_table("ex1.csv",  names = names,  index_col = user_col)`

也可以将多个列都放入索引位置，做成层次化索引。

`pd.read_table("ex1.csv",  names = names,  index_col = ["col1",  "col2"])`

* **跳过指定行**： skiprows=
skiprows = row_list_to_skipped，可以用与跳过非有效数据如注释等情形下。

`pd.read_table("ex1.csv",  skiprows = [row1,  row2,..., rown])`

* **缺失值处理**：na_values=
na_values= ["null"]，用null字符替换缺失值。

`pd.read_table("ex1.csv",  na_values= ["null"])`

* **尝试将数据解析为日期**：parse_dates=
parse_dates = True，尝试解析所有可能为日期类型的列。

`pd.read_table("ex1.csv",  parse_dates = True)`

parse_dates = [1, 2]，尝试解析给定列为日期类型的列。

`pd.read_table("ex1.csv",  parse_dates = [1, 2])`

* **指定需要读取的行数**：nrows=
nrows = 100， 指定读取前100行数据。

`pd.read_table("ex1.csv",  nrows = 100)`


### 写出数据
* pandas.to_csv()

* pandas.to_table()

参数和读入数据类似。

## 将不同Dataframe写在一个Excel的不同Sheet,或添加到已有Excel的不同Sheet（同名Sheet会覆盖）
```python
from pandas import ExcelWriter

#在单个文件中不同df写入对应不同的的工作表
with ExcelWriter('path_to_file.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1')
    df2.to_excel(writer, sheet_name='Sheet2')

#附加到已有的Excel文件
with ExcelWriter('path_to_file.xlsx', mode='a') as writer:
    df.to_excel(writer, sheet_name='Sheet3')
```

## pandas 数据类型转换
这里有一篇比较详细的文章：https://www.cnblogs.com/onemorepoint/p/9404753.html

### 使用df.astype()强制类型转换
```python
# 这样的操作并没有改变原始的数据
df['Customer Number'].astype("int")

# 想要真正的改变数据框，通常需要通过赋值来进行，比如
df["Customer Number"] = df["Customer Number"].astype("int")
```

### 使用pd.to_numeric() 转换成适当数值类型
```python
# pandas中pd.to_numeric()处理Jan Units中的数据,errors='coerce'转换错误会用nan替换
pd.to_numeric(df["Jan Units"],errors='coerce').fillna(0)
```

### 使用pd.to_datatime() 转换日期
```python
#利用pd.to_datatime()将年月日进行合并
pd.to_datetime(df[['Month', 'Day', 'Year']])
```

## 如何丢弃指定Series和DataFrame轴上的项
当想将原数据更改，需要加上inplace参数

### Series
* **drop单行**
```python
series.drop("row_to_drop",)
```

* **drop多行**
```python
series.drop( [row1, row2,..., rown])
```

### DataFrame
* **去掉行（axis=0）**

drop单行:给出需要删除的行名，可以不设置axis，默认为0
```python
dataframe.drop( [row_to_drop],  axis=0)
```
drop多行:给出需要删除的行名列表，可以不设置axis，默认为0
```python
dataframe.drop( [row1, row2,...,rown],  axis=0, inplace=True)
```

* **去掉列（axis=1）**

drop单列:给出需要删除的列名，同时设置axis=1
```python
dataframe.drop("col_to_drop",  axis=1)
dataframe.drop("col_to_drop",  axis=1, inplace=True)
```
drop多列:给出需要删除的列名列表，同时设置axis=1
```python
dataframe.drop( ["col1", "col2",..., "coln"],  axis=1)
dataframe.drop( ["col1", "col2",..., "coln"],  axis=1, inplace=True)
```