## 1.安装

### 1.1 原生语法安装

In [1]:
pip install pandas

### 1.2 源码安装

In [None]:
git clone git://github.com/pydata/pandas.git
cd pandas
python setup.py install
python setup.py install --prefix=/path/to/install ## --prefix指定安装路径

### 1.3 使用anacoda安装

In [None]:
1. 下载安装anacoda
2. conda install pandas

### 1.4 导入pandas包，查看版本

In [1]:
import pandas
pandas.__version__ ## 查看版本

'1.1.5'

In [1]:
import pandas as pd
pd.__version__ ## 查看版本

'1.1.5'

In [None]:
dir(pd) ## 获取模块的属性和方法

In [None]:
help(pd)
?pd
??pd

## 2.数据结构

### 2.1 Series  
类似一维数组的对象，一行或一列，由一组数据（不同数据类型）以及一组与之相关的数据标签（即索引）组成 

In [None]:
t = [1,2,3]
tt = pd.Series(t)
print(tt)

In [None]:
a = {1 : "cat",2: "dog",3:"pig"}
aa = pd.Series(a, index = [1,2],name="animals")
aa

### 2.2 Pandas
二维数据，表格型数据结构，多行多列  
每列可以是不同的值类型（数值、字符串、布尔值）  
既有行索引index，也有列索引columns  
可以看做是由series组成的字典  

In [None]:
## dataframe的创建格式
pd.DataFrame(data,index,columns,dtype,copy)

In [None]:
pandas.DataFrame( data, index, columns, dtype, copy)

In [None]:
data = {"a":['x','y','z'],"b":[4,5,6]}
df = pd.DataFrame(data)
df

In [None]:
# 使用loc属性返回指定行的数据，默认第一行索引是0
df.loc[0]

In [None]:
# 使用 [[ ... ]] 格式返回多行数据，... 为各行的索引，以逗号隔开：
df.loc[[0,1]]

## 3. 数据读写

In [1]:
import pandas as pd

In [24]:
movies = pd.read_csv("./pd_data/movies.csv",index_col=0,header=0,names=["名称","类型"])

In [None]:
movies = pd.read_csv("./pd_data/movies.csv",index_col=0,header=0,names=["名称","类型"])
movies.head(2)

In [None]:
students = pd.read_excel("./pd_data/student_excel.xlsx",header=0)
students.head(2)

In [35]:
movies.to_csv("./pd_data/movies_re.xls",index=1,header=0,sep="\t")
保存列名；
不保存行名；
指定输出分隔符

## 4 数据分析

### 4.1 创建数据

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
  "date":pd.date_range('20130102', periods=6),
  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
  "age":[23,44,54,32,34,32],
  "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =['id','date','city','category','age','price'])

In [29]:
len(df['age'].unique())

5

### 4.2 数据查询

主要用到的三个函数：loc,iloc和ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。 

In [None]:
## 1.切片操作
df['city'] ## 选择指定标签列
df[0:3] ## 选择指定行
# loc按索引标签值筛选
df.loc[:,['city','age']] ## 提取多列
df.loc[2] ## 按照索引，提取单行
df.loc[2,'city'] ## 具体某个位置的值
# iloc根据位置筛选
df.iloc[2:4] ## 按照索引，提取单行或者区域行
df.iloc[2:4,1:2] ## 按照索引，提取行列
df.iloc[:3,1:2] ## 前3行
df.iloc[[1,2],[2,4]]
df.iat[1, 3] ## 快速定位
# ix 按照索引标签和位置混合提取数据
df.ix[:'1003',:3]

使用df.loc查询数据的方法

1. 使用单个label值查询数据
2. 使用值列表批量查询
3. 使用数值区间进行范围查询
4. 使用条件表达式查询
5. 调用函数查询

In [4]:
df.set_index('date', inplace=True)

In [26]:
# 1. 使用单个label查询
df.loc['2013-01-02','id']
# 2. 使用值列表查询
df.loc[['2013-01-02', '2013-01-03'],:]
# 3. 使用数值区间进行范围查询
df.loc['2013-01-02':'2013-01-04','city':'price']
# 4. 使用条件表达式查询
df.loc[(df["age"]>30) & ((df.city=="shanghai") | (df.city=="Shenzhen")),:]
# 5. 使用函数查询
def query_data(df):
    return df.city.str.startswith("B") & (df["age"]>=30)   
df.loc[query_data, :]

Unnamed: 0_level_0,id,city,category,age,price
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013-01-07,1006,BEIJING,130-F,32,4432.0


### 数据表格信息查看

In [None]:
df.info()  ## 数据表基本信息查看（维度、列名称、数据格式、所占空间等）
df.shape  ## 维度查看
df.values() ## 查看数据表的值
df.columns ## 查看列名称
df.index ## 查看索引
df.head() # 默认前10行数据
df.tail(5)    # 默认后10 行数据
df.describe() # 数据的快速统计汇总
df.dtypes  ## 每一列数据的格式
df['B'].dtype ## 指定列的数据格式
df.isnull()  ## 查看空值,返回True、False
df['B'].isnull()  ## 指定列是否空值
df['B'].unique() ## 查看某一列的唯一值
df.T # 转置数据
df.sort_index(axis=1, ascending=False) # 排序，默认按照行index升序排序，axis=1,ascending=False表示按列index，降序排序
df.sort_values(by="B") # 按照value值排序

### 数据表清洗

In [None]:
df.fillna(value=0) ## 用数字0填充空值：
df['A'].fillna(df['A'].mean()) ## 使用列prince的均值对NA进行填充：
df['B']=df['B'].map(str.strip) ## 清除city字段的字符空格：
df['B']=df['B'].str.lower() ## 大小写转换：
df['A'].astype('int')       ## 更改数据格式：
df.rename(columns={'category': 'category-size'})  ## 更改列名称：
df['A'].drop_duplicates() ## 删除后出现的重复值：
df['A'].drop_duplicates(keep='last') ## 删除先出现的重复值：
df['A'].replace('sh', 'shanghai') ## 数据替换：
df.set_index(['c'], inplace=True) ## set_index()的drop参数默认为True,如下即默认将普通列c列置为索引列后,将原先的普通列c列删除.

### 数据筛选及处理

In [54]:
df[df['age']>23] ## 按照特定列的值筛选
df[(df['age']>23) & (df['city']=='SH')] ## 多条件筛选
df1 = df.set_index(['id']) ## 将id列设置为index
df1.dropna(how='any') ## 删掉包含空值的所有行
df1.fillna(value=1000) ## 将na设置成固定值
df1['group']=np.where(df1['price']>1500,'high','low') ## 分组标记
df1.loc[(df1['city']=='Shenzhen') & (df1['price']>=150),'sign']='yes' ## 对复合多个条件的数据分组标记
df1['city'].isin(['Shenzhen']) ## isin判断，返回索引
df1.loc[df1['city'].isin(['Shenzhen','shanghai'])]

city
 guangzhou     0
BEIJING        0
Beijing        0
SH             0
Shenzhen       1
shanghai       0
Name: sign, dtype: int64

### 数据统计

In [60]:
df1.groupby('city')['sign'].count()  ## 分组统计
df1['price'].std() ## 计算标准差
df1['price'].cov(df1['age']) ## 两列的协方差
df1['price'].corr(df1['age'])  ## 两列的相关性分析

-0.08689525836897034

### 合并表格

concat、merge、join

In [None]:
## concat可以将数据根据不同的轴作简单的融合
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
       keys=None, levels=None, names=None, verify_integrity=False)

objs: series，dataframe或者是panel构成的序列lsit  
axis： 需要合并链接的轴，0是行，1是列  
join：连接的方式 inner，或者outer  

In [None]:
## 增加数据来源列
pd.concat([df1,df2,df3], keys=['x', 'y', 'z'])

In [None]:
# 传入字典增加分组
pieces = {'x': df1, 'y': df2, 'z': df3}
pd.concat(pieces)

In [None]:
## 指定合并方式，inner交集、outer并集
pd.concat([df1, df4], axis=1, join='inner')

In [64]:
## 插入新行，或者合并两矩阵可以使用append
pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
df1.append(s2, ignore_index=True)

dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},
         {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
df1.append(dicts, ignore_index=True)

A    X0
B    X1
C    X2
D    X3
dtype: object

In [None]:
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, 
         left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), 
         copy=True, indicator=False, validate=None)
pd.merge(df1, df2)
#left和right：两个不同的DataFrame或Series
#how：连接方式，有inner、left、right、outer，默认为inner
#on：用于连接的列索引名称，必须同时存在于左、右两个DataFrame中，默认是以两个DataFrame列名的交集作为连接键，
#若要实现多键连接，‘on’参数后传入多键列表即可
#left_on：左侧DataFrame中用于连接键的列名，这个参数在左右列名不同但代表的含义相同时非常有用；
#right_on：右侧DataFrame中用于连接键的列名
#left_index：使用左侧DataFrame中的行索引作为连接键（ 但是这种情况下最好用JOIN）
#right_index：使用右侧DataFrame中的行索引作为连接键（ 但是这种情况下最好用JOIN）
#sort：默认为False，将合并的数据进行排序，设置为False可以提高性能
#suffixes：字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称，默认为(’_x’, ‘_y’)
#copy：默认为True，总是将数据复制到数据结构中，设置为False可以提高性能
#indicator：显示合并数据中数据的来源情况

In [None]:
DataFrame.join(other, on=None, how='left', lsuffix=' ', rsuffix=' ', sort=False)
df1.join(df2)
#参数的意义与merge方法基本相同，只是join方法默认为左外连接how=’left’

### 文件读写

In [None]:
pd.read_csv('girl.csv', delim_whitespace=True, names=["编号", "姓名", "地址", "日期"], header=0)

In [None]:
df.tp_csv('result.csv',sep='\t',header=0,index=0,na_rep='NA',float_format='%.2f')
# 不保存列名，索引；NA填充空值；保留2位小数