# pandas简介

In [2]:
import pandas as pd
import numpy as np

### pandas库的series类型

In [3]:
s = pd.Series([1,2,3,np.nan,6,8])     #一堆Series可以用一堆列表初始化
print(s)

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [4]:
y = pd.Series([1,2,3,np.nan,6,8],index=['a','b','c','d','e','f'])     #一堆Series可以用一堆列表初始化,指定索引
print(y)

a    1.0
b    2.0
c    3.0
d    NaN
e    6.0
f    8.0
dtype: float64


In [5]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
s.values   #查看值

array([ 1.,  2.,  3., nan,  6.,  8.])

In [21]:
s[0]    #查看元素

1.0

In [22]:
s[3]

nan

In [23]:
s[2:5]  #切片

c    3.0
d    NaN
e    6.0
dtype: float64

In [26]:
s[::2]  #切片

a    1.0
c    3.0
e    6.0
dtype: float64

In [29]:
s.index.name='索引' #修改索引名称

In [28]:
s

索引
a    1.0
b    2.0
c    3.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [32]:
s.index = list('abcdef')  #修改索引

In [31]:
s

a    1.0
b    2.0
c    3.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [34]:
s["a":"c"]   #不是左闭右开的类型

a    1.0
b    2.0
c    3.0
dtype: float64

## Dandas的DataFrame类型

#### DataFrame是一个二维数组类型。这里首先构造一个时间序列，作为我们第一维的下标

In [46]:
data = pd.date_range('20190301',periods=6)       
print(data)

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')


### 构造一个DataFrame结构

In [51]:
df = pd.DataFrame(np.random.randn(6,4),index=data,columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2019-03-01,0.070961,-0.2959,0.021083,-1.304517
2019-03-02,-1.07187,0.318855,0.359341,0.078585
2019-03-03,1.547017,-1.532581,-0.414117,0.253695
2019-03-04,0.571692,-0.023488,1.073027,-1.141204
2019-03-05,-0.288762,-0.496885,-0.463458,-0.432976
2019-03-06,-0.660948,-2.088085,-0.134859,-1.532502


### 出了向DataFrame中传入二维数组外，我们还可以使用字典传入数据

In [7]:
df2 = pd.DataFrame({"A":1.2,"B":pd.Timestamp('20180101'),"C":pd.Series(1,index=list(range(4)),dtype=float),"D":np.array([3]*4,dtype=int),"E":pd.Categoric al(['text','train','text','train']),"F":'abc'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.2,2018-01-01,1.0,3,text,abc
1,1.2,2018-01-01,1.0,3,train,abc
2,1.2,2018-01-01,1.0,3,text,abc
3,1.2,2018-01-01,1.0,3,train,abc


###  dataframe 中要求每一列都要使用相同的特征数值，不同列可以不一样，字典的key代表每一列，value是可以转换为series的对象

### 查看数据

In [63]:
df.head()   #不写数据查看的是前边的五行

Unnamed: 0,A,B,C,D
2019-03-01,0.070961,-0.2959,0.021083,-1.304517
2019-03-02,-1.07187,0.318855,0.359341,0.078585
2019-03-03,1.547017,-1.532581,-0.414117,0.253695
2019-03-04,0.571692,-0.023488,1.073027,-1.141204
2019-03-05,-0.288762,-0.496885,-0.463458,-0.432976


In [65]:
df.tail()    #查看后五行

Unnamed: 0,A,B,C,D
2019-03-02,-1.07187,0.318855,0.359341,0.078585
2019-03-03,1.547017,-1.532581,-0.414117,0.253695
2019-03-04,0.571692,-0.023488,1.073027,-1.141204
2019-03-05,-0.288762,-0.496885,-0.463458,-0.432976
2019-03-06,-0.660948,-2.088085,-0.134859,-1.532502


In [67]:
df.dtypes   #查看每一列的数据类型

A    float64
B    float64
C    float64
D    float64
dtype: object

## 下标，列标，索引

In [68]:
df.index   #查看索引

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',
               '2019-03-05', '2019-03-06'],
              dtype='datetime64[ns]', freq='D')

In [69]:
df.columns  #查看行

Index(['A', 'B', 'C', 'D'], dtype='object')

In [71]:
df.values  #查看数值

array([[ 0.07096141, -0.29589985,  0.02108328, -1.30451679],
       [-1.07187032,  0.31885518,  0.3593414 ,  0.07858514],
       [ 1.54701721, -1.53258114, -0.41411691,  0.25369512],
       [ 0.57169183, -0.02348821,  1.07302719, -1.14120447],
       [-0.28876234, -0.49688509, -0.46345817, -0.43297618],
       [-0.66094789, -2.08808508, -0.13485919, -1.53250226]])

## pandas读取数据以及数据操作

In [6]:
df3 = pd.read_csv('community_describe.csv',encoding='ANSI')   #读入文件
df3.head()

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo
0,0,宝星华庭一层带花园，客厅挑高，通透四居室。房主自荐,宝星国际三期,底层(共22层)2010年建板塔结合,4室1厅,298.79平米,底层(共22层)2010年建板塔结合,距离15号线望京东站680米房本满五年,2598,86951,53人关注 / 共44次带看 / 一年前发布
1,1,三面采光全明南北朝向 正对小区绿地花园,顶秀青溪,中楼层(共11层)2008年建板塔结合,3室2厅,154.62平米,中楼层(共11层)2008年建板塔结合,距离5号线立水桥站1170米房本满两年随时看房,1000,64675,323人关注 / 共579次带看 / 一年前发布
2,2,沁园公寓 三居室 距离苏州街地铁站383米,沁园公寓,低楼层(共24层)1999年建塔楼,3室2厅,177.36平米,低楼层(共24层)1999年建塔楼,距离10号线苏州街站383米房本满五年,1200,67659,185人关注 / 共108次带看 / 一年前发布
3,3,金星园东南向户型，四居室设计，中间楼层,金星园,中楼层(共28层)2007年建塔楼,4室2厅,245.52平米,中楼层(共28层)2007年建塔楼,距离机场线三元桥站1153米房本满五年,1650,67205,157人关注 / 共35次带看 / 一年前发布
4,4,龙湾别墅 一期独栋 满五年 带下沉式庭院，精装,龙湾别墅,地下室(共3层)2006年建,3室3厅,351.48平米,地下室(共3层)2006年建,房本满五年,2400,68283,120人关注 / 共42次带看 / 一年前发布


In [17]:
df3.tail()

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo,序号,fellowInfo
16105,16105,橡树湾 车位 86万新上,橡树湾,板塔结合,车位,31.55平米,板塔结合,房本满两年,86,27259,0人关注 / 共0次带看 / 刚刚发布,16106.0,
16106,16106,志强南园 2室2厅 600万新上,志强南园,中楼层(共16层)1992年建塔楼,2室2厅,63.1平米,中楼层(共16层)1992年建塔楼,距离2号线积水潭站880米房本满五年,600,95088,0人关注 / 共0次带看 / 刚刚发布,16107.0,
16107,16107,海淀知本时代 板楼2居 东西 诚心出售新上,知本时代,低楼层(共6层)2004年建板楼,2室1厅,91.66平米,低楼层(共6层)2004年建板楼,距离8号线霍营站1085米房本满两年,575,62732,1人关注 / 共0次带看 / 刚刚发布,16108.0,
16018,16108,增加的,hahha,hahah2010,392ping,hahah,haha,huhu,fsdf,123445,,,fdsa
16018,16108,增加的,hahha,hahah2010,392ping,hahah,haha,huhu,fsdf,123445,,,fdsa


In [32]:
df3.iloc[1]   #查看第2行

id                                   1
title              三面采光全明南北朝向 正对小区绿地花园
community                         顶秀青溪
years              中楼层(共11层)2008年建板塔结合
housetype                         3室2厅
square                        154.62平米
floor              中楼层(共11层)2008年建板塔结合
taxtype        距离5号线立水桥站1170米房本满两年随时看房
totalPrice                        1000
unitPrice                        64675
followInfo    323人关注 / 共579次带看 / 一年前发布
序号                                   2
fellowInfo                         NaN
Name: 1, dtype: object

In [33]:
df3.iloc[:5]  #左闭右开

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo,序号,fellowInfo
0,0,宝星华庭一层带花园，客厅挑高，通透四居室。房主自荐,宝星国际三期,底层(共22层)2010年建板塔结合,4室1厅,298.79平米,底层(共22层)2010年建板塔结合,距离15号线望京东站680米房本满五年,2598,86951,53人关注 / 共44次带看 / 一年前发布,1,
1,1,三面采光全明南北朝向 正对小区绿地花园,顶秀青溪,中楼层(共11层)2008年建板塔结合,3室2厅,154.62平米,中楼层(共11层)2008年建板塔结合,距离5号线立水桥站1170米房本满两年随时看房,1000,64675,323人关注 / 共579次带看 / 一年前发布,2,
2,2,沁园公寓 三居室 距离苏州街地铁站383米,沁园公寓,低楼层(共24层)1999年建塔楼,3室2厅,177.36平米,低楼层(共24层)1999年建塔楼,距离10号线苏州街站383米房本满五年,1200,67659,185人关注 / 共108次带看 / 一年前发布,3,
3,3,金星园东南向户型，四居室设计，中间楼层,金星园,中楼层(共28层)2007年建塔楼,4室2厅,245.52平米,中楼层(共28层)2007年建塔楼,距离机场线三元桥站1153米房本满五年,1650,67205,157人关注 / 共35次带看 / 一年前发布,4,
4,4,龙湾别墅 一期独栋 满五年 带下沉式庭院，精装,龙湾别墅,地下室(共3层)2006年建,3室3厅,351.48平米,地下室(共3层)2006年建,房本满五年,2400,68283,120人关注 / 共42次带看 / 一年前发布,5,


In [36]:
df3.loc[:5]  #左右闭合的

TypeError: cannot do slice indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [5] of <class 'int'>

### 添加一行

In [22]:
dic = {'id':16108,"title":'增加的',"community":'hahha',"years":'hahah2010',"housetype":'392ping',"square":'hahah',"floor":'haha',"taxtype":"huhu","totalPrice":'fsdf',"unitPrice":"123445","fellowInfo":"fdsa"}
s = pd.Series(dic)
s.name = '16018'  #指定最后一行的行号

In [23]:
df3 = df3.append(s) 

In [24]:
df3.tail(1)  #查看添加的数据

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo,序号,fellowInfo
16018,16108,增加的,hahha,hahah2010,392ping,hahah,haha,huhu,fsdf,123445,,,fdsa


### 删除一行

In [104]:
#使用方法是 df3 =df3.drop([行号])

### 列操作

In [25]:
df3.columns

Index(['id', 'title', 'community', 'years', 'housetype', 'square', 'floor',
       'taxtype', 'totalPrice', 'unitPrice', 'followInfo', '序号', 'fellowInfo'],
      dtype='object')

In [10]:
df3['id']  #查看一列

0            0
1            1
2            2
3            3
4            4
5            5
6            6
7            7
8            8
9            9
10          10
11          11
12          12
13          13
14          14
15          15
16          16
17          17
18          18
19          19
20          20
21          21
22          22
23          23
24          24
25          25
26          26
27          27
28          28
29          29
         ...  
16078    16078
16079    16079
16080    16080
16081    16081
16082    16082
16083    16083
16084    16084
16085    16085
16086    16086
16087    16087
16088    16088
16089    16089
16090    16090
16091    16091
16092    16092
16093    16093
16094    16094
16095    16095
16096    16096
16097    16097
16098    16098
16099    16099
16100    16100
16101    16101
16102    16102
16103    16103
16104    16104
16105    16105
16106    16106
16107    16107
Name: id, Length: 16108, dtype: int64

In [26]:
df3[['id','title']]   #查看多列

Unnamed: 0,id,title
0,0,宝星华庭一层带花园，客厅挑高，通透四居室。房主自荐
1,1,三面采光全明南北朝向 正对小区绿地花园
2,2,沁园公寓 三居室 距离苏州街地铁站383米
3,3,金星园东南向户型，四居室设计，中间楼层
4,4,龙湾别墅 一期独栋 满五年 带下沉式庭院，精装
5,5,长椿街★满五年★距离地铁259米
6,6,独栋别墅，小区花园好，四环内位置好
7,7,御园平层 两卧客厅朝南 精装修 采光好 送车库房主自荐
8,8,华尔街观典 观湖大宅 南北通透 看房有钥匙房主自荐
9,9,怡升园 4室2厅 1950万房主自荐


### 增加一列

In [45]:
df3['序号'] = range(1,len(df3)+1)   #增加一列
df3[:5]

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo,fellowInfo,序号
0,0,宝星华庭一层带花园，客厅挑高，通透四居室。房主自荐,宝星国际三期,底层(共22层)2010年建板塔结合,4室1厅,298.79平米,底层(共22层)2010年建板塔结合,距离15号线望京东站680米房本满五年,2598,86951,53人关注 / 共44次带看 / 一年前发布,,1
1,1,三面采光全明南北朝向 正对小区绿地花园,顶秀青溪,中楼层(共11层)2008年建板塔结合,3室2厅,154.62平米,中楼层(共11层)2008年建板塔结合,距离5号线立水桥站1170米房本满两年随时看房,1000,64675,323人关注 / 共579次带看 / 一年前发布,,2
2,2,沁园公寓 三居室 距离苏州街地铁站383米,沁园公寓,低楼层(共24层)1999年建塔楼,3室2厅,177.36平米,低楼层(共24层)1999年建塔楼,距离10号线苏州街站383米房本满五年,1200,67659,185人关注 / 共108次带看 / 一年前发布,,3
3,3,金星园东南向户型，四居室设计，中间楼层,金星园,中楼层(共28层)2007年建塔楼,4室2厅,245.52平米,中楼层(共28层)2007年建塔楼,距离机场线三元桥站1153米房本满五年,1650,67205,157人关注 / 共35次带看 / 一年前发布,,4
4,4,龙湾别墅 一期独栋 满五年 带下沉式庭院，精装,龙湾别墅,地下室(共3层)2006年建,3室3厅,351.48平米,地下室(共3层)2006年建,房本满五年,2400,68283,120人关注 / 共42次带看 / 一年前发布,,5


### 想要删除一列

In [46]:
df3 = df3.drop('序号',axis=1)  #axis=1 指的是我们要删除的列

In [47]:
df3[:5]

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo,fellowInfo
0,0,宝星华庭一层带花园，客厅挑高，通透四居室。房主自荐,宝星国际三期,底层(共22层)2010年建板塔结合,4室1厅,298.79平米,底层(共22层)2010年建板塔结合,距离15号线望京东站680米房本满五年,2598,86951,53人关注 / 共44次带看 / 一年前发布,
1,1,三面采光全明南北朝向 正对小区绿地花园,顶秀青溪,中楼层(共11层)2008年建板塔结合,3室2厅,154.62平米,中楼层(共11层)2008年建板塔结合,距离5号线立水桥站1170米房本满两年随时看房,1000,64675,323人关注 / 共579次带看 / 一年前发布,
2,2,沁园公寓 三居室 距离苏州街地铁站383米,沁园公寓,低楼层(共24层)1999年建塔楼,3室2厅,177.36平米,低楼层(共24层)1999年建塔楼,距离10号线苏州街站383米房本满五年,1200,67659,185人关注 / 共108次带看 / 一年前发布,
3,3,金星园东南向户型，四居室设计，中间楼层,金星园,中楼层(共28层)2007年建塔楼,4室2厅,245.52平米,中楼层(共28层)2007年建塔楼,距离机场线三元桥站1153米房本满五年,1650,67205,157人关注 / 共35次带看 / 一年前发布,
4,4,龙湾别墅 一期独栋 满五年 带下沉式庭院，精装,龙湾别墅,地下室(共3层)2006年建,3室3厅,351.48平米,地下室(共3层)2006年建,房本满五年,2400,68283,120人关注 / 共42次带看 / 一年前发布,


### 通过标签对数据进行选择

In [49]:
df3.loc[0,'title']

'宝星华庭一层带花园，客厅挑高，通透四居室。房主自荐'

In [50]:
df3.loc[[1,2,3,7,9],['title','floor']]

Unnamed: 0,title,floor
1,三面采光全明南北朝向 正对小区绿地花园,中楼层(共11层)2008年建板塔结合
2,沁园公寓 三居室 距离苏州街地铁站383米,低楼层(共24层)1999年建塔楼
3,金星园东南向户型，四居室设计，中间楼层,中楼层(共28层)2007年建塔楼
7,御园平层 两卧客厅朝南 精装修 采光好 送车库房主自荐,低楼层(共3层)2008年建
9,怡升园 4室2厅 1950万房主自荐,中楼层(共14层)2000年建板塔结合


### 条件选择

In [54]:
#选取所有的三室二厅的房源
df3[df3['housetype']=='3室2厅'][:5] #选取所有的三室两厅的房源

Unnamed: 0,id,title,community,years,housetype,square,floor,taxtype,totalPrice,unitPrice,followInfo,fellowInfo
1,1,三面采光全明南北朝向 正对小区绿地花园,顶秀青溪,中楼层(共11层)2008年建板塔结合,3室2厅,154.62平米,中楼层(共11层)2008年建板塔结合,距离5号线立水桥站1170米房本满两年随时看房,1000,64675,323人关注 / 共579次带看 / 一年前发布,
2,2,沁园公寓 三居室 距离苏州街地铁站383米,沁园公寓,低楼层(共24层)1999年建塔楼,3室2厅,177.36平米,低楼层(共24层)1999年建塔楼,距离10号线苏州街站383米房本满五年,1200,67659,185人关注 / 共108次带看 / 一年前发布,
22,22,二环边 30平客厅 三居 2002年楼龄,瑞福楼,低楼层(共14层)2002年建板塔结合,3室2厅,163.88平米,低楼层(共14层)2002年建板塔结合,房本满五年,1050,64072,309人关注 / 共61次带看 / 一年前发布,
25,25,融科 单价蕞低三居，可看，稳定可签约！,融科橄榄城一期,低楼层(共28层)2006年建板楼,3室2厅,144.99平米,低楼层(共28层)2006年建板楼,距离15号线望京东站489米,1400,96559,141人关注 / 共7次带看 / 一年前发布,
32,32,濠景阁 复式 观景好房 业主诚意出售房主自荐,濠景阁,高楼层(共23层)2000年建板塔结合,3室2厅,330.21平米,高楼层(共23层)2000年建板塔结合,房本满五年,1850,56025,92人关注 / 共31次带看 / 一年前发布,


In [66]:
#df3[(df3.unitPrice>50000)&(df3.housetype=='3室2厅')]  #选取房型为三室两厅并且房屋的均价在大于五万以上

In [67]:
#df3[((df3.housetype=='3室2厅')|(df3.taxtype='房本满五年'))&(df3.totalPrice>1200)]  查看户型为3室2厅或者税型为房本满五年，总价超过1200万的